ChatGPTに音声応答、画像認識機能搭載へ

OepnAIは2023年9月25日、同社の対話型生成AI「ChatGPT」に、音声での対話や画像の入力による対話に対応した機能を今後2週間で追加することを発表した。

ChatGPT can now see, hear, and speak -OpenAI

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

音声会話と画像認識機能は、有償のChatGPT PlusおよびEnterpriseのユーザーに提供されるもので、音声はiOSとAndroid（設定でオプトイン）で利用可能になり、画像はすべてのプラットフォームで利用できるようになる。

音声機能では新しいテキスト読み上げモデルを採用し、テキストと数秒のサンプル音声だけから人間のような音声が生成される。また、オープンソースの音声認識システムであるWhisperを使用して音声をテキストに変換する。

また画像は、キャプチャした画像を選択することで入力される。複数の画像について対話したり、描画ツールを使用して補助的に説明を入れることも可能。画像の認識はマルチモーダルGPT-3.5およびGPT-4によって強化されており、これらのモデルは言語推論スキルを写真、スクリーンショット、テキストと画像の両方を含むドキュメントなどの幅広い画像に適用できるという。