OepnAIは2023年9月25日、同社の対話型生成AI
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://
— OpenAI (@OpenAI) September 25, 2023t. pic.co/ uNZjgbR5Bm twitter. com/ paG0hMshXb
音声会話と画像認識機能は、有償のChatGPT PlusおよびEnterpriseのユーザーに提供されるもので、音声はiOSとAndroid
音声機能では新しいテキスト読み上げモデルを採用し、テキストと数秒のサンプル音声だけから人間のような音声が生成される。また、オープンソースの音声認識システムであるWhisperを使用して音声をテキストに変換する。
また画像は、キャプチャした画像を選択することで入力される。複数の画像について対話したり、描画ツールを使用して補助的に説明を入れることも可能。画像の認識はマルチモーダルGPT-3.