OpenAI、15秒の音声サンプルを元にリアルな音声を生成するAIモデル「Voice Engine」の開発を発表 ―音声生成にまつわる危険性にも言及

OpenAIは2024年3月29日、15秒の音声サンプルを使用して、サンプル元の話者によく似た自然な音声を生成する生成AIモデル「Voice Engine」を開発していることを発表した。

Navigating the Challenges and Opportunities of Synthetic Voices -OpenAI Blog

We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ
— OpenAI (@OpenAI) March 29, 2024

同社によると、Voice Engineは2022年後半に初めて開発され、これによってテキスト読み上げAPIやChatGPT Voice、Read Aloudで利用可能なプリセット音声を強化してきたとのこと。2023年末から信頼できるパートナーの小さなグループと非公開でテストを開始、いくつかのアプリケーションが生まれているという。同社のリリースでは音声サンプルと共に複数の実例が紹介されている。

たとえば、教育テクノロジー企業であるAge of Learningではサンプル音声を使ってさまざまな教科のナレーションコンテンツを作成したり、Voice EngineとGPT-4を組み合わせて生徒の質問にリアルタイムに答える取り組みを行っている。

また、動画生成AIを提供するHeyGenではビデオ翻訳にVoice Engineを使用して、話者の声と同じ声で、日本語や中国語を含む複数の言語に翻訳された音声を生成するカスタムアバターの動画を作成している。この際、元の話者のネイティブのアクセントを保持する機能も持つ。たとえばフランス語話者の音声サンプルを使用して英語を生成すると、フランス語のアクセントの音声が生成されるという。

このほか、会話に影響のある疾患をもつ人や、突発的に言語障害が発生した人をサポートするアプリケーションなどもパートナー企業と開発中とのこと。

一方、Voice Engineのような人の音声を生成する技術は、なりすましやフェイク動画などに悪用されることも考慮されることから、米国および国際的なパートナーと連携し、構築にあたりフィードバックを得ながら開発を進めたり、著名な人物に類似した音声の作成を検出して防止する禁止音声リストを作成するなどの対策を取ることも表明している。

このような懸念から、現時点ではVoice Engineをプレビューとして公開するだけで、広くリリースはしない。今回可能性を見せることで、こうした課題に対する社会の回復力の強化を促進させるため、将来的には以下のような状況が進むのを期待しているとのこと。

銀行口座やその他の機密情報にアクセスするための音声ベース認証の段階的廃止
AIにおける個人の声の使用を保護するポリシーの検討
詐欺的なAIコンテンツの可能性など、AIの機能と限界についての一般教育を促進させる
オーディオビジュアルコンテンツの出所を追跡する技術の開発と導入を加速し、本物の人間と対話しているのかAIと対話しているのかを常に明確にさせる