優しいUI~ボイスユーザインターフェースで変わるコト

第6回今、求められている音声サービスとは

どんな音声サービスが求められているのだろうか?

もう、20年以上前の論文になりますが、筆者は1997年に「おもろい音声サービスって何やろ!? -音声サービスに求められる課題について-」という論文を発表しています。この論文は、以下からダウンロードできるのでお読みいただけます。

当時の音声技術は、今と同じようなレベルではなく、リリースされた製品もあらかじめ想定されたシーンでしか使えず、目を引くための販促品として位置づけが強かったと記憶に残っています。

技術が成熟段階だったこともあり基礎研究が重視されていましたが、ユースケースを設定した研究がされていないと感じた中での論文発表でした。とは言え、20年以上前の内容なので、音声技術を取り巻く状況がどう変化したのか論文中で上げているトピックごとにふり返ってみます。

ちょっと賢い留守電話

留守番電話に用件が録音されず無意味なものになっている点に着目して、発話を促すような留守番電話を考えました。しかし、いまは音声通話が敬遠されるようになり、留守番電話が価値のないものになりつつあります。この理由は実時間拘束される点にあります。

こうした点に着目したのか、Google I/OでGoogleアシスタントを使った電話予約代行「Google Duplex」がデモされました。これは、Googleアシスタントが自身の代わって電話をして、レストラン予約などの仕事を行ってくれるものです。

同じような考え方で相手に電話がつながらなければ、相手側のAIアシスタントが用件を聞いてくれて、急いでいることを伝えれば、本人に一番連絡がつきやすい方法で用件を伝えてくれるようなサービスがあっても良いかもしれません。AIアシスタント同士が手間のかかる調整を行ってくれれば、人はやらなければならないことに集中できます。

ちょいと賢い留守電話と比較すると、Google Duplexは高度な課題を扱っていますが、コミュニケーションの手段として音声は無くせないものと考えている点は共通しています。また、音声は既存技術や既存手段との橋渡しができる方法なので、既存インフラと最新技術を融合させる接着剤に使うのは良いアイデアかもしれません。

TVゲームに活用しよう

必殺技を叫ぶと技が繰り出されて、声の大きさでダメージが変化するようなゲームは知る限り登場しませんでした。しかし、音声合成は美少女の声でプレイヤーの名前を読み上げたり、アナウンサーが馬名を読み上げるのに使われるようになりました。

筆者の印象ですが、映像技術ほど音声技術は、TVゲームで広く使われるようになったとは感じていません。

うなずきマシーン、つぶやきマシーン

考え

たのは単純なもので、適度なタイミングで合いの手を入れる、または、ひたすら何かを言い続けるといったものでした。今あるものにたとえれば、しっぽ型のロボ「Qoobo」が近いかもしれません。これは撫でるとしっぽを振るロボットですが、狙いはうなずきマシーンと同じで、面倒な手続き無しにして自分のアクションに対して応えてくれるものです。

問いかけに対して機械が応えるという体験は、身近なところでは「Siri」「Googleアシスタント⁠⁠、人型では「Pepper」「RoBoHoN」で体験できるようになりました。つぶやきマシーンのように勝手にしゃべり出すことはありませんが、防犯用途としては実現されるかもしれません。たとえば、誰かが家にいるような音の演出をする機器があれば、長期間留守にするときに活用できるはずです。

エンターテイメントを目指そう

先述の論文では、歌う音声合成エンジンについて触れています。今では、ボーカロイドと呼ばれるようになり新たな表現手段まで昇華されました。また、生声もピッチやタイミング補正が行われた、いわゆる「ケロケロボイス」が修正ではなく、エフェクトとして使われるようになりました。

音声合成や加工された声は、不自然なものではなく当然のものになり、この20年で、音声技術は音楽の分野に最も広く、そして、深く普及したと言えるかもしれません。

ルパンは生きている

論文に書いた、モノマネの後で音声変換技術でより本物らしくのアプローチは、今のところあまり見かけませんが、ここ数年で自分の音声で手軽に音声合成ができるようになりました。

たとえば、東芝の「コエステーション」では、アプリに自分の声を録音すれば、これをデータとして音声合成が行われます。面白い試みで音声データベース作成に用いられるATR503文のような文章を読み上げなくても、手軽に音声データベースが構築できるので技術的な壁を1つ越えました。しかし、これを活かす応用方法が20年前と大きく変わらないのは残念です。

声を作るために声を録音をしている様子
声を作るために声を録音をしている様子
データが増えるほど、自分の声に近くなる
データが増えるほど、自分の声に近くなる

GoogleのWaveNetは、少ない収録時間で音声データベースを構築できます。

この成果としてGoogleアシスタントの音声のバリエーションを増やしました。また、ジョン・レジェンドの声も追加されています。これも目新しさはありませんが、有名人を使うあたりはGoogleの資金力だからこそ成せる技です。

こうした技術背景があれば、長寿アニメでも声優交代といったことがなくなる可能性があります。たとえば、過去に収録した音声を使って音声データベースを構築するサイクルを作れば、回を増すごとに声優が登場する機会が少なくなり、音声合成でアフレコをする時代が来るかもしれません。アニメの作画にCGが使われているように、音声合成が使われるのも時間の問題かもしれません。

時勢に合わせた応用方法も考えられる

音声に関わるユーザ環境の変化と言えば、音声合成に耳が慣れたのと機械に話しかけることが滑稽でなくなったことです。こうした時勢を踏まえて音声技術を活かすサービスを考えてみれば、新たな方向性が見出せるかもしれません。

おすすめ記事

記事・ニュース一覧