優しいUI~ボイスユーザインターフェースで変わるコト

第1回 スマートスピーカーを支える技術

この記事を読むのに必要な時間:およそ 1.5 分

Amazon Echoシリーズ,Google Homeシリーズの国内展開が昨年から始まりました。これらは,スマートスピーカーと呼ばれ,ウェイクワードと呼ばれる起動コマンドを発話したあと,命令コマンドを発話して調べ物をしたり対応家電を操作します。

Google Home

Google Home

Amazon Echo

Amazon Echo

ひと昔前のSF映画を彷彿させるシーンが,家庭で日常的に行われるように,古くから音声に関わり苦労して実用化に取り組んできた関係者は涙目の方も多いはずです。

スマートスピーカーを支える技術

これらは,スマート⁠スピーカー⁠と呼ばれますが,ハードウェアとしての要はスピーカーではなく,内部に搭載されている「マイクロフォンアレイ」と呼ばれる複数個のマイクを用いた仕組みが要となります。

たとえば,Amazon Echoは7個のマイクを搭載していると言われており,これでどの方向から発話されているかを認識して,生活音がある環境下でもノイズキャンセルやエコーキャンセルを行い,必要な音を正確に聞き取る工夫がされています。Amazon Echoは,マイクの特性を活かして発話した方向のLEDが光る凝った造りになっています。

余談ですがAmazonは,Alexaを搭載したスマートスピーカーを開発するサードベンダに対して,音響技術や音声信号処理技術に関わる情報を提供しており,Alexa対応製品の開発を促進する動きをしています。

Alexa Amazon開発者フォーラム
https://developer.amazon.com/ja/alexa

手元のスピーカーは,こうした技術で構成されていますが,この先の仕組みはクラウドに存在しており,発話内容を理解してテキストにする「音声認識」やテキストを音声に変換する「音声合成」と言った音声関連の技術と,音声認識の結果から実行コマンドを解釈するための「形態素解析」といった自然言語処理技術が使われています。Echoであれば,主要な処理はクラウドで行われており,手元のスピーカーは入出力が主な役割です。

スマートスピーカーの対話システムである音声アシスタントは,これらの技術をベースに実現されています。これの一面だけ切り取り「AIスピーカー」と呼ぶことがありますが,現状は決まった言葉に対して応答するだけで,知性を持たないのでおこがましい呼び名とも言えます。とは言え,はじめは返答ができなかった問いかけが,時間と共に返答できるようになる振る舞いを見て,なんらかの知性を感じてしまうのは仕方ないかもしれません。

クラウド以前ってどうだった?

昔話になりますが,クラウドが使えないころはデータを集めるのも苦労しました。仮に大量のデータが集められたとしても,今のようにデータの中から特徴量を把握したのち,データとして使う考え方がなかったために,膨大な人手と時間をかけて整備を行っていました。

筆者もデータ整備を手伝った経験があります。その当時は,コンピュータの性能が低かったために,データの画面表示に時間がかかったので,紙に印刷して一時処理を行い,この結果をコンピュータで入力し直す流れで整備をしていました。今では考えられず大変な作業でしたが,今となっては良い思い出です。

定石が通用しないユーザインターフェース

人とコンピュータの接点は,キャラクタ表示のディスプレイとキーボードを使う,キャラクタユーザインターフェース(CUI)と,グラフィック表示可能なディスプレイとマウス・キーボードを使う,グラフィカルユーザインターフェース(GUI)でしたが,これに音声で操作する「ボイスユーザインターフェース(VUI)⁠が加わりました。

間違えが発生するもの

音声を使うインターフェースでは,キーボードとディスプレイに相当するのが,音声認識と音声合成です。通常であれば,どちらも誤動作はありませんが,音声認識は認識間違い,音声合成は読み上げ間違いがあり完璧に動作しません。これまでに照らし合わせると,違った文字が入力されるキーボードや指定した色とは違う色が表示されるディスプレイがありえる状態です。

VUIを使うアプリを開発するときはこうした間違えも想定して,ユーザが納得しやすい結果を返したり,人の対応能力の高さを逆手に取り正しい答えが推測できる流れや場づくりをする工夫をします。

時間軸に沿って情報が伝わる

また,実時間に沿って入出力が行われるのも,これまでのそれとは違います。

たとえば,すべてを提示して,あとはユーザに委ねると言った伝え方は音声では使えません。音声では情報量の分だけ伝えるのに時間がかかり,長いと受ける側の集中力が続かずに内容が伝わりません。よって,内容短的に要点にしてわかりやすくするだけではなく,話す速度や間など長時間でも聴いていられるテンポも重要な要素です。面倒なようにも感じますが,現実世界に照らし合わせうると人への伝え方や話し方と同じです。

まとめ

UI/UXに関わるエンジニアであれば,VUIは多くの余地と新たな可能性を持つ選択肢で,さまざまな挑戦ができると感じていただけたと思います。その分,今までとは異なる考えを持って取り組む必要性があることもご理解していただけたとも思います。

次回では,この異なる部分を掘り下げてご紹介していければと考えています。

著者プロフィール

傍島康雄(そばじまやすお)

5月30日生まれ。

モバイルデバイスが大好物。それで動くアプリの開発に喜びを感じている。スマートフォン前夜のWindows Mobile,PalmOSのアプリに情熱を傾けていたが,最近は停滞気味でコードを書くよりも文章を書く機会が多くなっており,文章を書くのも,プログラミングと同じくらい奥深い作業だと感じている。

ブログ:http://yasuos.com/blog/

コメント

コメントの記入