第3回　「音声」を理解すること・させること

前回は、ボイスユーザインタフェース（VUI）の要素の1つ「音声合成」を取り上げたので、今回は「音声認識」を取り上げます。

音声認識も音声合成と同様に間違いを起こす悩ましい存在です。ただ、認識間違いが発生しづらい状況を作ったり、音声入力が活きる使い方をすることで、デメリットをカバーできるでご紹介します。

間違いが発生しづらい状態にする

スマートスピーカーを使うときは、ウェイクワードを発話してコマンド聞き取り状態にしたあとで実行コマンドを発話します。聞き取り状態で発話されたコマンドは録音されて、のちに認識処理が行われます。たとえば、うまく録音できずにコマンドの前が欠けると、正しいコマンドとして認識できないか間違ったコマンドとして処理されて実行されます。

これは、ユーザが音声認識にとって過不足なく、コマンドが録音できるタイミングで発話してくれないのが原因です。これを回避するには、発話開始のタイミングを効果音でユーザに伝えるだけです。簡単な話です。

こうするとユーザは、効果音の再生を待ってから発話するので、音声認識にとって都合の良いタイミングで毎回コマンドを発話します。また、発話したコマンドの録音をどこで終えたかも効果音で伝えると、コマンドが伝わったと安心して、同じコマンドを繰り返すことがありません。

Amazon Echoに、リクエスト音の開始音と終了音の設定項目があるのは、こうした理由で設けられています。

このように適切なリアクションを返すのは、音声入力だからではありません。

使うのは人なので、これまで得た経験と同じか似ていることを期待します。GUIと同様に、適切なタイミングで適切なリアクションを返すことを心掛けるだけです。こうした配慮の積み重ねがUXの向上にもつながり、結果、音声認識の間違い軽減にもなります。

音声入力が活きる使い方を考える

コンピュータが人並の知性を持てば、音声入力をあらゆるシーンで使ってもストレスを感じないものになりますが、現在の技術レベルでは望めません。よって、音声入力の良さを理解したうえで適切なシーンで使う必要があります。

たとえば、オーディオの音量を変更する場合、GUIでは、マウスを操作してメニューから音量設定画面を呼び出して、スライダーコンポーネントのノブを現在の設定値から段階的に大きく、または、小さくして目的の音量に設定します。これが音声入力になると「音量を50％に変更して」のようなコマンドを発話するだけで済みます。これまで、数ステップ必要だった操作がワンステップで目的が達成できます。

音量調整のような操作で音声入力を使う場合は、設定値を含む短いフレーズのコマンドを発話すれば操作できるので音声入力の特徴が活かせます。現実世界に当てはめると「ちょっと、あれをこうしておいて」といった場面です。コンピュータを操作している中でも注意深く見れば、こうした場面がたくさんあるはずなので、他にも応用できるはずです。逆に、複数フレーズで構成されるコマンドや画面を確認しながら行う操作、たとえば文章入力は、音声入力が活きる場面ではありません。必ず、他に効率の良い方法があります。

バランスが重要

音声入力はコマンドを覚えていないと操作できないので、度が過ぎるとメリットだった部分がデメリットになります。また、これではコマンドを知らないと使えないCUIに逆戻りです。

ほどほどが重要で、音量変更のような設定値を含む短いフレーズのコマンドは、ユーザが置かれている場面ごとに想像しやすいものに限り、これから外れたコマンドは優先度が低いと考えて、対話式のメニューのインタフェースにする方法も考えられます。

技術的には、入力を音声だけに限る方がまとまりが良くなりますが、間違えが発生する入力方法に限られるのは、ユーザが不便な思いをするだけです。別の手段、たとえば、ハードボタンを併用したユーザインタフェースの検討も必要です。これは、音声入力を補助する役割として使うべきで、たとえば、聞き取り開始やコマンドの中止などに使うことが考えられます。

気兼ねなく使えること

人でも聞き間違いをするので、間違えない音声認識を求めるのは無理です。世の中に完璧なものはありません。

使うのは人なので、多少荒っぽくても気兼ねなく使えるUXになるよう心がけるほうが、認識に失敗してもう一度コマンドを発話する時にユーザの負担が減ります。要は、話しやすい環境を作るということです。こうした目線は、道具なしで操作できる音声入力だから言えることだと考えています。