第2回　「音声」で伝えるということ

前回は、スマートスピーカーに使われている技術の概要と、ここで使われているボイスユーザインターフェースの概要に触れました。

今回からボイスユーザインターフェースを掘り下げていきますが、スマートスピーカーで使われている音声認識や音声合成に関して、なじみ深い人はそう多くないはずなので、技術的解説ではなく、特性やどう使うべきかを中心に解説していきます。

今回は、ユーザに情報を伝える手段になる「音声合成」を取り上げます。

読み間違えとの付き合い方

スマートスピーカーは、音声合成と呼ばれるテキストを音声に変換する技術を使ってユーザに情報を伝えています。

これは、入力された文章に対して、意味を持つ最小単位に分解する日本語解析を行ったあとで、読み上げるに使う読み付与を行います。これを元に、アクセントやポーズなどを付与する韻律処理が行われ、最後に音声信号処理が行われて声になります。

一般的には「テキスト音声変換」とだけ表現される処理が、いくつもの段階に分かれていることを知らない方も多いかもしれません。

前回、音声合成では読み間違いが発生すると説明しました。短的に言えば、これは読み付与の段階で発生しています。この確認は、やってみないとわからないので厄介ですが、工夫次第で事前に回避できます。

読み間違いの原因は、複数の読み方がある漢字です。たとえば、神戸と表記して「こうべ」と読んだり「かんべ」と読むこともあります。この回避策として「平仮名」で表記する方法が考えられます。これならば読み間違いはありません。

ただし、平仮名では同じ表記でも漢字だと意味が違う言葉があります。たとえば、「⁠橋」と「箸」は、平仮名では「はし」と表記します。平仮名で読み間違いは回避できますが、「⁠橋」と「箸」ではアクセントが違います。橋は「は」が低くて「し」が高く発音して、箸は「は」が高くて「し」が低く発音します。音の高低で意味が変わるので、平仮名で表記すると異なる意味で伝わる可能性があります。平仮名表記で読み間違いは回避できますが、別の意味で伝わる可能性があり完璧とは言えません。

これは筆者の経験ですが、あとで読み付与処理が改善されることも加味して、読み間違えが許されない固有名詞や地名を除いて、平仮名で表記は避けています。少し荒っぽい考えですが、受け側の人は意外にも柔軟に対応できるので、少々の読み間違いであれば前後の文脈で正しい意味で理解します。それほど神経質になる必要はありません。

音で情報を伝えるということ

GUIで扱うメッセージは「書き言葉」が使われています。ボイスユーザインターフェースで扱うメッセージは、音声になるので「話し言葉」を使います。

理由は、聞き慣れて親しんでいる話し言葉を使う方が、聞き漏らしが少なくなるからです。音声では、聞き漏らすと部分的に聞き直すのが面倒なので重要です。ただ、いき過ぎると馴々しい感じに嫌悪感を抱くユーザもいるので、書き言葉を意味のある短いフレーズに区切って使う方法もあります。

意味のある短いフレーズに区切る理由は、人は話している最中に息継ぎをしながら話すからです。これが適当なポーズとリズムを作っていて話す内容が理解しやくなります。音声合成は機械なので、息継ぎの区切りなく読み上げることもできますが、これでは何を話しているのか理解できないので注意が必要です。

また、話す速度や音の大きさも重要です。

ユーザは操作中、早く終わらせたいと考えているので、メッセージを通常よりも早く読み上げることで操作待ちのイライラを軽減できます。ただ、逆もあり、重要情報を伝えるときは少し遅くすることで内容が伝わりやすくなります。また、内容にメリハリを付ける場合は、強調したい部分の音量を大きくする方法もあります。これは、文字に色を付けたり太字にする装飾と、同じようなものと考えればわかりやすいと思います。

音声は時間軸に沿ってしか伝わらず、時間とともに消えて残りません。よって、聞き取りやすさは伝わりやすさに直結するので重要です。また、「⁠話す」と言う慣れ親しんだ人間らしい方法を使うと、ユーザは自分と同じレベルで話すことを期待します。しかし、現状の音声合成は、人が話すようなレベルに到達しておらず、ユーザが期待するレベルとはギャップがあります。開発者は、ユーザの期待と技術レベルを理解したうえで、ストレスを与えない使いこなしをする必要があります。

毎日の会話にもヒントがある

あまり意識することなく使っている言葉ですが、これをうまく制御するポイントはご理解いただけたと思います。ご紹介した方法以外に、日頃の会話の中にUXを向上させるヒントがあるはずなので、相手の理解度を意識しながら会話中していると新たな発見があるかもしれません。