新春特別企画

2018年のスマートスピーカー

この記事を読むのに必要な時間:およそ 7 分

2018年のスマートスピーカーの動向

スマートスピーカーを手にする人々が増えてきた2017年でしたが,今年は本格的にスマートスピーカーが評価され始める年となります。具体的には,以下のような動きがあると予想しています。

アシスタントアプリやスキルが増えてくるのは今年から

既に海外では数万のアシスタントアプリやスキルが公開されていますが,そのどれもが日本語で利用できません。そのため,日本語にて利用可能なアシスタントアプリやスキルの数が増えてくるのは,まさに今年からになります。昨年からすでに日本語での開発が可能になっていますし,開発のための日本語での情報も徐々に増えてきています。多くの開発者が参入してくるものと思われます。

予想されるアシスタントアプリやスキルは,主に以下のようなものが多いと考えられます。

  • 簡単なゲーム:数当てゲームや,言葉遊びなど。
  • 情報提供:質問するとその答えを言ってくれる。

つまり,特に何もデータベースを持っていない開発者は,事前にデータがなくても開発が可能なゲームなどを作って公開することが多いでしょう。一方,既にインターネット上でサービスを展開している企業としては,そのサービスで扱われている情報に対して,ユーザが何か問い合わせをして,その結果をAIアシスタントに言わせる,といったQ&A形式が多く提供されると予想されます。ゲームや情報提供であれば,比較的実装コストも低く,また当たり障りなくリスクが低い状態で公開できるというメリットがあります。

その中でもいくつかの企業は,スマートスピーカーを通じてCS(Customer Support)を提供したり,語学の教育向けの機能を提供するなど,比較的高度なアシスタントアプリやスキルを公開し,多くのユーザが利用することになるでしょう。そのような事例が徐々に増えてくることで,今年の後半から年末にかけて,レベルの高い事例とそのノウハウが共有され,エコシステムがさらに活性化するものと予想しています。

話者認識が進歩する

スマートスピーカーを手にしたユーザは,スマートスピーカーとの会話によって様々なサービスを利用できるようになるだろうと期待しています。例えば,以下のようなことがあげられるでしょう。

  • ユーザの問いかけに対して,そのユーザに最適な答えを返してくれる。
  • AIアシスタントの向こう側にあるサービスに対して,何か依頼を行う。

これらを実現するために,⁠依頼主は誰なのか」を正しく特定する,つまりユーザを認証することが大事になってきます。ユーザ認証ができて初めて,パーソナライズやサービスの高度な利用が実現できるようになります。銀行口座のやり取りや株取引などを見据えた際には,ユーザ認証は必須要件と言えるでしょう。

スマートスピーカーでは,⁠話しかけている人は誰か」というユーザ認証を行うことになります。基本的には,話者認識と呼ばれる技術が鍵となります。つまり,声から個人を特定します。Google Homeは,既にマルチユーザ登録ができるようになっていて,個々のユーザに対して「オッケー,グーグル」というフレーズを言った際の声を学習させることで,⁠誰が話しかけたのか」を識別可能になっています。ただし,その精度はまだ高いとは言えません。例えば,筆者の身近な例であれば,親子それぞれが話しかけた場合に誤認識してしまう,ということが起きています。

確実にユーザ認証を行うために,スマートスピーカーの話者認識だけではなく,他の認証方式との組み合わせなどによって確度を高める工夫などが,今年いくつか実験されることになるでしょう。例えば,以下のようなことが想像できます。

  • 話者認識の精度向上
  • スマートフォンとの組み合わせによる2段階認証
  • 顔認識や虹彩認識といった生体認証(スマートスピーカーにカメラを搭載)

スマートスピーカーにおけるユーザ認証の問題は,実現できる機能の幅を広げる上で,越えるべき壁です。今年はその実験的な年となるでしょう。

VUIが注目される年になる

アシスタントアプリやスキルの開発が進むにつれて,開発者はすぐに大きな問題に直面するはずです。それは,今まで培ってきたアプリ開発のノウハウが活かせない,という問題です。

Windows 95が発売されてから今日まで,開発されてきたもののほとんどは,GUI(Graphical User Interface)を伴うアプリです。ユーザは,主に画面に映し出されるボタンやテキストボックスなどのUI部品に対して,指やキーボード,マウスなどを使って操作をすることで,アプリに対して指示を行います。その結果として,アプリは画面に文字や画像などを表示することで,ユーザに処理結果をフィードバックします。この連続によって,ユーザはアプリを使って何かを成し遂げます。

しかし,スマートスピーカーに対してユーザが行うことは,指やキーボード,マウスなどを使ってUI部品を操作することではなく,声による指示です。より自然な言葉で表現するならば,ユーザはAIアシスタントと「会話」をすることになります。つまり,何かを注文するとするならば,ユーザは「注文ボタンを押す」のではなく,⁠○○を注文したい」と話しかけることになるのです。

普段,人同士が何気なく行っている会話は,実は「無意識に行われている様々なルール」に基づいて行われています。そのルールは,子供から大人に成長する長い時間をかけて会得する技術です。具体的には,以下のようなルールが存在します。

ターンテイキング
微妙なサインに基づいて,会話を交互に進めていきます。そのサインがなければ,お互い同時に話し出してしまうかもしれませんし,一方がずっと話し続ける状況となってしまいます。
コンテキストとスレッド
時間と共に変化する文脈に沿って発言が行われます。それは,一貫したスレッドとしてまとめられることになります。
効率性
会話の中で「行間を読む」ということが行われます。つまり,直感的に理解できるであろう事柄は,それに関する言葉を省略することが起き得ます。
同義語
同じことを言うために,さまざまな言葉やスタイルが使われます。それは,文脈の状況や会話の予測によって適切な語句が選択されます。

つまり,会話とはお互いが協調して行われる行為であると言えます。これらが行われて初めて,人は会話を自然に感じます。

アシスタントアプリやスキルは,ユーザと会話をすることで,価値を届けます。ユーザが自然に価値を享受できるようにするためには,上記で述べた4つのような,自然な会話を成立させるためのテクニックを実装することが求められます。これは,VUI(Voice User Interface)という新しいUI/UXの分野です。目の前にボタンがあってそれを見て直感的に機能の存在を知る,というGUIでの常識は一切通用しません。アシスタントアプリやスキルからユーザに対して最初に送られるウェルカムメッセージを起点として,ユーザをうまく導いていくことになります。

「音声のみでユーザに何か機能を提供する」と聞いて,多くの人はコールセンターに電話した際の自動応答を連想すると思います。⁠○○を行いたい場合は1を,△△を行いたい場合は2を,その他のお問い合わせの場合は7を,それぞれ押してください」という質問が代表的ですね。しかし,スマートスピーカーにテンキーはありませんし,ユーザに「いち」と言わせるのは明らかに「不自然な会話」です。また,例えば,

「メッセージをもう一度聞くには,'繰り返す'と言ってください。返事をするには,'返事をする'と言ってください。そして,次に進むためには,'次'と言ってください。」

と聞くのも,いかにも機械的です。自然な会話であれば,

「繰り返しますか?返事をしますか? それとも,次に進みますか?」

という問いかけで十分であり,ユーザはこれら3つの選択肢から希望の意図を表現する返事をします(⁠もう一回」「先に進もう」など)⁠アシスタントアプリやスキルは,ユーザの返事から3つのうちどの意図だったのかを判別し,それに応じた処理を行って会話を進める,ということをしていかなければなりません。

日本語におけるVUIのノウハウを持っている開発者は,現時点ではとても少ないと思います。また,UI/UXデザイナーにとっても,VUIは未知の領域なはずです。今年は,様々なアシスタントアプリやスキルが公開されていく中で,⁠良い会話」「悪い会話」の評価が多くのユーザによって行われます。その結果,ユーザが継続的に利用してくれる体験とはどのようなものなのか,徐々に確立されていくことでしょう。例えば,映画などの脚本家といった今までアプリのデザインとは遠い存在の職種の方々が,VUIのデザインに関して大きな役割を果たすかもしれません。

著者プロフィール

田中洋一郎(たなかよういちろう)

1975年2月生まれ。業務アプリ向けの開発ツールやフレームワークの設計に携わった後,mixi Platform,LINE Platformの技術統括を行う。日本でのソーシャルアプリケーションの技術的な基礎を確立しただけでなく,メッセージングアプリにおいても世界に先駆けてBOT Platformの立ち上げを主導した。その後もプラットフォームのさらなる進化に日々チャレンジしている。趣味で開発しているChromebook向けアプリは,Google Open Source Programs Officeから評価を得ている。Google Developers Expert(Web Technology担当)。Mash up Award 3rd 3部門同時受賞。著書『OpenSocial入門』,『開発者のためのChromeガイドブック』,『ソーシャルアプリプラットフォーム構築技法』。