新春特別企画

2018年のスマートスピーカー

あけましておめでとうございます。よういちろうです。今年もよろしくお願いいたします。

昨年、日本に上陸したビッグウェーブがいくつもありましたが、その中でも「スマートスピーカー」は大きく期待された新しいデバイスです。テレビCMや広告などでGoogle HomeClova WAVEを目にする機会も多くなり、Amazon Echoも招待制ながら販売が開始されました。スマートスピーカーを実際に購入して利用を始めている読者もいることでしょう。ただし、現状ほとんどの人達が、⁠思っていたよりもできることが少ないな」という感想を持っているのではないでしょうか?

ここでは、今年はスマートスピーカーはどうなるのか、スマートスピーカーによって何がどのように推進されていくのか、そしてスマートスピーカーの先には一体何が待っているのか、それらの見通しを紹介してみます。

2017年末での日本の状況

最初に、簡単に昨年の動向を振り返っておきましょう。

スマートスピーカーの販売開始

日本における最初に販売が開始されたスマートスピーカーは、Clova WAVEでした(2017年10月5日⁠⁠。その次の日に、Google Homeが販売を開始しました。Clova WAVEはオンライン(⁠⁠Clova」公式サイト、Amazon、楽天)で販売が開始されたため、実機を目にする機会は購入した人のみでした。しかし、Google Homeはオンライン(Google Store、楽天)だけでなく、店頭販売(auショップ、ビックカメラ、ヤマダ電機)も最初から行われたため、多くの人が最初にGoogle Homeを見て「これがスマートスピーカーなのかー」と認識したことになります。現在はClova WAVEも店頭販売されていますので、家電量販店に行くことで、Clova WAVEやGoogle Homeを見ることができます。

それに対して、Amazon Echoは非常に限定的な販売戦略をとっています。購入するためには、まずAmazonのEchoサイトに行き、そこで招待メールをリクエストします。すると、後日招待メールが届き、それから4日以内に注文をするように促されます。そこで購入注文することで、Amazon Echoが家に届く、という流れです。そのため、Amazon Echoの実機を見るには、実際にAmazon Echoを購入するか、もしくは購入済みの人に見せてもらう必要があります。

利用可能な機能

スマートスピーカーの使い方は、

  1. スマートスピーカーの先にいるAIアシスタントにユーザが何か声で依頼する
  2. AIアシスタントからの応答をスマートスピーカーが発話する

という会話のキャッチボールの繰り返しとなります。ユーザがAIアシスタントに話しかける際には、表1のように各社それぞれ決まったフレーズがあります。

表1 AIアシスタントへの話しかけ方
AIアシスタント話しかける際のフレーズ
Googleアシスタントおっけー、グーグル、……。
ねえ、グーグル、……。
Amazon Alexaアレクサ、……。
コンピュータ、……。
Clovaクローバ、……。
ジェシカ、……。

その後に「○○と話す」「○○につないで」ということで、その○○に対応する各種機能を呼び出すことができます。その機能は、Amazon AlexaとClovaでは「スキル」⁠、Googleアシスタントでは「アシスタント(向け)アプリ」と呼びます。これらの数が多ければ多いほど、ユーザが利用できる機能が豊富にある、と言えます。

Amazon Echoが発売された時点では、日本向けに提供されたスキルは265個でした。それに対して、Google HomeとClova WAVEの発売時点では、アシスタントアプリやスキルは10個前後でした。つまり、次のような状況でした。

  • Google HomeとClova WAVEは、すぐに購入し使い始められるが、機能数はとても少ない。
  • Amazon Echoは、すぐに購入することができないが、利用可能な機能数が多い。

もちろん、音楽再生やradikoによるラジオのストリーミングなど、スマートスピーカーとして基本と言える機能は3つとも有しているのですが、大きな期待を抱いて購入したユーザの中には「これしかできないの?」と思って利用をやめてしまった人が多かったかもしれません。

プラットフォーム化の状況

スマートスピーカーに重要なこと、それは、スマートスピーカーはあくまでユーザインタフェースであって、そのインタフェースを使って何ができるのか?ということです。つまり、スマートスピーカーの便利さは、⁠質の高い機能がどれだけ多く提供されるか」にかかっています。個々の機能の開発をスマートスピーカー提供企業が自ら行うことには限界があります。そのため、AIアシスタントに多くの開発者が機能を提供できること、すなわち「プラットフォーム化されているかどうか」が重要な鍵となります。

昨年の時点では、Googleアシスタント、Amazon Alexa、そしてClovaのプラットフォーム提供状況は表2となります。

表2 AIアシスタントのプラットフォーム対応状況
AIアシスタントプラットフォーム提供状況
GoogleアシスタントActions on GoogleやDialogflowによるアシスタントアプリの開発と審査、公開が可能。
Google Assistant SDKによって、Googleアシスタント自体を様々なデバイスに組み込み可能。
Amazon AlexaAlexa Skills Kitを使ってAlexa向けのスキルを開発し、審査通過後に公開することが可能。
Alexa Voice Service Device SDKによって、Amazon Alexa自体を様々なデバイスに組み込み可能。
Clova提供なし。

GoogleアシスタントおよびAmazon Alexa向けには、法人ではなく個人でもアシスタントアプリやスキルを開発して一般ユーザに利用してもらうことが可能です。筆者も、Googleアシスタントアプリとして簡単なものを公開しています。もし暇な時間があれば、Googleアシスタントに「イートアンドバイトにつないで」と話しかけてみてください。簡単な3桁の数当てゲームで遊ぶことができます。

ポイントとしては、Googleアシスタントも、Amazon Alexaも、AIアシスタント向けアプリの開発環境だけでなく、AIアシスタント自体をデバイスに組み込むためのSDKも提供しています。これにより、GoogleやAmazon以外のサードパーティベンダーがGoogleアシスタントやAmazon Alexaを組み込んだデバイスを開発し販売できます。日本においても表3のように、いくつかのサードパーティーベンダーからスマートスピーカーが発売されています。このように、プラットフォーム化を遂げているGoogleアシスタントとAmazon Alexaは、その勢力圏を着実に広げています。

表3 日本で販売されているサードパーティー製のスマートスピーカー
メーカー名モデル名AIアシスタント
SonyLF-S50GGoogleアシスタント
AnkerEufy GenieAmazon Alexa
OnkyoSmart Speaker G3Googleアシスタント
HarmanJBL LINK 10/20Googleアシスタント

一方、Clovaについては、プラットフォームの提供は今年となることが、昨年の9月に行われたLINE DEVELOPER DAY 2017にて発表されています。具体的には、GoogleアシスタントやAmazon Alexaと同じように、2つの開発キットが提供される予定です。

  • Clova Interface Connect:デバイスやアプリケーションにClovaを接続するためのSDKやAPI
  • Clova Extension Kit:Clova上で他のアプリケーションを実行するためのAPI

この2つが提供されれば、GoogleアシスタントやAmazon Alexaと同レベルのプラットフォームが整備されることになるでしょう。

2018年のスマートスピーカーの動向

スマートスピーカーを手にする人々が増えてきた2017年でしたが、今年は本格的にスマートスピーカーが評価され始める年となります。具体的には、以下のような動きがあると予想しています。

アシスタントアプリやスキルが増えてくるのは今年から

既に海外では数万のアシスタントアプリやスキルが公開されていますが、そのどれもが日本語で利用できません。そのため、日本語にて利用可能なアシスタントアプリやスキルの数が増えてくるのは、まさに今年からになります。昨年からすでに日本語での開発が可能になっていますし、開発のための日本語での情報も徐々に増えてきています。多くの開発者が参入してくるものと思われます。

予想されるアシスタントアプリやスキルは、主に以下のようなものが多いと考えられます。

  • 簡単なゲーム:数当てゲームや、言葉遊びなど。
  • 情報提供:質問するとその答えを言ってくれる。

つまり、特に何もデータベースを持っていない開発者は、事前にデータがなくても開発が可能なゲームなどを作って公開することが多いでしょう。一方、既にインターネット上でサービスを展開している企業としては、そのサービスで扱われている情報に対して、ユーザが何か問い合わせをして、その結果をAIアシスタントに言わせる、といったQ&A形式が多く提供されると予想されます。ゲームや情報提供であれば、比較的実装コストも低く、また当たり障りなくリスクが低い状態で公開できるというメリットがあります。

その中でもいくつかの企業は、スマートスピーカーを通じてCS(Customer Support)を提供したり、語学の教育向けの機能を提供するなど、比較的高度なアシスタントアプリやスキルを公開し、多くのユーザが利用することになるでしょう。そのような事例が徐々に増えてくることで、今年の後半から年末にかけて、レベルの高い事例とそのノウハウが共有され、エコシステムがさらに活性化するものと予想しています。

話者認識が進歩する

スマートスピーカーを手にしたユーザは、スマートスピーカーとの会話によって様々なサービスを利用できるようになるだろうと期待しています。例えば、以下のようなことがあげられるでしょう。

  • ユーザの問いかけに対して、そのユーザに最適な答えを返してくれる。
  • AIアシスタントの向こう側にあるサービスに対して、何か依頼を行う。

これらを実現するために、⁠依頼主は誰なのか」を正しく特定する、つまりユーザを認証することが大事になってきます。ユーザ認証ができて初めて、パーソナライズやサービスの高度な利用が実現できるようになります。銀行口座のやり取りや株取引などを見据えた際には、ユーザ認証は必須要件と言えるでしょう。

スマートスピーカーでは、⁠話しかけている人は誰か」というユーザ認証を行うことになります。基本的には、話者認識と呼ばれる技術が鍵となります。つまり、声から個人を特定します。Google Homeは、既にマルチユーザ登録ができるようになっていて、個々のユーザに対して「オッケー、グーグル」というフレーズを言った際の声を学習させることで、⁠誰が話しかけたのか」を識別可能になっています。ただし、その精度はまだ高いとは言えません。例えば、筆者の身近な例であれば、親子それぞれが話しかけた場合に誤認識してしまう、ということが起きています。

確実にユーザ認証を行うために、スマートスピーカーの話者認識だけではなく、他の認証方式との組み合わせなどによって確度を高める工夫などが、今年いくつか実験されることになるでしょう。例えば、以下のようなことが想像できます。

  • 話者認識の精度向上
  • スマートフォンとの組み合わせによる2段階認証
  • 顔認識や虹彩認識といった生体認証(スマートスピーカーにカメラを搭載)

スマートスピーカーにおけるユーザ認証の問題は、実現できる機能の幅を広げる上で、越えるべき壁です。今年はその実験的な年となるでしょう。

VUIが注目される年になる

アシスタントアプリやスキルの開発が進むにつれて、開発者はすぐに大きな問題に直面するはずです。それは、今まで培ってきたアプリ開発のノウハウが活かせない、という問題です。

Windows 95が発売されてから今日まで、開発されてきたもののほとんどは、GUI(Graphical User Interface)を伴うアプリです。ユーザは、主に画面に映し出されるボタンやテキストボックスなどのUI部品に対して、指やキーボード、マウスなどを使って操作をすることで、アプリに対して指示を行います。その結果として、アプリは画面に文字や画像などを表示することで、ユーザに処理結果をフィードバックします。この連続によって、ユーザはアプリを使って何かを成し遂げます。

しかし、スマートスピーカーに対してユーザが行うことは、指やキーボード、マウスなどを使ってUI部品を操作することではなく、声による指示です。より自然な言葉で表現するならば、ユーザはAIアシスタントと「会話」をすることになります。つまり、何かを注文するとするならば、ユーザは「注文ボタンを押す」のではなく、⁠○○を注文したい」と話しかけることになるのです。

普段、人同士が何気なく行っている会話は、実は「無意識に行われている様々なルール」に基づいて行われています。そのルールは、子供から大人に成長する長い時間をかけて会得する技術です。具体的には、以下のようなルールが存在します。

ターンテイキング
微妙なサインに基づいて、会話を交互に進めていきます。そのサインがなければ、お互い同時に話し出してしまうかもしれませんし、一方がずっと話し続ける状況となってしまいます。
コンテキストとスレッド
時間と共に変化する文脈に沿って発言が行われます。それは、一貫したスレッドとしてまとめられることになります。
効率性
会話の中で「行間を読む」ということが行われます。つまり、直感的に理解できるであろう事柄は、それに関する言葉を省略することが起き得ます。
同義語
同じことを言うために、さまざまな言葉やスタイルが使われます。それは、文脈の状況や会話の予測によって適切な語句が選択されます。

つまり、会話とはお互いが協調して行われる行為であると言えます。これらが行われて初めて、人は会話を自然に感じます。

アシスタントアプリやスキルは、ユーザと会話をすることで、価値を届けます。ユーザが自然に価値を享受できるようにするためには、上記で述べた4つのような、自然な会話を成立させるためのテクニックを実装することが求められます。これは、VUI(Voice User Interface)という新しいUI/UXの分野です。目の前にボタンがあってそれを見て直感的に機能の存在を知る、というGUIでの常識は一切通用しません。アシスタントアプリやスキルからユーザに対して最初に送られるウェルカムメッセージを起点として、ユーザをうまく導いていくことになります。

「音声のみでユーザに何か機能を提供する」と聞いて、多くの人はコールセンターに電話した際の自動応答を連想すると思います。⁠○○を行いたい場合は1を、△△を行いたい場合は2を、その他のお問い合わせの場合は7を、それぞれ押してください」という質問が代表的ですね。しかし、スマートスピーカーにテンキーはありませんし、ユーザに「いち」と言わせるのは明らかに「不自然な会話」です。また、例えば、

「メッセージをもう一度聞くには、'繰り返す'と言ってください。返事をするには、'返事をする'と言ってください。そして、次に進むためには、'次'と言ってください。」

と聞くのも、いかにも機械的です。自然な会話であれば、

「繰り返しますか?返事をしますか? それとも、次に進みますか?」

という問いかけで十分であり、ユーザはこれら3つの選択肢から希望の意図を表現する返事をします(⁠⁠もう一回」「先に進もう」など⁠⁠。アシスタントアプリやスキルは、ユーザの返事から3つのうちどの意図だったのかを判別し、それに応じた処理を行って会話を進める、ということをしていかなければなりません。

日本語におけるVUIのノウハウを持っている開発者は、現時点ではとても少ないと思います。また、UI/UXデザイナーにとっても、VUIは未知の領域なはずです。今年は、様々なアシスタントアプリやスキルが公開されていく中で、⁠良い会話」「悪い会話」の評価が多くのユーザによって行われます。その結果、ユーザが継続的に利用してくれる体験とはどのようなものなのか、徐々に確立されていくことでしょう。例えば、映画などの脚本家といった今までアプリのデザインとは遠い存在の職種の方々が、VUIのデザインに関して大きな役割を果たすかもしれません。

通知に関する模索が始まる

スマートスピーカーといえば、⁠おっけー、グーグル」「アレクサ!」など、きっかけとなるフレーズをユーザが言う行為がとても特徴的です(個人的オススメは「おっけーぐるぐる」⁠荒木さん」です⁠⁠。これは、ユーザが能動的にスマートスピーカーを利用することを意味しています。少なくとも、昨年末の時点では、スマートスピーカーにユーザが話しかけるまで、スマートスピーカーは黙ったままです。じっとユーザに話しかけられるのを待っています。唯一の例外は、目覚ましなどの目的で使用される、アラーム機能です。

しかし、実はAlexa Skills KitやActions on Googleにおいて、既に通知機能が提供されています。

残念ながら、どちらも開発者が自由に利用できる状態ではなく、事前に申請するなどの手順を踏んで利用を許可してもらう必要があります。さらに、通知(Notifications)という名前が付いている機能ですが、スマートスピーカーがいきなり話し出すことはなく、以下のような振る舞いとなります。

  • Amazon Echo:通知が来ると、Amazon EchoのLEDが点灯し、効果音が鳴って通知を受け取ったことをアピールする。その後、ユーザが"Alexa, read my notifications"と話しかけることで、受け取った通知の内容が読み上げられる。
  • Google Home:通知が来ると、Googleアシスタントが存在するAndroid端末にOS通知としてユーザに通知を受信していることが伝えられる。その後、Googleアシスタント内で受け取った通知の内容が表示されるGoogle I/O 2017のKeynoteではAmazon Echoと同じような体験が紹介されていたので、Android端末への通知送信は暫定的な実装と思われる⁠⁠。

もちろん、これらは現時点での動作であり、近い将来はスマートスピーカーから通知内容を適切なタイミングでユーザに読み上げられるようになると考えられます。Amazon Echoの現状での動作がそれに近いように思えますが、例えばスマートスピーカーがユーザの存在を検知することができれば、部屋に入ってきた時点で話しかけて通知内容を読み上げるかどうか聞いてくる、などの動作を実現できるかもしれません。

スマートスピーカーからユーザに対して自然に話しかけて、受け取った通知をどうユーザに伝えるべきか、その適切な方法については今年中に一定の答えが出ると思われます。特に今年前半は、様々なアプローチが登場し、何がユーザに受け入れられるか、模索が続くでしょう。

スマートスピーカーでIoTが加速する

スマートスピーカーのテレビCMを見ていると、テレビの電源をON/OFFしたり、部屋の照明をつけたり消したりすることを、声によって制御している様子が含まれています。今までリモコンや壁のスイッチによって操作してきたテレビや照明を、声のみで操作できるのです。映画などで「未来の生活」として必ず登場してきた生活の姿が、やっと実現する時代に突入したと言って良いでしょう。

テレビや照明などの家電製品をインターネットに接続して操作することは、IoT(Internet of Things)と呼ばれる分野の一つとして語られてきました。様々なモノがインターネットに接続されることで、そのモノの状態を監視したり、遠隔地から操作したりできるようになります。IoTが示す範囲は非常に幅広く、具体的な例が今までなかなか出てこなかった印象が筆者にはありますが、スマートスピーカーの登場によって、IoTは一気に多くのユーザに近寄ってきました。

もちろん、スマートスピーカーを購入したからといって、テレビや照明などの家電製品がIoT対応になるかというと、残念ながら違います。スマートスピーカーから家電製品を制御するためには、現時点では以下の工夫が必要となります。

  • IoT対応の家電製品Philips Hueなど)を購入し、部屋に設置する。
  • 赤外線リモコンの代わりとなる機器Nature Remoなど)を購入し、部屋に設置する。

筆者の自宅は、Google HomeとNature Remoの組み合わせにより、照明、テレビ、そしてエアコンの制御を声で行うことができます。特徴的なのは、一言話しかけるだけで、照明がつき、テレビが流れ、そしてエアコンの電源が入ります。それぞれ別々にON/OFFを指示することなく、一気に制御ができるのです。さらに、例えば「映画を見るよ」と話しかければ、照明が自動的に暗くなり、エアコンが静音モードに切り替わる、なんてこともできます。

上記のことができるようになった後に、筆者の両親(高齢です)に対して、実際に声で制御を行って見せた時に、⁠あんたこれに数百万円かけたんじゃないでしょうね!?」と半分叱られました。実際には2万円程度です。それくらい、インパクトのあることが実現されていることだと言えるでしょう。

今までのIoTは、それぞれの機器がインターネットに接続されますが、それを制御するのはスマートフォンであったりPCであったりして、利便性としてはイマイチなものでした。どうせスマートフォンを手にする必要があるならば、リモコンや壁のスイッチを操作するほうが手間がかからないからです。しかし、スマートスピーカーの登場によって、声で制御することができます。これは、IoTに対してユーザフレンドリーなUI/UXがやっと整備され始めた、と考えて良いでしょう。

スマートスピーカーの販売台数の増加につれて、特に家電製品におけるIoT対応が今年は進むものと思われます。照明だけでなく、様々な家電製品が、本格的にインターネット接続に対応されるはずです。また、Nature Remoに代表される赤外線リモコンの代わりとなる機器についても、広く普及するのではないかと予想できます。

つまり、今年はスマートスピーカーが「IoT元年」をもたらすことになります。

スマートスピーカーの次は?

さて、最後にもう少しだけ未来のことを想像してみたいと思います。今年は、昨年よりも更にスマートスピーカーが話題になり、より多くの人々が手にし、そして多くのアシスタントアプリやスキルが開発され、エコシステムが大きくなっていくことでしょう。では、スマートスピーカーとは、リビングなどの部屋に置かれて利用されるだけのものなのでしょうか?

数年前に、Google Glassというメガネ型のウェアラブル端末が話題となりました。主に声を使って操作し、メガネに様々な情報が表示される、そんなデバイスでした。販売開始間近であることが盛んに伝えられましたが、結局一般向けに販売されなかったのが残念です。

このGoogle Glassですが、少し分析するならば、以下のようなデバイスだと言うことができます。

  • 入力:マイク、タッチセンサー、カメラ、赤外線や加速度などのセンサー
  • 出力:液晶ディスプレイ、骨伝導スピーカー

つまり、Google Glassは「全部入り」のデバイスであることがわかります。何でもできそうですが、それだけにプライバシーの問題など多くの問題を抱えていました。また、Google Glassが登場した当時のソフトウェアの技術がまだウェアラブルデバイスの実現に追いついていなかったことも、問題としてあげても良いでしょう。特に、自然言語での会話の技術は未熟だったために、Google Glassが想定しているユーザへのフィードバックは、液晶ディスプレイでの視覚的な情報提供でした。骨伝導スピーカーも搭載されていましたが、その用途は音楽を再生するための出力装置という側面が強いものでした。

Google Glassは、ハードウェアデバイスとして時代の先を行きすぎた、つまり人類にとっては当時はまだ早過ぎた、と言って良いと思います。

ところでGoogle HomeやAmazon Echo、そしてClova WAVEは、どれも小型のシリーズを持っています。Google Home MiniAmazon Echo DotClova Familyです。これらはすべて、手のひらにちょうど載る程度の大きさです。中に搭載されている回路に関しては、もう少し小さなサイズに仕上がっています。製品の形は、どれも部屋に置いて使うために適した形になっていますが、実際には(バッテリーのことを考えなければ)身につけてもギリギリ大丈夫な大きさに小型化を遂げることはできそうな印象があります。

さらに、現在ではスマートスピーカーが実証しているとおり、自然言語によるAIアシスタントとのやり取りが可能になっています。これは、Google Glassが頼っていた液晶ディスプレイがなくても、ユーザが機能を利用できることを示しています。入力についても、マイクや各種センサーのみでよく、カメラなどのプライバシー保護の観点で問題となりそうな機器を外しても、デバイスとして成立しそうです。

ここまで読んで気がついた方々も多いかと思います。筆者は、PC、フィーチャーフォン、スマートフォン、スマートスピーカー、と来て、次に来るデバイスは、Google Glassではなく、高性能イヤホン(スマートイヤホン?)ではないかな、と考えています。

すでにGoogleは、Googleアシスタントを利用可能な翻訳イヤホンPixel Budsを販売していますし、LINEからもMARSにClovaを搭載する予定であることを発表しています。もちろん、すでにAppleのAirPodsは、Siriを呼び出すことができます。

現在は、人々が歩きながら下を向いてスマートフォンを操作しています。今年から来年にかけて、もしかしたら比較的大きなイヤホンをして何かをつぶやきながら歩いている人を見かけることになるかもしれません。

今年は、部屋に置くスマートスピーカーの普及が進む一方で、スマートスピーカーの小型化とウェアラブルデバイスとしてスマートイヤホンの実験的な製品の発表や販売が始まるのではないか、と予想しています。これは筆者の個人的な希望が多く含まれた予想ですが、人々の生活を大きく変える可能性があるデバイスとして、早く自分の耳に装着したいと思っています。

まとめ

IT業界にいる方々にとっては、スマートスピーカー元年は昨年であるという印象があると思いますが、多くの人々にとってスマートスピーカー元年は2018年であると記憶されることになりそうです。

そして、多くの開発者がスマートスピーカーのアシスタントアプリやスキルの開発に参加するようになります。その結果、自然言語処理の分野は昨年よりも活発になり、またVUIという新しいUI/UX分野が確立されて研究されていくことになるでしょう。また、IoT分野もスマートスピーカーの普及と共に需要が増えていき、様々な製品が投入されて人々の生活を変えていくことになるでしょうし、スマートイヤホンという新規デバイスについても様々な実験が行われる、そんな年になりそうです。

スマートスピーカーは一家に一台、という時代がすぐそこまで来ました。例えば、Actions on GoogleとDialogflowの組み合わせであれば、アシスタントアプリの開発は驚くほど簡単です。また、IoT製品との組み合わせについても、少ない手順で実現できます。このムーブメントに乗り遅れることなく、ぜひスマートスピーカーの世界に足を踏み入れましょう。そして、共にエコシステムを大きくしていきましょう。

おすすめ記事

記事・ニュース一覧