2017年10月30日

ai_smart_speaker


欧米に比べてスマートスピーカーの投入が遅れていた日本においても、この10月よりGoogle Home Mini の販売開始、11月よりAmazon Echoの販売開始予定となり、いよいよスマートスピーカーが日本の家庭にも入り始めることだろう。

そこで今回はインタフェースの観点からスマートスピーカーの特徴とその可能性について考えてみたい。なお、以下ではスマートスピーカーと、それに繋がる音声アシスタントをまとめて扱っている。

音声インタフェースの特性


音声というメディアを考えた場合、まずそれが一次元メディア*1であることに注意する必要がある。音声は時間軸に沿って出力されるメディアであり、持続性はない。その瞬間を聞き逃がせば情報を得ることはできないし、必要とする情報が出力されるまで辛抱強くその瞬間を待つ必要がある。

一方で映像は二次元メディアだ。必要に応じてその場に留まることができ(持続性がある)、何度でも情報を見直すことができる。二次元を広く使えば一度に多くの情報を提示することができ、複数の選択肢を提示するのに適している。また、画面の一部のみを更新することが可能な部分更新性を有していることも大きい。

そのため、音声インタフェースが既存のGUIを置き換えることはない。GUIと同じことを音声インタフェースにやらせようとすると非効率になる場合が多い。選択肢を挙げるには時間をかけて読み上げる必要があるし、それらの選択肢はユーザが憶えておく必要がある。

音声インタフェースがGUIに比べて優れている点は、それが人間が道具を使わず、いつでも訓練不要で利用可能である点だ。選択肢をユーザが把握しているならば、発話によって即座にコマンドを発行できる。そのため、スマートスピーカーの基本動作は、ユーザが所定の音声コマンドを発話し、当該コマンドに割り当てられたアクションを行うというシンプルなインタラクションとなる。



スマートスピーカーの特性


スマートインタフェースとしてみた場合、その特性としては次の4点が挙げられるだろう。

  1. 常時利用可能
  2. サービス/デバイス接続
  3. コンテキストアウェア
  4. 生活密着

1.常時利用可能


スマートスピーカーは部屋内に配置され、常時ユーザの呼びかけをセンシングしている。利用するために電源を入れたり、起動を待つ必要はない。スマートスピーカーにものを頼むときに必要なのは、特定のコマンドワードを発するだけだ。

この常時利用可能性は重要な要素だが、スマートスピーカー単体だと、自宅内しかカバーできない。そのため、将来にはスマートフォンとの連携が重要になる。スマートフォンでは出遅れているAmazonはAlexa搭載のスマートフォンの投入を行っているが、Amazonはこの投資を辛抱強く続ける必要があるだろう。

2.サービス/デバイス接続


スマートスピーカーはあくまでインタフェースであるので、ユーザの役に立つには外部サービスやデバイスを呼び出す必要がある。どれだけ豊富なサービスやデバイスを用意できるかがスマートスピーカーの使い勝手の良さを左右するため、どの陣営も対応サービス/デバイスの充実には多額の投資を行うことになる。現時点では数万のサードパーティスキルを有するAmazon Alexaが一歩している。

ただし、サービス/デバイス側から見れば、インタフェースを複数に対応することは、それほど多くの手間を必要としないので、ゆくゆくは基本的なサービス/デバイスはどのスマートスピーカーでも利用可能になるだろう。

また、インタフェースの拡張としてTVなどの映像デバイスとの連携は不可欠となる。一次元の音声メディアでは情報の入出力に不自由するため、ユーザの周囲にあるテレビやスマートフォンのパネルに情報や選択肢の提示を行う。

3.コンテキストアウェア


一次元メディアである音声のインタフェースの制約から、長時間複数回によるインタラクションは使い勝手を悪くする。スマートスピーカーがダラダラと選択肢を読み上げるのを辛抱強く聞きたい人は少数派だろう。それを避けるために、スマートスピーカーはユーザの置かれているコンテキストを把握し、コマンドの言外に込められた情報を忖度する必要がある。たとえユーザの命令が不十分なものであったとしても、最も適切と推測される候補を提示し、「こちらで良いですか?」と尋ねる。

推測の精度を上げるためには、ユーザのコンテキストを多く集める必要があり、その点においてもスマートフォンとの連動はやはり重要となる。スマートスピーカーは、ユーザのコミュニケーション、移動履歴、購買履歴、スケジュール、嗜好など、あらゆる情報を活用しようとするだろう。ただし、コンテキストアウェアネスに関する技術は未成熟であり、スマートスピーカーがスマートなデバイスとなるにはまだしばらくの時間が必要になるだろう。

4.生活密着


前述の特性が高いレベルで実現されれば、スマートスピーカー(を一つのインタフェースとするシステム)は生活に密着したものとなる。おはようからおやすみまで(寝ている間も)、ユーザの生活全般を把握し、統制し、誘導し、改善する。いずれスマートスピーカーの支援なしに活動することが困難になるだろうが、それが当然となれば問題と感じる人は少数派になるだろう。

スマートスピーカーは生活に密着するものになるので、これまで以上にセキュリティが重要となる。スマートスピーカーが扱う情報の中には機微な個人情報に該当するものも多く、それが外部に漏洩した時の被害は大きくなる。また、ユーザが依存するスマートスピーカーによる支援が、悪意のある第三者によって巧みに誘導されると、最悪の場合生活を破壊されることになる。

今年のはじめ、米国の6歳の女の子がAlexaを通じてまんまとドールハウスとクッキーを注文した微笑ましい出来事があった。米国メディアは朝のニュースでこの出来事を取り上げ、アナウンサーが「Alexa、私にドールハウスを注文して」と読み上げたときに悲劇が起こった。アナウンサーの音声に各家庭のAlexaが反応し、Amazonに大量のドールハウスの注文が殺到したのだ。誰の命令でも聞いてしまう音声アシスタントに重要な事柄を委ねようと思う人はいないだろう。

現時点ではスマートスピーカーはこのレベルのサービスが行えるのに十分なセキュリティを備えているとは言い難い。少なくとも音声を含む多要素認証において権限のあるユーザを認証することは不可欠だ。また、一企業が過度にユーザの生活に干渉し恣意的に誘導することが無いように、法整備が進められることになるだろう。

スマートスピーカーの可能性


以上見てきたように、スマートスピーカーは、それ単体で見れば単なる音声インタフェースに過ぎず、一次元メディアに起因する多くの制限を内包しているが、システムとしてみれば、ユーザ環境を把握し、統制し、誘導し、改善するものとなる。

多くの人にとって現在スマートフォンが無い生活は考えられないことだろうが、じきにスマートスピーカー(を一つのインタフェースとするシステム)が無い生活は考えられなくなるだろう。スマートスピーカーがユーザとサービスの橋渡しをすることで、ユーザはより多くのサービスを利用し依存する。望むと望まざるとに関わらず、スマートスピーカーの普及により我々の生活は一変することになる。それがQoLを改善することに繋がることを期待したい。


  1. *1: MITのNomadic Radioにおいては音声による情報提示において3Dの位置定位を行い、音声の位置に意味を与えている。それでも音声が一次元なメディアであることは変わらない。




lunarmodule7 at 10:00│Comments(0)││社会 

コメントする

名前
URL
 
  絵文字