iPhoneはことし10歳(米発売は2007年6月29日)。Steve Jobsの発表から10年となる1月9日にあわせてTim Cook CEOが声明で、iPhoneがスマホ市場を確立したことを強調した上で「お楽しみはこれからだ(  The best is yet to come)」と期待感を示しました。

どんなお楽しみか楽しみですが、世の中の関心はスマホの次は何か? 今週の The Economistタッチスクリーンの次は、音声技術だとして特集しています。


巻頭のConversational computing – Voice technology is making computers less daunting and more accessible(会話によるコンピューター~音声技術でコンピューターはとっつくにくいものからとっつくいやす存在に)ではまず、 Amazon Echoを紹介。

(NY Times)

Alexa(名前)という呼びかけに応じる音声認識の筒型のコンピューターは、音楽やラジオ番組をフォローするのはもちろん、冗談を言い、質問に答え、スマート家電を一括管理するもので、クリスマス前の時点でアメリカの全家庭の 4%に配備されていました。今はもっと増えているでしょうね。

ほかにもApple Siri や、Googleの音声認識技術の向上も踏まえて、 Why type when you can talk? (しゃべれば済むので、あえてタイプの必要なんてある?)と挑発的に問いかけます。

携帯電話がコードレスの電話以上の存在だったように、自動車が馬のいない馬車以上の存在だったように、画面やキーボードのないコンピューターが今想像しているよりも便利で普及する存在になると指摘。

音声認識の技術自体は昔からありましたが、声の持ち主で何度もトレーニングする必要がありました。

これに対して、今の音声認識はdeep learning という人工知能の技術に頼っています。その結果、人間並みに字おこしでき、翻訳技術もよくなり、ロボット調だった文章の読み上げ方も自然になってきたと言います。

気になるのはプライバシー。多くの音声コンピューターは、Alexaとか、 OK, GoogleとかHey, Siri などという呼びかけをきっかけに起動されるため、それまでじっと聞いて待っています。起動して何らかの情報のリクエストがあって初めてサーバーに接続されるものの、どういった音声データがどの段階で誰(コンピューターかサーバーかなど)が保有しているのか不明だそうです。

The Economistのこの記事にも、最近話題の事件が紹介されています。

2015 11 22 日に米アーカンソー州で起きた殺人事件現地の報道によりますと、男性の遺体がお風呂の中で見つかり、室内で音声認識コンピューターの Amazon Echoが事件を聞いていたとみられます。

捜査当局は、音声データを提出するよう要請していますが、Amazon は法的根拠が不明確だとして拒否。 CNNがこの事件とプライバシーについてコンパクトにまとめています。

2016年に起きたカリフォルニア州のテロ事件のあと犯人のiPhone のパスワードのロックの解除をめぐっても捜査当局とAppleが対立しましたね。

Ian Bremer がことしの10大リスクの第 7 番目としてThe White House vs Silicon Valley(政権vs IT 業界)を挙げていますが、まさにこうした事態を想定しているのだと思います。

音声認識が普及すれば運転しながらとか、お料理しながらコンピューター操作ができて便利そうですが、何を調べているか外に聞こえてしまうという不安(恥ずかしさ)も。それでもThe Economist はこう締めくくっています。

タッチスクリーンは、人間とコンピューターのかかわりを変えた。音声認識はそれ以上の変化になる(The arrival of the touchscreen was the last big shift in the way humans interact with computers.  The leap to speech matter more)。