#外国企業、AIスピーカ
#関連【143】

いよいよ来週からアマゾン・エコーが日本でも発売されるようだ。
というわけで、取り急ぎ備忘録をメモ。


随分前から、多くの人達がスキルの解説記事(ex.Alexa – 特集カテゴリー )を公開していて驚かされる。こういう人達が初期のスキルを作ったりしていたのだろうか。


アレクサ初心者用の解説はこのページがわかりやすいと思う。また同じ人が日本語スキルの解説ページも公開してくれている。
【祝Alexa日本上陸】とりあえず日本語でスキルを作ってみる(2017/11/08)
Utteranceは「発話」「発言」と訳されます。Alexa Skill Kitでは「Sample Utterances」という項目があり、そこにUtterancesと実際に実行されるSkillが結びつく形で設定されます。つまりここで「for a fact」と言うことによって、「for a fact」というUtteranceがどのIntent(後述)と結びつくのかをSample UtteranceからAlexaが判断することになります。ここの文章解釈にもDeep Learningの機能が使われており、多少の言葉のブレがあってもAlexaが聞き取ってくれます


音声解析となると、英語と日本語との語順の違いが気になってしまう。また、外人と一緒に生活する場合とかどうするのだろうか。また時間があるときに見直そうと思う。


◆特許調査(アマゾン)
さて、Amazonの音声解析関係の公開特許情報(日本)をピックアップしてみた。なかなか興味深い特許出願がでてくる。ただ、クレームの書き方がイマイチに思えるものが少なくない気もする。

抽出観点=「発話」+α

文献番号 発明の名称 出願番号 出願日 メモ
特開2015-149080 効率的な取引のためのユーザプロファイルおよび地理的位置 特願2015-047434 2015年3月10日  また、消費者は、オンラインショッピング等の仮想対話を益々快適に感じるようになってきている。しかしながら、現実世界とは対照的な仮想世界の相対的な利便性にも関わらず、摩擦およびセキュリティ懸念が、仮想対話の採択を依然として制限する。
特表2017-527844 音声アプリケーション・アーキテクチャ 特願2017-506995   制御サービスは、ユーザ音声を受信し、この音声に基づきユーザ・インテントを判定する。制御サービスにインストールされたアプリケーションがこのインテントに応答可能である場合に、そのアプリケーションを呼び出す。
特表2017-516153 以前の対話行為を使用する自然言語処理における文脈解釈 特願2016-567966   ユーザ発話の解釈及びユーザ発話へのシステム応答に関する文脈情報が保持され得る。後続のユーザ発話は、文脈を伴わず解釈されるのではなく、文脈情報を使用して解釈され得る。
特表2017-513047 音声認識における発音予測 特願2016-555771   自動音声認識(ASR)装置が、テキスト識別子の1つまたは複数の元言語の予測に基づきテキスト識別子(たとえば、曲名など)の発音を予測するよう構成されてもよい
特表2016-536626 多方向の復号をする音声認識 特願2016-517330   自動音声認識(ASR)処理システムにおいて、ASR処理は、ビーム形成器から受信された多チャンネルの音声に基づく音声処理をするように構成され得る。
特表2016-535312 高性能循環オーディオバッファ 特願2016-540281   音声バッファは、キャプチャするであろうユーザ・コマンドを予想して音声をキャプチャするために使用される。
特表2016-505888 発話認識電力管理 特願2015-547451    コンピューティングデバイスのための電力消費が、1つ以上のキーワードによって管理され得る。
特表2016-501391 発話対象の識別 特願2015-549543   音声処理システムが、ユーザーの発話がオーディオ提示のどの部分に言及するのかを判定し得るように、オーディオ提示の要素または他の部分に対するマーカーを生成するための機能を開示する。例えば、発話は、明示的な先行詞を伴わない代名詞を含み得る。
特表2015-537258 分散音声認識システムにおける音声モデル検索 特願2015-547478   自動音声認識システムにおける、音声認識モデルおよびデータの使用を管理するための機能が開示される。モデルおよびデータは、それらが受信される際、または発話がより一般的なまたは異なるモデルで初期処理される後に、非同期に検索され、使用され得る。



● US9286897 (B2) 
・"Speech recognizer with multi-directional decoding"
・優先日:2013/09/27
・出願日:2013/09/27

1.
A method for performing speech recognition, the method comprising:
receiving a multiple-channel audio signal comprising a first channel and a second channel, wherein the first channel and second channel are created using a beamformer and a microphone array, the first channel representing audio from a first direction, and the second channel representing audio from a second direction;
creating a first sequence of feature vectors for the first channel and a second sequence of feature vectors for the second channel;
performing speech recognition using the first sequence of feature vectors and the second sequence of feature vectors, wherein performing speech recognition comprises:
generating a first hypothesis using a speech recognition model and a first feature vector of the first sequence of feature vectors;
determining a first confidence score for the first hypothesis;
generating a second hypothesis using the speech recognition model and a second feature vector of the second sequence of feature vectors, wherein the second hypothesis is subsequent to the first hypothesis in a speech recognition result network;
determining a second confidence score for the second hypothesis;
determining that the first confidence score is greater than the second confidence score;
determining a speech recognition output using the first hypothesis;
determining that the first direction is associated with a direction of a speaker;
determining, at a later time, a new sequence of feature vectors corresponding to further audio from the first direction;
performing speech recognition on the new sequence of feature vectors to obtain a new hypothesis; and
increasing a confidence score of the new hypothesis.


 ↓ 対応JP出願

特表2016-536626
【発明の名称】多方向の復号をする音声認識
【出願人】アマゾン  テクノロジーズ  インコーポレイテッド

【請求項1】
 音声認識実行方法であって、
 
第1チャンネル及び第2チャンネルを含む多チャンネルの音声信号を受信することであって、前記第1チャンネル及び前記第2チャンネルはビーム形成器及びマイクロフォンアレイを使用して作成され、前記第1チャンネルは第1方向からの音声を表し、前記第2チャンネルは第2方向からの音声を表す、前記受信することと、
 
前記第1チャンネルの第1シーケンスの特徴ベクトル及び前記第2チャンネルの第2シーケンスの特徴ベクトルを作成することと、
 
前記第1シーケンスの特徴ベクトル及び前記第2シーケンスの特徴ベクトルを使用して音声認識を実行することであって、前記音声認識の実行は、
  
音声認識モデルと前記第1シーケンスの特徴ベクトルの第1特徴ベクトルを使用して第1仮説を生成することと、
  
前記音声認識モデルと前記第2シーケンスの特徴ベクトルの第2特徴ベクトルを使用して第2仮説を生成することとを含み、前記第2仮説は音声認識結果ネットワークの前記第1仮説に続いている、
 
前記実行することと
を含む前記方法。

これより先はプライベートモードに設定されています。閲覧するには許可ユーザーでログインが必要です。