#AI,PFN,ベンチャー
#PFN関連【153】【154】

以前(【120】)、ヤフーのディープラーニング関連発明を眺めたが、そのときに、ファナックの名前がでてきて意外に思っていた。改めて、ディープラーニング関連発明の特許件数をチェックしてみたところ、186件がヒットした。
 ●検索条件:公報全文=ディープ*ラーニング+deep*learning+深層学習

改めて見ると、ヤフーとファナックが突出している。
下表ではファナックが20件だが、これ以外に、後述するPFNとの共有特許権も存在する。

ディープラーニング

筆頭出願人 特許件数
ヤフー株式会社 27
ファナック株式会社 20
メディミューン リミテッド 7
日本電信電話株式会社 7
三菱電機株式会社 4
ディジマーク コーポレイション 4
三菱電機インフォメーションシステムズ株式会社 3
ヴィア アライアンス セミコンダクター カンパニー リミテッド 3
サイジニア株式会社 3
株式会社リクルートホールディングス 3
株式会社リコー 3
ジェンザイム・コーポレーション 他 3
アストラゼネカ アクチボラグ 他 3
東京エレクトロン株式会社 3
楽天株式会社 2
株式会社オプティム 2
株式会社東芝 2
サインポスト株式会社 2
エヌ・ティ・ティ・コムウェア株式会社 2
株式会社日立製作所 2
国立研究開発法人情報通信研究機構 2
株式会社Photonic System Solutions 2
ザ ユニバーシティ オブ エディンバラ 2
メドイミューン・リミテッド 他 2
アストラゼネカ アクチボラグ 2
富士通株式会社 2


◆ファナック側からのPFNとの協業についての発表
(2016/4/18)


◆特許情報(特許6240689)
 ファナックとPreferred Networksとの共願の特許について眺めてた。

〇概要
・人と協働して、自動車のタイヤを搬送するロボットが前提のようだ(明細書【0029】)。
・複数の移動点Pに設定された複数の行動価値変数Qが、ロボットの行動と人の負担等に応じて更新されるという発明なのかと思う。
 cf  Q学習(wiki)

〇明細書(気になる箇所)
【0048】
【数1】
JPB_006240689_000002 画像
 上記の式(1)において、stは、時刻tにおける環境の状態を表し、atは、時刻tにおける行動を表す。行動atにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。

【0062】
  本実施の形態においては、様々な機械学習方法うち、上述したQ学習を採用した強化学習を行う。また、本実施の形態の訓練データセットは、複数の行動価値変数Qを含む。なお、本実施形態は、「教師あり学習」、「教師なし学習」、「半教師あり学習」および「強化学習(Q学習を含む)」等の様々な手法が適用可能なのは、前述した通りである。

【0063】
 本実施の形態では、状態stは、ロボット1の状態変数に対応する。すなわち、状態stには、ロボット1の位置、姿勢、速度、および加速度等が含まれる。行動atは、ロボット先端点の移動に関して、例えば、矢印94~97に示す方向の移動が相当する。行動atには、例えば、矢印94~97に示す方向の移動に関するロボット1の位置、姿勢、速度、および加速度等が含まれる。

【0064】
 本実施の形態の学習部54は、ワークWの搬送を行う毎に行動価値変数Qを更新する。(略)

【0069】(※補正の根拠)
 次に、関数更新部56は、上記の式(1)または式(2)を用いて、行動価値変数Qを更新する。すなわち、実際のロボットの行動および人が加えた力に基づいて、予め定められた移動点におけるロボットの行動の価値を更新する。

【0070】
 なお、それぞれの移動点Pにおける行動価値変数Qの初期値は、人が予め設定しておくことができる。または、人がランダムな初期値を予め設定しておいても構わない。

【0071】
 (略)本実施の形態の強化学習においては、ε-greedy法を用いている。(略)


〇審査経過

・出願当初の請求項1(2016/01/29)
【請求項1】
 人とロボットが協働して作業を行うロボットの機械学習装置であって、
 前記人と前記ロボットが協働して作業を行う期間中に、前記ロボットの状態を示す状態変数を観測する状態観測部と、
 前記人の負担度および作業効率のうち少なくとも一方に関する判定データを取得する判定データ取得部と、
 前記状態変数および前記判定データに基づいて、前記ロボットの行動を設定するための訓練データセットを学習する学習部と、を備える、
 ことを特徴とする機械学習装置。

 ↓
・拒絶理由(2016/8/9)
 引用文献1(特開2005-118959)に基づき新規性なし。

 ↓
・意見書(2016/10/07)
 補正せずに反論。
 『引用文献1に記載された発明のように、事前に複数の制御アルゴリズムを用意しておき、その複数の制御アルゴリズムから、最適な制御アルゴリズムを選択するものとは、根本的に異なります。』

 ↓
・拒絶理由(2016/10/07)
 再度、引用文献1(特開2005-118959)に基づき新規性なし。

 ↓
・意見書(2017/5/10)
 補正して特許。
 『iii) なお、引用文献1に記載された発明では、単に、事前に実装された、複数の制御アルゴリズムから1つを選択するだけのものであり、例えば、その事前に実装された(既存の)制御アルゴリズムに適さない環境においては適切な処理が実行されないのに対して、本願の新たな請求項1あるいは13に係る発明によれば、上述した構成に基づいてロボットの行動の価値の更新が行われるため、それぞれの環境に応じた柔軟なロボットの制御が実現され、人に対して適切な補助を行うロボットの制御方法を設定することが可能になります。』


#特許にはなったが「報酬計算部」の説明がもう少し明細書に記載されていればと思う。ノウハウとの兼ね合いだが。

(追記)
発明者の1人がこんなスライドを公表していた。レベルが高くて驚いた。

ファナックプロジェクトを引っ張っていた(いる?)人のようだ。



特許6240689
【発明の名称】人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
【出願日】平成28年1月29日(2016.1.29)
【特許権者】ファナック株式会社
【特許権者】株式会社Preferred  Networks

【請求項1】
 人とロボットが協働して作業を行うロボットの機械学習装置であって、
 前記人と前記ロボットが協働して作業を行う期間中に、前記ロボットの状態を示す状態変数を観測する状態観測部と、
 前記人の負担度および作業効率のうち少なくとも一方に関する判定データを取得する判定データ取得部と、
 前記状態変数および前記判定データに基づいて、前記ロボットの行動を設定するための訓練データセットを学習する学習部と、を備え、
 前記訓練データセットは、
 前記ロボットの状態および前記ロボットの行動ごとに設定された前記ロボットの行動の価値を示す行動価値変数を含み、
 前記学習部は、
 前記判定データおよび前記状態変数に基づいて報酬を設定する報酬計算部と、
 前記報酬および前記状態変数に基づいて、前記行動価値変数を更新する関数更新部と、を含み、
 前記ロボットの行動および前記人が加えた力に基づいて、予め定められた移動点における前記ロボットの行動の価値を更新する、
 ことを特徴とする機械学習装置。

【請求項8】
 請求項1乃至請求項のいずれか一項に記載の機械学習装置と、
 前記ロボットの行動を制御する行動制御部と、を備え、
 前記機械学習装置は、前記訓練データセットに基づいて前記ロボットの行動を設定する意思決定部を含み、
 前記行動制御部は、前記意思決定部からの指令に基づいて前記ロボットの行動を制御する、
 ことを特徴とするロボット制御装置。

 ↓ 外国出願

CN106393101 (A)  

これより先はプライベートモードに設定されています。閲覧するには許可ユーザーでログインが必要です。