#AI、PFN、ベンチャー

PFNの特許ネタの続き。この会社はDeNAとも協業していて、会社まで一緒に作っていた。
一年半も前の話だが、関連記事等をチェックした。


PFDeNA
○ニュースリリース
DeNAとPreferred Networks、人工知能技術を用いた 企業向けソリューションを提供する合弁会社PFDeNAを設立(2016/07/1)
Preferred Networks とDeNA、合併会社設立のお知らせ(2016/7/14)

○関連記事
西川:キュレーションサービスや検索エンジン…。得意ではないんです。データは重要ですが、そのデータを取るサービスがもっと重要です。例えばゲームは、その中で人が様々な操作や判断をします。人が自然とやっているような行動のデータが貴重なのです。その「人の常識」を少しでも機械が解釈できるようにしたい。BtoBだけやっていたら、いつまでたっても人の常識は獲得できませんから。
一方、これまでB2Bに主軸を置いてきたPFNとしては、DeNAが保有する数千万人のユーザーおよび50億アクション/日という膨大なデータを用いてディープラーニングの研究開発を加速させていきたい考えだ。


◆DeNAネタ
DeNAの特許取得状況については以前チェックしたことがあったが(※1)、再度チェックしてみた。少し特許戦略に変更が生じたような印象を受ける。2年ぐらい前は特許件数をとにかく増やす方向で動いているような印象を受けたが、少し落ち着いたようだ。当時は知財部の求人もよく見かけたような気がする。今後、AI関連発明が急増するということはあるのだろうか(※2)。
なお、グリーは他社と特許紛争が生じているようだ(※3)。DeNAよりも特許取得件数が増えているのはそういう背景もあるのかと勘繰ってしまう。

(※2)いまのAIは15年前のインターネット(守安・川崎対談)(2016/11/11)
(※3)Supercell社との間の特許紛争について(2018/01/24)

DeNA+グリー


◆特許情報(特許6243072
○発明者の一人のSlideshareが公開されていた。
形態素解析の過去・現在・未来(2011/10/19)

○概要
・入出力モデルを再構築させることなく新たなキャラクタを容易に追加できるシステム

○明細書(気になる箇所)
【0004】
  しかし、非特許文献1が開示する技術においては、会話モデルの構築において使用した学習データ内に存在したキャラクタについてのみ、キャラクタ性を反映した会話が可能であった。もし、教師データ内に存在しない新たなキャラクタを会話モデルに追加したいと考えた場合は、新たなキャラクタを表現する対話対データを学習データへと追加した上で、改めて会話モデル全体を再構築する必要があった。通常、対話の精度等の観点から、十分な量のデータを用いて会話モデルを構築するには、数日から1週間程度の時間を要する。そのため、会話モデル全体の再構築に要する時間的、計算的コストを考慮すると、会話モデルに新たなキャラクタを追加することは容易ではないという課題があった。

【0022】
[基本入出力の学習(大規模学習)]
 (略)入出力モデルの構築には、通常、高性能計算資源(GPUを備えたサーバ)を用いても数日から1週間程度の処理時間を要する会話対データが必要とされている。本実施形態1では、30万会話対データを用意した。

【0023】
[入出力モデル及びキャラクタ表現空間]
  図3Aを参照して、本実施形態1における入出力演算部110における入出力モデル及びキャラクタ表現空間につき説明する。
  本実施形態1の入出力モデルは、時系列データを取り扱うことができるRNN(Recurrent neural network)を用いたEncoder-Decoderモデル(Kyunghyun Cho, et al., Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, EMNLP2014)の基本構造を採用し、出力側にキャラクタ性を考慮するようにしたものである。キャラクタ性については、非特許文献1に開示される会話モデルの構築手法における返答者側のキャラクタ性の概念を採用しているので、以下では適宜説明を省略し、主に本実施形態1の入出力モデルの学習における特徴的な点について説明する。
 入出力モデルは、入力文X=(x1、x2、…xT)を固定長の中間表現ベクトルcに変換するエンコーダと、エンコーダで生成した中間表現ベクトルc及びk次元のキャラクタ表現ベクトルuiから出力文Y=(y1、y2、…yT’)を算出するデコーダを含み、キャラクタ性が表現されたキャラクタ表現空間を有する。なお、キャラクタ表現空間は、キャラクタ性を表す各要素(性別、年齢、方言等)が反映される空間をいう。k次元のキャラクタ表現空間は、入出力モデルの構築(大規模学習の結果)とともに構築される。なお、kの値については事前に定められた値を用いるものとする。

【0030】
  ここで、キャラクタ表現ベクトルuiは、話者の特性等、すなわちキャラクタ性を表現する埋め込みベクトルであり、iは学習データ内におけるユーザの識別番号に対応する添字である。学習の結果、入力モデルが構築されると、k次元のキャラクタ表現空間が構築される。
 なお、本実施形態1において、キャラクタ表現ベクトルuiには、方言、登録名、年齢、性別等の個人情報が関連付けられており、個人情報は学習データにおける各ユーザの会話から取得されている。また、キャラクタ表現ベクトルuiは、ユーザ単位ではなく、複数の要素(例えば、20代、秋田県、女性)単位で関連付けられてもよい。また、個人情報は会話からだけでなく会話を行うユーザのプロフィール等から取得されてもよい。

【0037】
[キャラクタの追加]
 (略)本実施形態1では、上述の基本入出力の学習(大規模学習)によって構築された入出力モデルを固定した上で、数百~千件程度の会話対データ(キャラクタデータ対)に表現されたキャラクタ性に対応するキャラクタ表現ベクトルの算出を行うことで、新たなキャラクタを容易に追加することができる。
  ここで、構築された入出力モデルの固定とは、入出力モデルの各パラメータを常に固定した状態をいう。これにより、キャラクタ表現空間の固定も生じる。以下、入出力モデル及びキャラクタ表現空間の固定とも称する。
 また、以下、キャラクタ表現ベクトル算出部120に入力される入出力データ対をキャラクタデータ対や、第2の入出力データ対とも称する。キャラクタデータ対における会話対の量は数百~千件程度でも可能であり、一般的に入出力モデルの構築及びキャラクタ空間の構築に必要とされる数十万~数百万件の学習データに対して1/1000程度と大幅に少ないデータでキャラクタを追加することができる。また、ここでのキャラクタ追加に必要なデータは、本特許出願時における個人携帯端末装置の処理能力でも十分処理可能なレベルのものである。本実施形態1では、キャラクタデータ対として数百の会話対データを用意した。


○出願当初の請求項
【請求項1】
 入出力演算部を備え、
 前記入出力演算部は、入出力データ対の学習により構築された、キャラクタ性が表現さ
れた空間であるキャラクタ表現空間を有する入出力モデルを備え、
 前記キャラクタ表現空間におけるキャラクタ性を表現したベクトルであるキャラクタ表
現ベクトルと、入力データと、が前記入出力演算部に入力され、
 前記入出力演算部が、前記入出力モデル及び前記キャラクタ表現空間に基づき、前記キ
ャラクタ性を反映した、前記入力データに対応する出力データを演算し、出力する、
 入出力システム。

 ↓ 文言の並べ替え

(※請求項1の文言の並べ替え)
 入出力演算部を備え、
 前記入出力演算部は、入出力データ対の学習により構築された、キャラクタ性が表現さ
れた空間であるキャラクタ表現空間を有する入出力モデルを備え、
 前記キャラクタ表現空間におけるキャラクタ性を表現したベクトルであるキャラクタ表
現ベクトルと、入力データと、が前記入出力演算部に入力され、
 前記入出力演算部が、前記入出力モデル及び前記キャラクタ表現空間に基づき、前記キ
ャラクタ性を反映した、前記入力データに対応する出力データを演算し、出力する、
 入出力演算部を備える、
 入出力システム。


○拒絶理由通知(2017/8/22)
 (略)請求項9には、当該データ構造が、入出力データ対の学習により構築されたキャラクタ表現空間を備える旨が記載されるものの、具体的なデータの構造、構成について示されておらず、結果として、当該データ構造が規定する情報処理が記載されていないため、請求項9に係るデータ構造は、全体としてみて、人為的な取決めに止まるから、自然法則を利用した技術的思想の創作ではなく、発明に該当しない。

【請求項9】
 入出力演算部を備えた入出力システムで用いられるキャラクタのデータ構造であって、
 入出力データ対の学習により構築された、キャラクタ性が表現された空間であるキャラクタ表現空間を備え、
 前記キャラクタ表現空間を有する入出力モデルを備える前記入出力演算部が、
 前記キャラクタ表現空間におけるキャラクタ性を表現したベクトルであるキャラクタ表現ベクトルと、入力データと、が前記入出力演算部に入力され、前記入出力モデル及び前記キャラクタ表現空間に基づき、前記キャラクタ性を反映した、前記入力データに対応する出力データを演算する、
 処理に用いられる、キャラクタのデータ構造。


【発明の名称】入出力システム、入出力プログラム、情報処理装置、チャットシステム
【出願日】平成29年4月6日(2017.4.6)
【早期審査対象出願】
【特許権者】株式会社  ディー・エヌ・エー
【特許権者】株式会社Preferred  Networks

【請求項1】
 入出力演算部を備え、
 前記入出力演算部は、入出力データ対の学習により構築された、キャラクタ性が表現された空間であるキャラクタ表現空間を有する入出力モデルを備え、
 前記キャラクタ表現空間におけるキャラクタ性を表現したベクトルであるキャラクタ表現ベクトルと、入力データと、が前記入出力演算部に入力され、
 前記入出力演算部が、前記入出力モデル及び前記キャラクタ表現空間に基づき、前記キャラクタ性を反映した、前記入力データに対応する出力データを演算し、出力し、
 キャラクタ表現ベクトル算出部を更に備え、
 キャラクタ性を抽出するための入出力データ対であるキャラクタデータ対が前記キャラクタ表現ベクトル算出部に入力され、
 前記キャラクタ表現ベクトル算出部が、前記入出力演算部において固定された前記入出力モデル及びキャラクタ表現空間における、前記キャラクタデータ対についての演算結果に基づき、前記キャラクタデータ対に対応するキャラクタ表現ベクトルを算出する、
 入出力システム。

【請求項6】
  第1の入出力データ対の学習により構築された、キャラクタ性が表現された空間であるキャラクタ表現空間を有する入出力モデルを備え、入力された前記キャラクタ表現空間におけるキャラクタ性を表現したベクトルであるキャラクタ表現ベクトル及び入力データに基づき、前記キャラクタ性を反映した、前記入力データに対応する出力データを演算し、出力する、入出力演算部と、
  第2の入出力データ対が入力され、前記入出力演算部において固定された前記入出力モデル及びキャラクタ表現空間における演算結果に基づき、前記第2の入出力データ対に対応したキャラクタ性を反映したキャラクタ表現ベクトルを算出する、キャラクタ表現ベクトル算出部と、
  を備える情報処理装置。

【請求項7】
 入出力データ対の学習により構築された、キャラクタ性が表現された空間であるキャラクタ表現空間を有する入出力モデルを備えた、入出力演算部と、
 キャラクタ表現ベクトル算出部と、
 を備える入出力システムにおいて、
 入力データと、前記キャラクタ表現空間におけるキャラクタ性を表現したベクトルであるキャラクタ表現ベクトルと、が前記入出力演算部に入力されるステップと、
 前記入出力演算部が、前記入出力モデル及び前記キャラクタ表現空間に基づき、前記キャラクタ性を反映した、前記入力データに対応する出力データを演算するステップと、
 当該出力データを出力するステップと、
 キャラクタ性を抽出するための入出力データ対であるキャラクタデータ対が前記キャラクタ表現ベクトル算出部に入力されるステップと、
 前記キャラクタ表現ベクトル算出部が、前記入出力演算部において固定された前記入出力モデル及びキャラクタ表現空間における、前記キャラクタデータ対についての演算結果に基づき、前記キャラクタデータ対に対応するキャラクタ表現ベクトルを算出するステップと、
 実行させる入出力プログラム。

これより先はプライベートモードに設定されています。閲覧するには許可ユーザーでログインが必要です。