2017年02月17日

ニュース記事の自動生成に関する研究

日経、人工知能による完全自動記事の配信を開始!人間は一切関与せず

あれはどうやっているのでしょうか?
内容の説明はそんなに難しくはありません。
これは、「任意」の情報を特定の切り口というか角度の文章に「変換」する方法であり
最も短絡的に説明するならば、テンプレートの穴埋めをするだけです

オフラインを含め、ほとんどのニュースには提供すべき情報が決まっているので、それを自動的に特定できれば、記事文面は生成できます。




ソーシャルメディアと時系列データを用いたイベント抽出及び自動ニュース生成に関する研究
丸井淳己 榊剛史 松尾豊 東京大学大学院
人工知能学会全国大会論文集 27, 2013
2.2 自然言語生成
言語を無から作り出すのは困難だが、文章からの抽出についてはよく研究されてきた。Smadja らは文生成のための連語を自動抽出する研究を行った
[Smadja, F. A. and McKeown, K. R.: Automatically extracting and representing collocations for language generation,]。

Smadja らは株式市場のレポートを使って抽出し、さらにそれを文生成に用いている。テンプレートを抽出して、それを使って文を生成するアイデアは本研究でも使える手法である。本研究の対象の為替ニュースも株式市場のレポートと同じように定型文になっていることが多いので、本研究でもテンプレートを用いたニュース生成を行うこととした


4.1 テンプレートによる手法
経済イベントの結果何が起きたかは為替の上げ下げを確認すればよいので、以下の様な簡単なテンプレートが作れる。

(時間) 頃、(原因) の影響で(通貨名) 高/安(通貨名) 安/高になりました。


原因の部分にイベントを表す特徴語を入れることとし、特徴語算出の最も一般的な方法であるTF-IDF を用いる。

直前のトレンドを打ち消すためにDF に用いる文書の母集合をイベントが
起きる前全て(DFall )、2 時間前(DF120)、1 時間前(DF60)、30 分前(DF30) の4 つを用いた。一番高いTF-IDF 値を持つ単語をそれぞれのDF の定義毎に算出し、テンプレートを用いてニュース生成を行った。


........................

今回の対象も企業決算に限っているので、記事の書き方に大して多様性はありません
AP通信で既に導入されてるシステムはスポーツニュースなどで、やはり、大して変化があるニュースでもありません。
他には天気情報などです。

そういう、毎日必ずなど、報じられるという事、その情報項目が事前に必ず分かるようなニュースならば、大体何にでも使えると考えられています。

続きを読む

2017年02月16日

watson導入事例の技術的詳細

ずっと前に発表されて以来watsonでどうやって
新しいレシピ生成とか創薬とかしてるのか気になってたのですが


Computational Creativity in the Culinary Arts
Erol Cromwell, Raghuram Ramanujan   Davidson College
Jonah Galeota-Sprung  Museum of Mathematics
FLAIRS Conference. 2015.
Building on this prior work, we ask the question: how can these insights into the structure and nature of ingredient networks be used to create novel recipes? We note that this work is most similar in spirit to that of the “cognitive cooking” effort at IBM (Bilow 2014).
However, most of IBM’s work in this area remains proprietary; very little has been published or otherwise released into the public domain.

この分野でのIBMの研究はほとんど公開されていません...

4 Ranking Recipes

レシピのスコアを決定するのですが、得点を付けるモデルを学習するのではありません。
二つのレシピを比較して、どちらが高得点かを判断するモデルで、レシピを比較してレシピを順位でソートするという方式です。
ただし、コサイン類似度が0.2より大きいレシピ対のみをデータとする

だから学習モデルがどういう構成であるかは、問題の本質ではないですか

However, this created an interesting conundrum: the purpose of the classifier was to help us automatically winnow out poorly performing recipes that would be generated by a search process. However, this search process was likely to generate many poor recipes, from a part of the recipe space that the learner would not have seen, were it to be trained strictly on elements drawn from R.
In other words, the target distribution for the classifier would not match the distribution of examples on which it was trained.
To remedy this, we supplemented the set R with recipes that were generated by choosing between 6 and 12 ingredients uniformly at random from the set I.
We carefully curated these randomly generated recipes, eliminating those that seemed even remotely palatable; others, that were obviously bad ingredient pairings, were assigned a 1-star rating and added to the set R.

学習したモデルは未知の材料セットに対しても十分信頼できるスコアを付けることが出来るので
問題空間の中から尤もらしいレシピを検出できる?
Simulation Results
As a baseline, we generated 800 random recipes, each with seven, eight, and nine ingredients, and ranked them with our scoring function f.
Simply building thousands of random recipes and retaining the top ranked ones was sufficient.

何千ものランダムなレシピを作成し、上位のレシピを選び出すだけで良い。






続きを読む

2017年02月08日

twitterユーザ統計 2017/02

データ取得日は、2017/2/3−2/5 ぐらいです。




ユーザIDを 7000000000 まで確認したのですが、
その内の 0.207 ぐらいのユーザアカウントが埋まっていて、
0.171 ぐらいがsuspend
0.622 ぐらいがnot foundです。

と、言う事は、現在有効なユーザ数は1449000000ぐらい?
そして1197000000ぐらいがsuspendされています。

前回2016/06の時は1310816225ぐらいだったので、この期間ではそれくらいのユーザ数変化です。


多分何回も言ってますがtwitterアカウントは削除されてもIDは新しい人に使いまわされます。
多分、現在IDの最前線は4923000000ぐらい?


これは前回からほとんど動いていないので、という事は新規IDはほとんど増えてなくて、
以前の空きが埋まって行っているという事のようです



ユーザアカウント情報から、
ユーザが最後に使ったsourceが分かるので、
それを利用すれば言語と使用デバイスの内訳が分かります。

twitter2017twitter2017lang 

上は、下のグラフです
言語がotherなのは不明を含んでいます。そしてほとんどが0tweetで言語不明状態のユーザです。
  twitter for android   twitter web client   twitter for iphone  mobile web  twitter for blackberryツョ
tr  0.200  0.200  0.000  0.000  0.000
ru  0.500  0.000  0.000  0.000  0.000
pt  0.250  0.500  0.250  0.000  0.000
ko  0.500  0.000  0.000  0.000  0.000
ja  0.300  0.100  0.100  0.300  0.000
id  0.286  0.000  0.000  0.286  0.429
fr  0.200  0.600  0.000  0.000  0.000
es  0.280  0.320  0.080  0.080  0.120
en  0.139  0.361  0.111  0.056  0.056
ar  0.600  0.000  0.200  0.000  0.200


という訳で、なぜか数字ではiphoneよりもAndroidの方が多くなっています。
なんらかTwitterではAndroidでpostし易い、少なくとも数字上は多いので、何かがあるとしか思えないのですが...?
続きを読む

adsense
Categories
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村

amazon
Profile
Archives
blogchart
QRコード
QRコード
Recent Comments
o