2009年11月01日

評判分析の緒技術と具体的方法

このエントリーをはてなブックマークに追加
東京大学大学院情報理工学系研究科電子情報学専攻 A教授の話
「評判分析とか何か役に立つのかな〜あんなの見ている人いる? あれで何になるの?何か役に立つ?」

業界の人や「その分野の」研究者の人からも異口同音に聞いています。
しかしながら...




テキストを対象とした評価情報の分析に関する研究動向
乾孝司 奥村学 東京工業大学
自然言語処理, Vol. 13, No. 3,

これは非常にボリュームが大きく(2006時点)網羅的に記述しています。
評判分析をするなら必ず読むべきです。

個人の記述する「意見」と言われるものにはさまざまなものが存在する.意見を下位分類するなら,少なくとも以下のようなものがその範疇に含まれることになる.
評価を記述するもの,
要望,要求,提案の表明,
不安,懸念,不満,満足等の感情を表すもの,
認識,印象を述べるもの,
賛否の表明.

また,問題は,テキスト断片の粒度によって,次の3つに大別できる.
語句レベル
文レベル
文書レベル


1.3 用語の整理
背景思想の違いの影響などもあり,テキスト評価分析で利用される用語は各研究者間で統一されているとは言い難い.そのため,しばしば同一概念が論文間において異なった用語で参照されている.
本稿では,個人の評価に関する情報を評価情報,評価情報の良い/悪いに関する軸を評価極性と呼ぶ.
ある評価情報が良い評価をもつことを肯定極性をもつと呼び,逆に悪い評価をもつことを否定極性をもつと呼ぶ.
また,肯定極性か否定極性をもつ評価情報がテキスト内で記述された表現を評価表現と呼ぶ.



テキスト評価分析を支える要素技術に関する研究は,注目するテキスト断片の粒度によって
次のように分けられる.

 評価表現辞書の構築に関する諸研究 3.1
  語彙ネットワークを利用した手法 3.1.1
  共起情報を利用した手法 3.1.2
  周辺文脈の情報を利用した手法 3.1.3

 評価情報を観点とした文書分類に関する諸研究 3.2
  評価表現の比率に基づく手法 3.2.1
  教師あり機械学習に基づく手法 3.2.2
  より細かい分類粒度へ 3.2.3
  
 評価情報を含む文の抽出に関する諸研究  3.3

 評価情報の要素組の抽出に関する諸研究 3.4
  要素抽出 3.4.1
  関係抽出 3.4.2
  動的極性判定 3.4.3
  語の組合せと評価極性 3.4.4




5 テキスト評価分析に関連するその他の話題
主観性に関する諸研究
多くの文書は,ひとつの文書の中で,客観的な事実と主観的な意見が混じり合って記述され
る.本稿でとりあげた評価は,意見の中の下位分類に位置すると考えられ,本稿で述べた評価
情報を扱う諸研究と意見情報を扱う諸研究は非常に関連が深いと考えられる.

「中立」の取り扱い
既に述べたように,これまでの評価分析の要素技術研究では,評価極性として肯定極性と
否定極性のみを考慮し,2値分類問題として定式化されることが多い.しかし現実には,肯定
極性と否定極性のいずれにも該当しない文や文書が存在する状況も多くある.

評価の分類軸
現在,評価分析の分類軸としては,肯定極性と否定極性からなる評価極性というひとつの軸
を扱うのが主流であるが,今後は,目的に応じて分類軸は細分類化していく必要がある.









ブログ上のクチコミ情報分析
高橋哲朗 岡本青史 株式会社富士通研究所
友澤大輔 ニフティ株式会社
人工知能学会 知識流通ネットワーク研究会 2008

技術的には特に変わったことは書いてありませんが...

この技術はすでにBuzzPulseというサービスにおいて使われている. 


2.1 処理手順
本システムは以下の要素技術に分けられる.
記事収集・本文抽出
自然言語解析
  形態素解析
  固有表現抽出・名詞句同定
  評価表現抽出  評価対抽出
テキストマイニング
可視化


2.1.4 テキストマイニング
評価対の出現頻度によるマイニングを行なうことにより,精度を高めることができる.
概念的には,より多数のブログで語られている意見はより確からしいという仮定に基づき信頼度を設定し,その信頼度の高い評価だけを用いる.

また,ブログの持つ特徴の1 つに,情報の発信者を擬似的に特定できるという点が挙げられる.個人を特
定することはできないが,ブログのURL を個人のIDと見なすことにより,ある評価を書いた人が過去にどのような評価を書いていたか,また他の製品についてはどのような評価を書いているか,などを知ることができる.
このデータを表1 のような形で整理することにより,POSデータに対する集計と同じような集計が可能となる.


3 マーケティングへの技術適用
従来,テレビにおける視聴率やインターネット上の閲覧数などの数値を測定することは可能だったが,その結果人々がどのような感想を持ったかまでは測定できなかった.本稿で紹介した技術はそれを可能にするものである


知りたい情報は消費者の意見や経験であるが,ブログにはそれらがそのままの形で書かれているのではなく,また整理された形でまとめられているのでもない.
ブログには,個別の消費者が持った意見や経験がその消費者の言葉により文書の形に記号化(encode) された情報として書かれている.
そして我々の扱える情報はその記号化された情報のみであるため,この情報を扱うためには復号化(decode) する作業が必要となる.

ブログから得られる情報に信頼性があるかどうかという議論がある.確かにブログの情報がすべて信頼できる訳ではないが,
............

またCornwellら(B. Cornwell and D.C. Lundgren. Love on internet: Involvement and misrepresentation in romantic relationships in cyberspace vs. realspace. Computers in Human Behavior, Vol. 17, pp. 197-211, 2001.)は,
対面での対話とコンピュータを介した対話における嘘の比率には差はなかったという調査結果を示しているおり,Joinson (A.N. Joinson. Self-disclosure in computer-mediated communicaton: The role of self-awareness and visual anonymity. European Journal of Social Psychology, Vol. 31, pp. 177-192, 2003.)の実験では,
コンピュータを介した議論の方が,対面での議論と比べ自己開示の度合いが高かったことを示している.これらの研究から,アンケート調査などと比較したときにブログの方が調査信頼性に欠けるとは一概には言えない.






電子掲示板からの評価表現および評判情報の抽出
藤村滋 豊田正史 喜連川優 東京大学
第18回人工知能学会全国大会 3F1-03

文の構造を考慮した評判抽出手法
藤村滋 豊田正史 喜連川優 東京大学
電子情報通信学会第16 回データ工学ワークショップ DEWS2005  6C-i8,

素性の詳細については以下で述べる。

●一文の係り受け解析結果から、主要な語のみを残してそれ以外の語は取り除く
●残す語としては、名詞、未知語(ただし、名詞として)、動詞(非自立語を除く)、形容詞、および否定の助動詞「ない」
●n-gram(実際には4-gramとした)統計を取り一定の出現頻度勝つ用言を含んでいるものを素性として採用する



肯定の評判での出現頻度と否定での出現頻度の差分を取ると
一般的な意味で使われる素性は打ち消しあい絶対値が0に近いと考えられる。
一方、例えば肯定的な表現は肯定での出現頻度の方が大きいと考えられるので
正の値を持つと考えられる。
この仮定に基づき評判表現のスコアリングを行った。
EEvaluation01

EEvaluation02


ppwiは肯定的な評判で属性 ppwisが出現する確率である。
pnwiは否定的な評判でのそれである。
kはpnwiが0となったときにスコアを1としないための定数である。


藤村(2004)では、評判の肯定・否定分類を応用することによって、評判情報を肯定・否定の評判、ノイズという3値分類問題に置き換えることを検討している。
本報告では上記の手法を応用して評判抽出を行う。

入力文のスコアリングの結果、スコアが正でその絶対値が大きいほど強い肯定の評判であり、
逆にスコアが負でその絶対値が大きいほど否定の評判ということになる。

EEvaluation03
EEvaluation04


文節単位での処理のメリットを示すため、単語レベルの素性との比較実験を行った。
単語レベルの素性については、形容詞および名詞を素性とした。
一般的な名詞、および動詞を素性としなかったのは、
評判の理由、つまり特徴量と見なすには不十分な語が多く、例え、精度や再現率が高かったとしても
本当の意味での評判分類は行うことができていないと考えられるためである。

結果として、単語レベルの素性から文節レベルの素性とすることで大幅な再現率の向上が得られることが分かった。
一方、n-gram素性については、bi-gramまでは精度・再現率の向上に貢献することが分かったが、tri-gram以上では精度の貢献は得られなかった









消費者の意見に基づく商品検索
杉木健二 松原茂樹 名古屋大学
情報処理学会論文誌 Vol. 49 No. 7 2008

これは厳密には評判分析ではないですが、
「評価」の評価の1種ではあります。


提案方式では,検索条件に合致する記述が,商品レビューテキストに存在すれば,その商品はユーザの要求に適合した商品であると見なす.
この方式による検索可能性を示すために,自然言語による宿泊施設検索システム「宿探」を実現した.

検索クエリに対するレビューの適合性を測るために,自然言語文を意味表現に変換する.
本研究では,そのような意味表現として,対象, 項目, 値からなる3 項組を用いる.ここで,「対象」は商品名あるいは商品カテゴリを,「項目」は商品の属性を,「値」は商品の属性値を意味する.
これは,ユーザが商品を検索する場合,「色は赤でデザインがシンプルで音質がクリアなMP3 プレイヤー」のように,属性とその値を検索条件とすることが多いためである.


意見情報を抽出する手順は以下の通りである.
前処理
商品レビューから抽出した文に対して係り受け解析を実行し,意見情報の抽出対象とする.
ただし,「〜して欲しい」「〜が望ましい」「〜ば嬉しい」など,期待,願望,依頼を表す文末表現を含む文は,現行の商品に備わっていない特徴が記述されており,対象として適さないため除去する.

(1) X → Y ⇒ (O,X, Y )
X: 名詞+ (は/が/も)
Y : 動詞,形容詞,サ変名詞+する
(2) X → Y1 → Y2 ⇒ (O,X, Y1), (O,X, Y2)
X: 名詞+ (は/が/も)
Y1, Y2: 動詞,形容詞,サ変名詞+する
(3) Y → X ⇒ (O,X, Y )
X: 名詞+ (は/が/も/を/に/だ/です)
Y : 形容詞
(4) Y ⇒ (O, , Y )
Y : 動詞,形容詞,サ変名詞+する


抽出処理
図に示した4 つの変換ルールを適用し,意見情報を抽出する.項目と値が主語・述語関係となる場合には(1),(2) が,項目と値が被修飾・修飾関係となる場合には(3) が適用され,項目候補が存在しない場合は(4) が適用されることになる.

後処理
特定の品詞や不要語を除去する.項目としては,名詞及び未知語以外の品詞を,また,値としては,名詞,形容詞,動詞,副詞,接頭辞,接尾辞以外の品詞を除去する.
また,「方」,「こと」,「もの」,「思う」,「考える」など,意見情報として重要な意味をもたない語を除去する.



商品スコアScore(q,p)を,図に従って計算する。ここで,PF ,IOF は,それぞれ
・ある商品に対して,同一の意見を記す消費者が多ければ,それはその商品を特徴付ける意見である.
・ある要求に適合する意見が少なければ,それはその商品を特徴付ける意見である.という見方を反映している.
すなわち,要求情報に適合する意見情報が多く,かつ,適合しにくい要求を満たす商品ほど,商品スコアが大きくなる


EEvaluation05
EEvaluation06
EEvaluation07
EEvaluation08
EEvaluation09
EEvaluation10
EEvaluation11





トラックバックURL

コメントする

名前:
URL:
  情報を記憶: 評価:  顔   星
 
 
 
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments