2012年02月06日

人気の話題を追跡するwebマイニング

忘却の概念に基づく文書クラスタリング手法の改良方式について
石川佳治 北川博之 筑波大学
情報処理学会研究報告. 情報学基礎研究会報告 2003(112)

2 忘却の概念に基づく文書類似度
2.1 影響力の逓減モデル

現在の時刻をt=τ とする.ネットワークを介して配信され,文書リポジトリに現在格納されている文書をdi(i=1...n) とし,
それぞれの入手時刻に対応するタイムスタンプをTi(Ti ≦ τ) とする.
ここで各文書に対し,その文書のタイムスタンプと現在の時刻との間の関係で定まる影響力(influence value)の値を以下のように定義する.

dwi = λτ-Ti  (0<λ<1)

なお,忘却ファクターについては,ユーザがλの値を直接指定するのではなく,ユーザからは文書の影響力の半減期βを指定してもらうものとする.

λ= e-(log2/β)


これが話題の減衰モデルであり、続く研究では半減期は 30〜90(日)程度に設定したときに有効な結果が得られているとあります。

しかし、これは文書クラスタリングにおいて....クラスタと文書との時間差を考慮した類似度の測定であり...
トピック・話題の半減期ではありません。

話題の半減期なんか、数日もなく、数時間程度しかないと思うかもしれません。
もちろんそれは、twitterによるtimeline文化の影響が絶大です。

webmine5

webmine4
数字をだけを見る限り、実態は想像よりそんなに短くはありません。

しかしながら、問題はそうシンプルでもない
話題の性質によって半減期は異なり、...後述するように、何度も再登場することもあり...変化することもあり...



何が話題になっているのかは、自動的にでも判定できます。

ソーシャルブックマーキングの周期性発見と時期連動型検索ランキングへの適用
山家雄介 中村聡史 アダムヤトフト 田中克己 京都大学大学院
情報処理学会論文誌. データベース 2(3), 2009

そこで我々は,近年 CGM として注目を浴びているソーシャルブックマークに着目した.
その中でも特にブックマークの際に発生する時間情報に注目しこの情報の分析を行うことで, どの時期に需要が増加するかを予測できるのではというのが我々の研究のベースである.


たとえば先述の「卒業論文の書き方」のページのはてなブックマークにおけるブックマーク数の時間変化は,図 1 のとおりである.この図からも明らかなように,卒業論文が書かれる時期(2007年と2008年の1月)によくブックマークされていることが分かる.

........................


3.1 ブックマークの周期性の発見 Vlachos らによって,Web 検索エンジンのクエリログにおいて,移動平均を利用して検索クエリのバーストを検出する手法( Vlachos, M., Meek, C., Vagena, Z. and Gunopulos, D., Identifying similarities,periodicities and bursts for online search queries, Proc. 2004 ACM SIGMOD inter-national conference on Management ofdata, Paris, France (2004).)
が提案されている.ブックマークの周期性を発見するにあたって,この手法でバーストを検出する手順はは大まかに以下のとおりである.

(1) 系列 t =(t1, ... tn) に対する長さ w の移動平均 M Atw を計算する.
(2) 閾値 cutoff = mean(M Atw)+ x*std(M Atw) を設定する.
(3) 以下の式を満たす区間をバーストと定義する. Bursts = { t | M Atw(i) > cutoff }

系列 i は任意のページに対するページにソーシャルブックマークが n 件あったとき,それぞれのブックマークが行われた時間を特定の粒度で集計したものである.


................................................

表1は,この手法をデータセット中の各ページの過去のブックマークに適用したときの,検出されたバーストの回数の分布である

なお,バースト回数が 1 回のページについては,2 つの種類がある.まずは最初のバーストから 1 年を超える日数がすでに経過したページ(1-β 型)である.これは図 2 に示した一過性のブックマークのパターンが相当する.


さらに分析を進めたところ,バーストが2 回以上検出された16,940 ページのうち,1,297ページは毎年同じ月にバーストが発生していることが判明した.このようなページの具体例を,次項以降で分類し解説する.

3.1.1 1 年のうち特定の時期に行われる活動に関するページ
3.1.2 一年のうち特定の日に行われる伝統行事に関するページ
3.1.3 伝統行事に関連する内容を扱ったページ
3.1.4 その他の特定のイベントを扱ったページ
3.1.5 周期性が発生する背景が明らかでないページ


3.3 ブックマークの周期性とタグの使用傾向の関係分析

このページのほかにもいくつかのページにおいて,バースト時には useful のようなページの印象に関するタグが用いられる場合があることが分かった.
このような現象が起こる原因についてはまだ不明な点が多いが,興味深い特性を持っている可能性があり,今後詳しく調査を行う予定である.




ニュースにおけるトピックのバースト特性の分析
高橋佑介 横本大輔 宇津呂武仁 筑波大学大学院
吉岡真治 北海道大学大学院
情報処理学会研究報告. 自然言語処理研究会報告 2011-NL-204(6)

バースト解析は,一般には,電子メールやウェブ上のニュース記事のようなストリームデータに対して適用される.そこでは,ある時からある話題に関する記述が急激に増加するような現象が起こることがあり,こういった現象を,ある話題に関するバーストと呼ぶ.代表的なアルゴリズムであるKleinberg のバースト解析(Kleinberg, J.: Bursty and Hierarchical Structure in Streams, Proc. 8th SIGKDD,pp.91-101 (2002).)
では,時系列に沿った各キーワードのバースト度の変化や,バーストしているか否かの判定,バースト度によるキーワードのランク付けをすることができる.


2.1 enumerating バースト
enumerating バーストのアルゴリズムは,離散時間で送られる文書の集合に対して適用される.本稿では,各日ごとのニュース記事集合を一つの文書集合の単位とし,以下では単に,記事集合と呼ぶ.
最も簡単なモデルでは2 状態オートマトンA2 を定義し,2つの状態を非バースト状態q0,バースト状態q1 とおく.



2.2 キーワードのバースト度

期間tk, . . . , tl におけるキーワードw のバースト度bw(tk, tl,w) は以下の式で定義される.
webmine1
なお,今回は1日ごとにキーワードのバースト度を算出しているため,tk = tl ( = t) である.したがって,その際のバースト度は次のように表すことにする.

bw(t,w) = bw(t,t,w)





UGMである話題が増えている時、実世界でも売り上げが増えているという調査はされています。
これは映画の調査結果ですが、 人は体験してもいないコメントをしない...ようです。
(少なくともsplogに代表されるスパムコンテンツを除き、明確にユーザを区別できるBlogosphereにおいては)




ヒット現象の数理モデル  映画興行を例とした計算と実測の比較
石井晃 林隆文 鳥取大学大学院
梅村早苗 松田直也 鳥取大学
新垣久史 吉田就彦 デジタルハリウッド大学大学院
中川健 (株)電通
JWEIN,56,93(2008)


経済現象の中で特にエンタテインメント産業と呼ばれる分野を数理的に扱うモデルを構築して、『大ヒット映画』などが生まれるヒット現象を数理的な側面から捉えてこれを実験検証することを目的とする。これが成功すればマーケティングに有効な手法を与えるはずである。

.................................
つまり、ヒット現象とはきわめて時間に敏感に依存した非平衡経済現象である

いわゆる大ヒットなどのヒット現象は売れる商品が売れない商品に対して桁違いに売れるという点で特異である。その商品自体の魅力が10倍程度しか違わないとしても、その売り上げは、ヒット曲で言えば数千枚から百万枚までの違いとなる。
このことは、売り上げがその商品自体の魅力に対して非線形的に決まるということを示唆する。


例えばダヴィンチ・コードを観に行った人が、満員なので仕方なしにハリーポッターを観ることはまずない。しかし、例えばこれがHDDレコーダなら、松下が品切れで東芝を買う人などは、珍しくないであろう。
その意味で、 エンタテインメント産業ではマーケティングシェアというものが存在しない

.............................
.............................

3. 実測値と計算値の比較
本研究では実測データとして、Kizasi を使って測った、それぞれの映画ごとのブログ書込数と、興業通信社提供の観客動員数(興行収入)、そして電通広告統計による広告出稿費を用いる。本研究で2005 年以降に日本で公開された25タイトルの映画についてこれらを調べた。

図から、興行収入とブログ書込数の時間的変化は驚くほど酷似していることがわかる。これは今回解析したほとんど全ての映画でほぼ同様の類似を示した。
そこで、値がほぼ興行収入に合うように定数倍したブログ書込数を各映画についての疑似興行収入として扱うことになる。


入力として日ごとの広告出稿費を用いて計算しているので、この広告出稿費の時間的な配分を変えれば、当然興行収入の予測も変化する。

従って、本研究の数理モデルから、最大興行収入を得るための、広告出稿費の最適時間配分の問題という新しい数理マーケティングのテーマが誕生したことになる。
続きを読む

2012年01月30日

スマートフォンの可聴域

スマートフォンで可聴域外の音の送受信ができるなら、そこに情報を埋め込めるのではないかと思ったのですが

new AudioRecord(MediaRecorder.AudioSource.MIC, SAMPLE_RATE, AudioFormat.CHANNEL_CONFIGURATION_MONO, AudioFormat.ENCODING_PCM_16BIT, audioBuf );

このSAMPLE_RATEは、Androidでは8000以外の数字では動作しないのですが....
これでは高周波音の録音が出来ません。
と、いうことは超音波領域にではなく、低音にだったら情報を埋め込めるのではないか?

ちなみに15000Hz以上のモスキート音は








これは、一応22050Hzまでは、iphone,Android共に音は物理的には出せているはずです。
データ的に22050Hz以上の音を無理矢理作って再生しても、そもそもスピーカーの出力がなくなります。

100Hz以下ぐらいの低音では、スピーカーの出力はあることになっていますが、やはり、音が聞こえません。

windowssound

これは、本当は音が出ているのか、出ていないのか
単にスピーカーの性能ではないかと思うのですが

Androidで録音したデータを波形でチェックしてみたところ....ほとんどの機種で150hz ぐらいでもうほとんど録音されていないような...

LYNX 140Hzぐらい?
X06HT で120Hzぐらい??
Xperiaもそのくらい
GalaxySはもっと悪くて、150Hzぐらい???

一応録音していようなのですが、あまり信頼できないかもしれません。
音が低くなるほどホワイトノイズとの差がなくなっていきます。











スマートフォンで音を出すだけなら、低音でも高音でも一応可能です。
しかし、低音の場合は本当は音が出ているのかどうか確認することが難しいですが、
高音はちゃんと出せてるようです。


2012年01月28日

言語学的に論文の引用形式を考察

論文の引用は、どういうわけか多くの人が論文情報の表示の方しか興味ないようなのですが、
わたくしは引用、ラベルのパターンに興味があります。


最も多く見るパターン
[1], [2,3], [4-6],

番号で文献を指し示す無機質なパターンです。
この番号のことを普通ラベルと呼びます。

例えば[4]では....


このように指示代名詞のような使用は本来よろしくないのです
しかしながら、こういう表現が書かれていることは多くあります。

ラベルは本来、文の中で意味をなす語彙...文字でさえない からです。ラベルが論文中に書かれている文字であるとは思ってはいけないのです。
それは、ハイパーリンクのようなもので...今の時代だったら、そもそも、形式を変えた方がよいのかも知れないです。



それを踏まえた上で、ラベルをどこに差し込むかに迷う場合が多いのですが
ラベルが指し示す対象が明確であれば

○  ■■はシステム□□[5]を開発した。
×  ■■はシステム□□を開発した[5]。


○  □□理論[6]では、
×  □□理論では[6]、


のように、その単語の直後に記述します。


多くの場合は(自らを含む)研究者の取り組みを指して

takは[7]、_______
_______した[8]。

文の終わりの句読点の直前に記します。



ところで、このラベルパターンは、どうも実は名前が存在しないようなのです。

ラベル形式は、指定されていることもありますが
全く指定されないことも多く...
ラベルがどの文献を指しているのか一意的に判断できるのであれば、†,☆とか♥のようなオリジナルのパターンを使用してもよいのです。



理工学ではこのパターンが多いですが...
[9]

角括弧ではなく右小括弧を右上表示のパターンもあります。
○○10)

括弧も無く、番号だけをふってる場合もあります。



人文科学では(名前,年)のパターンが多いです。
(tak,2010)
しかし、こちらは、同一論文中で tak(2010) と (tak,2010)と括弧使用の差異がある場合があります。
これは、単純に表記の揺れという解釈ができそうな気もしないでも無いですが....






続きを読む

adsense
Categories
あわせて読みたい
amazon
Profile
Archives
gremz
blogchart
QRコード
QRコード
  • ライブドアブログ
o