April 20, 2009

その4-Bayesian filter-

※今日の内容は書いてる本人は至って真面目です


昨日の復習から。

ベイズの定理は


bayes rule2


のように表されます。

例題の場合、

P(H|D) = 0.6 × 0.8 / (0.6 × 0.8 + 0.4 × 0.5) = 0.70588…

ということで約70パーセントです。

ちなみにこのとき
H:質問した学生が男
D:下宿している
B:学生の性別
となりますね。

では今日の内容。

---
今日から何回かは実際のベイズの定理の利用法、またそこでの式の導出などがあれば、
という感じで。

・ベイジアンフィルタとスパムメール

ベイズという単語を日常生活で最も耳にする機会があるとすればこれだと思います。
みなさんはGmail,Mosila thunderbirdなどを使っている人もいると思います。
これらのメーラーにはスパムメールを除外するためのフィルタがかけられています。

ですが、フィルタリングが適切に行われない場合有用なメールまでもスパムメールと判断されてしまいかねません。

例えば最近僕に来たスパムメールを例に取ります。
若干下ネタっぽいけど真面目な話だからね!

---------------------------------------

全国の欲求不満の人妻、熟女さんが多数掲示板をご利用中の為、
掲示板が開かない場合が御座いますが予めご了承下さい。

なぜ、必ず3日以内に会えるのか?
それは、掲示板に秘密があるのです!

【注意】40歳未満の方はご利用できません。

必ず3日以内に会える掲示板はこちら
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
(URL省略)

---------------------------------------

40歳未満なのでご利用できませんでしたw
というかそもそも僕は人妻とか熟女好きではありません。だからと言ってロリコンでもありませんw

冗談はさておきここで「人妻」という単語がメールに含まれていた場合スパムメールと判断するとします。
まあそれでも構わないっちゃ構わないんですが、もしかしたら受信設定しているニュースに

---------------------------------------
【速報】チリ人妻ア○ータ、再び日本でトラブル
---------------------------------------

とかいうメールが来る可能性はないとは言い切れないですよね。
いやニュース受信してないしネタ古いからすごい例え悪いですけどw

ということで、そういう系の単語が入っていたとしてもスパムでない可能性が有りうるわけです。
0でない以上無視できない問題ですよね。


そこでベイジアンフィルタを利用します。

P(スパムメール|単語=人妻)
= P(単語=人妻|スパムメール)P(スパムメール) /
{P(単語=人妻|スパムメール)P(スパムメール) + P(単語=人妻|スパムメールでない)P(スパムメールでない)}

の式から、メール本文中に人妻という単語があったときにそれがスパムメールである確率が求められます。

さらに他の単語(上のメールだと熟女とか)と組み合わせて推定する、
つまりベイジアンネットワークを作ることでスパムメールである確率がより精度良く求められます。
(ベイジアンネットワークについてはまた今度。)
当然フィルタ適用前にある程度のサンプルデータが必要なのですが、適用後にも繰り返し学習を行うことができるのもベイジアンフィルタの特長です。


Gmailを例に出せば、「迷惑メールを報告」ボタンを押すことでフィルタの情報が更新されていきます。

このようにベイジアンフィルタは自己学習型である点から数あるフィルタの中でも高い評価を得ています。
ちなみに僕は人妻とか熟女好きではありません!だからと言ってロリコンでもありません!
大事なことなので2回言いました。

---

余談ですが最近携帯のスパムがやばい。1日40通くらい来てる。
ベイジアンフィルタかけろよAU…  
Posted by take_it_easy_0729 at 23:16Comments(2)

April 19, 2009

ベイズその3-Bayes' rule-

最初は数式全部ちゃんとエディタで作って画像で貼ろうと思ったんすよ…
途中から猛烈にめんどくなったんすよ…
そのうちちゃんと書く。

---

三回目にしてやっとベイズの定理の登場ですw

昨日のモンティホール問題の答えを改めてベイズの定理を使って求めましょう。

まず、ベイズの定理は以下の式によって表されます。

bayes rule



ここで
D:data
H:hypothesis
であり、P(H|D)は条件付き確率の定義において「Dが既知である時点でのHの確率」です。

ちなみに、条件付き確率の定義は高校の数学で習いましたね。
P(A|B) = P(A∩B)/P(B)
です。
式を変形して
P(A∩B) = P(A|B)P(B) = P(B|A)P(A)、
P(A∩B) = P(B|A)P(A)を定義式に代入して
P(A|B) = P(B|A)P(A)/P(B)よりベイズの定理の証明終わり。

ある意味当然の定理です。

結局式の意味としては、
左辺:事前データDが既知である時点での仮説Hが成立する確率
右辺:(仮説Hが既知であるとした時点でのデータDが成立する確率)×
   (仮説Hが成立する確率)÷
   (データDが成立する確率)
ですね。

まあ日本語にするとわけわかんなくなるので実際にモンティホール問題を解きましょう。

ここでの
D:箱Cがハズレである
H:箱Bが当たりである
となります。

すると
P(D|H) = 1 :箱Bが当たりの時に箱Cがハズレである確率
P(H) = 1/3 :何も条件がないとき箱Bが当たりである確率
P(D) = 2/3 :何も条件がないとき箱Cが開けられる(=ハズレである)確率
となるので、

P(H|D) = 1 × 1/3 ÷ 2/3 = 1/2

ということで箱Cが開いた後の箱Bが当たる確率は1/2に…

あれ?おかしいですねw
これではただCが開けられてどちらかに当たりがあるという当然の事後確率ですよね。
さて、何が間違っていたのでしょう?

ポイントは、プレーヤーが先にAを選んでいてその後でCが開けられたという事実です。
つまり、これらの条件付き確率はAが選ばれたという事象が計算に含まれていません。

この点が多くの数学者を惑わしたと言えるでしょう。
彼らはAを選ぶという一番最初の事象を見逃して条件付き確率を計算してしまったわけですね。

ではその点を考慮して計算するとどうなるでしょうか。


「Aが選ばれる」という事象はどの部分の確率に影響を与えるか?
P(D|H)とP(H)は何が選ばれようと変化しないはずです。
そして箱Cが開けられる確率P(D)は選ばれた箱によって変化するはずですね。

そこでP(D)を表現しなおすことにします。

ベイズの定理によればP(D)={P(D|B)P(B)}となります。
ここでBの定義は、Dを発生させるのに起こりうるすべての事象です。

これを用いれば、
P(D)=P(D|Aが当たり)P(Aが当たり)+P(D|Bが当たり)P(Bが当たり)+P(D|Cが当たり)P(Cが当たり)
=1/2 × 1/3 + 1 × 1/3 + 0 × 1/3
=1/2
となり、

P(H|D) = 1 × 1/3 ÷ 1/2 = 2/3
となります。
前回の説明と合致する結果がでましたね。

はい、ここまで理解できたでしょうか?
今回は数式が多すぎて理解しにくい回だと自負してますw
正直モンティホール問題はベイズの定理を使わずに説明する方が楽ですねw

しかしながらこれらのことから、
「あるデータがわかることで事後に起こりうる確率が更新されていく」
ということがわかりました。

つまり今ある情報から次にその人が行う行動であったり、株価の変動であったり
といったことを確率的に予想することが可能であると言えますね。

これこそが現在ベイズの定理が注目されている所以です。
次回から数回はまた数式から一旦離れて、ベイズの定理がどのようなことに現在使われているかを解説したいと思います。

---

いまいち感覚がつかめてない人は同様にAが当たる確率を計算して1/3のままであることを確認しておいてください。


最後に例題を1問。ネットから引っ張ってきたやつですがw

男子学生の割合60%
女子学生の割合40%
男子学生の80%が下宿女子学生の50%が下宿している。
一人の学生に下宿しているかと聞いたとき、「そうです」と答えた。
この学生が男子学生である確率を求めよ。  
Posted by take_it_easy_0729 at 23:38Comments(0)

April 17, 2009

ベイズその2−Monty Hall Problem−

今日は手短にしますw
眠いw


---

昨日何書いたかすでに覚えてなかったw

今注目を浴びてる理由からですね。

結局ベイズ推定も根本的には統計学なわけなので、将来を予想するための因子が多ければ多いほど
ほどよく推定が行えると言えます。

いままでそれを処理するための計算機がなかったと言う点でベイズ理論を実際に利用するのが難しかったわけですね。
それがムーアの法則的にCPUのクロック数、メモリ、HDDやSSDの容量が増え、多くのデータを処理できるようになった、これはベイズ理論にとって追い風になりました。


そしてもう一つは、そもそもこの理論が信じられていなかったという大きな問題がありましたw
主にトーマス・ベイズとP.S.ラプラスの2人によって確立された理論ですが、支持する人は少なかったようです。

「モンティ・ホール問題」という言葉を聞いたことがある人は少なくないと思います。
1990年に投じられたこの問題は、数学者を交えた一大論争を巻き起こしました。

---
・モンティ・ホール問題
どうでもいいけどIQ228の女性が投じた問題だそうですw

1.3つの箱A,B,Cがあって、その中に一つだけあたりがあるものとする。
2.プレーヤーはどれか一つを選択する。例えばAを選ぶとする。
3.選択した後、残りの2つのうちハズレであるものが教えられる。
  ただし両方ハズレ(つまり最初に選んだものが正解)の場合はランダムにどちらかが選ばれる。
  ここでCがハズレであると教えられたとする。

この条件の下、AとBのどちらかをもう一度選択する権利があるとき、変えるべきか変えるべきでないか?
というのがモンティホール問題です。

「確率的にどちらも1/3で一緒じゃないか」

そう考えた人は多いはずです。
実際数学者100人を含む1万人の人がそう主張したそうですw

しかし、実際はBを選択する方があたりになる確率は高くなります。

これは箱を100個に拡張し、そのうちの98個のハズレを開けると考えると明らかです。
最初に選んだ箱があたる確率は1/100、選びなおした箱があたる確率は99/100になります。

ちなみに「それでも俺はせっかくだから最初の箱を選ぶぜ!」
と言う人はギャンブルで負けるタイプですw

ということは最初の問題に立ち返ればBは2/3に当たる確率が変化しているはずです。

なぜこのようなことが起こるのか?

一言で言えば「ハズレの箱が一つ開けられた」という出来事が影響している、
ベイズ理論的に言えば事後事象が信念に変化を与えたということになります。

ということでベイズの定理を用いてこの問題を数学的に説明したいのですが、
寝ますw
  
Posted by take_it_easy_0729 at 01:45Comments(2)

April 16, 2009

【自分用メモ】ベイズその1

2年ぶりにこのブログを使うことになるとはwww
真面目な記事を書こうとしてるのに下がウ○コネタってほんとにどうかと思う。
あ、フィリップスタルクさんはデザイン工学的には尊敬してますよ。
メガネのデザインとかおもしろいなーって思ったし(なぜか上から目線)


---

・前置き
統計学といえば「有意水準5%の両側検定」に代表されるフィッシャー・ネイマン・ピアソンら
によって確立された統計の授業を習った人は多いでしょう。(便宜的に以降FNP統計学と呼びます)
彼らは得られたデータを数理的に処理し、それぞれのデータ間に関連を見つけ、
さらにそれらの関連は法則として次に得られるデータの予測に役立てました。

ですが、彼らの統計学においては数字に頼りすぎるあまり解決できない問題があります。
例えば多くの因子に作用される事象であったり母集団が少なすぎて統計的に処理できない事象。

前者の例をあげるならば、ある男性がスポーツカーを購入する確率。
この確率をFNP統計的に処理するのであれば、年収―購入率、年代―購入率、住んでいる地域―購入率…
といった具合にキリのない回帰分析を繰り返すことになります。
しかも得られる結果は
「年収では該当するが、年代では該当しない。○○では…」
の繰り返し。
結局その人はどんくらい買いそうなんだよ!と言うことをFNP統計学は教えてくれません。

また後者で言えば、コインを4回投げるとします。
表、表、表と三回表が続いたときに、次にどちらが出るか?
それを統計的に言えば
「コインがイカサマであるという仮説は有意水準1%で棄却される」わけで
「次に表が出るか裏が出るかは50%である」
とか言い出しちゃうわけです。

          ____   
       / \  /\ キリッ
.     / (ー)  (ー)\      
    /   ⌒(__人__)⌒ \    
    |      |r┬-|    |      「FNP統計学的に見てこのコインが
     \     `ー'´   /        イカサマかどうかはまだわからない。
    ノ            \        大数の法則から言って
  /´               ヽ              サンプル数が足りないのだ。」
 |    l              \
 ヽ    -一''''''"~~``'ー--、   -一'''''''ー-、.    
  ヽ ____(⌒)(⌒)⌒) )  (⌒_(⌒)⌒)⌒))

          ____
        /_ノ  ヽ、_\
 ミ ミ ミ  o゚((●)) ((●))゚o      ミ ミ ミ
/⌒)⌒)⌒.:::⌒(__人__)⌒:::\   /⌒)⌒)⌒)
| / / /     |r┬-|    | (⌒)/ / / //  だっておwwwwwwwwwww
| ::::(⌒)    | |  |   /  ゝ  ::::::::/ イカサマにきまってるおwwww
|     ノ     | |  |   \  /  )  /
ヽ    /     `ー'´      ヽ /    /     バ
 |    |   l||l 从人 l||l      l||l 从人 l||l  バ   ン
 ヽ    -一''''''"~~``'ー--、   -一'''''''ー-、    ン
  ヽ ____(⌒)(⌒)⌒) )  (⌒_(⌒)⌒)⌒))

すみません貼ってみたかったw

これらの事象はFNP統計学の失敗であると言えます。


このように数字を単調に処理することによって処理された統計には人間らしさがありません。
メリットといえばメリットですが、
場合によってはさっきのやるおAAのように人としてはイカサマくさく感じる場面で、
イカサマでないとデジタルに言い切ってしまわれるとなんだか腑におちません。

前置きが長くなりましたがベイズ統計学においてはこれらの問題が解決されます。

と言うと、さもベイズ統計学の始祖であるトーマス・ベイズがFNP統計学を知って
ベイズ統計学を提案したように聞こえるのですが、実際にはベイズ統計学はFNP統計学の250年前、
約1700年頃に誕生しています。

なぜ今俄かに注目を浴びているのかについては次回ということでw

---

前置きだけで一回分使ってしまったorz
全部メモったら20回以上になるなこれは…
  
Posted by take_it_easy_0729 at 00:57Comments(4)

May 05, 2007

こどもの日には子供らしく

1ヶ月ごとにブログに顔を出すくらいの微妙さは好きです。いしいです。


突然ですがみなさんに質問です。


次の写真の右側に見えるのは、とあるオブジェです。

いったい何をイメージして造られたものでしょう?ヒントは3文字のアレですよ。











黄色いヤツだよ














遠いですか?ではドアップでもう1枚。





これだよこれ








はいでは自信をもって答えましょう。





もちろんですよね?他の何かに見えた人いませんよね?



この炎をイメージしたオブジェを屋上に持つ多少アレなビルは、

浅草にある僕の母親の実家から歩いて5分、アサヒビールの本社隣接のビアホールです。


以下アサヒビールのHPから抜粋。


1989年の竣工と同時に東京の新名所となった吾妻橋本部ビル。22階建ての「アサヒビールタワー」は、琥珀色のガラスと頭頂部の白い外壁で、泡のあふれるビールジョッキをイメージしています。 隣接する「スーパードライホール」は、フランスの著名なデザイナー、フィリップ・スタルク氏によるもので、屋上の「炎のオブジェ」は、躍進するアサヒビールの心の象徴です。


毎日この炎のオブジェを見ながら「今日も一日頑張ろう!」と思うアサヒビール社員はまずいないと踏んでいますが、新名所となったのは間違いないと思います。

浅草の人達には「(ピー)ビル」の名前で通じますからね。




これから新東京タワーもでき、浅草はトーキョーの誇る名所としてこれからも頑張ってくれるでしょう!


という何が言いたかったんだかよく分からないまとめで終わりたいと思います。  
Posted by take_it_easy_0729 at 00:57Comments(2)思ったこと 

April 04, 2007

それにしても

びっくりするぐらい更新しないですけど、

びっくりするぐらい何もしてないですからね。


最近は新歓でテニサーのゾーンディフェンス(※新入生を3人程度で囲んで連絡先を書く所まで遂行するためのオラオラ新歓)に怯えながら過ごす日々です。


しっかしテニスって個人競技なのになんであんなに人を集めたがるんでしょうね。

しかも30とか40とかテニサーあるしね。違いがわかんねえっつーの。




こっちなんて7人でやる団体競技なのに現役生5人しかいないからテニサーとは必死さが比べ物にならないですよ!


とうとう足りないんですけど…orz

いつでも新入部員募集中です。  
Posted by take_it_easy_0729 at 02:27Comments(2)思ったこと 

February 08, 2007

誰もヤツを止められない

我が家のトイレにはウォッシュレットがついてるわけですが、

ボタンが「ドライ」「チャーム」「ウォッシュ」「ストップ」の4種類あります。

前3つのいずれを動かしても、「ストップ」で止まるようになっているのですが、

最近その「ストップ」ボタンの調子が悪く、押してもなかなか止まりません。

止まらないとエンドレスおしりウォッシングキャンペーンが我が家のトイレで開催されてしまうわけで、それはもう困りものなわけです。

さっき10秒くらいボタンと格闘しててあせりました。  
Posted by take_it_easy_0729 at 21:41Comments(2)今日の出来事 

February 05, 2007

まるみえ風

まずはちょうどほぼ1年前の記事を読んでいただこう。


一見何の変哲も無い失敗談である。


いしい「もうスーパーボウルの日にDIONのトップページニュースを見たりしないよ」

1年後、そこには新しく機種変したばかりのW51CAから流れてくるニュースフラッシュで今年のスーパーボウルの結果を見てしまったいしいの姿が!


orz




まあそんなこんなで携帯電話を3年半使ったA5401CAからW51CAに変更したんですけど。
その辺とか以外は使いよいですね。

まじめにリポートすると不満点はPCサイトビューワーが横向きで使えないとこくらいですねえ。
評価が高かったW41CAがさらに良くなったと思えば俄然「買い」ではないでしょうか。

久々に書いたら工学部っぽいなこれ。そうでもないか。うん。  
Posted by take_it_easy_0729 at 23:11Comments(0)今日の出来事 

January 03, 2007

あけました

いしいの今日のハイライト


4年連続末吉  
Posted by take_it_easy_0729 at 17:15Comments(0)今日の出来事 

December 31, 2006

さよなら2006年

いよいよ2007年ですね。

下一桁が7というのは個人的には非常に嬉しい感じです。


と言うのも自分「7」の数字が大好きです。


どのくらい好きかと言えば、

NANAとNANA2は両方劇場で見ましたし、

サークルのユニフォームの背番号は77。そのくらい好き。


何で好きかって言うと縁が深いんですよ。

生まれたのは7月だし、

卒業した高校は7期生で、

今度進学する学科も7期生です。

一番好きな漫画の「すごいよ!マサルさん」も全7巻です。


それから誕生日の29日は7を4倍して1足すと29になりますし、

生まれ年の1986年だって7は入っていないものの、

それぞれの数字に関して見れば、

7から6ひけば1ですし、

7に2足せば9ですし、

そんな感じで全部の数字7から作れますからね。


どんだけ7に縁があるんだ自分、って感じですよ!





こんな自分ですが2007年もよろしくお願いします。  
Posted by take_it_easy_0729 at 23:42Comments(0)今日の出来事