アクチュアリーって何?

今回は告知です。
早稲田大学のキャリア支援セミナーで、アクチュアリーに関する講演を行います。

日時:9月29日(金)  18:15~19:30
場所:早稲田大学 11号館 9 階 913 教室
会場:17:45

スケジュール:
1.開会挨拶(18:15~18:20)
会計研究科長 清水孝

2.「アクチュアリーとは何か」(18:20~19:00)
講師 工藤征夫 日本アクチュアリー会事務局長

3.「アクチュアリーサイエンスの概要」(19:00~19:30)
講師 藤澤陽介 日本アクチュアリー会 ERM 委員会委員長

入場無料です。アクチュアリーに興味のある学生のご参加をお待ちしています。

統計的学習とは何か

An Introduction to Statistical Leaningの第2章の要約です。

2.1 統計的学習とは何か

Yを目的変数、X=(X1, X2, ..., Xp)を予測変数とし、Y=f(X)+ε を考える。統計的学習は、fを推定する一連のアプローチのことである。

2.1.1 なぜfを推定するのか

それは、予測(prediction)と推論(inference)のためである。
多くのケースにおいて、Xは簡単に手に入り、Yは難しい。このような場合、Xからfを用いてYを予測する。Yの予測の正確性は、削減可能な誤差(reducible error)と削減不能な誤差(irreducible error)に依存する。完全なfを推定することはできないが、最も適切な統計的学習の技術を使うことで、fの精度を向上させることができる。これが削減可能な誤差である。一方、Yはεを含むので、fの精度を上げたとしても誤差が残る。これが、削減不能な誤差である。本書では、削減可能な誤差を最小化するためのfの推定方法にフォーカスする。
また、X1, X2,...,Xpが変化したときにYがどのように影響するのかに興味があることもある。この場合の目標は、Yの予測ではなく、XとYの間の関係性を理解することにある。つまり、「どの予測変数が目的変数と関連するのか」「個々の予測変数と目的変数の関係性は」「個々の予測変数と目的変数の関係は線形式を用いて十分にようやくできるか」にこたえる必要がある。
最終的な目標が、予測なのか推論なのか、もしくはその組み合わせなのか。状況に応じて、fを推定する異なる手法が用いられる。

2.1.2 どのようにfを推定するのか

パラメトリックとノンパラメトリック。
パラメトリックの場合、2ステップのモデルベースのアプローチとなる。まず、fの関数形式を決める。例えば、線形回帰。次に、訓練データを用いてモデルをフィットする。線形回帰であれば、パラメータ推定のこと。
ノンパラメトリックの場合、明示的な関数形式でfを表現しない。その分、パラメトリックアプローチよりも潜在的に予測精度は向上する。一方、fを正確に予測するには大量の観測値が必要となるというデメリットもある。

2.1.3 予測精度とモデルの解釈可能性のトレードオフ

線形回帰はフレキシブルなモデルではないが、解釈は簡単である。ラッソは線形モデルに依拠しているが、パラメータの推定方法が違う。その推定手順は制限的であり、線形回帰よりもフレキシブルではないが、解釈しやすい。一般化加法モデル(GAM)は、線形モデルを非線形の関係まで許容するように拡張したモデルであり、線形回帰よりもよりフレキシブルである。最後に、バギング、ブースティング、サポートベクターマシーンは完全な非線形のモデルである。
推論が目標の場合、簡単で比較的フレキシブルでない統計的学習手法を用いることにメリットがある。一方、予測にしか興味がない場合は、最もフレキシブルなモデルを使うことがベストであると考えるかもしれないが、驚くことにいつもそうとは限らない。あまりフレキシブルでない方法を用いてより正確な予測ができることもある。これは、直観に反するように一見思えるが、潜在的なオーバーフィッティングの問題と関係している。

2.1.4 教師ありと教師なしの学習

以上は、教師あり学習の説明。すなわち、個々のXの観測値に関連するYの観測値があるケースである。
一方、教師なし学習はもっとチャレンジングな状況であり、Yの観測値が存在しないケース。このような状況では線形回帰を用いることはできない。でも、Xの観測値の間の関係性を理解することはできる。これらの手法をクラスタリングと呼ぶ。クラスタリングの目的は、Xの観測値を異なるグループに分割できるか否かを確かめることにある。

2.1.5 回帰と分類の問題

変数は、定量的もしくは定性的(カテゴリカル)で特徴づけできる。定量的な応答変数の場合は回帰問題、定性的な応答変数の場合は分類問題とする傾向がある。


統計的学習のイントロ

An Introduction to Statistical Learningのイントロ部分の要約です。

統計的学習の概要

統計的学習とは、データを理解するための多様なツールのこと。これらのツールは「教師あり」と「教師なし」に分類される。

給与のような連続的で定量的な目的変数の予測を伴うものを、回帰問題(regression problem)と呼ぶ。一方、カテゴリー変数や定性的な目的変数の予測は、分類問題(classification problem)と呼ぶ。分類問題の例示として取り上げられているのは、株価の上昇、下落の予測。

回帰問題、分類問題はインプットとアウトプットの変数があるケースだが、インプットの変数しか観測できないシチュエーションもある。例えば、マーケティングにおける顧客の属性情報のように。この場合、アウトプット変数を予測するのではなく、個人をグルーピングすることで似た顧客のタイプを理解することが目的。これをクラスタリング問題(clustering problem)と呼ぶ。

統計的学習の簡単な歴史

統計的学習という用語はかなり新しい。19世紀の初めにLegendreとGaussが最小二乗法に関する論文を発表した。これが、定量的な変数の予測に用いられる線形回帰の始まり。人の生死のような定性的な変数の予測には、Fisherが1936年に考案したLDA (Linear Discriminatnt Analysis) や1940年代に生まれたロジスティック回帰を用いる。1970年代前半に、NelderとWedderburnが、線形回帰やロジスティック回帰を含む概念であるGLMを考案した。

1970年代の終わりまでに、データから学習する多くの技術が利用可能となったが、そのほとんどが線形的な手法であった。なぜなら非線形の関係は、当時のコンピュータでは実現できなかったからである。1980年代にはコンピュータの技術がかなり改善し、非線形の手法も可能となった。1980年代中盤に、Breiman, Friedman, Olshen, Stoneは分類木(classification trees)と回帰木(regression trees)を導入し、クロスバリデーションの説明を行った。HastieとTibshiraniは1986年に、GLMの非線形への拡張であるGAM(generalized additive models)を考案した。その頃から、機械学習等の出現に触発され、統計的学習は統計の新しいサブ分野として登場した。それは、教師ありと教師なしのモデリングと予測にフォーカスしたものである。近年、統計的学習は、Rのようなパワフルで比較的ユーザーフレンドリーなソフトウェアが利用可能となったことで、注目を集めている。

本書

本書は以下の4つを前提に基づく。

1.多くの統計的学習の手法は、広範囲のアカデミックとノンアカデミックの分野に関連し、役立つものである。すべての可能なアプローチを考えることを試みるのではなく、幅広に利用可能だと考えられる手法にフォーカスした。

2.統計的学習は一連のブラックボックスと見るべきではない。全ての可能な応用で良いパフォーマンスをもたらす唯一のアプローチは存在しない。箱の中の歯車すべてを理解することなくして、ベストな箱を選ぶことはできない。したがって、モデル、直感、前提、そして考慮する各種法にあるトレードオフを注意深く描写することを試みた。

3.各歯車で何が実行されているかを知ることは重要であるが、箱の中の機械を作るスキルは不要である。故に、フィッティング手順や理論的性質に関係する技術的な詳細の議論は最小限にとどめている。読者は基本的な数学的概念は理解できるものと想定するが、数学の大学院レベルを想定するものではない。

4.読者は、統計的学習の手法をリアルワールドの問題に応用することに興味を持っていると想定している。これを促進するために、各セクションにRのコマンドを載せている。

想定する読者

科学者、エンジニア、データ分析者、クオンツ等。

本書の構成

第2章は、統計的学習の基本的な用語や概念を導入する。第3章と4章は、回帰と分類の伝統的な線形手法をカバーする。第5章は、クロスバリデーションとブートストラップ。第6章は、ステップワイズ選択、リッジ回帰、主成分回帰、部分的な最小二乗法、ラッソ等の標準的な線形回帰を潜在的に改善したモデルを考える。第7章では、非線形な手法を導入する。第8章では、バギング、ブースティング、ランダムフォレスト等の樹形モデルを考える。そして、第9章ではサポートベクターマシーン。最後の第10章では、インプット変数しかない状況を考え、特に主成分分析、K近傍法、階層的クラスタリングを説明する。


なお、本書のRコードを実行するには、ISLRのパッケージに含まれるデータ(もしくはMASS)が必要である。

プロフィール

actuaryjp

九大数学科卒業後、東京で就職。年金アクチュアリーを目指す。3年目でアクチュアリー会正会員に。

28歳の時、国際アクチュアリー大会で論文発表。当時の英語力はTOEIC400点程度。当然、撃沈。でも、海外アクチュアリーの論文発表に魅せられ、必死に英語を勉強。

29歳の時、再び国際大会での論文発表に挑む。僕の論文に対してコメントをくれた人-それが、米国アクチュアリー会の元会長のRob Brown。

30歳の時、Robのいるウォータールー大学アクチュアリー学科の大学院に入学。32歳で帰国。

年金数理人497号。CERA第一期生。アクチュアリー受験研究会会長。
http://pre-actuaries.com/

※このブログは個人的なものです。

Amazonライブリンク
記事検索
  • ライブドアブログ