統計的学習とは何か

An Introduction to Statistical Leaningの第2章の要約です。

2.1 統計的学習とは何か

Yを目的変数、X=(X1, X2, ..., Xp)を予測変数とし、Y=f(X)+ε を考える。統計的学習は、fを推定する一連のアプローチのことである。

2.1.1 なぜfを推定するのか

それは、予測(prediction)と推論(inference)のためである。
多くのケースにおいて、Xは簡単に手に入り、Yは難しい。このような場合、Xからfを用いてYを予測する。Yの予測の正確性は、削減可能な誤差(reducible error)と削減不能な誤差(irreducible error)に依存する。完全なfを推定することはできないが、最も適切な統計的学習の技術を使うことで、fの精度を向上させることができる。これが削減可能な誤差である。一方、Yはεを含むので、fの精度を上げたとしても誤差が残る。これが、削減不能な誤差である。本書では、削減可能な誤差を最小化するためのfの推定方法にフォーカスする。
また、X1, X2,...,Xpが変化したときにYがどのように影響するのかに興味があることもある。この場合の目標は、Yの予測ではなく、XとYの間の関係性を理解することにある。つまり、「どの予測変数が目的変数と関連するのか」「個々の予測変数と目的変数の関係性は」「個々の予測変数と目的変数の関係は線形式を用いて十分にようやくできるか」にこたえる必要がある。
最終的な目標が、予測なのか推論なのか、もしくはその組み合わせなのか。状況に応じて、fを推定する異なる手法が用いられる。

2.1.2 どのようにfを推定するのか

パラメトリックとノンパラメトリック。
パラメトリックの場合、2ステップのモデルベースのアプローチとなる。まず、fの関数形式を決める。例えば、線形回帰。次に、訓練データを用いてモデルをフィットする。線形回帰であれば、パラメータ推定のこと。
ノンパラメトリックの場合、明示的な関数形式でfを表現しない。その分、パラメトリックアプローチよりも潜在的に予測精度は向上する。一方、fを正確に予測するには大量の観測値が必要となるというデメリットもある。

2.1.3 予測精度とモデルの解釈可能性のトレードオフ

線形回帰はフレキシブルなモデルではないが、解釈は簡単である。ラッソは線形モデルに依拠しているが、パラメータの推定方法が違う。その推定手順は制限的であり、線形回帰よりもフレキシブルではないが、解釈しやすい。一般化加法モデル(GAM)は、線形モデルを非線形の関係まで許容するように拡張したモデルであり、線形回帰よりもよりフレキシブルである。最後に、バギング、ブースティング、サポートベクターマシーンは完全な非線形のモデルである。
推論が目標の場合、簡単で比較的フレキシブルでない統計的学習手法を用いることにメリットがある。一方、予測にしか興味がない場合は、最もフレキシブルなモデルを使うことがベストであると考えるかもしれないが、驚くことにいつもそうとは限らない。あまりフレキシブルでない方法を用いてより正確な予測ができることもある。これは、直観に反するように一見思えるが、潜在的なオーバーフィッティングの問題と関係している。

2.1.4 教師ありと教師なしの学習

以上は、教師あり学習の説明。すなわち、個々のXの観測値に関連するYの観測値があるケースである。
一方、教師なし学習はもっとチャレンジングな状況であり、Yの観測値が存在しないケース。このような状況では線形回帰を用いることはできない。でも、Xの観測値の間の関係性を理解することはできる。これらの手法をクラスタリングと呼ぶ。クラスタリングの目的は、Xの観測値を異なるグループに分割できるか否かを確かめることにある。

2.1.5 回帰と分類の問題

変数は、定量的もしくは定性的(カテゴリカル)で特徴づけできる。定量的な応答変数の場合は回帰問題、定性的な応答変数の場合は分類問題とする傾向がある。


統計的学習のイントロ

An Introduction to Statistical Learningのイントロ部分の要約です。

統計的学習の概要

統計的学習とは、データを理解するための多様なツールのこと。これらのツールは「教師あり」と「教師なし」に分類される。

給与のような連続的で定量的な目的変数の予測を伴うものを、回帰問題(regression problem)と呼ぶ。一方、カテゴリー変数や定性的な目的変数の予測は、分類問題(classification problem)と呼ぶ。分類問題の例示として取り上げられているのは、株価の上昇、下落の予測。

回帰問題、分類問題はインプットとアウトプットの変数があるケースだが、インプットの変数しか観測できないシチュエーションもある。例えば、マーケティングにおける顧客の属性情報のように。この場合、アウトプット変数を予測するのではなく、個人をグルーピングすることで似た顧客のタイプを理解することが目的。これをクラスタリング問題(clustering problem)と呼ぶ。

統計的学習の簡単な歴史

統計的学習という用語はかなり新しい。19世紀の初めにLegendreとGaussが最小二乗法に関する論文を発表した。これが、定量的な変数の予測に用いられる線形回帰の始まり。人の生死のような定性的な変数の予測には、Fisherが1936年に考案したLDA (Linear Discriminatnt Analysis) や1940年代に生まれたロジスティック回帰を用いる。1970年代前半に、NelderとWedderburnが、線形回帰やロジスティック回帰を含む概念であるGLMを考案した。

1970年代の終わりまでに、データから学習する多くの技術が利用可能となったが、そのほとんどが線形的な手法であった。なぜなら非線形の関係は、当時のコンピュータでは実現できなかったからである。1980年代にはコンピュータの技術がかなり改善し、非線形の手法も可能となった。1980年代中盤に、Breiman, Friedman, Olshen, Stoneは分類木(classification trees)と回帰木(regression trees)を導入し、クロスバリデーションの説明を行った。HastieとTibshiraniは1986年に、GLMの非線形への拡張であるGAM(generalized additive models)を考案した。その頃から、機械学習等の出現に触発され、統計的学習は統計の新しいサブ分野として登場した。それは、教師ありと教師なしのモデリングと予測にフォーカスしたものである。近年、統計的学習は、Rのようなパワフルで比較的ユーザーフレンドリーなソフトウェアが利用可能となったことで、注目を集めている。

本書

本書は以下の4つを前提に基づく。

1.多くの統計的学習の手法は、広範囲のアカデミックとノンアカデミックの分野に関連し、役立つものである。すべての可能なアプローチを考えることを試みるのではなく、幅広に利用可能だと考えられる手法にフォーカスした。

2.統計的学習は一連のブラックボックスと見るべきではない。全ての可能な応用で良いパフォーマンスをもたらす唯一のアプローチは存在しない。箱の中の歯車すべてを理解することなくして、ベストな箱を選ぶことはできない。したがって、モデル、直感、前提、そして考慮する各種法にあるトレードオフを注意深く描写することを試みた。

3.各歯車で何が実行されているかを知ることは重要であるが、箱の中の機械を作るスキルは不要である。故に、フィッティング手順や理論的性質に関係する技術的な詳細の議論は最小限にとどめている。読者は基本的な数学的概念は理解できるものと想定するが、数学の大学院レベルを想定するものではない。

4.読者は、統計的学習の手法をリアルワールドの問題に応用することに興味を持っていると想定している。これを促進するために、各セクションにRのコマンドを載せている。

想定する読者

科学者、エンジニア、データ分析者、クオンツ等。

本書の構成

第2章は、統計的学習の基本的な用語や概念を導入する。第3章と4章は、回帰と分類の伝統的な線形手法をカバーする。第5章は、クロスバリデーションとブートストラップ。第6章は、ステップワイズ選択、リッジ回帰、主成分回帰、部分的な最小二乗法、ラッソ等の標準的な線形回帰を潜在的に改善したモデルを考える。第7章では、非線形な手法を導入する。第8章では、バギング、ブースティング、ランダムフォレスト等の樹形モデルを考える。そして、第9章ではサポートベクターマシーン。最後の第10章では、インプット変数しかない状況を考え、特に主成分分析、K近傍法、階層的クラスタリングを説明する。


なお、本書のRコードを実行するには、ISLRのパッケージに含まれるデータ(もしくはMASS)が必要である。

アクチュアリー実務における予測モデル



今年の年次大会で紹介した本の第2分冊です。本書の背景を説明した序文の一部を訳読してみました。

=== 以下、訳読 ===

1983年に、米国アクチュアリー会(SOA)と損保アクチュアリー会(CAS)は回帰分析と時系列解析に基づくコースが基礎的な教育要件の一部を為すと発表した。その発表以降のアクチュアリー世代は、これらの基本的な応用統計学のツールの訓練を受けている。この2冊は、これらの訓練の上に築かれたもので、予測モデリングの基礎を発展させ、また対応するアクチュアリアル・サイエンス、リスクマネジメント、そして保険での応用事例を提供するものである。

このシリーズは、今日におけるデータマイニングの技術や予測モデリングに関する知識をリフレッシュすることを望む実務アクチュアリーのために執筆されたものである。ほとんどすべての国際的なアクチュアリー団体は、現在その会員に対して継続教育を要求している。それ故に、競争的なプレッシャーに応えることに加え、自身の継続教育のため、アクチュアリーにはこれらの本のような教材が必要となる。さらに、これらの本は専門的な認証評価(VEE)の取得を望む実務アクチュアリーのために開催されるセミナーでも利用可能である。

第1分冊では、予測モデリングの基礎を展開した。回帰分析や時系列解析の手法の復習から始まり、特にアクチュアリー実務で有用な高度な予測モデリングの技術について段階を追って紹介した。読者は、一般化線形モデルや縦断的解析、頻度/重症度とファットテールのデータを含む複数の統計的トピックスの専門的知識を得ることになる。読者は主に専門的なアクチュアリーであるが、この本はテキスト的なアプローチをとっている。そして、本分冊も継続教育に有用である。

国際的な執筆者チーム(7か国、3大陸)は第1分冊を2014年に作成した。第1分冊の詳細は以下のサイトを参照のこと。
http://research.bus.wisc.edu/PredModelActuaries

第2分冊は、主にケーススタディを通じて、損害保険に注目し、予測モデルの応用事例を調査した。ケーススタディは、伝統的な自己学習や講義/作業形式よりも、リアルワールドのアクチュアリー業務に近い学習体験を提供するものである。複数の分析技術を統合することができ、また代わりに、一つの実務エリアで通常用いられる手法が他のエリアで価値を持ち得ることを説明している。実務アクチュアリーは、これらの価値を説明する文脈で多様な技術を体験することができる。アカデミックアクチュアリーや学生は、第1分冊で示された理論的な教材の有効な応用事例の存在を見ることができる。第1分冊と同様、読者が触りながら理解できるように、本シリーズのウェブサイトで広範囲にわたるサンプルデータと統計コードを公開している。

livedoor プロフィール
Amazonライブリンク
記事検索
  • ライブドアブログ