An Introduction to Statistical Learningのイントロ部分の要約です。

統計的学習の概要

統計的学習とは、データを理解するための多様なツールのこと。これらのツールは「教師あり」と「教師なし」に分類される。

給与のような連続的で定量的な目的変数の予測を伴うものを、回帰問題(regression problem)と呼ぶ。一方、カテゴリー変数や定性的な目的変数の予測は、分類問題(classification problem)と呼ぶ。分類問題の例示として取り上げられているのは、株価の上昇、下落の予測。

回帰問題、分類問題はインプットとアウトプットの変数があるケースだが、インプットの変数しか観測できないシチュエーションもある。例えば、マーケティングにおける顧客の属性情報のように。この場合、アウトプット変数を予測するのではなく、個人をグルーピングすることで似た顧客のタイプを理解することが目的。これをクラスタリング問題(clustering problem)と呼ぶ。

統計的学習の簡単な歴史

統計的学習という用語はかなり新しい。19世紀の初めにLegendreとGaussが最小二乗法に関する論文を発表した。これが、定量的な変数の予測に用いられる線形回帰の始まり。人の生死のような定性的な変数の予測には、Fisherが1936年に考案したLDA (Linear Discriminatnt Analysis) や1940年代に生まれたロジスティック回帰を用いる。1970年代前半に、NelderとWedderburnが、線形回帰やロジスティック回帰を含む概念であるGLMを考案した。

1970年代の終わりまでに、データから学習する多くの技術が利用可能となったが、そのほとんどが線形的な手法であった。なぜなら非線形の関係は、当時のコンピュータでは実現できなかったからである。1980年代にはコンピュータの技術がかなり改善し、非線形の手法も可能となった。1980年代中盤に、Breiman, Friedman, Olshen, Stoneは分類木(classification trees)と回帰木(regression trees)を導入し、クロスバリデーションの説明を行った。HastieとTibshiraniは1986年に、GLMの非線形への拡張であるGAM(generalized additive models)を考案した。その頃から、機械学習等の出現に触発され、統計的学習は統計の新しいサブ分野として登場した。それは、教師ありと教師なしのモデリングと予測にフォーカスしたものである。近年、統計的学習は、Rのようなパワフルで比較的ユーザーフレンドリーなソフトウェアが利用可能となったことで、注目を集めている。

本書

本書は以下の4つを前提に基づく。

1.多くの統計的学習の手法は、広範囲のアカデミックとノンアカデミックの分野に関連し、役立つものである。すべての可能なアプローチを考えることを試みるのではなく、幅広に利用可能だと考えられる手法にフォーカスした。

2.統計的学習は一連のブラックボックスと見るべきではない。全ての可能な応用で良いパフォーマンスをもたらす唯一のアプローチは存在しない。箱の中の歯車すべてを理解することなくして、ベストな箱を選ぶことはできない。したがって、モデル、直感、前提、そして考慮する各種法にあるトレードオフを注意深く描写することを試みた。

3.各歯車で何が実行されているかを知ることは重要であるが、箱の中の機械を作るスキルは不要である。故に、フィッティング手順や理論的性質に関係する技術的な詳細の議論は最小限にとどめている。読者は基本的な数学的概念は理解できるものと想定するが、数学の大学院レベルを想定するものではない。

4.読者は、統計的学習の手法をリアルワールドの問題に応用することに興味を持っていると想定している。これを促進するために、各セクションにRのコマンドを載せている。

想定する読者

科学者、エンジニア、データ分析者、クオンツ等。

本書の構成

第2章は、統計的学習の基本的な用語や概念を導入する。第3章と4章は、回帰と分類の伝統的な線形手法をカバーする。第5章は、クロスバリデーションとブートストラップ。第6章は、ステップワイズ選択、リッジ回帰、主成分回帰、部分的な最小二乗法、ラッソ等の標準的な線形回帰を潜在的に改善したモデルを考える。第7章では、非線形な手法を導入する。第8章では、バギング、ブースティング、ランダムフォレスト等の樹形モデルを考える。そして、第9章ではサポートベクターマシーン。最後の第10章では、インプット変数しかない状況を考え、特に主成分分析、K近傍法、階層的クラスタリングを説明する。


なお、本書のRコードを実行するには、ISLRのパッケージに含まれるデータ(もしくはMASS)が必要である。