2024年08月05日
AI生成データ学習によるAIモデル崩壊現象
Tweet |
実証的にだけではなく、理論的にさえモデル崩壊が起きる事は既に明らかであると示しています。
言語モデルだけではなく、全ての生成モデルで起きそうだと思ったのですが
これらは、同じ研究の事を指しています。
AI models collapse when trained on recursively generated data.
Ilia Shumailov, Yarin Gal University of Oxford
University of Cambridge Zakhar Shumaylov
Yiren Zhao Imperial College London
Nicolas Papernot University of Toronto,Vector Institute
Ross Anderson University of Cambridge, University of Edinburgh
Nature 631,(2024).
ここでは、オンラインで見つかるテキストの多くをLLMが提供したら、GPT-{ n }に何が起こるかを検討します。学習でモデル生成コンテンツを無差別に使用すると、結果として得られるモデルに不可逆な欠陥が発生し、元のコンテンツ分布の裾が消える事が分かりました。
この効果をmodel collapseと呼び、LLMだけでなく変分オートエンコーダー(VAE)やガウス混合モデル(GMM)でも発生する可能性がある事を示しています。本研究では、この現象の背後にある理論的な直観を構築し、学習された全ての生成モデルにそれが遍在している事を示します。
言語モデルだけではなく、全ての生成モデルで起きそうだと思ったのですが
AIモデルのトレーニングにAI生成データを使用するとAIが物事を忘却してしまう「モデル崩壊」が起きるという指摘https://t.co/B7SWrkkbLx
— GIGAZINE(ギガジン) (@gigazine) July 25, 2024
これらは、同じ研究の事を指しています。
AIが生成したデータで訓練したAIモデルは急速に崩壊する|人工知能(AI)モデルをAI生成テキストでトレーニングすると、すぐにモデルが意味不明なテキストを大量に生成するようになることが最新研究で明らかになりました。モデル崩壊と呼ばれるこの共食い現象により、人間がhttps://t.co/n1ZSOuVydz
— サイエンスあれこれ (@sarekore) July 25, 2024
AI models collapse when trained on recursively generated data.
Ilia Shumailov, Yarin Gal University of Oxford
University of Cambridge Zakhar Shumaylov
Yiren Zhao Imperial College London
Nicolas Papernot University of Toronto,Vector Institute
Ross Anderson University of Cambridge, University of Edinburgh
Nature 631,(2024).
ここでは、オンラインで見つかるテキストの多くをLLMが提供したら、GPT-{ n }に何が起こるかを検討します。学習でモデル生成コンテンツを無差別に使用すると、結果として得られるモデルに不可逆な欠陥が発生し、元のコンテンツ分布の裾が消える事が分かりました。
この効果をmodel collapseと呼び、LLMだけでなく変分オートエンコーダー(VAE)やガウス混合モデル(GMM)でも発生する可能性がある事を示しています。本研究では、この現象の背後にある理論的な直観を構築し、学習された全ての生成モデルにそれが遍在している事を示します。
Mainこの論文では、例えばGPT のバージョンによって生成されたテキストが後続のモデルの学習データセットの大部分を占める場合に何が起こるかを調査します。n が増加すると、GPT 世代 GPT-{n} はどうなるでしょうか。
.................
インターネット上でコンテンツを公開するために LLM を大規模に使用すると、後継を学習するためのデータ収集が汚染されます。
What is model collapse?モデル崩壊は、学習された生成モデルの世代に影響を及ぼす退化プロセスであり、生成モデルが生成したデータが次の世代の学習 セットを汚染する事になります。
Definition 2.1 (model collapse)
ここでは、初期モデル崩壊と後期モデル崩壊という 2 つの特殊なケースを区別しています。
初期モデル崩壊では、モデルは分布の裾に関する情報を失い始めます。
後期モデル崩壊では、モデルは元の分布とほとんど似ていない分布に収束し、多くの場合、分散が大幅に減少します。
このプロセスは、世代を超えて蓄積され、元のモデルからの逸脱を引き起こす 3 つの特定のエラーソースによって発生します。
Statistical approximation error. 統計的近似誤差。
サンプル数が有限であるために発生する主なタイプの誤差であり、サンプル数が無限大に近づくにつれて消えます。
Functional expressivity error.関数表現力エラー。
関数近似器の表現力が限られているために生じる二次的なエラーです。簡単な例として、2 つのガウス分布の混合物を 1 つのガウス分布に当てはめようとした場合が挙げられます。
Functional approximation error. 関数近似エラー。
主に学習手順の限界、例えば確率的勾配降下法の構造的偏りや目的の選択から生じます。
近似力を高める事は、諸刃の剣でもあります。表現力が向上すると統計的ノイズが打ち消され、真の分布の近似値が良くなる場合がありますが、ノイズが同様に増大する可能性もあります。
Theoretical intuitionモデル崩壊現象に対する理論的直観を示します。
全体的な確率過程は、生成データによる学習と呼んでおり、次のようになります。
世代iのデータはDiであり、独立した同一分布のランダム変数 Xij で構成され、 分布p i,j ∈{1,…, M i } はデータセットのサイズを示します。
データセットDi+1は異なる世代からの混合で生成されます。
最初のデータ (γi)、前の世代で使用されたデータ (βi)、新しいモデルによって生成されたデータ (αi) の混合に対応します。
Discrete distributions with exact approximationここでは、関数近似と表現誤差がない離散確率分布を考察します。この場合、モデルの崩壊はサンプリングステップの統計誤差によってのみ発生します。
一般的に、確率 q の状態 i を標準的な条件付き確率を使用して考えると、情報を失う確率 (つまり、ある世代でデータをサンプリングしない) は 1-q に等しい事が分かります。
これは、分布が、ある状態に位置するデルタ関数に収束する必要があり、特定の状態に到達する確率は、元の分布からその状態をサンプリングする確率に等しい事を意味します。
これは、マルコフ連鎖として考える事で直接示せます。
さらに、全て同じ値を持つ場合、次の世代では、近似分布はまさにデルタ関数になり、したがって全て同じ値を持つ事になります。これは、マルコフ連鎖に少なくとも 1 つの吸収状態が含まれる事を意味し、確率 1 で、マルコフ連鎖は吸収状態の 1 つに収束します。
Theorem 3.1 (Gaussian model collapse)元のデータは分布 (必ずしもガウス分布ではない) からサンプリングされ、サンプル分散はゼロではないと仮定します。
Xn、固定サンプルサイズで、前の世代の不偏サンプル平均と分散推定値再帰的に近似されると仮定します。
W2は真の分布と世代nにおけるその近似値との間のWasserstein-2距離を表します。
これは、n世代目の近似値が元の近似値から任意に離れるだけでなく、世代数が増えるにつれて確率 1 で分散がゼロに崩壊する事を意味します。結果は離散ケースで見られるものと非常に類似しており、この定理はプロセスが分散がゼロに崩壊し始める後期段階のモデル崩壊の影響を示しています。
Model collapse in language modelsここでは、言語モデルが他のモデルによって生成されたデータで順次fine-tuneされた場合に何が起こるかを調べます。
1 つの中程度の大きさのモデルを学習すると、アメリカ人の生涯の 2 倍の CO2 が排出される事から、このような実験は実行せず、概念実証のためにより現実的な設定に焦点を当てる事にしました。
この論文で説明されている言語実験でさえ、実行に数週間かかった事に注意してください。
ここでのデータは、別の微調整された事前学習済みモデルから取得されます。学習は元の事前学習済みモデルに近いモデルを作成するように制限されており、モデルによって生成されるデータ ポイントは通常非常に小さな勾配を生成するため、微調整後にモデルが中程度にしか変化しないという期待があるかもしれません。
Meta が Hugging Face を通じて提供している OPT-125m 因果言語モデルを wikitext2 データセットで微調整します。
学習済みモデルからのデータ生成には、5 方向ビーム検索を使用します。
元のデータセット全体を調べて全てのブロックを予測するため、モデルのエラーが 0 であれば、元の wikitext2 データセットが生成されます。
各世代の学習は、元の学習 データからの生成から始まります。各実験は 5 回実行され、結果は異なるランダム シードを使用した 5 つの個別の実行として表示されます。
.................
ここで注目すべき重要な点は、観察された動作が「 Theoretical intuition」のセクションで確立された一般的な直観と一致している事です。
正確に言うと、全ての実験において、世代学習は有限(通常は少数)の世代でのみ実行されますが、「理論的直観」のセクションの主張は、主に世代が無限に進むという限界で提示されています。
Discussionモデル崩壊が LLM の基盤となる学習ダイナミクスに与える影響について議論します。
低確率イベントをモデル化する LLM の能力を維持する事は、予測の公平性にとって不可欠です。
このようなイベントは、多くの場合、疎外されたグループに関連します。低確率イベントは、複雑なシステムを理解するためにも不可欠です。
本研究では、LLM などのモデルの学習に関しては「先行者利益」がある事が示唆されています。
別の生成モデルのサンプルで学習すると分布の変化が誘発され、時間の経過とともにモデルの崩壊を引き起こす可能性がある事を実証しています。
.................
全ての実験のコードは公開されています。https://zenodo.org/records/10866595