2024年08月02日
LLM出力の可読性を向上させるための証明者-検証者ゲーム
Tweet |
OpenAI、AIに人間にも分かりやすく説明させるアルゴリズムを提案https://t.co/9q69WRMfSc
— ITmedia NEWS (@itmedia_news) July 18, 2024
この学習方法は「Prover-Verifier Games(証明者,検証者ゲーム)」ですが、
エージェントが 証明者,検証者2者と言うよりは、むしろ3者あると言った方が良いのではないでしょうか?
人間にも分かりやすく説明させるためには、証明者が2パターン無いと、分かりやすい説明を出来るようにはならない...
Prover-verifier games improve legibility of llm outputs
Jan Hendrik Kirchner, Yining Chen, Harri Edwards, Jan Leike, Nat McAleese, Yuri Burda OpenAI
arXiv preprint arXiv:2407.13692 (2024).
1 Introduction機械学習システムがより重要な分野で利用されるようになると、その出力を信頼出来る理由を正当化し、信頼すべきでないケースを明確にする事がますます重要になります。
複雑なシステムの出力に対する信頼を獲得する 1 つの方法は、システムがその出力について、人間または別の信頼出来るシステムに判読可能な説明を生成する事を要求する事です。
本稿では、有能な LLM の出力を人間にとってより判読しやすいものに出来るかどうかを問います。
1 つの直接的なアプローチは、人間からのフィードバック (RLHF) を介してモデル出力を判読性に合わせて最適化する事ですが、これには限界があります。
本研究では補完的なアプローチを採用し、より大きなLLM証明者を最適化して、より小さなLLM検証者によってチェック可能な思考連鎖(Chain-of-Thought (CoT))ソリューションを生成する事で、人間にとってより判読しやすいものになるかどうかを問います。
- 完全性 関心領域内の任意の入力に対して、役立つ証明者は正しいソリューションを生成し、検証者はそれを正しいものとして受け入れます。
- 健全性 検証者は、役立つものと同じモデルクラスの敵対的証明者によって生成されたすべての誤ったソリューションを拒否します。
.................
実際には、モデルも人間も完全に完全または健全であるとは期待出来ません。
完全性の代わりに、有用な証明者には高い合格率があり、検証者は有用なサンプルに対して高いリコールを持つ事を期待します。
完全な健全性の代わりに、検証者は限られた量の最適化を通じて生成された敵対的入力に対して低い偽陽性率を持つ事を期待します。
このような限定された完全性と健全性の特性を持つ有用な証明者と検証者が見つかった場合、有用な証明者は検証者にとって判読可能であると言います。
これは、人間が出力を正しいと受け入れ、見た目が似ている誤った出力に騙されない場合、出力は人間にとって判読可能であると言う事に似ています。
証明者が検証者の戦略を条件として最善の対応戦略を実行すると仮定して検証者が最初に動くゲームのバージョンを定式化し(つまり、検証者が「リード」し、証明者が「フォロー」する)
制約のないモデルクラスを持つ証明者の場合、検証者主導の シュタッケルベルグ均衡を見つける事は、検証者に関して完全に判読可能なプロトコルを見つける事と同等である事を示します(定理 1)。
本研究の反復アルゴリズムは、そのバージョンのゲームにヒントを得たものですが、実際にはより優れた収束特性を持つ損失を最適化します。
実際には、検証言語モデルと証明言語モデルを交互に訓練し、既知の正解を持つ小学校の数学問題のサブセットに対して、役に立つhelpfulか、またはこっそりsneaky行動するように促します。
各ラウンドではまず、教師あり学習を使用して検証者を学習し、前のラウンドの証明者からサンプリングされたソリューションの正確性を予測します。
次に、ソリューションの正確性と現在のラウンドの検証者の受け入れ率 (「説得力」) を組み合わせた報酬に関して強化学習を使用して証明者を最適化します。
証明者は、「役に立つ」と「こっそり」から均一にサンプリングされた役割を条件としています。
役に立つ役割では、説得力があり正しい事に報酬を与えます。
こっそりした役割では、説得力があり間違っている事に報酬を与えます。
証明者を解の正しさのみに最適化すると、小学校の数学の問題で高いパフォーマンスを達成出来ます。ただし、モデルによって生成される解は人間が書いた解とは大きく異なるため、人間にとっては評価が困難です。
2 Related workこの学習設定は、NP の検証プロトコルの学習に最も似ています。より多くのインタラクションを許可すると、PVG 設定を対話型証明に拡張出来ます
Computational complexity.
.................
.................
3 Setup一般的に、グラウンドトゥルース回答 (x,y) を持つ問題のデータセットを検討します。ここで、x は問題文を表し、y=y(x) は既知で一意のグラウンド トゥルース回答を表します。
問題 x に対する提案されたソリューション z と最終回答が与えられた場合、1correct(x,z) を正解インジケーターとします。
ソリューションが y(x) と同じ回答を提案する場合は 1、そうでない場合は 0 になります。
小学校数学 (GSM) の問題で 1correct(x,z) を評価するために、SymPy 採点器を使用します。
問題文が与えられた場合に解決策を提案する証明者π(z|x)と、解決策の答えの正しさを推定する検証者v(x,z)∈[0,1]があります。
検証者の出力を説得力スコアと呼びます。
.................
.................
3.2 Checkability training最も注目すべきは、各ソリューションの絶対損失ではなく、各質問の正解と不正解の比較に基づく相対損失を使用して検証者を学習する事です。
証明者の報酬 r については、検証者のスコア v と役割の調整 q を異なる方法で優先する 3 つのバリアントがあります。証明者と検証者はどちらも GPT4 ファミリーです。
証明者と検証者は、人間が書いた証明や導出を含む、保持分布からの様々な数学データで軽く微調整された様々なサイズのモデルで初期化されます。
まず、GSM データセットを使用してChatGPTから合成生成され検証された100kデータポイント増やします。
サンプル効率によってボトルネックにならないようにデータセットを大きくし、学習のダイナミクスに焦点を当てました。
元のテストセットの精度は、実際のデータと合成データの使用によって影響を受けない事を検証しました。
次に、学習データセットをランダムに2つの同じ大きさのサブセットそれぞれ検証者、証明者の学習に使用されるに分割しました。
このようにして、検証者と証明者が同じプロンプトで最適化される事はありません。
学習は複数のラウンドで進行し、各ラウンドで検証者の学習フェーズが証明者の学習フェーズに先行します。
ラウンド間の唯一の変更は検証者の学習に使用されるデータ混合であり、モデルの重みなどの他の状態はラウンド間で引き継がれません。
証明者π検証者の学習のためのソリューションのサンプリングには、最初の基本証明者と前のラウンドの証明者の混合が使用されます。
各証明者は、正しいソリューションと間違ったソリューションの数が同じになるようにバランスが取れています。
前の各ラウンドは、混合比が等しく、ハイパーパラメータとして調整されています。
ラウンド 0 では、ソリューションは、少数のプロンプトを介してサンプリングされた基本証明者からのものです。
学習の後のラウンドでは、ソリューションの一部を新しい証明者からのソリューションに置き換えます。
4 Results正確さだけを目標として証明者を最適化すると、小学校の算数の問題で優れたパフォーマンスが得られますが、結果として得られた証明者のサンプルを調べると、証明者が各問題を複数の方法で解くため、ソリューションが長くなり、学習の後半では、正しい答えを生成しているにもかかわらず、ほとんど理解出来ない状態になります。
4.1 Baseline: Direct Optimization for Correctness
正確性のみを目的に学習した場合モデルは、人間が評価するのに苦労する、有用だが理解しにくいソリューションを生成します。
4.2 Dynamics of checkability training読みやすさを維持しながらパフォーマンスを向上させる事が可能かどうかを調べるために、拡張されたGSMデータセットでチェック可能性の学習を数回実行しました。
証明者学習 フェーズの各ラウンドでは、sneaky証明者とhelpful証明者の両方が、小さな検証者に対する説得力を単調に向上させます。
対照的に、証明者によって生成された正しいソリューションの割合は非単調に変化します。
チェック可能性学習は、helpful証明者が数学の問題を解く能力が向上する一方で、後続のラウンドでsneaky証明者が間違った説得力のある解決策を生み出すのに苦労するという特徴的なダイナミクスを示しています。
4.3.1 The verifier becomes more robust throughout checkability training可読性の要件の 1 つは、sneaky証明者 (helpful証明者と同等の能力を持つ) からの敵対的入力に対する検証者の健全な評価です。
チェック可能性の学習全体を通して、sneaky証明者は非常に説得力のある誤ったソリューションを発見するためにますます多くのステップを必要とします。
ただし、この増加がsneaky証明者とhelpful証明者が重みを共有しているためかどうかは不明です。
そのため、helpful証明者と重みを共有しないsneaky証明者を個別に学習する事で、さまざまな追加攻撃を実行し、検証者が学習中の正確なセットアップを超えて正しい完了と誤った完了を識別出来るようになるかどうかを評価します。
.................
攻撃者がexploitを見つけるまでに要するステップ数が増加しました。
検証者が大きいほど、exploitが困難になります。相対的なサイズの検証者に対しては、sneakyなexploitが見つかりませんでした。
4.3.2 The sneaky prover becomes increasingly subtle throughout checkability training
初期のラウンドの不正解には、多くの場合、複数の明らかな間違いや非論理的な内容が含まれていますが、後のラウンドの不正解には、ますます微妙な欠陥が含まれます。
本研究では小さな検証者に対する敵対的攻撃が人間に伝わるかどうかに興味がありました。
興味深い事に、時間制限のある請負業者にsneakyソリューションを提示すると、正しくラベル付けされたソリューションの割合は比較的高かったものの、ラウンドを通して減少しました。
これは、チェック可能性学習によって生成されたsneaky証明者が、批評モデルの学習のための改ざんモデルとして役立つ可能性がある事を示しています
4.3.3 The helpful prover becomes increasingly legible throughout checkability training
チェック可能性の学習が進むにつれて、helpful証明者が精度の高いソリューションを生成します。
正確性のみの学習とは対照的に 、helpful証明者からのソリューションは学習全体を通じて一貫性を保ちます。
この改善は、証明者が検証者からのフィードバックを効果的に活用して問題解決能力を強化している事を示しています。
5 Alternative rewards
正しさ依存性説得力(CGC)報酬は、説得力よりも正しさと誤りを優先します。
helpful証明者が誤った答えを出した場合(またはsneaky証明者が正しい答えを出した場合)、報酬はペナルティに設定され、それ以外の場合は検証者スコアになります。
CGC報酬は経験的に学習ダイナミクスを悪化させますが、にもかかわらず、この代替報酬定式化は、SRC報酬を使用して訓練された検証者の堅牢性を評価するための強力な攻撃として機能します。
6 Discussion
数学の分野を対象としたのは、自然言語による説明が一般的であり、数学的な結論に対する信頼を築くためにしばしば必要となるためです。
しかし、分野によっては、結論を自然言語による説明で裏付ける事が難しい場合があります。
たとえば、特定の顔を認識する事は人間にとって簡単ですが、特定の顔が特定の人物に属する理由を自然言語で他の人に伝える事は困難です。
この論文では 1 つのデータセットのみで学習するため、ドメイン外一般化については研究していませんが、多様なドメインセットで学習する事で、グラウンドトゥルース ラベルのあるドメインからラベルのないドメインへの良好な一般化につながる可能性があると期待しています。
この論文では、すべての訓練スキームに対してすべてのハイパーパラメータを徹底的に調整したわけではありません。調整した主なハイパーパラメータは、前の各ラウンドのサンプルの比率です。
本研究では全ての問題に対して学習時に正しさラベルが利用可能であるという設定を研究した。
より現実的なシナリオは、すべての回答に信頼出来る最終的な正しさラベルがあるわけではない場合があり、その場合、検証者は一貫性などの教師なし信号に依存する事になります。
もう 1 つの方向性は、判読出来ないソリューションを判読可能なソリューションに変える方法を開発する事です。
モデルが最初に問題を解決するために使用する CoT は、それ自体が小さなモデルには判読出来ませんが、「スクラッチ スペース」CoT をうまく記述された証明に変換する変換モデルを学習出来ます。
このアプローチは、CoT を判読可能なものにするために直接学習するよりも好ましいかもしれません。