2024年07月18日
LLMの隠れ層から安価なHallucination検出 Semantic Entropy Probes
Tweet |
LLMのハルシネーションを検出するには複数の回答を生成し、同じ意味同士をまとめて一致するかを意味エントロピー(SE)で評価するのが有効だが高コストだった。代わりにSEは隠れ層から線形回帰で高精度で予測できる。LLMは生成前から自分が知っていないことを知っている https://t.co/pbsAzWzWiJ
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) June 25, 2024
Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs
Jannik Kossen, Jiatong Han, Muhammed Razzak, Lisa Schut, Shreshth Malik, Yarin Gal OATML
arXiv preprint arXiv:2406.15927 (2024).
LLMのHallucinationに対処するために、様々なアプローチが提案されています。
中心となる考え方は、モデルが答えを知っていれば、一貫して同じ答えを返すというものです。
モデルがHallucinationを起こしている場合、その応答は異なる場合があります。
「フランスの首都は何ですか?」というプロンプトが与えられた場合、答えを知っているLLMは一貫して(パリ、パリ、パリ)を出力しますが、
答えを知らないLLMは(ナポリ、ローマ、ベルリン)を出力する可能性があり、これはHallucinationを示しています。
LLM が答えに確信を持っている場合、LLM は一貫して正しい応答を提供します。逆に、不確実な場合は、恣意的な答えを生成します。これは、モデルの不確実性を利用して幻覚を検出出来る事を示唆しています。
ただし、トークンレベルの確率を使用して不確実性を直接推定する事は出来ません。
トークンの異なるシーケンスが同じ意味を伝える可能性があるためです。たとえば、「パリ」、「パリです」、「フランスの首都はパリです」という答えはすべて同じ意味です。
これに対処するために、Farquhar [Semantic uncertainty: Linguistic invariances for uncertainty estimation in natural language generation.]らは、出力を同等の意味のセットにクラスタ化し、意味空間の不確実性を推定する意味エントロピー(SE)を提案しています。
SE やその他のサンプリングベースのアプローチの主な制限は、入力クエリ毎に複数のモデル生成 ( 5 〜 10 回) が必要になる事です。これにより、SE を使用しない単純な生成に比べて 5 〜 10 倍のコストが発生し、これらの方法の実際の導入に大きな障害となります。
LLM で信頼性の高いHallucination検出を行うには、計算コストの低い方法が必要です。
本研究では、LLM の隠れ状態から意味的不確実性を捕捉する線形プローブであるSemantic Entropy Probes(SEP) を提案し、コスト効率が高く信頼性の高い幻覚検出方法を提示します。
SEP は、プローブとサンプリングベースのHallucination検出の利点を組み合わせたものです。
他のプローブ手法と同様に、SEP は学習が簡単で、導入コストが安く、単一のモデル生成の隠れ状態に適用出来ます。サンプリング ベースの幻覚検出と同様に、SEP はモデルの意味的不確実性を捕捉します。
3 Semantic Entropy言語モデルによって出力されるトークンの不確実性は、意味の不確実性(生成の意味の不確実性)と語彙および構文の不確実性(回答の表現方法の不確実性)を混同するため、誤解を招く可能性があります。
この問題に対処するために、Farquhar らは、意味的等価性のクラスター全体にわたってトークンレベルの不確実性を集約する意味エントロピーを提案しています。
意味エントロピーは、隠れ状態 SEP プローブを学習するための監視信号として使用するため、この論文の文脈では重要です。
意味エントロピーは3つのステップで計算されます。
(1) 与えられたクエリxに対してLLMからのサンプルモデル補完
(2) 出力を同じ意味のクラスターに集約する C1,...,Ck
(3)各クラスター内の不確実性を集約する事によって意味エントロピーを計算する
(2)(3)については以下に説明する。
(2)Semantic Clustering
同じ意味を伝えているかどうかを判断するために、DeBERTaなどの自然言語推論(NLI)モデルを使用します。
(3)Semantic Entropy
入力コンテキストxが与えられた場合
トークン(t1,...tn)で構成されるsの結合確率は、
シーケンス内の条件付きトークン確率の積で与えられれ、
意味クラスターの確率Cはそのクラスターに属するすべての可能な出力の総確率であり、
p(C|x)=Σs∈C p(s|x)
意味クラスターの分布に関連する不確実性は意味的エントロピーである。
H(C|x)=Ep(C|x)[-log p(C|x)]
Estimating SE in Practice
実際には、上記の値を正確に計算する事は出来ません。
トークンシーケンスの可能な数はシーケンスの長さに応じて指数関数的に増加するためです。
意味エントロピーを次のように近似します。
ここでは、トークン確率にアクセスせずに良好なパフォーマンスを発揮し、ブラックボックスモデルと互換性のあるSEの離散バリアントを採用した追加の近似を使用します。
離散SEバリアントの場合、クラスター確率をそのクラスター内の生成の割合として推定し、結果のカテゴリ分布のエントロピーとして意味エントロピーを計算します。
4 Semantic Entropy Probes意味エントロピーはHallucinationの検出に効果的ですが、計算コストが高いため、最も重要なシナリオにしか使用出来ない可能性があります。
このセクションでは、 LLMでコスト効率が高く信頼性の高い不確実性定量化のための新しい方法であるSemantic Entropy Probes(SEP)を提案します。
SEPは、セマンティックエントロピーを捕捉するためにLLMの隠れた状態で学習された線形プローブです。
しかし、意味エントロピーや他のサンプリングベースのアプローチとは異なり、SEP は単一のモデル生成の隠れた状態に作用し、テスト時にモデルから複数の応答をサンプリングする必要はありません。
したがって、SEP は、テスト時の意味的不確実性推定の計算オーバーヘッドをほぼ完全に排除する事で、意味的不確実性の定量化という重要な実際的な問題を解決します。
さらに、SEP は、モデルの精度を直接予測するように学習されたプローブよりも有利であると主張します。
これに対する研究のアイデアは、意味エントロピーは、隠れ状態にエンコードされるべきモデルの固有の特性であり、したがって、潜在的にノイズの多い外部情報に依存する真実性よりも抽出が容易であるはずだという事です。
SEP は線形ロジスティック回帰モデルとして構築され、意味エントロピーを予測するためにLLMの隠れ状態で学習されます。
データセット ( hlp(x) , HSE(x) )
hlp(x) トークン位置pと層lにおけるモデルの隠れ状態です。
x 入力クエリー
HSE(x) 意味エントロピーです
入力クエリxが与えられた場合まず貪欲サンプリングによって尤度の高いモデル応答を生成し、特定の層とトークンの位置に隠れ状態を保存します。
入力については、一般的な QA データセットからの質問に依存しますが、これらのデータセットによって提供される真のラベルは必要なく、代わりに適切な LLM 入力のラベルなしセットの意味エントロピーを計算する事も出来ます。
意味エントロピースコアは実数です。
ただし、この研究では、意味エントロピーが高いか低いかを示す2値ラベルに変換し、ロジスティック回帰分類器を学習してこれらのラベルを予測します。
これを行う理由は 2 つあります。1 つは、最終的にはバイナリモデルの正確さを予測するためにプローブを使用したいため、いずれにしてもバイナリ分類器を構築する必要がある事です。
さらに、SEP プローブと精度プローブのパフォーマンスを比較したいと考えています。
両方のプローブがバイナリ分類の問題を対象としている場合は、これが簡単になります。
.................
.................
5 Experiment Setup
TriviaQA , SQuAD , BioASQ , NQ OpenデータセットでSEPを評価します。
これらのタスクの入力クエリを使用して SEP の学習 セットを導出し、検証/テストセットで各方法のパフォーマンスを評価し、必要に応じて分割します。
短い形式の回答は、LLM に「出来るだけ短く」回答するように促す事によって生成され、長い形式の回答は「1 つの簡潔だが完全な文」を求める事によって生成され、生成されるトークンの数が約 6 倍に増加します。
短い形式はLlama-2 7B and 70B , Mistral 7B , Phi-3 Mini , DeBERTa-Large
長い形式はLlama-2-70B または Llama-3-70B, GPT-3.5を使用して含意を予測します。
.................重要な点として、プローブを難しい一般化設定で評価し、学習されていないタスクでテストします。この設定は、ほとんどの展開シナリオで入力が学習分布と完全に一致する事はほとんどないため、分布内のプローブを評価するよりもはるかに現実的です。
.................
7 SEPs Are Cheap and Reliable Hallucination Detectors
p(true)はプロンプトの構築には少数のサンプルに依存しますが、そのパフォーマンスは通常、プロンプト データのタスクの起源によって影響を受けない事がわかります。
.................
ここでの SEP のパフォーマンスは称賛に値します。
SEP は、グラウンドトゥルースの回答や精度ラベルなしで学習されていますが、それでも真実性を捉える事が出来ます。知る限りでは、他の教師なし手法の真実性予測の問題を考慮すると、SEPは、分布内であっても幻覚検出のための最良の教師なし手法である可能性があります。
新しいタスクへのプローブの一般化を評価する場合、SEP は真の強みを発揮します。
一般化設定では、短縮形生成の場合、SEP はさまざまなレイヤーとタスクにわたって、一貫して精度プローブよりも優れています。
全体として、今回の結果は、特にクエリデータの分布が不明な場合、LLM でのコスト効率の高い不確実性定量化には SEP が最良の選択である事を明確に示唆しています。
.................Hallucinationを検出するという点で、SEP は精度プローブよりも、目に見えないタスクからの入力によく一般化する事を示します。
.................
8 Discussion, Future Work, and Conclusions.
これに対する 1 つの考えられる説明は、意味的不確実性は、モデルの隠れた状態からよりよく予測出来る、よりモデル内部の特性であるため、真実性よりも意味的不確実性の方がプローブのターゲットとして適しているという事です。
OOD の一般化におけるギャップのもう 1 つの説明として、精度プローブがモデルの正確性を学習データセットに固有の方法で捕捉している可能性が考えられます。
プローブは、モデルの正確性に関する識別機能にとらわれますが、これは手元のタスクに関連していますが、一般化されません。
たとえば、精度が高いか低いかの知識ドメインを特定するなどですが、これは学習 データ以外ではほとんど発生しません。
逆に、セマンティック プローブは、クエリに関連する事実や属性を収集出来なかった事による不確実性など、より固有のモデル状態を捕捉する場合があります。
メカニズムの解釈可能性に関する文献は、そのような情報はモデルの隠れた状態に含まれている可能性が高いという考えを支持しています。