2024年09月04日

AI中毒の脅威 言語モデルにおけるゴマすりの理解

このエントリーをはてなブックマークに追加
follow us in feedly


参照している文献はどれも1年ぐらい前の研究です。
論文の方には、直接的にはAI中毒とかデジタル愛着障害の様な事は書かれて無いと思いますが...
チャットボットが、レコメンデーションの様な事を無限にし続けられるなら、帰納的にそういう事が起こり得るだろう...と言ってると思います。






まず、この研究では言語モデルが全体的に人間に媚び諂う動作をするよう学習されている事を示します

Towards Understanding Sycophancy in Language Models
Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez  Anthropic
arXiv preprint arXiv:2310.13548 (2024).


RLHFによって言語モデルをfine-tuneしていると、作業者によって評価された出力の品質が向上します。しかしながら、人間の嗜好に基づく学習スキームは、人間の好き嫌いを悪用し、人間の評価者には魅力的だが、不備があったり不正確でだったりする出力を生成する傾向があるとの仮説もあります。

AIアシスタントはどれも、fine-tuneに人間のフィードバックを利用しているため、まず人間のフィードバックがゴマすりに寄与しているかどうかを調べます。
人間の好みの比較データで、阿る応答が媚びない応答よりも高くランク付けされているかどうかを調査します。

ペア毎の好みの比較毎に、言語モデルを使用してテキストラベル (「features」) を生成します。
好ましい応答が好ましくない応答よりも「より真実味がある」か、「あまり断定的ではない}」かなどです。
データによってどのような動作が奨励されているかを理解するために、ベイジアンロジスティック回帰モデルでこれらの機能を使用して人間の好みの判断を予測します。
このモデルは、ユーザーの意見に一致する事が人間の嗜好判断の最も予測的な特徴の 1 つである事を学習し、嗜好データが (他の特徴の中でも) 追従を奨励する事を示唆しています。


嗜好データにおける媚び諂いが AIアシスタントのゴマすりの原因であるかどうかを理解するために、人間の嗜好判断に基づいて部分的にトレーニングされた嗜好モデル (PM) を使用して言語モデルの応答を最適化すると、ゴマすりが増加するかどうかを分析します。
具体的には、RL と上位 N サンプリングを使用して、Claude 2 を学習するために使用された PM に対して応答を最適化します。


最適化を増やすと、一部の形式の媚びは増加しますが、他の形式のゴマすりは減少する事がわかりました。これは、おべっかが PM によって奨励されるいくつかの機能の 1 つにすぎないためである可能性があります。それにもかかわらず、Claude 2 PM は、真実の応答よりもおべっか的な応答を好む場合がある事がわかりました。

最先端の PM が応答が真実かどうかを検出出来るものの、真実性に欠ける阿る応答を依然として優先する場合がある事を示しています



これらの結果を裏付けるために、人間と選好モデルが、ユーザーの誤った信念を強化する説得力のある、よく書かれたモデル応答 (阿る答え) を、ユーザーを訂正する応答よりも好むかどうかを調査します。
ここで、人間と選好モデルは真実の応答を好む傾向があるが、確実ではないという結果が得られ、人間と選好モデルは、時々おべっか応答を好む事が分かります。
これらの結果は、人間の選好を最適化すると、おべっかにつながる可能性があるというさらなる証拠を提供します。

.................

自由形式のテキスト生成タスクにおいて、最先端の AIアシスタント 5 台で一貫したごますりのパターンを特定しました。
具体的には、これらのアシスタントは、ユーザーから質問されたときに間違いを誤って認めたり、予想どおりに偏ったフィードバックを与えたり、ユーザーの間違いを真似したりする事が多い事が示されています。
これらの経験的発見の一貫性は、おべっかが特定のシステムの特異な詳細ではなく、これらのモデルのトレーニング方法の特性である可能性がある事を示唆しています。

全体的に、私たちの研究結果は、媚び諂いが様々なモデルや設定で発生する事を示しています。これは、人間の好みの比較データでゴマすりが好まれる事が一因であると考えられます。










次にこの研究は、ユーザの期待が、AIエージェントの評価を変える事を示します。

Influencing human?AI interaction by priming beliefs about AI can increase perceived trustworthiness, empathy and effectiveness
Pat Pataranutaporn, Ruby Liu, Pattie Maes  Massachusetts Institute of Technology
Ed Finn  Arizona State University
Nature Machine Intelligence volume 5, (2023)



AI システム自体を変更せずにメンタルモデルの主観のみを変更すると、ユーザ体験にどのような影響を与えるでしょうか?
GPT-3、ELIZA、 2 つの AI モデルと 3 つのプライミング条件を使用して実験 (N = 310) を実施しました。
同じ AI 条件下の参加者は全員、まったく同じ AI システムと対話しましたが、参加者を 3 つのグループに割り当て、各グループに異なる設定を与える事で、メンタルモデルに影響を与えました。

1. 動機なし: AI に対する中立的な見方を表し、エージェントは、根本的な意図や目標を持たずにタスクを実行するツールまたはマシンとして認識されます。
2. 思いやり: この条件は AI に対する肯定的な見方を表し、エージェントは善意を持ち、ユーザーの幸福を気遣っていると認識されます。
3. 操作的: この条件は AI に対する否定的な見方を表し、エージェントは悪意を持っており、ユーザーを操作または欺こうとしていると認識されます。私たちの研究では、操作的条件では、AI はユーザーを操作してサービスを購入させようとしていると描写されています。

.................



注目すべき発見は、行動のフィードバックループがある事です。
AI を思いやりがあると認識した参加者の感情は、会話全体を通じて増加傾向を示しました。エージェントを操作的であると認識した参加者の感情は、会話中に大幅に減少しました。
AIが思いやりがあると信じる参加者は、AIエージェントの信頼性、共感、有効性が高まり、参加者は、AIエージェントを、操作条件よりも有意に信頼出来ると評価しました。
エージェントが思いやりがあると信じた人は、エージェントが一般的に役立つ、メンタルヘルスのアドバイスに役立つ、ユーザーの事を知ろうとするという評価が有意に高くなりました。

知覚された動機に基づいてグループ化した場合でも、参加者はエージェントを有意に反復性が低く、意味不明な事を言う可能性が低く、機械ではなく人間に似ていると見なしました。

この結果は、ユーザーのメンタルモデルがエージェントとの体験に強く影響する可能性がある事を示しています。ユーザーをプライミングする事でモデル経験に影響を与える事が出来るという事は、プライミングを通じてユーザーのメンタルモデルに影響を与える事で、ユーザーの体験を変える事が出来る事を意味します。

今回の結果は、人間同士の相互作用の場合にも期待がどのように影響するかにも反映します。
医療提供者への信頼が高い患者は、より良い健康行動、少ない症状、より高い生活の質、治療への高い満足度を報告している事が分かっています。
これは、個人がうまく機能する事を期待すると、その人のパフォーマンスが向上するという期待効果によって説明されます。


.................



ある意味で、AIを取り巻くメディアは、AIの使用の入門書として機能します。
AI が社会に提示される方法は重要です。なぜなら、それによって AI の体験方法が変わるからです。

会話型 AI を使用した介入の実際の有効性は、システム自体の構築とはある程度切り離されており、ユーザー自身の想像力に大きく影響されます。
AI はブラックボックスである事が多く、複雑すぎて理解出来ないシステムであるため、人々の想像力が重要な役割を果たします。そのため、個人が AI を必要以上に信頼する可能性があります。
ユーザーが、完全に正確ではない AI に対して低い期待や否定的な期待を持つように準備し、より慎重な姿勢を取るように誘導する事が望ましい場合があります。



精神衛生の改善、本当の友人としての行動、その他のプラセボのような効果の促進など、AI が最も大きな影響を与えるように提示する事と、真実を語る事の間には緊張関係があります。この主観的な経験が悪用されると、大きな悪影響が生じる可能性があります。

.................
.................



この研究では、AI システムに対するユーザーのメンタルモデルが人間と AI のインタラクションの結果にどのように影響するかを探求しています。
メンタルモデルはユーザーの評価に大きく影響し、ユーザーと AI の両方の行動に影響を与える事がわかりました。
このメンタルモデルは、個人の文化的背景、個人的な信念、および状況の特定のコンテキストの結果であり、プライミングによって影響を受けます。
この研究は、社会における AI の物語の重要性を強調しています。物語は私たちの期待を形作り、AI との経験を形作る可能性があるからです

AI をどのように表現するのが最善かを考え、AI を思いやりのあるものとして想像する方がよいのか、それとも感情のないアルゴリズムとして想像する方がよいのかという疑問について考える必要があります。
結局のところ、現実は私たちの期待によって形作られます



tak_tak0 at 19:55コメント(0)resource   この記事をクリップ!

コメントする

名前:
URL:
  情報を記憶: 評価:  顔   星
 
 
 
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments