2024年08月16日
ゲーム化した心理テストのためのLLMエージェント PsychoGAT
Tweet |
LLMによって専門的な心理テストをRPG風などのゲームに変換し、楽しませながら測定するアプローチが検証されました。
— AIDB (@ai_database) July 23, 2024
実験の結果、LLMで生成された心理テストゲームは正確性、面白さともに優れていたとのこと。https://t.co/SXeWlyx9nP
ACL(自然言語処理分野の国際会議)2024に採択された研究。
一番最初に、質問項目をゲームフロー...ゲームノードに全部変換するのかと思ったのですが、どうも、そうはしない様です。
何で、ゲームの進行に合わせて一回毎に質問を作るのでしょうか? そうしちゃうと、質問出来ない質問項目も出てくるのではないかと考えられるのですが
最初から全部作っておいても、大して変わらないと思うのですが...そうした方が、関心、没入感、満足度が上がると言うのでしょうか? そこはちゃんと比較してないと思うのですが...
LLM Agents for Psychology: A Study on Gamified Assessments
Qisen Yang, Shenzhi Wang, Yifan Pu, Shiji Song, Gao Huang Tsinghua University
Zekun Wang, Wenhao Huang 01.AI
Honghui Chen Central South University
Xin Gao Carnegie Mellon University
arXiv preprint arXiv:2402.12326 (2024).
...この研究の重要な知見は、強力なLLMが、熟達した心理学者と、効果的なゲームデザイナーの両方の役割を担う事が出来ると言う物です。
2.1 Overall Workflow
まず、うつ病等に代表される心理学的構成概念が与えられた時、想起または手動選択によって関連する自己報告スケールを選択する事から始めます。
ゲームデザイナーは、ゲームのタイトル、アウトライン、および対応するゲームノード (N) を作成します。
これらのノードは、物語とストーリーラインに合わせて編成された、再設計された複数のスケール項目で構成されます。
タイトル、アウトライン、およびノードのリストは、その後のゲーム生成反復の条件として集合的に機能します。
次に、再設計されたスケール項目に基づいて、ゲームコントローラーと批評エージェントが再帰的な対話を行います。
このプロセスには、ゲームの段落 (P)、以前のゲームのプロットを追跡するためのメモリ (M)、および将来のゲーム開発のための指示 (I) の生成と改良が含まれます。
この生成および改良プロセスを数回反復する事で、細かく作成された指示が、最近のゲームの段落とメモリとともに、選択のためにプレーヤーに提示されます。
プロセス全体で、ハードコードされた心理測定評価者が各反復でプレーヤーの決定を収集し、評価スコアを計算します。
2.2 Game Designerデザイナーは、選択したタイプとトピックに関する一人称インタラクティブゲームの枠組みを作成し、プレイヤーの心理プロファイルの検出を容易にするストーリーラインを組み込みます。
このエージェントの入力には、ゲームタイプ、ゲームトピック、従来の心理評価スケールが含まれます。
ゲームデザインを強化するために、思考連鎖プロンプトテクニックを採用しています。
デザイナーには最初にゲームのタイトルとストーリーのデザインについての考え
(特に、プレイヤーの心理プロファイルの側面をどのように明らかにするかに焦点を当てる) を生成するように促し、
次に包括的なゲームの概要を作成し、ゲームの物語に合うようにスケールを再設計します。
再設計されたスケールは、ゲームの概要を反映しており、一連の質問が物語の進行と一致するようになります。各質問には 2 つの選択肢があり、それぞれが心理的構成の有無を示すバイナリスコアに関連します。
2.3 Game Controller.................
最初の反復では、コントローラがゲームの紹介と背景を生成します。
そうしてプレーヤー、批評家、コントローラ間のやり取りがループで繰り返し、各スケール項目が順番にインスタンス化されます。
ゲームが進むにつれて、ログが多くなり、LLM が効率的に処理するのが難しくなります。この問題を軽減するために、一貫性ある物語の記憶を維持するための要約メカニズムを採用します。
2.4 Critic 批評家
批評家は、コントローラが生成したコンテンツの全体的な品質を向上させる事を目的にしています。
コントローラと批評家は、反復回数の上限に達するか、コンテンツが承認されるまで、各タイムステップで反復的に対話します。
一貫性の問題は、このゲームではテキストコンテンツが膨大であり、何度も反復するため避けられません。
2.3 で説明したメモリメカニズムを使用して一貫性を高めているにもかかわらず、コントローラーは粗粒度の制御しか提供せず、各反復の詳細な分析が欠けます。
批評家は、生成された段落とメモリ、前のテキスト、およびプレイヤーが選択した指示との整合性を改善する事が求められます。
バイアスの問題は、反復で生成された段落が、以前の人間の選択によって影響を受け、バイアスされる傾向があるため生じます。
具体的には、プレイヤーが 1で特定のオプションを選択すると、その後に生成された段落はデフォルトの設定を示し、インタラクションの継続命令が統一される可能性があります。
この問題を軽減するために、批評家に、生成された段落がプレイヤーに特定の選択肢を示す事を控え、提供された命令が明確である事を確認するように指示します。
省略の問題とは、インタラクティブゲームでプレイヤーの没入感を実現するために不可欠な一人称視点を使用しないなど、コントローラーが広範なプロンプトの重要な詳細を見逃す傾向を指します。
これを解決するために、一人称の物語の視点を維持する事や一般的な表現を取り入れる事など、批評家のプロンプトで頻繁に見落とされる特定の要件を再度強調します。
2.5 Human Simulator and Psychometric Evaluator
フレームワークの自動操作と評価を容易にし、GPT-4 の検証済みの心理的特性と注釈機能を活用するために、GPT-4 を使用して、指示を選択する際の人間のやりとりをシミュレートします。
各反復で、GPT-4 には、指定された心理的構成の有無を示す説明と例が表示されます。
指示の選択は、前の段落と現在の段落の物語の内容と、ゲームの進行に関する保持された記憶に基づいています。
このプロセスには、思考連鎖手法も組み込まれています。
3.3 Main Experiments
PsychoGAT の心理測定学的有効性を調べるために、自動評価が行われます。
収束妥当性は、PsychoGAT スコアと、同じ構成を対象とする確立された尺度 (例: うつ病の尺度) のスコアとの平均相関を比較する事によって評価されます。
逆に、判別妥当性は、PsychoGAT スコアと、異なる構成を測定する尺度 (学習スタイルの評価など) のスコアとの平均相関を調べる事によって評価されました。
PsychoGAT は、収束妥当性と判別妥当性を含む、高い信頼性と堅牢な構成妥当性の両方を示しています。
この観察結果は、PsychoGAT が心理学的評価のための非常に信頼性が高く正確なツールである事を示唆しています。
まず、4 つの LLM ベースの評価方法の心理測定学的有効性が検証されます。
その後、心理評価の基礎知識を持つ 33 人の評価者が採用され、これらのアプローチを評価します。
認知の歪み (二値思考) 検出タスクに関する参加者のシミュレーション結果から、評価コンテンツを 15 個ランダムに選択します。
評価者は、このコンテンツを 5 つの次元 (一貫性、インタラクティブ性、関心、没入感、満足度) にわたって 1 から 5 のスケールで評価するように求められます。
.................
結果は、図 に示すように、5 つの次元にわたる PsychoGAT の優位性に関するパーセンテージの一致によって、人間による評価の信頼性が確認されています。
.................
.................