2024年02月20日

自力で学習データを作成するSelf-Rewarding Language Models



この実験では未だたったの2,3回分のサイクルしか試してないので、(人間の様に)何万回も学習を繰り返したらどうなるんでしょうか?
学習データで自家中毒に陥らないかとか懸念しますが...




Self-Rewarding Language Models
Weizhe Yuan, Richard Yuanzhe Pang, Sainbayar Sukhbaatar, Jing Xu, Jason Weston Meta
Kyunghyun Cho NYU
arXiv preprint arXiv:2401.10020, 2024.


超人的なエージェントを実現するには、将来のモデルでは適切な教師信号を提供するために超人的なフィードバックが必要になると考えられます。
現在のアプローチは通常、人間の好みに基づいて報酬モデルを学習しますが、人間のパフォーマンスレベルによってボトルネックになる可能性があり、
第 2 に、これらの個別の凍結された報酬モデルは、LLM 学習中に改善を学習する事が出来ません。
この研究では、言語モデル自体が LLM-as-a-Judge を介して使用され、学習中に独自の報酬を提供するよう促す、 自己報酬型言語モデルについて研究します。

このようなアプローチの鍵は、報酬モデルや言語モデルなどの個別のモデルに分離するのではなく、学習中に必要な全ての能力を備えたエージェントを開発する事です。

報酬型言語モデルを導入します。これは
(i) 与えられたプロンプトに対する応答を生成するモデルに従う命令として機能するエージェントです。
(ii) 例に従って新しい命令を生成および評価し、独自の学習 セットに追加出来ます。
最近導入されたものと同様の反復 DPO フレームワークを使用してこれらのモデルを学習します。
2 Self-Rewarding Language Models
まず、基本的な事前学習言語モデルと、人間が注釈を付けた少量のデータを前提としています。
そして2 つのスキルを同時に習得する事を目的としたモデルを構築します。

1. Instruction following:
ユーザーのリクエストを説明するプロンプトが与えられた場合、高品質で役立つ (そして無害な) 応答を生成する機能。

2. Self-Instruction creation:
独自の学習 セットに追加する新しい命令に従うサンプルを生成および評価する機能。

これらの機能はAI フィードバック (AIF) を使用してモデル自体を反復的に学習するために使用されるコンポーネントです。

Self-Instruction creationは、候補応答を生成し、モデル自体がその質を判断する事で構成されます。
つまり、外部報酬モデルの必要性を置き換え、独自の報酬モデルとして機能します。


これは、LLM-as-a-Judgeメカニズムを介して実装されます。
つまり、応答の評価を指示に続くタスクとして定式化する事によって行われます。この自己作成された AIF 嗜好データは学習 セットとして使用されます。
Self-Rewarding Language Models
実際の Self-Instruction creation と Instruction following の順番は逆になります

重要なのは、モデルは生成能力を向上させる事が出来、同じ生成メカニズムを通じて独自の報酬モデルとして機能するため、報酬モデルが固定されている標準的な設定から逸脱して、報酬モデル自体がこれらの反復を通じて改善出来る事を意味します。
これにより、将来的にこれらの学習モデルの自己改善の可能性の上限が高まり、制約的なボトルネックが解消されると考えています。


続きを読む

tak_tak0 at 18:53コメント(0)研究 この記事をクリップ!

2024年02月14日

大規模言語モデルを使用して自動運転を再考する



...しかしこれは自動運転に限らず様々な課題に対応し得ると思うのですが...それでも現実的には何らかの失敗が生じるかもしれないとも思われるでしょうか?
後は、GPT-4ではなく3.5で試していると言う所ですが...


Drive Like a Human: Rethinking Autonomous Driving with Large Language Models
Daocheng Fu, Xin Li, Licheng Wen, Min Dou, Pinlong Cai, Yu Qiao Shanghai AI Lab
Botian Shi East China Normal University
arXiv preprint arXiv:2307.07162 , 2023.



この論文では、大規模言語モデル (LLM) を使用して人間のような方法で運転環境を理解し、複雑なシナリオに直面したときに推論、解釈、記憶する能力を分析する可能性を探ります。
1 Introduction
あなたが一時停止標識の前で信号を待っている状況を想像してください。
その時三角コーンを積んだトラックが前方の交差点を横断中です。
人間のドライバーであれば、常識的な知識を活用して、三角コーンはトラックの荷物であり、道路が工事中である事を意味する訳ではないと推論する事は容易です。しかし、多くの既存の自動運転 (AD) システムにとってはロングテールのコーナーケースです。

................
................

人間のように運転するという目標に向けて、必要な 3 つの能力
  • 推論  特定の運転シナリオが与えられた場合、モデルは常識と経験に基づく推論によって意思決定を行う事が出来る必要があります。

  • 解釈 エージェントが行った決定は解釈出来る必要があります。これは、内省の能力と宣言的記憶の存在を示しています。

  • 記憶  シナリオを推論し解釈した後、以前の経験を記憶し、エージェントが同様の状況に直面したときに同様の決定を下せるようにするための記憶メカニズムが必要です。
2 Closed-loop interaction ability in driving scenarios
GPT-3.5 はテキストのみの言語モデルであるため、HighwayEnv と直接対話する事が出来ないため、その観察と意思決定を支援するための認識ツールとエージェントプロンプトを用意しました。
HighwayEnv

続きを読む

tak_tak0 at 11:53コメント(0)研究 この記事をクリップ!

2024年02月07日

大規模言語モデルのための知識編集の包括的研究



これも、全体的には知識編集の分類が主のレポートのように見えますが、
一方で独自手法の有効性を主張する内容にもなっていると思います。


A Comprehensive Study of Knowledge Editing for Large Language Models
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen   Zhejiang University, National University of Singapore, University of California, Ant Group, Alibaba Group
arXiv preprint arXiv:2401.01286 (2024).







2 Background
2.1 Large Language Models
2.1.1 Transformers for LLM
トランスフォーマーはエンコーダ、デコーダのフレームワークとして導入され、エンコーダとデコーダの両方とも、互いに積み重ねられた一連の同一の層で構成されます。
selfattnメカニズムはトランスフォーマーの重要な機能であり、データを効率的に処理出来るようにします。
Feed-Forward Module (FFN) トランスフォーマーのアテンション層の後には完全接続FFNが続きます。
2.1.2 Mechanism of Knowledge Storage in LLMs
トランスフォーマーの性能は、豊富なデータを保存出来る能力によるものです。
しかし言語モデル内で知識がどのように保存されているのか、ほとんどが謎に包まれています。

先行研究において[Transformer feed-forward layers are key-value memories.]
トランスフォーマーのFFN層がキーと値のメモリに似た機能を持っている事が報告されています。
FFN入力がクエリとして動作し、最初の層がキーを表し、2番目の層が値に対応する様です。

言語モデルには、多言語知識を表現する言語に依存しないニューロンと、統合勾配法を適用することで冗長な情報を伝える縮退ニューロンが含まれるという興味深い発見[ Journey to the center of the knowledge neurons]
LLM が複数の言語の処理を担当する特殊な言語領域を所有している[Unveiling a core linguistic region in large language models]
知識が微調整された言語モデルの重み空間内の領域である事、同様のデータセットで事前トレーニングされたモデルを微調整した後、結果として得られるモデルが重み空間で互いに近い事[Knowledge is a region in weight space for fine-tuned language models]
最近の関心は、LLM 内の個々のニューロンの異なる機能の分析を中心に展開されています [Language models can explain neurons in language models]


しかし、モデルは明示的なメカニズムではなく相関関係を示しているとの指摘があり、モデルは言語的であろうと事実であろうと、必ずしも従来の意味で知識を記憶する訳ではないとの注意もされています。


続きを読む

tak_tak0 at 09:01コメント(0)研究 この記事をクリップ!
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments
o