2024年08月11日
児童が学習する自然言語から学習可能性の体系的調査
Tweet |
あー、これはおもろい。子供の言語を収録したCHILDESコーパスだけ使って言語モデルを学習したらどれぐらい性能出るか試してみました、という研究。認知科学のトップ国際会議CogSci2024、論文全部無料で読めますよ。 https://t.co/XzWerUuzTY
— Yo Ehara (@yo_ehara) July 28, 2024
これは子供が言語を習得する過程を、言語モデルで再現出来るかどうかと言う研究なんだと思いますが
いっぱいいいねされてますが、この研究に何を期待するんでしょうか?
そういう人達が期待する様な事は何もない、そんなに面白くない研究だと思うんですが...
そして、言語が英語に依存していて、やはり文化的バイアスを排除出来ないと思います。
A systematic investigation of learnability from single child linguistic input
Yulu Qin, Wentao Wang, Brenden M. Lake Center for Data Science
arXiv preprint arXiv:2402.07899 (2024).
幼児は驚くほど効率的に言語を学習しますが、言語習得の背後にあるメカニズムは依然として科学的な謎です。
一方、言語モデル(LM)の重要な進歩により、言語習得と人間の認知との関係に関する基本的な疑問を調査するための新しい強力な計算ツールが提供されています。
.................
子供は自分の入力のみから言語を学習する必要があり、他の子供と入力を共有したり集約したりする事は出来ません。そのため、ここではこの設定に注目しています。
Methods5 つのデータセットを調査しました。
Datasets
3 つは 1 人の子供のレベルで子供向けのスピーチを記録したもの、1 つは複数の子供の子供向けのスピーチを集約したもの、そして 1 つは同等量の Web からのテキストです。
SAYCam-S, Sarah and Ellie.これらは、この実験における 3 つの異なる一人っ子データセットです。
SAYCam-S は、先行研究で使用された一人っ子データセットです。
他の 2 つの子供向けデータセットは、CHILDESからの転写された音声の 2 セットで、それぞれ 1 人の子供に向けられています。
Brown コーパスの Sarah (2;:3 to 5;1 ) と Sakali コーパス の Ellie ( 0;9 to 5) です。
Wikipedia.比較のために、Ellie と同量のテキストトークンを含むランダムサンプリングされた Wikipedia データセットも用意しました。
これは、最も多くのトークンを含む子供向けデータセットです。
2 語未満の文をフィルタリングした後、最終的なトークン数はわずかに変化しました。
注目すべきは、平均発話長が長く、コンテンツがより複雑なこの Wikipedia データセットは、前述の子供向けデータセットよりも文の数は少ないですが、語彙は豊富であるという事です。
CHILDES.
参考資料として、CHILDES コーパスの北米部分を組み込みました。単一の子供データセットよりも約 6 倍大きい語彙と約 30 倍のトークンを含む集約された子供向けデータが含まれています。
Data Preprocessing先行研究と同様の前処理手順に基づいて、子ども自身の発話を除外して、子どもが受け取る文章に出来るだけ近いデータを複製し、出現回数が 3 回未満のトークンを不明トークンに置き換えました。
データセットの約 90% を学習に、5% を検証に、5% をテストに分割しました。
Model Architectures and TrainingLSTMsに加えて、GPT-2-style と RoBERTa-styleのトランスフォーマー (BabyBERTa と呼ばれる) を含む 6 つの異なるモデルアーキテクチャにまで広げました。
Training objectives.全てのモデルは最初から学習されました。
LSTM と GPT-2 ベースのトランスフォーマーの場合、モデルはクロスエントロピー損失を使用して学習し、短い発話内の次のトークンを予測する事を目指しました。
BabyBERTa ベースのトランスフォーマーの場合、モデルはランダムにマスクされたトークンを予測するように学習され、各発話内のトークンの 15% が各プレゼンテーション中に新たにマスクされました。
Linguistic Acceptability TestsZorro test suite で、主語と動詞の一致などの言語知識に対するモデルの感度をテストしました。
このテストは、それぞれ 2000 個の最小文ペアを含む 23 個のテストで 13 個の文法現象を評価します。
語彙外の単語を避けるために、SAYCam-S 語彙外のトークンを含む全ての最小ペアを除外し、それぞれ 700 個未満のペアを含む 15 個のテストを残しました。
この研究では、元の言語テンプレートと 5 つのデータセットの交差語彙に基づいて Zorro を再生成し、合計 23 個のテストを作成しました。
Test accuracy.調査した 5 つのデータセット全体で、Wikipedia データセットで学習したモデルの Zorro 精度は最も低く、CHILDES データセットで学習したモデルは最高の精度を示しています。
特定の言語テストごとに、一人データセットで学習したモデルは一貫したパフォーマンスを発揮します。
子供向けデータセットで学習された全てのモデルは、「quantifiers-existential there」テストで高いパフォーマンスを示し、「subject-verb agreement-across relative clause」テストでは偶然に近いパフォーマンスを発揮します。これは、以前の評価からの結論と一致しています。
.................
.................
General Discussion学習された全てのモデルが、単語の構文的および意味的カテゴリの区別、およびいくつかの言語現象に対する感度において一貫した結果を達成している事が分かりました。
定量化された存在の「there」構文、主語代名詞の格、および二重他動詞の引数の省略などの言語テストで高いパフォーマンスを確認しました。しかし、これらのモデルは、関係節全体の主語と動詞の一致など、より複雑な言語テストで一貫して失敗しました。
学習可能性に対する子供向け発話の領域の重要性を考慮した他の研究とは異なり、この論文では、1 人の子供への入力の役割に特に焦点を当てています。このアプローチは、より大規模な集約されたデータ ソースでモデルを学習する方法よりも現実的なベースラインを提供します。
.................
興味深い事に、私たちの研究では、1 人の子供の言語入力と対応する Wikipedia データセットを含むはるかに小さなデータセットを使用したにもかかわらず、同様のパターンが観察されました。
具体的には、Wikipedia データセットで学習されたモデルは、二重他動詞の引数の省略や助動詞の疑問のローカルアトラクターなどのテストで苦戦するのに対し、1人の子供データセットはこれらの領域で一貫して優れたパフォーマンスを発揮する事が分かりました。
今回の結果は、限られたデータであってもデータセット間の違いを示す可能性があり、潜在的には、子供に向けたスピーチが、特定のテストに必要な言語能力をモデルにうまく備えさせる可能性がある事を示唆しています。
ただし、いくつかの制限があります。
モデルは語彙クラスを区別する統語的および意味的クラスターを形成する能力を示していますが、モデルがこの表現をどのように獲得するか、またこれらのカテゴリーの理解が人間の認知と一致しているかどうかは不明です。
最後に、このモデルは、書き起こされた音声のみで学習されています。
我々は、マルチモーダル学習が、幼児が直面する学習問題をより適切に捉える事でモデルデータの効率と現実感を高める有望な手段であると考えています。