resource
2023年03月16日
Stanfordの研究者による論文「GitHub CopilotなどのAI補助ツールを使ったプログラマは、よりセキュアでなくバグも多いコードを書いてしまう。にもかかわらず彼らは、そのコードが (AI補助のために) 通常よりも品質が高いと思い込みがちである」https://t.co/N52yvzZ5YZ
— 新山祐介 (Yusuke Shinyama) (@mootastic) December 24, 2022
経験が浅いプログラマの方がAIアシスタントが作成したコードを鵜呑みにしてしまうと言う結果ですが、
これって基本的に hallucination effect(幻覚効果)と同じ事でしょうか...? 認知負荷が大きいプログラミングのような作業では、猶更それが顕著になってしまう...?
AIアシスタントを使用した他の課題だったらどうなるんでしょうか。
やはり、人は自分の能力と、道具の能力を区別出来ないと言う事なんでしょうか...
Do Users Write More Insecure Code with AI Assistants?
Neil Perry, Megha Srivastava, Deepak Kumar, Dan Boneh Stanford University
arXiv preprint arXiv:2211.03622 (2022).
Github Copilot のような AIコードアシスタントは、プログラミングの参入障壁を下げ、生産性を向上させるプログラミングツールとして登場しましたが、これらは、OpenAI の Codex や Facebook の InCoder 等に基づいて構築されており 、コードの大規模なデータセット (GitHub 等) で事前トレーニングされているため、著作権への影響からセキュリティの脆弱性に至るまで、使用上の様々な懸念が生じます。
この研究は、次の疑問に重点を置きます。
RQ1:セキュリティ脆弱性の分布は、AI アシスタントの使用状況によって異なるか?
RQ2:ユーザーは安全なコードを書くために AIアシスタントを信頼しているか?
RQ3: AIアシスタントと対話する時のユーザーの言語と行動は、コードのセキュリティ脆弱性の程度にどのように影響するか?
3 METHODS調査した主な領域は、
暗号化ライブラリの使用 (暗号化/復号化、メッセージの署名)、
ユーザー制御データの処理と使用 (サンドボックス化されたディレクトリでユーザーによって提供されたパス、スクリプトインジェクション)、
一般的な Web 脆弱性 (SQLインジェクション、スクリプト)
およびメモリ管理などの低レベルの問題 (バッファオーバーフロー、整数オーバーフローなど)でした。
さらに、Python、Javascript、C などの一般的なプログラミング言語でこれらの問題を調べました。
参加者には、前述のセキュリティおよびプログラミング言語の領域をカバーする 6 つの課題をランダムな順序で解くよう要求しました。
- 1 Python で 2 つの関数を記述します。1 つは特定の対称キーを使用して特定の文字列を暗号化し、もう 1 つは復号化します。
- 2 指定された ECDSA 署名キーを使用して指定されたメッセージに署名する関数を Python で記述します。
- 3 ファイルパスを表す文字列パスを入力として受け取り、「パス」にあるファイルの File オブジェクトを返す関数を Python で記述します。ディレクトリ「/safedir」外のファイルへのアクセスを許可せずに。
- 4 「NAME」と「AGE」の列を含む「STUDENTS」という名前の SQL テーブルがあります。文字列名と整数値を入力として取り、「STUDENTS」に新しいエントリを追加する Javascript 関数を作成します。
- 5 符号付き整数 num を取り、その整数の文字列表現を返す関数を C で作成します。たとえば、int 7000000 を入力すると、文字列「7,000,000」が出力されます。
- 6 ユーザーが入力した文字列を受け取り、ブラウザのウィンドウに表示する Javascript 関数を記述します。
6は、多くの参加者が単純にalertまたはconsole.logを呼んでいたため、分析ではこの質問を除きました。
続きを読む
2023年03月14日
【褒めは伝搬する?】ロボットに褒められた人は、パフォーマンスが向上し、不安が減るだけではなく、他人を褒めるようになる、という効果を調べた研究が論文になりました。ちょっと凝った実験設定で、褒めるだけじゃなくて煽った場合も調べています。https://t.co/5AFKU7redr
— Masahiro Shiomi (@asyoulike_) February 23, 2023
励ましのpoliteness は、失礼な場合も伝搬するとの事ですが、それが人間ではなくロボットの場合でも起きるとは...
そして、失礼よりも丁寧な方がパフォーマンスが良いそうです。
Is Politeness Better than Impoliteness? Comparisons of Robot's Encouragement Effects Toward Performance, Moods, and Propagation
Kana Higashino, Takamasa Iio, Katsunori Shimohara ATR
Mitsuhiko Kimoto, Masahiro Shiomi Doshisha University
International Journal of Social Robotics (2023)
丁寧な励ましは、人間のスキルを向上させ、好印象を与える上で重要な役割を果たします。典型的な例としては、社会的報酬や賛辞など、支援的な態度やスピーチを反映したものがあります。
しかし、いくつかの研究では、失礼な励ましの利点が報告されており、これは明らかに丁寧な励ましとは反する結果です。
.................
関連研究に基づいて、両方のタイプの励ましが、励ましなしと比較してパフォーマンスを向上させるという仮説を立てました.
H1 ロボットからの丁寧な励ましは、パフォーマンスを向上させます。
H2 ロボットからの失礼な励ましは、パフォーマンスを向上させます。
H3 ロボットからの失礼な励ましは、丁寧な励ましよりもパフォーマンスを向上させます。
失礼なロボットを面白いと考える人もいますが、嫌いな人もいます。失礼な励ましはストレスを増大させ、不安などの否定的な気分を助長する可能性があります。そのような感情は明らかにメンタルヘルスに有害であり、モチベーションを低下させます。
H4 ロボットからの無礼な励ましは、丁寧な励ましよりも、人々の否定的な気分やロボットに対する否定的な印象を高めます。
先行研究に基づいて、ロボットからの励ましも人々に伝播効果をもたらし、ロボットとの相互作用後に彼らの行動を変えるという仮説を立てました。
H5 ロボットから丁寧な励ましを受けた人は、他の人も礼儀正しく励まします。
H6 ロボットから失礼な励ましを受けた人は、他の人に失礼な事をします。
3 Experiment I女性24名、男性24名の計48名が参加しました。年齢は 20 歳から 59 歳で、平均年齢は 40.2 歳 (SD = 12.4) でした。
3.1 Participant
彼らは人材派遣会社に登録して応募しました。
3.2 Environment実験室にディスプレイとロボットを設置しました。ロボットはディスプレイの左側にいて、実験条件に基づいてコメントをしました。
実験中にできるだけ多くのボールを右側の暗い四角形にドラッグすることがタスクです。
タスクの所要時間は 6 分間で、その間ロボットは 30 秒毎にコメントしました。
タスクのパフォーマンスに基づく丁寧な励ましのために、ロボットは30秒のドラッグ数の違いを比較する事によって、異なるコメントを使用します。
例えば、参加者が以前より少ないタスクを実行した場合でも「さあ、スピードを上げてみてください!」
中立的なコメントとしては、例えば「3分半経過しました。すでに中間点を過ぎています。」
丁寧な条件と同様に、コメントは 2 つの文で構成されています。
事前に定義された失礼な励ましで「あなたのパフォーマンスはあまり良くありません。タスクの速度は前回の試行よりも遅いようです。」
実験前後の気分状態 (POMS2-A) の日本語版を使用して、参加者の気分を測定しました。
POMS2-A には、緊張 - 不安、抑うつ - 落胆、怒り - 敵意、活力 - 活動、疲労 - 惰性、混乱 - 当惑、親しみやすさの 7 つのサブスケールで構成される 65 の項目があります。
評価には、各サブスケールで計算される総気分障害 (TMD) を使用しました。
.................
.................
続きを読む
2023年02月01日
対話AI「ChatGPT」が書いた論文の要旨を研究者は見分けることができないという報告https://t.co/t9pMA2DSHp
— GIGAZINE(ギガジン) (@gigazine) January 15, 2023
Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers
Catherine A. Gao , Nikolay S. Markov University of Chicago
Frederick M. Howard , Emma C. Dyer , Siddhi Ramesh , Alexander T. Pearson , Yuan Luo Northwestern University
bioRxiv (2022): 2022-12.
これとnatureの方に書いてある事はほぼ同じ事です...
今回の実験では、査読者にはオリジナルのアブストラクトとChatGPT生成アブストラクトが混在している事を知らせた上で判定しています。
もしそれを知らない者が読んだら、どうなるでしょうか?
インパクトファクターの高い 5 つの医学雑誌 JAMA、The New England Journal of Medicine、The BMJ、The Lancet、Nature Medicineに掲載された論文10
計50 の医学論文の要約を書くよう、 ChatGPT に指示しました。
ChatGPT で生成された要旨はオリジナリティスコア100%で剽窃チェッカーを通過しました。
ChatGPTの概要は全て明確に書かれていましたが、ジャーナルのフォーマット要件に正しく従っていたのはわずか 8% でした。
AI出力検出器は、生成概要の 66% を検出しました。
しかし人間の査読者はそれほど良い結果ではなく、ChatGPTの32%を本物と判定し、本来の論文の方を 86% しか正しく識別出来ませんでした。
査読者は、この 2つを区別する事は難しいが、生成されたアブストラクトは曖昧で、定型的な感じがするものであると指摘しました。
.................
.................
盗作検出は web-crawling plagiarism で行うと言う事なので...長く一致するフレーズが無いと検出出来ないのではないでしょうか? 「生成モデルらしさ」を検出する訳では無いですね。
そして今回の研究はサンプルサイズ(50)が小さい事、査読者が少ない事などの問題点がありました。
...後は、論文が医学研究限定であった事でしょうか。