2024年12月06日
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張https://t.co/JQNcw4lsAQ
— GIGAZINE(ギガジン) (@gigazine) November 17, 2024
...よく読んでも、確かに遺伝的アルゴリズムと拡散モデルの繋がりが適切に説明されている様には思えません。
Diffusion Models are Evolutionary Algorithms
Yanbo Zhang, Benedikt Hartl, Hananel Hazan, Michael Levin Allen Discovery Center at Tufts University
arXiv preprint arXiv:2410.02543 (2024).
1 Introductionまずは生成モデルの観点から進化を考察します。
生物における種の集団を考慮すると、変分進化のプロセスは分布の変換、つまり遺伝子型と表現型の分布と見なす事も出来ます。
変分オートエンコーダ (VAE)、生成的敵対的ネットワーク(GAN)、拡散モデルは全て、単純な分布 (通常は標準のガウス分布) を複雑な分布に変換するよう学習されており、サンプルは意味ある画像、ビデオ、オーディオなどです。
拡散モデルを進化の観点からも見る事も出来ます。
生成モデルとして、拡散モデルはガウス分布を反復的に、学習データ分布に似た複雑で構造化されたデータポイントに変換します。
ノイズのないサンプルを望ましい結果と見なす事で、このような指向性ノイズ除去は、各ステップで突然変異に似たわずかなノイズが導入される指向性選択として解釈出来ます。
この直感から、本研究では拡散モデルと進化アルゴリズムの関係を徹底的に調査し、一見異なるこれらの概念が同じ数学的基礎を共有している事を発見しました。
この洞察は、拡散モデルのフレームワークを直接利用して進化的最適化を実行する、拡散進化アルゴリズムという新しいアプローチにつながります。
これは、ベイズ法で拡散プロセスを逆転させる事で得られます。
拡散進化の分析的研究は、突然変異、交雑、さらには生殖隔離などの概念を自然と取り入れた、生物進化との有望な類似点を明らかにしています。
従来の方法でよくあるように単一の解決策に収束するのではなく、生物圏の多様性を反映した多様な解決策を発見する事が出来ます。
続きを読む
2024年11月29日
??Out in Science!??
— David G. Rand @dgrand.bsky.social (@DG_Rand) September 12, 2024
Conspiracy beliefs famously resist correction, ya?
WRONG: We show brief convos w GPT4 reduce conspiracy beliefs by ~20%!
-Lasts over 2mo
-Works on entrenched beliefs
-Tailored AI response rebuts specific evidence offered by believershttps://t.co/3Rg79Cx5id
1/ pic.twitter.com/RPlEQG1Q7t
これは何が効果を及ぼしたのか特定してないと思うんですよね
チャットボットUIの向こう側に人間がいても同じ効果あるのか
チャットボットの出力した文面を人間が提示した場合でも効果あるのか
後は効果がどこまで行動態度に変化を及ぼしたのかももう少し幅広く調べる必要があると思います。
たったの 3 回分の会話で、陰謀論への信頼度を低める事が出来、しかもその効果が持続すると言う結果です。
当人が主張しなかった陰謀に対する信念も減少し、他の陰謀信奉者への批判的態度も促し、つまり陰謀的世界観の全般的な減少を示します。
元々の陰謀論信念の強さがあまり信用出来ないと言う事は無いでしょうか?だとしても全体的な効果の量を考えればこれで良いのでしょうか?
そしてやっぱり文化的バイアスを全然排除していません。
だから他の条件で再現するか追試が必要ではないでしょうか?
Durably reducing conspiracy beliefs through dialogues with AI.
Thomas H. Costello ,David G. Rand Massachusetts Institute of Technology
Gordon Pennycook Cornell University
Science 385,eadq1814(2024).DOI:10.1126/science.adq1814
Materials and Methods全ての研究は、参加者からインフォームドコンセントを得る事から始まりました。
研究に参加する前に自由記述テキスト応答を使用して、早い段階で注意力チェック項目を使用して、不注意の参加者は除外されました。
1.1 ParticipantsCloudResearch の Connect 参加者プールから 1000 件の回答を対象サンプルとして事前登録しました。
初期 (治療前) スクリーナーでは、文章の質と一貫性のスクリーナーに合格した参加者のみが調査を継続して完了出来ました。
このスクリーニング基準の目的は、参加者が自動調査完了プログラムを使用していない事、英語で読み書き出来る事、介入が依存する種類の自由回答形式の質問に回答する意思がある事を確認する事でした。
全体の脱落率は 1.8% でした。人が脱落したかどうかを予測するロジスティック回帰モデルを使用して、治療と対照で脱落率に差があるという証拠は見つかりませんでした。
治療サンプル(平均年齢 = 45.7、イデオロギー = 1 [リベラル] から 6 [保守] までのスケールで平均 3.04)には、男性 383 人、女性 384 人、および別の性別オプションを選択した参加者 7 人が含まれていました。
この調査は 2024 年 1 月 19 日から 22 日に実施され、完了までに平均 30.98 分かかりました。
続きを読む
2024年11月27日
音声ファイルから議事録を作ろうとする場合
音声認識で文字起こしするwebアプリケーションで
最も長時間に対応しているのは何でしょうか?
認識精度よりも、時間長の方を優先したいと思いました。
.................
.................
Google Docs 音声入力機能
Google Docsで、音声ファイルを再生しながら、音声入力機能でそれを文字起こし出来るのですが...
再生の最初の(数秒)内は文字になるのですが...少し経つともう文字に変換されなくなります。
同じ所を、もう一度マイクボタンを押して再生して...とすると認識されるのですが...何分も連続して変換し続ける事が出来ません。
さらに何回かやってみると1回ごとに認識結果が違ったりします。
Otter.ai
これは英語しか認識しません。
Notta
勝手に要約作成までします。
無料では最初の3分間しか、変換した文章を読めません。
音声ファイルを再生しながら、それの録音文字起こしをする事は出来ますが、音声ファイルを直接読み込んだ時とでは認識結果がかなり異なります。
Sonix
無料では30分間しか変換出来ません。
音声認識にちょっと多く時間がかかるような気がします。
また
Tell us about yourself等、さらに入力を求められます。
この二つを選ばせられます。
Premium
Human made
$6.20/min
99% accurate
Usually ready in 24h
Standardまた途中で
Machine generated
Free trial
85% accurate
Ready in minutes
Is your file in audiovisual media production?等など、さらに入力を求められます。
Where do you work?
What's your role?
TranscribeMe
音声ファイルの最初の30分分は、文字に変換されます。
無料でそこまで出来ます。
無料でも30分間×3も文字書き起こし出来るので、量としてはこれが一番でした。
モードはおそらくクジラが良いです。