2025年12月09日
LLMのRLによるファインチューニングは学習時の方策と推論時の方策間の誤差により不安定になりやすかった。この根本原因が浮動小数点精度に起因しており、広く使われるBF16ではなく、FP16に戻すだけでミスマッチがほぼ解消され、安定した最適化、高速な収束、高性能が得られることが示された…
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) October 31, 2025
岡野原さんの言う通り、些細な変更で簡単に精度が向上すると言う発見です。
今のモデルで広く採用されてるBF16ではダメだと言う内容です。
Defeating the Training-Inference Mismatch via FP16
Xiangxin Zhou,Tianyu Pang, Chao Du, Min Lin,Penghui Qi, Zichen Liu Sea AI Lab
Wee Sun Lee National University of Singapore
arXiv preprint arXiv:2510.26788 (2025).
本研究では、FP16を使用すると、多様なタスク、アルゴリズム、フレームワークにわたって、より安定した最適化、より速い収束、そしてより強力なパフォーマンスが得られる事を示唆しています。
1 Introduction
強化学習(RL)は、大規模言語モデル(LLM)を微調整して推論性能を向上させる強力なパラダイムとして登場しました。
しかし、RLを通じて高性能モデルを実現する道は、しばしば不安定性に満ちています。
訓練プロセスはハイパーパラメータに非常に敏感であり、訓練崩壊の影響を受ける可能性があるため、モデル性能を確実に向上させる事は大きな課題となっています
この不安定性の重大な原因は、現代の強化学習フレームワークにおける根本的な矛盾、すなわち学習と推論の不一致に起因しています。
学習を高速化するために、これらのフレームワークは通常、高速推論(ロールアウト)用に高度に最適化された計算エンジンと、学習(勾配計算)用に別の計算エンジンを使用します。
数学的には同一ですが、これらのエンジンは精度誤差とハードウェア固有の最適化により、数値的に異なる出力を生成します。
2 Background
LLM微調整のための最新のRLフレームワークでは、システム効率を最大化するために推論μ と訓練に異なるエンジンが使用されており、必然的に推論(・|θ)と訓練 π(・|θ) 方針間の不一致が生じます。
2025年12月03日
OpenAIが最も先進的な音声対話モデル「gpt-realtime」を公開、「Realtime API」も正式版にhttps://t.co/lNU0OncIoj
— GIGAZINE(ギガジン) (@gigazine) August 29, 2025
既存の音声対話システムだと 発話 → 音声認識 → 文章 → 言語モデル → 文章 → 音声合成 こういう流れなので、ボトルネックがたくさんあり、遅延が蓄積されて非常に遅かったのですが
gpt-realtimeモデルは、音声 → モデル → 音声 なので、遅延がほとんど無いと言う事になっています。
実際に実行を確認出来たのは Azure OpenAI Realtime Voice Chat です。
Azureのやり方で実装する方が面倒だと思います。
Azure portalの方から
AI Foundry リソースを作成します。
多分、リージョンは、米国東部 か スウェーデン中部 でなければいけないのではないでしょうか?
![]() ![]() ![]() ![]() |
モデルカタログで、 gpt-realtimeを選択して、 [このモデルを使用する] を押せば良いと思います。
APIキーとエンドポイントは概要から分かります。
.................
.................
続きを読む
2025年12月02日
SSL証明書を導入してサイトのセキュア化します。
AWS Certificate Managerでしようと思っていたのですが...Certbotの方がずっと簡単に出来ました。
apt install certbot
こうしたら...一度、こうして確認しておいた方が良いと思います。
certbot certonly
How would you like to authenticate with the ACME CA?
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
1: Runs an HTTP server locally which serves the necessary validation files under
the /.well-known/acme-challenge/ request path. Suitable if there is no HTTP
server already running. HTTP challenge only (wildcards not supported).
(standalone)
2: Saves the necessary validation files to a .well-known/acme-challenge/
directory within the nominated webroot path. A seperate HTTP server must be
running and serving files from the webroot path. HTTP challenge only (wildcards
not supported). (webroot)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Select the appropriate number [1-2] then [enter] (press 'c' to cancel):
...2番を選んだような気がします。
メールアドレスを登録しましたが...メールは来ませんでした。
そうしてこうします。
certbot certonly --standalone -d ドメイン名
Could not bind TCP port 80 because it is already in use by another process on this system (such as a web server). Please stop the program in question and then try again.
これは、apache等を止めれば良いのでしょうか?
続きを読む



