20%のデータが100%を超える理由 — OSTフレームワーク解説

大規模マルチモーダルモデルの訓練は高価だ。あまりに高価で、デフォルト戦略である「すべてのデータを使う」ことが、コストではなく効果の面で疑問視されている。

中国の研究者による新論文 Efficient Data Selection for Multimodal Models via Incremental Optimization Utility は、OST（One-Step-Train） フレームワークを提案。結果：上位20%のサンプルでの訓練が100%での訓練を8.8ポイント上回り、計算コストを43%削減。

問題

LLM-as-a-Judge（大規模モデルで品質スコアリング）は高コスト・ヒューリスティック・解釈不能。さらに悪いことに、一部の低品質サンプルは有毒で、全データ訓練時に性能低下を引き起こす。

OSTはデータ選択を増分最適化効用問題として再定式化。「サンプルが良いか」ではなく「訓練セットに追加した場合モデルがどれだけ改善するか」を問う。プロキシモデルで単一勾配ステップをシミュレート→検証損失の変化（限界効用）を測定→ランク付け→負の効用（有毒）サンプルを自動除外。

手法	データ使用量	Full-SFT比	コスト削減
Full-SFT	100%	0	0%
LLM-as-Judge	50%	+1.8	~50%
OST top-50	50%	Judge比+1.8	43%
OST top-20	20%	Full-SFT比+8.8	43%

80%少ないデータで、全データ訓練をほぼ9ポイント上回る。データが増えるとモデルが悪化した。

Qwenシリーズと数学推論のみで検証。LLaMA/Gemini未検証。アーキテクチャ間汎化は未証明。プロキシ訓練コストは総予算に含まれず。単一ステップ近似は大規模データセットでの完全収束ランキングと乖離の可能性。