Warum 20% der Trainingsdaten 100% schlagen — das OST-Framework erklärt

Das Training großer multimodaler Modelle ist teuer. So teuer, dass die Standardstrategie — alle verfügbaren Daten zu nutzen — nicht wegen der Kosten, sondern wegen der Effektivität in Frage gestellt wird.

Ein neues Paper chinesischer Forscher, Efficient Data Selection for Multimodal Models via Incremental Optimization Utility, schlägt OST (One-Step-Train) vor. Ergebnis: Training auf den oberen 20% übertrifft das vollständige Training um +8.8 Punkte, bei 43% geringeren Rechenkosten.

Das Problem

LLM-as-a-Judge ist teuer, heuristisch und nicht interpretierbar. Schlimmer: einige minderwertige Samples sind toxisch und verursachen Leistungsrückgang beim vollständigen Training.

Die Lösung

OST formuliert die Datenauswahl als inkrementellen Optimierungsnutzen neu. Frag nicht, ob ein Sample „gut” ist — frag, wie sehr es das Modell verbessert.

Mechanismus: trainiere ein leichtes Proxy-Modell → simuliere einen Gradientenschritt pro Sample → miss die Änderung des Validierungsverlusts → ordne nach marginalem Nutzen → schließe automatisch Samples mit negativem Nutzen (toxisch) aus.

Die Zahlen

Methode	Daten	Δ vs Full-SFT	Kostenreduktion
Full-SFT	100%	0	0%
LLM-as-Judge	50%	+1.8	~50%
OST top-50	50%	+1.8 über Judge	43%
OST top-20	20%	+8.8 über Full-SFT	43%

Mit 80% weniger Daten übertrifft OST das vollständige Training um fast 9 Punkte. Mehr Daten machten das Modell schlechter.

Warum Es Funktioniert

Nicht alle Beispiele tragen gleich zur Generalisierung bei. Manche sind hochsignalig, andere redundant, andere negativ. OST approximiert den wahren Nutzen jedes Samples durch billige Proxy-Simulation — O(1) pro Sample.

Technische Implikationen

Hör auf, alles zu trainieren: mehr Daten ≠ besseres Modell, empirisch falsch für multimodales Training.
Kostenlose Toxizitätserkennung: OST identifiziert automatisch schädliche Daten.
Proxy-Architektur zählt: der Proxy muss die Architekturfamilie mit dem vollständigen Modell teilen.

Einschränkungen

Nur an Qwen und mathematischem Reasoning getestet. Keine LLaMA/Gemini-Ergebnisse. Architekturübergreifende Generalisierung unbewiesen. Proxy-Kosten nicht im Gesamtbudget enthalten. Ein-Schritt-Approximation kann bei großen Datensätzen vom vollständigen Konvergenzranking abweichen.

OST Paper