Wenn eine Formel von 1967 das größte Problem moderner KI löst

Suttons elegante Lösung

Bestärkendes Lernen (Reinforcement Learning) hat ein schmutziges Geheimnis: Das Training von Modellen in Streaming-Umgebungen ist grundlegend fehlerhaft. Die Algorithmen, die in sauberen Laborumgebungen wunderbar funktionieren, brechen zusammen, wenn sie in der realen Welt eingesetzt werden, wo Daten kontinuierlich eintreffen und sich Verteilungen verschieben.

Richard Sutton, der Begründer des bestärkenden Lernens, hat es nun repariert. Und seine Lösung ist fast beschämend elegant: eine Formel aus dem Jahr 1967.

Der „Intent Update Algorithmus” begrenzt, wie stark sich die Ausgabe eines Modells mit jedem neuen Datenpunkt verändern darf. Anstatt zwischen widersprüchlichen Signalen hin und her zu schlingern, bewegt sich das Modell bedächtig — wie ein Schiff, das sein Ruder anpasst, anstatt zu kentern.

Das Ergebnis? Der Rechenaufwand sinkt auf ein 140-stel der gängigen Algorithmen. Das ist keine marginale Verbesserung — es ist der Unterschied zwischen „benötigt ein Rechenzentrum” und „läuft auf einem Laptop”.

Warum das wichtig ist

Suttons Durchbruch öffnet die Tür zu bestärkendem Lernen auf Endgeräten. Stellen Sie sich Roboter vor, die kontinuierlich aus ihrer Umgebung lernen, ohne sich bei einer Serverfarm rückzumelden. Drohnen, die sich in Echtzeit an Windverhältnisse anpassen. Medizingeräte, die ihre Modelle geräteintern verfeinern und dabei die Privatsphäre wahren.

Die Formel von 1967 im Kern dieser Lösung ist keine obskure mathematische Kuriosität — es ist ein statistisches Werkzeug, das die Varianz bei sequenziellen Aktualisierungen kontrolliert. Sie lag 57 Jahre lang offen sichtbar da und wartete darauf, dass jemand ihre Relevanz für das KI-Zeitalter erkennt.

Der Mathematikrekord, der Google schockierte

Während Sutton das RL reparierte, tat Wang Yiping — ein Alumnus der Zhejiang-Universität — etwas, das Googles Forschungsteam nicht gelang: Er durchbrach die untere Schranke der Ramsey-Zahlen, ein Problem, das 30 Jahre lang keiner Verbesserung widerstanden hatte.

Mit einem einzigen Server und seinen maßgeschneiderten KI-Mathematikwerkzeugen erreichte Wang, was Googles Team — mit vermutlich um Größenordnungen mehr Rechenleistung — nicht schaffte. Das Projekt ist nun vollständig Open Source und beschleunigt die „KI für die Wissenschaft”-Bewegung.

Dieses Muster — einzelne Forscher mit KI-Werkzeugen, die institutionelle Giganten übertreffen — wird zunehmend häufiger.

Die neue wissenschaftliche Methode

Diese beiden Geschichten haben einen gemeinsamen Nenner: KI ist nicht mehr nur ein Werkzeug zur Produktentwicklung. Sie wird zu einem wissenschaftlichen Instrument — so grundlegend wie das Mikroskop oder das Teleskop.

Die Auswirkungen sind tiefgreifend:

Die Problemauswahl ändert sich: Wenn KI Lösungsräume in übermenschlichem Maßstab erkunden kann, verschiebt sich der Engpass von „Können wir das lösen?” zu „Welche Probleme sind es wert, gelöst zu werden?”
Einzelforscher gewinnen an Schlagkraft: Eine einzelne Person mit den richtigen KI-Werkzeugen kann jetzt mit institutionellen Laboren konkurrieren. Die Ökonomie wissenschaftlicher Entdeckungen wird neu geschrieben.
Altes Wissen findet neues Leben: Suttons Formel von 1967 ist eine Erinnerung daran, dass es bei der KI-Revolution nicht nur darum geht, Neues zu erfinden — sondern auch darum, zu erkennen, wann alte Ideen plötzlich relevant werden.

Was als Nächstes kommt

Wir treten in eine Ära ein, in der der begrenzende Faktor für wissenschaftlichen Fortschritt nicht Rechenleistung, Finanzierung oder institutionelles Prestige ist. Es ist Vorstellungskraft — die Fähigkeit, die richtigen Fragen zu stellen und zu erkennen, wann eine 57 Jahre alte Formel den Schlüssel zu einem modernen Problem enthält.

Die Wissenschaftler, die erfolgreich sein werden, sind jene, die tiefes Fachwissen mit KI-Kompetenz verbinden. Nicht um menschliche Einsicht zu ersetzen, sondern um sie über alles bisher Mögliche hinaus zu verstärken.