Alle Führenden KI-Modelle Scheitern an Metas Höllischem Programmier-Benchmark

Am 7. Mai 2026 ließ Meta AI Research eine Bombe auf die Machine-Learning-Community platzen. Ihr neu veröffentlichter ProgramBench-Benchmark — ein Datensatz, der echte Software-Engineering-Fähigkeiten testen soll und nicht nur einfache Programmierrätsel — lieferte ein Ergebnis, das so drastisch ist, dass es die Diskussion über KI und die Zukunft des Programmierens bereits neu gestaltet: alle führenden KI-Modelle erzielten null Punkte.

Kein niedriger Wert. Kein enttäuschender Wert. Absolute Null in der aussagekräftigsten Kategorie des Benchmarks: der architekturbezogenen Modul-Rekonstruktion.

ProgramBench Ergebnisse

Was ist ProgramBench?

ProgramBench ist kein weiterer LeetCode-Klon. Metas Forscher haben es gezielt entwickelt, um das zu messen, was sie „Engineering Intelligence” nennen — die Fähigkeit, Software auf der Ebene ganzer Module zu verstehen, umzustrukturieren und zu rekonstruieren, nicht nur einzelner Funktionen. Der Benchmark besteht aus drei Stufen:

Stufe 1 — Funktionsvervollständigung (FC): Vervollständige den Funktionskörper anhand einer Funktionssignatur und eines Docstrings. Dies spiegelt die Art von Autovervollständigungsaufgaben wider, die Copilot und ChatGPT täglich bewältigen.
Stufe 2 — Modul-Rekonstruktion (MR): Rekonstruiere fehlende Implementierungen in einer teilweise geschwärzten Multi-File-Codebasis (bei intakter Modulstruktur, Importen und Schnittstellen). Dies erfordert das Verständnis von Architekturmustern, Abhängigkeitsgraphen und übergreifenden Anliegen.
Stufe 3 — Systementwurfsplanung (SDP): Erzeuge aus einer übergeordneten Spezifikation eine kohärente Modulzerlegung, Schnittstellendefinition und einen Abhängigkeitsplan. Das ist Architekturarbeit.

Auf Stufe 1 schnitten die Modelle passabel ab. Claude Opus 4.7 erreichte 78 % bei der Funktionsvervollständigung. GPT-5.5 kam auf 74 %. Selbst Open-Source-Modelle wie DeepSeek-V3 erzielten respektable Werte im Bereich von 60–70 %.

Auf Stufe 3 gab es einen starken Einbruch. GPT-5.5 erreichte 23 % bei der Systementwurfsplanung. Claude Opus 4.7 schaffte 31 %. Doch diese Zahlen, so schlecht sie auch waren, machten nicht die Schlagzeile.

Stufe 2 — Modul-Rekonstruktion — ist die Kategorie, in der wirklich jedes Modell auf null Punkte kam.

Die Null, die um die Welt ging

Hier die ungeschminkte Wahrheit: Als den Modellen eine teilweise geschwärzte Multi-File-Codebasis vorgelegt wurde und sie die fehlenden Komponenten ergänzen sollten, konnte kein einziges Modell — von GPT-5.5 über Claude Opus 4.7, von Gemini 2.5 Pro bis zu DeepSeek-V3 — im gesamten Benchmark-Suite auch nur eine einzige korrekte Antwort liefern.

Benchmark-Stufe	GPT-5.5	Claude Opus 4.7	Gemini 2.5 Pro	DeepSeek-V3	Llama 4
Funktionsvervollständigung	74 %	78 %	71 %	67 %	62 %
Modul-Rekonstruktion	0 %	0 %	0 %	0 %	0 %
Systementwurfsplanung	23 %	31 %	19 %	14 %	9 %

Quelle: Meta AI Research, ProgramBench Technical Report (Mai 2026)

Die Modul-Rekonstruktionsaufgaben waren keine obskuren akademischen Übungen. Sie umfassten reale Muster: einen ratenbegrenzten API-Client mit Wiederholungslogik und Circuit Breaker, eine Caching-Schicht mit mehrstufiger Invalidierung und ein Event-Sourcing-Domänenmodell mit kompensierenden Transaktionen. Genau solche Komponenten entwerfen und implementieren erfahrene Software-Ingenieure jeden Tag.

Warum scheitern die Modelle so vollständig?

Die Art des Scheiterns ist aufschlussreich. Die Modelle produzierten keine Syntaxfehler oder offensichtlich kaputten Code. Sie erzeugten plausibel aussehenden, aber architektonisch falschen Code — Code, der kompilierte, ausgeführt wurde und auf den ersten Blick korrekt erschien, aber grundlegende Entwurfsinvarianten verletzte, versteckte Kopplungen zwischen entkoppelten Komponenten einführte und übergreifende Anliegen wie Fehlerpropagation, Transaktionsgrenzen und Konsistenzgarantien vollständig ignorierte.

Dies offenbart eine tiefe Wahrheit über die Funktionsweise aktueller LLMs. Sie sind Mustererkenner, die auf lokalen Kontextfenstern trainiert wurden — brillant darin, die nächsten paar Zeilen einer Funktion zu vervollständigen, aber grundlegend unfähig, darüber nachzudenken, wie diese Zeilen in ein System miteinander verbundener Komponenten passen. Eine Codebasis ist keine Sequenz von Tokens. Sie ist ein Graph aus Abhängigkeiten, Einschränkungen und Invarianten. Aktuelle Architekturen modellieren diesen Graphen nicht.

Metas Forscher prägten eine nützliche Unterscheidung: Modelle besitzen syntaktische Intelligenz (die Fähigkeit, wohlgeformten Code zu erzeugen), aber es fehlt ihnen an architektonischer Intelligenz (der Fähigkeit, ein wohlgeformtes System zu erzeugen). Die Kluft zwischen beiden ist gewaltig.

Engineering Intelligence: Die nächste Grenze

Der Begriff „Engineering Intelligence” gewinnt als Nachfolger von „AGI” im praktischen Diskurs an Bedeutung. Es geht nicht darum, ob ein Modell eine rekursive Fibonacci-Funktion schreiben oder ein dynamisches Programmierrätsel lösen kann — diese Hürde haben alle führenden Modelle schon vor Jahren genommen. Bei Engineering Intelligence geht es darum, ob ein Modell:

Verstehen kann, warum eine bestimmte Abstraktion in einer Codebasis existiert
Erkennt, wann eine Änderung in einem Modul Invarianten in einem anderen bricht
Systeme entwerfen kann, die unter realen Randbedingungen wartbar, testbar und widerstandsfähig sind
Abwägungsentscheidungen zwischen Leistung, Klarheit und Korrektheit treffen kann

ProgramBench legt nahe, dass keines der heutigen Modelle auch nur eine rudimentäre Form von Engineering Intelligence besitzt. Sie sind Beschleunigungswerkzeuge — schreiben Boilerplate-Code, generieren Testfälle, erklären Code — aber sie können nicht über Software als System nachdenken.

Was das für Software-Ingenieure bedeutet

Für die Millionen von Entwicklern, die die KI-Revolution mit einer Mischung aus Begeisterung und Angst beobachten, liefert ProgramBench einen klärenden Datenpunkt. KI wird nicht Ihren Job übernehmen — zumindest nicht den Teil, der das Nachdenken über Architektur, das Treffen von Entwurfsabwägungen und die Sicherstellung der Korrektheit von Systemen unter allen Bedingungen umfasst. Was KI tut, ist die untere Ebene der Fähigkeitsverteilung zu komprimieren: Aufgaben, die früher von Junior-Entwicklern hunderte Zeilen Boilerplate-Code erforderten, werden jetzt in Sekunden erledigt.

Der Beruf des Software-Ingenieurs entwickelt sich zu dem, was er im Kern schon immer war: Systeme entwerfen, nicht Code tippen. Das Tippen war nie der schwierige Teil. ProgramBench hat dies nur auf die rigoroseste Weise bewiesen.

Der Wettlauf hat nun begonnen, das erste Modell zu bauen, das in der Modul-Rekonstruktion mehr als null Punkte erzielen kann. Wer dieses Problem knackt, hat nicht nur eine bessere Autovervollständigungs-Engine gebaut — sondern eine Maschine, die tatsächlich Software konstruieren kann.