SubQ: Das subquadratische LLM mit 12 Millionen Token Kontext zum 1.000-fach niedrigeren Preis

Subquadratic SubQ LLM

Am 5. Mai 2026 ist ein in Miami ansässiges Startup namens Subquadratic aus dem Stealth-Modus aufgetaucht – mit einer kühnen Behauptung: Ihr Modell SubQ ist das erste große Sprachmodell, das auf einer wirklich subquadratischen Architektur aufbaut und 12 Millionen Token in einem einzigen Kontextfenster zu einem Bruchteil der Rechenkosten heutiger Spitzenmodelle verarbeiten kann.

Die Reaktion war sofort – und tief gespalten.

Was ist Subquadratic?

Subquadratic ist ein KI-Infrastrukturunternehmen, das 2026 gegründet wurde und seinen Hauptsitz in Miami, Florida hat. Unter der Leitung von CEO Justin Dangel und CTO Alexander Whedon (ehemaliger Leiter von GenAI bei Meta) hat das Startup 29 Millionen US-Dollar an Seed-Finanzierung bei einer berichteten Bewertung von 500 Millionen US-Dollar eingesammelt.

Die Investorenliste liest sich wie ein Who’s Who der Startup-Elite: Tinder-Mitgründer Justin Mateen, der ehemalige SoftBank Vision Fund Partner Javier Villamizar und Frühphaseninvestoren von Anthropic, OpenAI, Stripe und Brex.

Finanzierungsankündigung

Die Kerninnovation: Subquadratische Sparse Attention (SSA)

Das herausragende Merkmal ist SSA (Subquadratic Sparse Attention), ein Aufmerksamkeitsmechanismus, der grundlegend verändert, wie das Modell mit der Kontextlänge skaliert.

Das quadratische Problem

Die Standard-Transformer-Aufmerksamkeit skaliert mit O(n²) – verdoppeln Sie den Kontext, vervierfacht sich die Rechenleistung. Bei 1 Million Token würde allein die Aufmerksamkeit Billionen von Operationen erfordern. Aus diesem Grund begrenzen die meisten Modelle den Kontext auf 128K oder 200K Token.

Die subquadratische Lösung

SSA ersetzt die dichte Aufmerksamkeitsmatrix durch einen inhaltsabhängigen, dünnbesetzten Auswahlmechanismus. Anstatt jedes Token mit jedem anderen Token zu vergleichen, wählt das Modell dynamisch aus, welche Token beachtet werden sollen, und reduziert so die Komplexität auf eine nahezu lineare O(n)-Skalierung.

Dies unterscheidet sich von früheren Sparse-Attention-Ansätzen (wie sie in Mamba, RWKV oder DeepSeek verwendet werden), weil:

Inhaltsabhängige Auswahl – Token werden basierend auf Relevanz ausgewählt, nicht nach festen Mustern
Vollständig subquadratisch – die gesamte Architektur, nicht nur die Aufmerksamkeit, ist für lineare Skalierung optimiert
Trainierbare Dünnbesetztheit – das Modell lernt während des Vortrainings, welche Beziehungen wichtig sind

Ergebnis: Subquadratic behauptet eine etwa 1.000-fache Reduzierung der Aufmerksamkeitsberechnung bei 12M Token im Vergleich zu Standard-Transformer-Modellen.

Benchmark-Leistung

Subquadratic veröffentlichte Ergebnisse zu drei Benchmarks:

Benchmark	SubQ-Punktzahl	Vergleich
SWE-Bench Verified	81,8%	Opus 4.6: 80,8%
RULER 128K (Langkontext-Abfrage)	95,0%	Opus 4.6: 94,8%
MRCR v2 (1M Token Abfrage)	65,9%	GPT-5.5: 74,0%, Gemini 3.1 Pro: 26,3%

Bei 1M Token übertrifft SubQ Gemini 3.1 Pro bei MRCR v2 deutlich (65,9% vs. 26,3%), liegt aber hinter GPT-5.5 (74,0%). Das RULER-Ergebnis ist besonders beeindruckend – 95% Genauigkeit bei 128K Kontext, gleichauf mit Claude Opus 4.6 bei einer etwa 300-fachen Kostenreduzierung (8 $ vs. ~2.600 $).

Benchmark-Vergleich

Produkte: Drei Wege zu SubQ

Subquadratic hat drei Produkte in privater Beta gestartet:

1. SubQ API

OpenAI-kompatible API-Endpunkte mit einem 1 Million Token Produktionskontextfenster. Entwickler können mit minimalen Codeänderungen zu SubQ wechseln.

2. SubQ Code

Ein CLI-Codierungsagent, der gesamte Codebasen in den Kontext lädt. Anstatt RAG-Chunking kann SubQ Code Ihr gesamtes Repository aufnehmen und ganzheitlich darüber reasoning betreiben.

3. SubQ Search

Ein kostenloses Langkontext-Recherchetool – stellen Sie sich Perplexity mit einem Million-Token-Gedächtnis vor. Erste Tester berichten, dass sie ganze Bücher oder technische Dokumentationen zur Analyse hochladen können.

Das Kostenargument

Die vielleicht auffälligste Behauptung ist wirtschaftlicher Natur. Subquadratics Kosten-pro-Aufgabe-Analyse:

Aufgabe	SubQ	Claude Opus	Kostenverhältnis
RULER 128K	8 $	~2.600 $	~325x günstiger
SWE-Bench	~0,50 $	~5 $	~10x günstiger
MRCR v2 1M	~50 $	~15.000 $ (gesch.)	~300x günstiger

Wenn diese Zahlen stimmen, sind die Auswirkungen enorm: Langkontext-Aufgaben, die wirtschaftlich nicht realisierbar waren (Analyse gesamter Codebasen, Verarbeitung vollständiger Rechtsdokumente, Überprüfung ganzer wissenschaftlicher Arbeiten), werden alltäglich.

Die Skepsis: Warum Forscher Beweise fordern

Nicht alle sind überzeugt. Die KI-Forschungsgemeinschaft hat mehrere Bedenken geäußert:

1. Kein technisches Paper

Subquadratic hat kein peer-reviewed Paper oder einen vollständigen technischen Bericht veröffentlicht. Die Website sagt „Paper folgt in Kürze” – für viele Forscher eine rote Flagge.

2. Geschlossene Gewichte

Das Modell ist nicht Open Source. Unabhängige Überprüfung ist ohne Zugang zu den Gewichten oder einer reproduzierbaren Spezifikation unmöglich.

3. Enger Benchmark-Bereich

Nur drei Benchmarks wurden veröffentlicht, die alle auf Langkontext- oder Codierungsaufgaben ausgerichtet sind. Keine Ergebnisse zu allgemeinem Reasoning (MMLU, GPQA), Mathematik (MATH, GSM8K) oder multimodalen Benchmarks.

4. Kluft zwischen Forschung und Produktion

Die Forschungskonfiguration erreicht 83% bei MRCR v2, aber die Produktions-API erreicht 65,9% – eine Lücke von 17 Punkten, die Fragen darüber aufwirft, was genau bewertet wird.

5. Einzellauf-Ergebnisse

Die veröffentlichten Ergebnisse haben keine Konfidenzintervalle. Beim ML-Benchmarking können Einzelläufe aufgrund von Varianz irreführend sein.

Frühere subquadratische Versuche (Mamba, RWKV, Hyena, S4) haben im kleinen Maßstab vielversprechende Ergebnisse gezeigt, aber im Produktionsmaßstab nicht die Qualität von Transformern erreicht. Die Community wartet darauf zu sehen, ob SubQ dieses Muster durchbricht.

„Subquadratics Behauptungen sind entweder der wichtigste KI-Architekturdurchbruch seit ‘Attention Is All You Need’ – oder eine gut finanzierte Fata Morgana. Es gibt kein Dazwischen.” – KI-Forscher zitiert in der VentureBeat-Berichterstattung

Was ist real (und was nicht)

Lassen Sie uns bestätigte Fakten von unbelegten Behauptungen trennen:

Bestätigt:

29 Mio. $ Seed-Finanzierung bei ~500 Mio. $ Bewertung ✅
Team umfasst ehemaligen Meta GenAI-Leiter Alexander Whedon ✅
Unternehmen am 5. Mai 2026 aus dem Stealth-Modus aufgetaucht ✅
API und Produkte existieren in privater Beta ✅

Unbestätigt:

12M Token Kontext in Produktion ❌ (nur Forschungskonfiguration)
1.000-fache Rechenreduzierung ❌ (keine unabhängige Prüfung)
Reproduzierbarkeit der Benchmarks ❌ (kein Paper, keine Gewichte)
Produktionszuverlässigkeit ❌ (private Beta, begrenzte Tester)

Roadmap: Was als Nächstes kommt

Subquadratic hat eine aggressive Roadmap:

Q3 2026: Erweiterter API-Zugang, SDK-Veröffentlichungen
Q4 2026: Ziel von 50 Millionen Token Kontextfenster
2027: Enterprise-Post-Training-Tools

Das Unternehmen hat erklärt, dass es nicht beabsichtigt, die Gewichte von SubQ zu öffnen, und positioniert sich stattdessen als kommerzieller API-Anbieter.

Warum das wichtig ist

Selbst mit der Skepsis repräsentiert SubQ einen bedeutenden Moment in der KI-Entwicklung:

Die quadratische Barriere ist die letzte große Einschränkung von Transformer-Architekturen. Wer die subquadratische Skalierung knackt, erschließt grundlegend neue Anwendungsfälle.
Langer Kontext ändert alles. Bei 1M+ Token können Agenten mit gesamten Codebasen, Rechtsfällen, wissenschaftlicher Literatur oder Geschäftsdokumenten in einem Durchgang arbeiten – ohne RAG, ohne Chunking, ohne Kontextverlust.
Die Wirtschaftlichkeit erzwingt Aufmerksamkeit. Selbst wenn SubQ nur 10% von dem liefert, was behauptet wird, wäre es immer noch billiger als bestehende Ansätze für Langkontext-Aufgaben.
Wettbewerbsdruck ist gesund. Ob SubQ real ist oder nicht, der Hype zwingt jedes Labor dazu, seine eigene subquadratische Forschung zu beschleunigen.

Fazit

Subquadratics SubQ-Launch ist eine der folgenreichsten – und umstrittensten – KI-Ankündigungen des Jahres 2026. Wenn sie validiert wird, könnte SSA die KI-Ökonomie grundlegend verändern und Million-Token-Kontexte erschwinglich und allgegenwärtig machen. Wenn nicht, reiht sie sich in eine lange Liste von Architekturen ein, die nicht skalieren konnten.

Die unabhängige Überprüfung wird in den kommenden Monaten erfolgen. Bis dahin ist die beste Herangehensweise an SubQ: echte Neugier gepaart mit gesunder Skepsis.

Was sicher ist: Das Rennen um subquadratische KI ist nun offiziell eröffnet.