SubQ: Das subquadratische LLM mit 12 Millionen Token Kontext zum 1.000-fach niedrigeren Preis
Am 5. Mai 2026 ist ein in Miami ansässiges Startup namens Subquadratic aus dem Stealth-Modus aufgetaucht – mit einer kühnen Behauptung: Ihr Modell SubQ ist das erste große Sprachmodell, das auf einer wirklich subquadratischen Architektur aufbaut und 12 Millionen Token in einem einzigen Kontextfenster zu einem Bruchteil der Rechenkosten heutiger Spitzenmodelle verarbeiten kann.
Die Reaktion war sofort – und tief gespalten.
Was ist Subquadratic?
Subquadratic ist ein KI-Infrastrukturunternehmen, das 2026 gegründet wurde und seinen Hauptsitz in Miami, Florida hat. Unter der Leitung von CEO Justin Dangel und CTO Alexander Whedon (ehemaliger Leiter von GenAI bei Meta) hat das Startup 29 Millionen US-Dollar an Seed-Finanzierung bei einer berichteten Bewertung von 500 Millionen US-Dollar eingesammelt.
Die Investorenliste liest sich wie ein Who’s Who der Startup-Elite: Tinder-Mitgründer Justin Mateen, der ehemalige SoftBank Vision Fund Partner Javier Villamizar und Frühphaseninvestoren von Anthropic, OpenAI, Stripe und Brex.
Die Kerninnovation: Subquadratische Sparse Attention (SSA)
Das herausragende Merkmal ist SSA (Subquadratic Sparse Attention), ein Aufmerksamkeitsmechanismus, der grundlegend verändert, wie das Modell mit der Kontextlänge skaliert.
Das quadratische Problem
Die Standard-Transformer-Aufmerksamkeit skaliert mit O(n²) – verdoppeln Sie den Kontext, vervierfacht sich die Rechenleistung. Bei 1 Million Token würde allein die Aufmerksamkeit Billionen von Operationen erfordern. Aus diesem Grund begrenzen die meisten Modelle den Kontext auf 128K oder 200K Token.
Die subquadratische Lösung
SSA ersetzt die dichte Aufmerksamkeitsmatrix durch einen inhaltsabhängigen, dünnbesetzten Auswahlmechanismus. Anstatt jedes Token mit jedem anderen Token zu vergleichen, wählt das Modell dynamisch aus, welche Token beachtet werden sollen, und reduziert so die Komplexität auf eine nahezu lineare O(n)-Skalierung.
Dies unterscheidet sich von früheren Sparse-Attention-Ansätzen (wie sie in Mamba, RWKV oder DeepSeek verwendet werden), weil:
- Inhaltsabhängige Auswahl – Token werden basierend auf Relevanz ausgewählt, nicht nach festen Mustern
- Vollständig subquadratisch – die gesamte Architektur, nicht nur die Aufmerksamkeit, ist für lineare Skalierung optimiert
- Trainierbare Dünnbesetztheit – das Modell lernt während des Vortrainings, welche Beziehungen wichtig sind
Ergebnis: Subquadratic behauptet eine etwa 1.000-fache Reduzierung der Aufmerksamkeitsberechnung bei 12M Token im Vergleich zu Standard-Transformer-Modellen.
Benchmark-Leistung
Subquadratic veröffentlichte Ergebnisse zu drei Benchmarks:
| Benchmark | SubQ-Punktzahl | Vergleich |
|---|---|---|
| SWE-Bench Verified | 81,8% | Opus 4.6: 80,8% |
| RULER 128K (Langkontext-Abfrage) | 95,0% | Opus 4.6: 94,8% |
| MRCR v2 (1M Token Abfrage) | 65,9% | GPT-5.5: 74,0%, Gemini 3.1 Pro: 26,3% |
Bei 1M Token übertrifft SubQ Gemini 3.1 Pro bei MRCR v2 deutlich (65,9% vs. 26,3%), liegt aber hinter GPT-5.5 (74,0%). Das RULER-Ergebnis ist besonders beeindruckend – 95% Genauigkeit bei 128K Kontext, gleichauf mit Claude Opus 4.6 bei einer etwa 300-fachen Kostenreduzierung (8 $ vs. ~2.600 $).
Produkte: Drei Wege zu SubQ
Subquadratic hat drei Produkte in privater Beta gestartet:
1. SubQ API
OpenAI-kompatible API-Endpunkte mit einem 1 Million Token Produktionskontextfenster. Entwickler können mit minimalen Codeänderungen zu SubQ wechseln.
2. SubQ Code
Ein CLI-Codierungsagent, der gesamte Codebasen in den Kontext lädt. Anstatt RAG-Chunking kann SubQ Code Ihr gesamtes Repository aufnehmen und ganzheitlich darüber reasoning betreiben.
3. SubQ Search
Ein kostenloses Langkontext-Recherchetool – stellen Sie sich Perplexity mit einem Million-Token-Gedächtnis vor. Erste Tester berichten, dass sie ganze Bücher oder technische Dokumentationen zur Analyse hochladen können.
Das Kostenargument
Die vielleicht auffälligste Behauptung ist wirtschaftlicher Natur. Subquadratics Kosten-pro-Aufgabe-Analyse:
| Aufgabe | SubQ | Claude Opus | Kostenverhältnis |
|---|---|---|---|
| RULER 128K | 8 $ | ~2.600 $ | ~325x günstiger |
| SWE-Bench | ~0,50 $ | ~5 $ | ~10x günstiger |
| MRCR v2 1M | ~50 $ | ~15.000 $ (gesch.) | ~300x günstiger |
Wenn diese Zahlen stimmen, sind die Auswirkungen enorm: Langkontext-Aufgaben, die wirtschaftlich nicht realisierbar waren (Analyse gesamter Codebasen, Verarbeitung vollständiger Rechtsdokumente, Überprüfung ganzer wissenschaftlicher Arbeiten), werden alltäglich.
Die Skepsis: Warum Forscher Beweise fordern
Nicht alle sind überzeugt. Die KI-Forschungsgemeinschaft hat mehrere Bedenken geäußert:
1. Kein technisches Paper
Subquadratic hat kein peer-reviewed Paper oder einen vollständigen technischen Bericht veröffentlicht. Die Website sagt „Paper folgt in Kürze” – für viele Forscher eine rote Flagge.
2. Geschlossene Gewichte
Das Modell ist nicht Open Source. Unabhängige Überprüfung ist ohne Zugang zu den Gewichten oder einer reproduzierbaren Spezifikation unmöglich.
3. Enger Benchmark-Bereich
Nur drei Benchmarks wurden veröffentlicht, die alle auf Langkontext- oder Codierungsaufgaben ausgerichtet sind. Keine Ergebnisse zu allgemeinem Reasoning (MMLU, GPQA), Mathematik (MATH, GSM8K) oder multimodalen Benchmarks.
4. Kluft zwischen Forschung und Produktion
Die Forschungskonfiguration erreicht 83% bei MRCR v2, aber die Produktions-API erreicht 65,9% – eine Lücke von 17 Punkten, die Fragen darüber aufwirft, was genau bewertet wird.
5. Einzellauf-Ergebnisse
Die veröffentlichten Ergebnisse haben keine Konfidenzintervalle. Beim ML-Benchmarking können Einzelläufe aufgrund von Varianz irreführend sein.
Frühere subquadratische Versuche (Mamba, RWKV, Hyena, S4) haben im kleinen Maßstab vielversprechende Ergebnisse gezeigt, aber im Produktionsmaßstab nicht die Qualität von Transformern erreicht. Die Community wartet darauf zu sehen, ob SubQ dieses Muster durchbricht.
„Subquadratics Behauptungen sind entweder der wichtigste KI-Architekturdurchbruch seit ‘Attention Is All You Need’ – oder eine gut finanzierte Fata Morgana. Es gibt kein Dazwischen.” – KI-Forscher zitiert in der VentureBeat-Berichterstattung
Was ist real (und was nicht)
Lassen Sie uns bestätigte Fakten von unbelegten Behauptungen trennen:
Bestätigt:
- 29 Mio. $ Seed-Finanzierung bei ~500 Mio. $ Bewertung ✅
- Team umfasst ehemaligen Meta GenAI-Leiter Alexander Whedon ✅
- Unternehmen am 5. Mai 2026 aus dem Stealth-Modus aufgetaucht ✅
- API und Produkte existieren in privater Beta ✅
Unbestätigt:
- 12M Token Kontext in Produktion ❌ (nur Forschungskonfiguration)
- 1.000-fache Rechenreduzierung ❌ (keine unabhängige Prüfung)
- Reproduzierbarkeit der Benchmarks ❌ (kein Paper, keine Gewichte)
- Produktionszuverlässigkeit ❌ (private Beta, begrenzte Tester)
Roadmap: Was als Nächstes kommt
Subquadratic hat eine aggressive Roadmap:
- Q3 2026: Erweiterter API-Zugang, SDK-Veröffentlichungen
- Q4 2026: Ziel von 50 Millionen Token Kontextfenster
- 2027: Enterprise-Post-Training-Tools
Das Unternehmen hat erklärt, dass es nicht beabsichtigt, die Gewichte von SubQ zu öffnen, und positioniert sich stattdessen als kommerzieller API-Anbieter.
Warum das wichtig ist
Selbst mit der Skepsis repräsentiert SubQ einen bedeutenden Moment in der KI-Entwicklung:
-
Die quadratische Barriere ist die letzte große Einschränkung von Transformer-Architekturen. Wer die subquadratische Skalierung knackt, erschließt grundlegend neue Anwendungsfälle.
-
Langer Kontext ändert alles. Bei 1M+ Token können Agenten mit gesamten Codebasen, Rechtsfällen, wissenschaftlicher Literatur oder Geschäftsdokumenten in einem Durchgang arbeiten – ohne RAG, ohne Chunking, ohne Kontextverlust.
-
Die Wirtschaftlichkeit erzwingt Aufmerksamkeit. Selbst wenn SubQ nur 10% von dem liefert, was behauptet wird, wäre es immer noch billiger als bestehende Ansätze für Langkontext-Aufgaben.
-
Wettbewerbsdruck ist gesund. Ob SubQ real ist oder nicht, der Hype zwingt jedes Labor dazu, seine eigene subquadratische Forschung zu beschleunigen.
Fazit
Subquadratics SubQ-Launch ist eine der folgenreichsten – und umstrittensten – KI-Ankündigungen des Jahres 2026. Wenn sie validiert wird, könnte SSA die KI-Ökonomie grundlegend verändern und Million-Token-Kontexte erschwinglich und allgegenwärtig machen. Wenn nicht, reiht sie sich in eine lange Liste von Architekturen ein, die nicht skalieren konnten.
Die unabhängige Überprüfung wird in den kommenden Monaten erfolgen. Bis dahin ist die beste Herangehensweise an SubQ: echte Neugier gepaart mit gesunder Skepsis.
Was sicher ist: Das Rennen um subquadratische KI ist nun offiziell eröffnet.
Referenzen
- VentureBeat: Miami-Startup Subquadratic behauptet 1.000-fache KI-Effizienzsteigerung
- FelloAI: SubQ Testbericht – Das erste subquadratische LLM
- SiliconANGLE: Subquadratic startet mit 29 Mio. $ für 12M-Token-Kontextfenster
- TokenPost: Subquadratic Seed-Investition, 12M Token LLM SubQ
- 虎嗅: Subquadratic sichert sich 29 Mio. $ Seed-Finanzierung
- Habr: LLM mit linearer Komplexität und bis zu 12M Token Kontext