SubQ : Le LLM sous-quadratique qui promet 12 millions de tokens de contexte à 1 000x moins cher
Le 5 mai 2026, une startup basée à Miami nommée Subquadratic est sortie du stealth avec une affirmation audacieuse : leur modèle SubQ est le premier grand modèle de language construit sur une architecture véritablement sous-quadratique, capable de traiter 12 millions de tokens dans une seule fenêtre de contexte pour une fraction du coût de calcul des modèles leaders actuels.
L’accueil a été immédiat — et profondément divisé.
Qu’est-ce que Subquadratic ?
Subquadratic est une entreprise d’infrastructure IA fondée en 2026 et basée à Miami, Floride. Dirigée par le CEO Justin Dangel et le CTO Alexander Whedon (ancien responsable GenAI chez Meta), la startup a levé 29 millions de dollars en financement d’amorçage pour une valorisation estimée à 500 millions de dollars.
La liste des investisseurs ressemble à un who’s who de l’élite des startups : le cofondateur de Tinder Justin Mateen, l’ex-partner de SoftBank Vision Fund Javier Villamizar, et des investisseurs précoces d’Anthropic, OpenAI, Stripe et Brex.
L’innovation clé : Attention Éparse Sous-quadratique (SSA)
La caractéristique phare est SSA (Attention Éparse Sous-quadratique), un mécanisme d’attention éparse qui change fondamentalement la façon dont le modèle évolue avec la longueur du contexte.
Le problème quadratique
L’attention du Transformer standard évolue en O(n²) — doublez le contexte, quadruplez le calcul. À 1 million de tokens, la seule attention nécessiterait des billions d’opérations. C’est pourquoi la plupart des modèles limitent le contexte à 128K ou 200K tokens.
La solution sous-quadratique
SSA remplace la matrice d’attention dense par un mécanisme de sélection éparse basé sur le contenu. Au lieu de comparer chaque token à tous les autres, le modèle sélectionne dynamiquement les tokens auxquels il doit prêter attention, réduisant la complexité à une échelle quasi linéaire O(n).
Cela diffère des approches précédentes d’attention éparse (comme celles utilisées dans Mamba, RWKV ou DeepSeek) parce que :
- Sélection basée sur le contenu — les tokens sont sélectionnés selon leur pertinence, pas selon des motifs fixes
- Entièrement sous-quadratique — toute l’architecture, pas seulement l’attention, est optimisée pour un passage à l’échelle linéaire
- Éparsité entraînable — le modèle apprend quelles relations comptent pendant le pré-entraînement
Résultat : Subquadratic revendique une réduction d’environ 1 000x du calcul d’attention à 12M de tokens par rapport aux modèles Transformer standard.
Performance aux benchmarks
Subquadratic a publié des résultats sur trois benchmarks :
| Benchmark | Score SubQ | Comparaison |
|---|---|---|
| SWE-Bench Verified | 81,8% | Opus 4.6 : 80,8% |
| RULER 128K (récupération long contexte) | 95,0% | Opus 4.6 : 94,8% |
| MRCR v2 (récupération 1M tokens) | 65,9% | GPT-5.5 : 74,0%, Gemini 3.1 Pro : 26,3% |
À 1M de tokens, SubQ surpasse dramatiquement Gemini 3.1 Pro (65,9% contre 26,3%) sur MRCR v2, bien qu’il soit derrière GPT-5.5 (74,0%). Le résultat RULER est particulièrement impressionnant — 95% de précision à 128K de contexte, égalant Claude Opus 4.6 avec une réduction de coût d’environ 300x (8$ contre environ 2 600$).
Produits : Trois façons d’utiliser SubQ
Subquadratic a lancé trois produits en bêta privée :
1. SubQ API
Des points d’accès API compatibles OpenAI avec une fenêtre de contexte de production de 1 million de tokens. Les développeurs peuvent passer à SubQ avec des modifications de code minimes.
2. SubQ Code
Un agent CLI de codage qui charge des bases de code entières dans le contexte. Au lieu du découpage RAG, SubQ Code peut ingérer l’intégralité de votre dépôt et raisonner de manière holistique.
3. SubQ Search
Un outil de recherche gratuit à long contexte — pensez à Perplexity avec une mémoire d’un million de tokens. Les premiers testeurs rapportent pouvoir télécharger des livres entiers ou de la documentation technique pour analyse.
L’argument du coût
L’affirmation la plus frappante est peut-être d’ordre économique. L’analyse coût par tâche de Subquadratic :
| Tâche | SubQ | Claude Opus | Ratio de coût |
|---|---|---|---|
| RULER 128K | 8$ | ~2 600$ | ~325x moins cher |
| SWE-Bench | ~0,50$ | ~5$ | ~10x moins cher |
| MRCR v2 1M | ~50$ | ~15 000$ (est.) | ~300x moins cher |
Si ces chiffres tiennent, les implications sont énormes : les tâches à long contexte qui étaient économiquement irréalisables (analyse de bases de code entières, traitement de documents juridiques complets, révision d’articles académiques) deviennent routinières.
Le scepticisme : Pourquoi les chercheurs exigent des preuves
Tout le monde n’est pas convaincu. La communauté de recherche en IA a soulevé plusieurs préoccupations :
1. Pas d’article technique
Subquadratic n’a pas publié d’article évalué par des pairs ni de rapport technique complet. Le site web indique « article à venir » — un signal d’alarme pour de nombreux chercheurs.
2. Poids fermés
Le modèle n’est pas open source. La vérification indépendante est impossible sans accès aux poids ou à une spécification reproductible.
3. Benchmarks limités
Seulement trois benchmarks ont été publiés, tous favorisant les tâches à long contexte ou de codage. Aucun résultat en raisonnement général (MMLU, GPQA), mathématiques (MATH, GSM8K) ou benchmarks multimodaux.
4. Écart entre recherche et production
La configuration de recherche obtient 83% sur MRCR v2, mais l’API de production obtient 65,9% — un écart de 17 points qui soulève des questions sur ce qui est évalué.
5. Résultats en un seul passage
Les résultats publiés manquent d’intervalles de confiance. Dans l’évaluation comparative ML, des passages uniques peuvent être trompeurs en raison de la variance.
Les tentatives sous-quadratiques précédentes (Mamba, RWKV, Hyena, S4) ont montré des promesses à petite échelle mais n’ont pas égalé la qualité des Transformer à l’échelle de production complète. La communauté attend de voir si SubQ brise ce schéma.
« Les affirmations de Subquadratic sont soit la percée architecturale IA la plus importante depuis ‘Attention Is All You Need’ — soit un mirage bien financé. Il n’y a pas de juste milieu. » — Chercheur en IA cité dans l’article de VentureBeat
Ce qui est réel (et ce qui ne l’est pas)
Séparons les faits confirmés des affirmations non vérifiées :
Confirmé :
- 29M$ de financement d’amorçage à environ 500M$ de valorisation ✅
- L’équipe inclut l’ancien responsable GenAI de Meta, Alexander Whedon ✅
- L’entreprise est sortie du stealth le 5 mai 2026 ✅
- L’API et les produits existent en bêta privée ✅
Non vérifié :
- Contexte de 12M de tokens en production ❌ (configuration recherche uniquement)
- Réduction de calcul de 1 000x ❌ (aucun audit indépendant)
- Reproductibilité des benchmarks ❌ (pas d’article, pas de poids)
- Fiabilité en production ❌ (bêta privée, testeurs limités)
Feuille de route : Prochaines étapes
Subquadratic a une feuille de route agressive :
- T3 2026 : Accès API élargi, publication des SDK
- T4 2026 : Objectif de fenêtre de contexte de 50 millions de tokens
- 2027 : Outils de post-entraînement pour entreprises
L’entreprise a déclaré qu’elle n’a pas l’intention d’ouvrir les poids de SubQ, se positionnant plutôt comme un fournisseur d’API commercial.
Pourquoi c’est important
Même avec le scepticisme, SubQ représente un moment significatif dans le développement de l’IA :
-
La barrière quadratique est la dernière grande contrainte des architectures Transformer. Celui qui résoudra le passage à l’échelle sous-quadratique débloquera des cas d’usage fondamentalement nouveaux.
-
Le long contexte change tout. Avec 1M+ tokens, les agents peuvent travailler avec des bases de code entières, des dossiers juridiques, de la littérature académique ou des documents commerciaux en une seule passe — sans RAG, sans découpage, sans perte de contexte.
-
L’économie force l’attention. Même si SubQ ne délivre que 10% de ce qui est promis, il serait toujours moins cher que les approches existantes pour les tâches à long contexte.
-
La pression concurrentielle est saine. Que SubQ soit réel ou non, le buzz pousse tous les laboratoires à accélérer leurs propres recherches sous-quadratiques.
Conclusion
Le lancement de SubQ par Subquadratic est l’une des annonces IA les plus conséquentes — et les plus controversées — de 2026. Si elle est validée, SSA pourrait fondamentalement remodeler l’économie de l’IA, rendant les contextes d’un million de tokens abordables et omniprésents. Sinon, elle rejoint une longue liste d’architectures qui n’ont pas pu passer à l’échelle.
La vérification indépendante viendra dans les mois à venir. D’ici là, la meilleure approche pour SubQ est une curiosité sincère alliée à un scepticisme sain.
Ce qui est certain : la course à l’IA sous-quadratique est officiellement lancée.
Références
- VentureBeat : La startup de Miami Subquadratic affirme un gain d’efficacité IA de 1000x
- FelloAI : Revue de SubQ — Le premier LLM sous-quadratique
- SiliconANGLE : Subquadratic lance avec 29M$ pour des fenêtres de contexte de 12M tokens
- TokenPost : Investissement d’amorçage Subquadratic, LLM SubQ de 12M tokens
- 虎嗅 : Subquadratic obtient 29M$ en financement d’amorçage
- Habr : LLM à complexité linéaire et contexte jusqu’à 12M tokens