Subquadratic SubQ: Ein Startup behauptet das Skalierungsgesetz von Transformern gebrochen zu haben

Subquadratic SubQ: Ein Startup behauptet das Skalierungsgesetz von Transformern gebrochen zu haben

Am 5. Mai 2026 ist ein Miami-Startup namens Subquadratic mit 29 Millionen US-Dollar Seed-Funding aus dem Stealth-Modus gekommen und hat ein LLM angekündigt, das auf dem Papier so beeindruckend klingt, dass man kurz innehält: SubQ, das erste produktiv verfügbare Modell mit einer vollständig sub-quadratisch skalierenden Attention-Architektur. Versprochen werden 12 Millionen Token Kontext, eine 52-fache Geschwindigkeit gegenüber FlashAttention bei einer Million Token und Kosten von etwa einem Drei­hundertstel im Vergleich zu Frontier-Modellen wie Claude Opus.

Worum geht es technisch?

Das eigentliche Problem, das Subquadratic angeht, ist alt und langweilig zugleich: Standard-Transformer-Attention vergleicht jedes Token mit jedem anderen. Wenn wir die Eingabelänge verdoppeln, verfierfacht sich die Rechenarbeit. Diese quadratische Skalierung ist die Wand, an der Long-Context-Anwendungen seit Jahren stehen. Verdoppeln wir 1 Million Token auf 2 Millionen, vervierfacht sich die Attention-Kostenrechnung – nicht verdoppelt.

Subquadratic hat dem eine Architektur namens SSA (Subquadratic Selective Attention) entgegengestellt. Die Idee ist nicht neu, aber die Umsetzung ist es: Statt jedes Token-Paar zu vergleichen, soll das Modell content-dependent entscheiden, welche Positionen für eine gegebene Query überhaupt relevant sind, und nur über diese exakt rechnen. Im Blog-Post des Unternehmens findet sich die Begründung explizit:

SSA does not approximate attention. It restricts attention to the positions that actually carry signal, and skips the rest.

Das ist will der Kniff sein, an der sich SSA von früheren Versuchen abgrenzen will. Wir kennen das Feld:

  • Fixed-Pattern Sparse Attention (Sliding Window, Strided, Dilated) verkleinert den Suchraum, entscheidet aber positionsbasiert – das Modell entscheidet, wo es schaut, bevor es weiß, was es sucht. Liegt die relevante Information außerhalb des Musters, wird sie schlicht nicht gesehen. Folge in der Praxis: Multi-Hop-Retrieval und verstreute Evidenz fallen durch das Raster, sobald das Pattern die Antwort-Position nicht zufällig trifft — die Genauigkeit ist nicht graduell schlechter, sie kollabiert.
  • State Space Models wie Mamba ersetzen die Paar-Vergleiche durch einen komprimierten State, der über die Sequenz hinweg evolviert. Linear in der Skalierung, aber mit fester Kapazität – Information wird mit zunehmender Sequenzlänge unscharf oder geht verloren. Folge in der Praxis: bei Aufgaben mit exaktem Recall früherer Tokens — Code-Refactoring quer durch eine große Datei, juristische Querverweise, lange Dialoge mit Rückbezug — sinkt die Genauigkeit mit wachsender Sequenzlänge messbar ab.
  • Hybride Architekturen kombinieren effiziente und dichte Layer. In der Praxis tragen die dichten Layer weiterhin die Last, womit die quadratische Skalierung nur verschoben, nicht aufgehoben wird. Folge in der Praxis: das versprochene Skalierungsprofil gilt für synthetische Benchmarks und kurze Demo-Workloads; bei realen Long-Context-Anwendungen bleibt die Kostenkurve quadratisch dominiert.
  • DeepSeek Sparse Attention lagert die Auswahl in einen “lightning indexer” aus – der laut Subquadratic-Analyse selbst quadratisch skaliert. Komplexität verschoben, nicht entfernt. Folge in der Praxis: bei sehr langem Kontext wird der Indexer zum eigentlichen Bottleneck, und die O(n²)-Wand kommt durch die Hintertür zurück — nur einen Layer früher.

SSA versucht laut eigener Beschreibung, das eigentliche offene Problem zu lösen: ein Mechanismus, der gleichzeitig effizient, content-abhängig und in der Lage ist, aus beliebigen Positionen über lange Kontexte hinweg zu retrieven. Ob das stimmt, kommt gleich auf den Prüfstand.

Die Zahlen, die im Raum stehen

Subquadratic legt eine Reihe von Benchmarks vor. Wir trennen sauber zwischen eigenen Messungen und third-party verifizierten Werten, weil dieser Unterschied beim Einordnen der Zahlen hilft.

Geschwindigkeit (Eigenmessung auf B200-GPUs)

KontextlängeSSA-Speedup vs. FlashAttention
128K7,2×
256K13,2×
512K23,0×
1M52,2×

Compute-Reduktion (Eigenmessung)

Bei 1 Million Token meldet das Unternehmen eine 62,5-fache Reduktion der Attention-FLOPs gegenüber Standard-Quadratic-Attention. Bei 12 Millionen Token soll der Faktor in Richtung 1.000× wandern.

Retrieval-Benchmarks

Hier wird die Quellenfrage entscheidender, deshalb pro Benchmark der Vermerk.

RULER @ 128K (Eigenmessung von Subquadratic) — ein Benchmark für Multi-Hop-Retrieval, Aggregation und Variable Tracking. Subquadratic meldet 95,0 % gegenüber 94,8 % für Claude Opus 4.6. Praktisch gleichauf, mit angeblich drastisch geringeren Kosten.

MRCR v2 misst, wie gut ein Modell mehrere verstreute Evidenzstücke über lange Kontexte hinweg findet und integriert. Hier wird die Tabelle interessant, weil sich Eigenmessung und externe Verifikation mischen — der SubQ-Wert ist die einzige Zahl in der ganzen Ankündigung, die ausdrücklich als third-party verifiziert ausgewiesen wird; alle übrigen Modellwerte sind von Subquadratic im eigenen Vergleich angegeben (typischerweise aus den Hersteller-Reports übernommen, ohne erneute unabhängige Messung):

ModellMRCR v2Quelle
Opus 4.678,3 %von Subquadratic angegeben
GPT-5.574,0 %von Subquadratic angegeben
SubQ65,9 %third-party verifiziert
GPT-5.436,6 %von Subquadratic angegeben
Opus 4.732,2 %von Subquadratic angegeben
Gemini 3.1 Pro26,3 %von Subquadratic angegeben

SubQ liegt deutlich vor den meisten Frontier-Modellen, aber unter Opus 4.6. Bemerkenswert: Opus 4.7 und Gemini 3.1 Pro fallen in diesem Test überraschend ab. Dieser Bench misst offenbar etwas, das die Routing-Strategien aktueller dichter Modelle nicht abbilden — was sowohl für SubQ sprechen als auch die Aussagekraft des Benchmarks selbst infrage stellen kann.

SWE-Bench Verified (Eigenmessung): SubQ liegt bei 81,8 % und damit knapp vor Opus 4.6 (80,8 %), aber deutlich hinter Opus 4.7 (87,6 %). Coding ist also nicht der Bereich, in dem SubQ die Konkurrenz alt aussehen lässt.

Methodische Vorbehalte

Drei Dinge fallen auf, die nicht vom Tisch zu wischen sein sollten.

Erstens, das übliche Eigenmessungs-Problem. Wir haben ein junges Unternehmen, ein noch nicht öffentlich zugängliches Modell – Early Access nur über Antrag – und Benchmark-Zahlen, die fast ausschließlich vom Unternehmen selbst stammen. Subquadratic schreibt im Technical Post explizit, dass ein vollständiger Model Card erst noch kommt. Die einzige Zahl, die als third-party verifiziert ausgewiesen wird, ist der MRCR-v2-Score von 65,9 %. Das ist anständig, aber kein “1.000× Effizienz-Sprung”. VentureBeat hat genau das in seinem Bericht aufgegriffen: Forscher fordern unabhängige Beweise und sind sich nicht einig, ob der Durchbruch real ist.

Zweitens, die historische Lernkurve. Wir hatten Mamba, RWKV, Linear Attention, State Space Models, Performer, Reformer, Longformer, BigBird – die Liste der “Transformer-Killer”, die mit beeindruckenden Benchmarks kamen und am Ende in Nischen verschwunden sind, ist lang. Auch das Subquadratic-Team weist im eigenen Blog-Post auf die Schwächen aller Vorgänger hin. Die Frage, warum diese Architektur die Limitationen der anderen nicht erbt, beantwortet das Unternehmen mit dem Verweis auf “content-dependent routing without quadratic indexer”. Das ist plausibel, aber die wissenschaftliche Community hat es noch nicht überprüft.

Drittens, der Diskussionsstand auf Hacker News. Der erste längere Kommentar zur Ankündigung wundert sich, dass die Sache nicht mehr Aufmerksamkeit bekommt – und schließt mit dem ehrlichen “I suppose it’s just an announcement and we can’t test it ourselves yet”. Genau das ist der Punkt: Solange wir das Modell nicht in die Hand bekommen, sind alle Zahlen Marketing.

Hinzu kommt ein methodisches Detail. Im Technical Post schreibt Subquadratic wörtlich, „FlashAttention-3 did not produce a speedup on B200s over FlashAttention-2", und wählt deshalb FA-2 als Baseline. Das mag auf der getesteten Hardware stimmen, ist aber eine bequeme Wahl: FA-3 ist laut FlashAttention-Repository „optimized for Hopper GPUs (e.g. H100)" — nicht für Blackwell. Mittlerweile existiert FlashAttention-4, laut selbem Repo „written in CuTeDSL and optimized for Hopper and Blackwell GPUs (e.g. H100, B200)". Es gibt also eine Baseline, die für genau die getestete Hardware entworfen ist — und Subquadratic vergleicht trotzdem gegen FA-2. Ein Lauf gegen FA-4 auf B200 würde präziser zeigen, wie viel der 7,2× / 52× Speedups tatsächlich aus SSA stammt und wie viel daraus, dass FA-2 für Blackwell schlicht nicht optimiert ist.

Praktische Implikationen, falls die Architektur hält

Spielen wir den optimistischen Fall einmal durch, denn auch das gehört zur ehrlichen Einordnung.

Wenn SSA hält, was es verspricht, ändert sich nicht das Modell – es ändert sich die Art, wie wir Anwendungen bauen. Die letzten zwei Jahre an LLM-Engineering bestehen aus einer einzigen großen Workaround-Disziplin: RAG-Pipelines, Chunk-Strategien, Hybrid-Search, Reranking, Agent-Decomposition, Subagent-Orchestrierung, Context-Compaction, Memory-Systems. Wir haben gigantischen Aufwand betrieben, um das O(n²)-Limit der Attention zu umgehen.

Ein nutzbarer 12-Millionen-Token-Kontext stellt einige dieser Disziplinen schlicht infrage. Eine komplette Codebase in einem Pass? Ein vollständiges Compliance-Dokument plus aller referenzierten Anhänge gleichzeitig im Sichtfeld? Ein langer Beratungsfall mit allen Nebenakten in einem einzigen Prompt? Genau das ist der Pitch, und genau dort liegt der praktische Wert. Das Subquadratic-Team formuliert das so:

The failure mode of short-context systems is not merely that they are missing some context. It is that they are forced to reason about fragments.

Das stimmt. Aber – und hier kommt der nüchterne Teil – nominal context ist nicht functional context. Das Modell selbst weist auf diesen Unterschied hin: ein Kontextfenster sagt nichts darüber aus, wie zuverlässig das Modell darüber reasonen kann. Genau diese Lücke wollen die MRCR-v2-Zahlen schließen, und genau dort liegt SubQ noch hinter Opus 4.6.

Einordnung für den Praxiseinsatz

Ein Gedankenexperiment hilft uns. Stellen wir uns vor, jemand kommt morgen ins Büro und sagt: “Lass uns RAG für unsere SAP-Knowledge-Base wegwerfen, wir haben jetzt 12 Millionen Token Kontext.” Was ist unsere ehrliche Antwort?

Sie lautet: Vielleicht später, aber nicht jetzt. Aus drei Gründen. Erstens: Verfügbarkeit. Wer es nicht in der Hand hat, baut nicht damit. Zweitens: Reife. Selbst wenn die Architektur funktioniert, fehlen die Tooling-Ökosysteme, die Operations-Erfahrung, die Failure-Mode-Kataloge, die wir bei Claude, GPT und Gemini in den letzten zwei Jahren aufgebaut haben. Drittens: Funktionaler Kontext. Solange MRCR v2 unter dem Wert von Opus 4.6 liegt, ist 12 Millionen Token mehr Versprechen als nutzbare Realität.

Was wir aber tun: SubQ auf der Beobachtungsliste behalten. Wenn unabhängige Replikationen kommen – aus der akademischen Community, von HuggingFace-Reproduktionen, von ernsthaften Production-Deployments –, ändert sich die Lage. Bis dahin sortieren wir die Ankündigung dort ein, wo sie aktuell hingehört: spannende Architektur, plausible These, beeindruckende Eigenmessungen, und ein Ausrufezeichen mit Bleistift gezeichnet.

Warum dieser Trommelwirbel überhaupt wichtig ist

Auch wenn SubQ am Ende hinter den eigenen Versprechen zurückbleiben sollte, ist die Diskussion produktiv. Sie zwingt das Feld dazu, funktionalen statt nominalen Kontext zu messen. Sie macht klar, dass die heutigen Workarounds – RAG, Chunk-Strategien, Multi-Agent-Choreografie – nicht die finale Antwort sind, sondern Symptome eines architektonischen Problems. Und sie erinnert daran, dass die wirklich interessanten Fortschritte in der KI nicht in Parameter-Counts, sondern in besseren Inductive Biases gemessen werden.

Das bisherige Bild: ein junges Unternehmen behauptet, ein langjährig bekanntes Problem mit einer neuen Methode zu lösen. Ob die Methode tatsächlich trägt, lässt sich aus den derzeit verfügbaren Daten nicht beantworten. Unabhängig vom Ausgang bleibt aber die Problemformulierung — content-dependent Routing ohne quadratischen Indexer ist der richtige technische Frame, um über das nächste Kapitel von LLM-Architekturen nachzudenken.

Quellen