GPT-5.5 im Realitätscheck: Benchmarks, Preise und was uns OpenAI nicht erzählt

Hinter dem Release-Hype

Am 23. April 2026 hat OpenAI GPT-5.5 veröffentlicht, nur eine Woche nach Anthropics Claude Opus 4.7. Der Takt ist bemerkenswert: fünf Modell-Releases in etwas mehr als einem halben Jahr (GPT-5.1, 5.2, 5.3-Codex, 5.4, 5.5), und der Druck auf OpenAI war spürbar. Seit Dezember 2025 befand sich das Unternehmen laut internen Quellen in einem „Code Red"-Zustand, während Anthropics Enterprise-ARR sich angeblich von 9 auf 30 Milliarden US-Dollar entwickelt hat. GPT-5.5 ist die Antwort auf diesen Druck.

Die Marketing-Narrative ist vertraut: „neue Intelligenzklasse" (Greg Brockman), „smartestes Modell" (OpenAI-Blog), „Schritt in Richtung AGI". Wenn wir jedoch die Benchmarks ernst nehmen und den Kontext mitlesen, ergibt sich ein differenzierteres Bild.

Die technischen Eckdaten, nüchtern betrachtet

GPT-5.5 ist laut OpenAIs eigenen Angaben das erste vollständig neu trainierte Basismodell seit GPT-4.5. Das ist kein Punkt-Update, sondern eine strukturelle Neuausrichtung auf das, was OpenAI „agentische Performance" nennt: längere Aufgabenketten, weniger Prompt-Micromanagement, autonome Computer-Bedienung.

Technisch greifen mehrere Hebel ineinander. Das Modell läuft auf NVIDIAs GB200- und GB300-NVL72-Systemen, nutzt von der KI selbst geschriebene Heuristik-Algorithmen für die Lastverteilung auf GPU-Kernen, und erreicht laut VentureBeat über 20 % höhere Token-Generierungsgeschwindigkeit als der Vorgänger. Bei gleicher Per-Token-Latenz wie GPT-5.4, trotz höherer Intelligenz. Die Kontextgröße beträgt 1 Million Token in der API, hier gleichauf mit Claude Opus 4.7, das seit der Vorgängerversion 4.6 (Februar 2026) ebenfalls mit einem 1M-Kontextfenster arbeitet. Anthropic hat seit März 2026 sogar den bis dahin üblichen Preisaufschlag für Kontexte über 200K gestrichen. Ein Detail, das beim Vergleich mit OpenAIs Preismodell (wo oberhalb 272K der Input-Preis verdoppelt wird) noch wichtig wird. Zwei Modi stehen bei GPT-5.5 zur Verfügung: Standard und Pro, wobei Pro auf parallele Test-Time-Compute setzt und entsprechend langsamer, aber tiefer reasont.

Soweit die offizielle Beschreibung. Wie belastbar sind die Zahlen?

Benchmarks, wo GPT-5.5 führt

Im von Artificial Analysis geführten Intelligence Index erreicht GPT-5.5 60 Punkte, drei Punkte vor Claude Opus 4.7 und Gemini 3.1 Pro Preview (beide 57). Ein messbarer, aber kein gewaltiger Vorsprung. Interessanter wird es in den Spezialdisziplinen:

Benchmark	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82,7 %	69,4 %	68,5 %
GDPval (Wissensarbeit)	84,9 %	80,3 %	67,3 %
OSWorld-Verified	78,7 %	78,0 %	—
Expert-SWE (intern)	73,1 %	—	—
SWE-Bench Pro	58,6 %	64,3 %	—
Humanity’s Last Exam (ohne Tools)	41,4 %	46,9 %	—
BrowseComp	84,4 % (Pro: 90,1 %)	79,3 %	85,9 %
FrontierMath Tier 1–3	51,7 %	43,8 %	—
CyberGym	81,8 %	—	—

Auf VentureBeat-Ebene zusammengefasst: GPT-5.5 führt in 14 Benchmarks, Opus 4.7 in 4, Gemini 3.1 Pro in 2. Die Dominanz liegt klar bei agentischer Computer-Nutzung, Wissensarbeit (GDPval), Cybersecurity und fortgeschrittener Mathematik.

Wo Claude Opus 4.7 weiterhin besser ist

Die Zahlen-Schau erzählt nur die Hälfte. Bei SWE-Bench Pro, einem der aussagekräftigsten Benchmarks für reale Software-Engineering-Aufgaben, liegt Claude Opus 4.7 mit 64,3 % gegenüber 58,6 % deutlich vor GPT-5.5. OpenAI weist in eigenen Kommentaren auf mögliche Memorization-Effekte hin, aber an der Tabellenposition ändert das nichts. Wer Legacy-Codebasen refaktorieren oder reale GitHub-Issues lösen muss, findet in Opus 4.7 weiterhin das stärkere Werkzeug.

Noch auffälliger: Bei Humanity’s Last Exam ohne Werkzeuge erreicht Opus 4.7 46,9 %, GPT-5.5 nur 41,4 %. Das ist pures, zero-shot-akademisches Reasoning ohne Tool-Use-Krücken. Wenn wir eine Aufgabe vor uns haben, bei der das Modell selbst denken muss und keine Suchmaschine oder Codeausführung dazwischenhängt, hat Anthropic weiterhin die Nase vorn.

Der VentureBeat-Analyst Carl Franzen fasst es treffend zusammen: GPT-5.5 dominiert in „agentic computer use, economic knowledge work, specialized cybersecurity, and complex mathematics", während Opus 4.7 bei Software Engineering und reinem Reasoning ohne Tools führt.

Der Preis kann heftig werden

Hier beginnt der Teil, den OpenAI weniger gerne betont. Die API-Preise:

GPT-5.5 Standard: 5 USD pro 1 Mio. Input-Tokens, 30 USD pro 1 Mio. Output-Tokens
GPT-5.5 Pro: 180 USD pro 1 Mio. Output-Tokens
GPT-5.4 zum Vergleich: 2,50 USD / 15 USD
Claude Opus 4.7: 5 USD / 25 USD (unverändert gegenüber 4.6)

OpenAI hat also den Preis im Vergleich zu GPT-5.4 verdoppelt, und GPT-5.5 Pro kostet sechsmal so viel pro Output-Token wie das Standard-Modell. Das offizielle Gegenargument: GPT-5.5 verbraucht rund 40 % weniger Output-Tokens für vergleichbare Aufgaben, sodass der Netto-Kostenanstieg „nur" bei etwa 20 % liegen soll.

Dazu kommt ein weiterer, gerne übersehener Punkt: OpenAI verdoppelt bei GPT-5.x oberhalb von 272K Input-Tokens die Preise. Wer also das volle 1M-Kontextfenster nutzt, zahlt effektiv 10 USD pro Mio. Input. Anthropic hat diesen Aufschlag seit März 2026 komplett gestrichen. Eine 900K-Token-Anfrage kostet bei Claude denselben Pro-Token-Preis wie eine 9K-Anfrage. Für Agenten-Pipelines, die lange Dokumente oder ganze Codebasen verarbeiten, ist das ein signifikanter struktureller Vorteil, und einer der Gründe, warum Anthropic im Enterprise-Markt so stark wächst.

Das ist eine buchhalterisch saubere, aber in der Praxis riskante Rechnung. Wer Agenten in Produktion betreibt, weiß: Token-Verbrauch skaliert nicht linear mit Modellqualität. Ein Modell, das „tiefer nachdenkt", kann schnell deutlich mehr Tokens verbrauchen, nicht weniger, besonders bei schlecht spezifizierten Prompts. Die behauptete Effizienzrechnung gilt für OpenAIs interne Benchmarks, nicht automatisch für unsere Produktions-Workloads.

Ein weiterer Punkt: Die API-Verfügbarkeit ist noch nicht da. GPT-5.5 läuft aktuell in ChatGPT und Codex für zahlende Nutzer, aber der API-Rollout folgt „in Kürze". OpenAI begründet das mit zusätzlichen Safety-Arbeiten im Zusammenhang mit der als „High" eingestuften Cybersecurity-Capability.

Das System Card, im Kleingedruckten

Das GPT-5.5 System Card ist aufschlussreicher als die Marketingseite. OpenAI stuft die Cybersecurity-Fähigkeiten von GPT-5.5 erstmals als „High" im Preparedness Framework ein, eine Stufe, die zusätzliche Schutzmaßnahmen erfordert. Konkret: CyberGym-Score steigt von 79,0 (GPT-5.4) auf 81,8 %, interne Capture-the-Flag-Challenges von 83,7 auf 88,1 %.

Interessant ist, was OpenAI explizit ausschließt: Das Modell besitze nicht die Fähigkeit, „funktionale Zero-Day-Exploits aller Schweregrade in gehärteten realen kritischen Systemen ohne menschliches Eingreifen zu entwickeln". Die Formulierung ist sorgfältig gewählt, sie verneint die kritische Schwelle, lässt aber erheblichen Raum. Vor dem Hintergrund, dass Anthropics Mythos-Preview (nicht öffentlich verfügbar) im gleichen CyberGym-Benchmark 83,1 % erreicht, bewegen sich beide Unternehmen bewusst an derselben Grenze.

Bei Bio- und Chemie-Risiken verharrt GPT-5.5 auf dem seit GPT-5-thinking üblichen „High"-Capability-Niveau. Die Safeguards werden im Wesentlichen übernommen.

Bemerkenswert ist außerdem, was das System Card zu Bias-Evaluierungen sagt: Bei der harm_overall-Metrik (geschlechterabhängige Antwortdifferenzen bei männlichen vs. weiblichen Namen) liegt GPT-5.5 „auf Par mit GPT-5.1 und innerhalb des Konfidenzintervalls von GPT-5.2 und GPT-5.4". Übersetzt heißt das: Bei der Bias-Reduktion gibt es keinen Fortschritt. OpenAI formuliert das höflich.

Lehren aus fünf Releases

Ein Blick zurück ist hier lehrreich. GPT-5.2 wurde im Dezember 2025 mit ähnlichen Superlativen gestartet, und Sam Altman musste auf einer Townhall offen einräumen, dass OpenAI bewusst Schreibqualität und narrativen Fluss vernachlässigt habe, um „Intelligence, Reasoning, Coding" zu priorisieren. Die Reddit- und HackerNews-Communities zerrissen 5.2 für genau diese Eigenschaften: prüde, mechanisch, halluzinierende APIs, vergessene Vertragsklauseln in langen Dokumenten.

Ob GPT-5.5 diese Probleme löst oder weiter verschärft, werden wir erst in den kommenden Wochen sehen. Frühtester sind angesichts der kurzen Verfügbarkeit noch mit Vorsicht zu genießen, auch wenn OpenAI schon 200 Early-Access-Partner angibt. Wir erinnern uns: Beim GPT-5-Launch im August 2025 wurden publikumswirksame Fehlschläge (fehlerhafte US-Karten, falsche Präsidentenlisten, Zählfehler mit Buchstaben) innerhalb von Stunden dokumentiert. Die Einstufung „AGI-nah" hielt nicht einmal 24 Stunden.

Auch die Auto-Router-Architektur, die seit GPT-5 zwischen schnellen und „denkenden" Varianten wechselt, war wiederholt Gegenstand von Qualitätsbeschwerden. Nutzer berichteten, dass vermeintliche „Thinking"-Antworten tatsächlich von kleineren, günstigeren Modellen kamen. Bei GPT-5.5 kommt noch die neue „xhigh"-Reasoning-Stufe hinzu. Mehr Stellschrauben bedeuten mehr Stellen, an denen Transparenz verloren gehen kann.

Die strategische Ebene

Wer Brockmans Pressekonferenz aufmerksam liest, bemerkt zwei Botschaften. Erstens: „Das Modell selbst ist nicht mehr das gesamte Produkt. Man kann es als Gehirn betrachten, aber wir bauen auch den Körper, in Form der Anwendungen, die wir ausliefern, der agentischen Harnesses." OpenAI positioniert GPT-5.5 als Baustein für eine „Super-App", die ChatGPT, Codex und den Atlas-Browser-Agenten in einer einzigen Session bündeln soll. Das erklärt, warum der Fokus auf agentische Benchmarks so stark ist, und warum die API-Verfügbarkeit wartet: OpenAI will zuerst die eigenen Produkte positionieren.

Zweitens: Jakub Pachocki, Chief Scientist, erklärt, dass OpenAI „noch erheblichen Spielraum" habe, deutlich intelligentere Modelle zu trainieren. Die Scaling-Debatte, die nach GPT-5 als beendet galt, wird hier implizit wieder eröffnet. Pachocki ist vorsichtig genug, keine Zeitpläne zu nennen.

Welches Modell für welchen Workload

Wir können die Situation ziemlich klar zusammenfassen:

Wenn unsere Hauptarbeit aus Agenten-Workflows mit Tool-Use, Computer-Bedienung und mehrstufigen Aufgaben besteht, ist GPT-5.5 derzeit die beste öffentlich verfügbare Wahl. Die Gewinne bei Terminal-Bench, OSWorld-Verified und BrowseComp sind substanziell. Besonders die Pro-Variante mit 90,1 % BrowseComp ist für Deep-Research-Pipelines beeindruckend.

Wenn wir dagegen produktiven Software-Engineering-Code schreiben, Legacy-Refactoring betreiben oder an reinen Reasoning-Aufgaben arbeiten, bleibt Claude Opus 4.7 wettbewerbsfähig bis überlegen. Der SWE-Bench-Pro-Vorsprung und die niedrigere Token-Preisstruktur sprechen für sich. Ergänzend: Das /ultrareview-Kommando in Claude Code und die erweiterten Task-Budgets in der Claude-Plattform sind konkrete, produktionstaugliche Features.

Für unabhängige Entwickler, kleine Teams und KMU ist die Preisentwicklung ein ernstzunehmender Faktor. Anthropic hält die Opus-4.7-Preise stabil bei 5/25 USD, OpenAI zieht auf 5/30 bzw. 180 USD für Pro. Bei produktiven Workloads mit Tausenden täglicher Anfragen summiert sich das schnell zu fünfstelligen Monatsbeträgen.

Ein Wort zur Benchmark-Kultur

Wir sollten die Grenzen dieser Vergleiche nicht vergessen. Terminal-Bench 2.0, OSWorld-Verified und GDPval sind keine Naturgesetze, sondern Evaluationen mit eigenen Annahmen, Harnesses und Auswertungslogiken. Ein Modell kann in einer Evaluation besser aussehen, weil das Scaffold besser ist, der Context Manager klüger, die Retry-Logik sauberer. OpenAI erwähnt in eigenen Anmerkungen zu GPT-5.4, dass BrowseComp-Scores nicht nur Modelländerungen, sondern auch Veränderungen im Suchsystem und im Zustand des Webs widerspiegeln.

Die Einordnung muss also lauten: GPT-5.5 ist nach heutigen, öffentlich zugänglichen Benchmarks das leistungsfähigste Frontier-Modell, aber in einem Feld, in dem sich die Spitzengruppe innerhalb von Wochen abwechselt. Vor einem Monat war es GPT-5.4 Pro, dann Opus 4.7, jetzt GPT-5.5. In sechs Wochen wird vermutlich Anthropic oder Google nachlegen.

Fazit

GPT-5.5 ist ein solider, in agentischen Szenarien überragender Release, der den Druck auf Anthropic und Google spürbar erhöht. Die Marketingrhetorik („neue Intelligenzklasse") ist übertrieben, die tatsächlichen Fortschritte, insbesondere bei OSWorld, Terminal-Bench und GDPval, sind aber real und messbar.

Gleichzeitig zeigen sich drei strukturelle Probleme: Die Preisverdopplung verschiebt den Markt zu Ungunsten unabhängiger Entwickler und kleinerer Teams. Die fehlende API-Verfügbarkeit zum Launch-Zeitpunkt deutet auf Sicherheitsbedenken hin, über die OpenAI nicht ausreichend transparent kommuniziert. Und die in den System Cards sichtbare Stagnation bei Bias- und Fairness-Metriken erinnert daran, dass „smarter" nicht automatisch „besser" bedeutet.

Wer heute ein produktives System baut, sollte nicht blind zum neuesten Modell wechseln. Die Frage ist nicht, welches Modell die längste Benchmark-Tabelle füllt, sondern welches für unseren spezifischen Workload die beste Kombination aus Qualität, Preis und Verlässlichkeit bietet. Für viele Szenarien wird das weiterhin Claude Opus 4.7 sein, und für einige eben GPT-5.5. Die Ära der „einen besten KI" ist endgültig vorbei, sollte es die je gegeben haben.

Quellen und weiterführende Lektüre

OpenAI: Introducing GPT-5.5 (23.04.2026)
GPT-5.5 System Card (OpenAI Deployment Safety Hub)
VentureBeat: OpenAI’s GPT-5.5 is here, and it’s no potato
The New Stack: OpenAI launches GPT-5.5, calling it “a new class of intelligence”
Fast Company: OpenAI releases GPT-5.5, a more powerful engine for coding, science, and general work
The Next Web: OpenAI launches GPT-5.5, its first fully retrained base model since GPT-4.5
Anthropic: Introducing Claude Opus 4.7 (16.04.2026)
Digital Applied: GPT-5.5 Complete Guide
all-ai.de: GPT-5.5 ist stärker und teurer als Claude Opus