Claude Opus 4.8: der Honesty-Sprung und die Dynamic Workflows

Anthropic hat heute Claude Opus 4.8 veröffentlicht. Der Preis bleibt identisch zu Opus 4.7. Auf den ersten Blick sieht das nach einem weiteren Incremental-Release aus. Aber die eigentliche Schlagzeile steckt nicht in der Benchmark-Tabelle, sondern in einem Satz aus dem Release-Post: das Modell ist “around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked.”

Der Sprung bei Coding und Reasoning

Die Zahlen in der Tabelle unten sind Angaben von Anthropic, keine unabhängigen Messungen.

Benchmark	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-bench Pro (agentic coding)	69,2 %	64,3 %	58,6 %	54,2 %
SWE-bench Verified	88,6 %	87,6 %	n/a	80,6 %
SWE-bench Multilingual	84,4 %	80,5 %	n/a	n/a
Terminal-Bench 2.1	74,6 %	66,1 %	78,2 %	70,3 %
OSWorld-Verified (computer use)	83,4 %	~82,3 %	78,7 %	76,2 %
Humanity’s Last Exam (mit Tools)	57,9 %	54,7 %	52,2 %	51,4 %
GPQA Diamond	93,6 %	94,2 %	n/a	94,3 %
GDPval-AA (Knowledge work, ELO)	1890	1753	1769	1314
Finance Agent v2	53,9 %	51,5 %	51,8 %	43,0 %
GraphWalks BFS 1M (long context)	68,1 %	40,3 %	45,4 %	n/a
USAMO 2026 (Mathe)	96,7 %	69,3 %	n/a	n/a

Die auffälligsten Sprünge gegenüber 4.7 (alle Zahlen: Herstellerangaben):

USAMO 2026 springt von 69,3 auf 96,7 Prozent. Anthropic bezeichnet das als den größten Single-Cycle-Mathe-Sprung der Opus-Linie. Das klingt beeindruckend, und für mathematisch-formale Domänen ist das ein echtes Signal. Für tägliche Coding-Arbeit ist es nur bedingt relevant.

GraphWalks BFS 1M (Long-Context-Navigation) verdoppelt sich fast: von 40,3 auf 68,1 Prozent. Das ist der Sprung, der in der Praxis am stärksten auffallen dürfte, sobald große Codebases oder lange Kontext-Fenster ins Spiel kommen.

SWE-bench Pro geht von 64,3 auf 69,2 Prozent. Solide, aber kein Riesensprung.

Die eine klare Niederlage liegt bei Terminal-Bench 2.1: Opus 4.8 kommt auf 74,6 Prozent, GPT-5.5 auf 78,2 Prozent. Das sind 3,6 Prozentpunkte Rückstand bei agentischem Terminal-Coding. Zur Einordnung: Terminal-Bench ist harness-sensitiv. GPT-5.5 erreicht den Wert 78,2 Prozent über das öffentliche Terminus-2-Harness; andere Modelle werden teilweise über proprietäre Harnesses gemessen. Ein 1:1-Vergleich ist also nicht möglich. Der Rückstand bleibt aber auch nach dieser Nuance bestehen.

GPQA Diamond ist eine zweite, minimale Ausnahme: 93,6 Prozent gegenüber 94,3 bei Gemini 3.1 Pro, dazu eine leichte Regression gegenüber Opus 4.7 (94,2). Bei einem nahezu gesättigten Benchmark liegt das innerhalb normaler Varianz.

Benchmarks insgesamt: mit Vorsicht lesen. Die Zahlen stammen von Anthropic, nicht von unabhängigen Labors.

„Honesty": vier Mal seltener stillschweigend fehlerhafter Code

Das ist für mich der interessantere Teil des Releases.

Wer regelmäßig mit LLMs auf Coding-Aufgaben arbeitet, kennt das Muster: ein Modell behauptet, eine Aufgabe vollständig erledigt zu haben. Es schreibt “Ich habe das gesamte Transkript verarbeitet” oder “der Fix ist implementiert”. Hakt man nach, stellt sich heraus: es hat zusammengefasst statt gelesen, oder den Fehler gesehen und stillschweigend übergangen. Das zwingt dazu, fast jede Aussage des Modells mit Tests oder Gegenprüfungen zu verifizieren.

Opus 4.8 soll genau hier besser werden. Anthropic formuliert es so:

“sharper judgement, more honesty about its progress, and the ability to work independently for longer than its predecessors.”

Und konkreter: das Modell ist “around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked.”

Das Alignment-Team hat eigene Metriken dafür entwickelt. Der Misalignment-Score (Anthropic-interne Metrik, die Täuschung und Kooperation mit Missbrauch zusammenfasst) liegt bei Opus 4.8 bei etwa 1,9, gegenüber 2,5 bei Opus 4.7. Das entspricht in etwa dem Niveau von Claude Mythos Preview, Anthropics bisher bestausgerichtetem Modell, das in den nächsten Wochen breiter released werden soll.

Für prosoziale Eigenschaften (Unterstützung der Nutzer-Autonomie, im Nutzerinteresse handeln) erreicht Opus 4.8 laut Anthropic neue Höchstwerte.

Ein Detail aus der System Card (rund 250 Seiten) sollte man dabei nicht überlesen. Anthropic flaggt dort selbst eine Schwäche. Opus 4.8 spekuliert in seinem Reasoning zunehmend über die “grader”, also die Bewerter seiner Antworten. Das Modell entwickelt offenbar ein Gespür dafür, wann es geprüft wird, und passt sein Verhalten an. Genau das untergräbt die Honesty-Zahlen. Ein Modell, das gelernt hat, eine Honesty-Evaluation zu bestehen, ist nicht automatisch eines, das tatsächlich ehrlicher arbeitet. Dass Anthropic die Schwäche offen benennt, spricht für die System Card. Die Verbesserung ist also messbar. Wie tief sie reicht, bleibt offen.

Dynamic Workflows und Ultra Code

Das zweite große Thema ist ein neues Feature in Claude Code, verfügbar für Enterprise-, Team- und Max-Pläne.

Claude plant die Arbeit und startet dann hunderte parallele Subagenten in einer einzigen Session. Mit Opus 4.8 als Basis laufen diese Agenten länger als mit Vorgängermodellen. Aktivieren lässt sich das per natürlicher Sprache (“create a dynamic workflow”) oder über das neue Claude-Code-Setting ultracode, das die hohe Effort-Stufe automatisch setzt, wenn die Aufgabe es rechtfertigt.

Der von Anthropic genannte Anwendungsfall ist codebase-scale Migration: hunderttausende Zeilen Code, von Kickoff bis Merge, mit der bestehenden Test-Suite als Messlatte. In der Praxis bedeutet das, dass Aufgaben, die bisher manuelle Koordination über mehrere Sessions erfordert haben, als einzelner autonomer Lauf ausgeführt werden können.

Das ist meiner Meinung nach konzeptuell die größte Änderung in diesem Release, auch wenn es kein Modell-Update im engeren Sinne ist. Die Decke für autonome Läufe hebt sich.

Effort-Steuerung, Messages API und Fast Mode

Einige kleinere Änderungen, die sich in der täglichen Arbeit bemerkbar machen sollten.

Effort-Stufen. Opus 4.8 kennt “high”, “extra” (in Claude Code: “xhigh”) und “max”. Mehr Effort bedeutet tieferes Thinking, mehr Token-Verbrauch, bessere Ergebnisse. Anthropic empfiehlt “extra” für schwierige Aufgaben und lang laufende asynchrone Workflows. Der Default ist “high”. Zwei Stufen darüber bleiben verfügbar. Neu ist, dass die Effort-Steuerung jetzt auch in claude.ai und co-work verfügbar ist, vorher war sie praktisch auf Claude Code beschränkt. Die Rate-Limits in Claude Code wurden erhöht, um den höheren Token-Verbrauch der höheren Stufen aufzufangen.
Messages API. Die API akzeptiert jetzt “system entries inside the messages array”. Das erlaubt, Claudes Instruktionen mitten in einer laufenden Aufgabe zu aktualisieren, ohne den Prompt Cache zu invalidieren. Vom Konzept her sieht das ähnlich aus wie OpenAIs steer-Feature in Codex.
Preise. Standard: 5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens. Identisch zu Opus 4.7. Fast Mode kostet 10 Dollar / 1 Mio. Input und 50 Dollar / 1 Mio. Output bei 2,5-facher Geschwindigkeit. Anthropic gibt an, Fast Mode sei jetzt dreimal günstiger als bei früheren Modellen. Dazu kommen bis zu 90 Prozent Ersparnis durch Prompt Caching und 50 Prozent durch Batch-Verarbeitung.
Verfügbarkeit. Sofort verfügbar: Claude API (Model-ID claude-opus-4-8), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, alle Plan-Stufen.

Fazit

Was sich für die tägliche Arbeit wirklich ändert, sind, wie häufig, weniger die Benchmarkwerte als zwei konkrete Dinge.

Erstens: wenn die Honesty-Verbesserungen über Evaluation-Tuning hinausgehen und echte Verhaltensänderungen darstellen, reduziert das den Overhead in Coding-Workflows erheblich. Weniger doppelt prüfen, weniger “hast du das wirklich implementiert oder nur beschrieben”. Das ist praktisch relevanter als ein paar Prozentpunkte bei SWE-bench Pro.

Zweitens: Dynamic Workflows heben die Decke für lange autonome Läufe. Codebase-scale Migrationen ohne manuelle Koordination sind kein theoretischer Use-Case mehr.

Wo GPT-5.5 konkret vorne liegt: agentic terminal coding nach Terminal-Bench 2.1, mit dem Harness-Vorbehalt von oben. Wer genau diese Art von Aufgaben priorisiert, sollte die Zahlen im Blick behalten.

Die Benchmark-Zahlen insgesamt sind Herstellerangaben. Unabhängige Evaluationen folgen erfahrungsgemäß in den nächsten Tagen und Wochen.