Claude Opus 4.7: Mehr Coding-Power, mehr Pixel und ein Hinweis auf Mythos

Claude Opus 4.7: Mehr Coding-Power, mehr Pixel und ein Hinweis auf Mythos

Anthropic veröffentlicht heute Claude Opus 4.7, mit der bisher stärksten Coding-Performance, dreieinhalb Megapixeln Vision und einem neuen Effort-Level, das es vorher nicht gab. Und am Rande: ein Hinweis auf etwas, das noch mächtiger ist.

Neue Modellversionen kommen inzwischen so regelmäßig, dass man das Fatigue spürt. Jedes Modell ist das „bisher fähigste", jede Benchmark-Tabelle zeigt rote Pfeile nach oben. Trotzdem lohnt es sich, bei Opus 4.7 genauer hinzuschauen, denn hier sind die Sprünge an einigen Stellen tatsächlich substanziell.

Das Wichtigste in Kürze

Opus 4.7 ist Anthropics neues Flaggschiff-Modell und ersetzt Opus 4.6 als empfohlenes Modell für anspruchsvolle Aufgaben. Der Preis bleibt gleich: 5 Dollar pro Million Input-Token, 25 Dollar pro Million Output-Token. Verfügbar ist das Modell ab sofort über Anthropics eigene Claude-Produkte, die API sowie Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry. Wer direkt mit der API arbeitet, nutzt den Bezeichner claude-opus-4-7.

Was sich inhaltlich verändert hat, lässt sich grob in vier Bereiche einteilen: Coding, Vision, Instruction-Following und neue Steuerungsmechanismen.

Coding: der deutlichste Fortschritt

Anthropic positioniert Opus 4.7 explizit als Modell für schwierige Softwareentwicklungsaufgaben, und die Zahlen untermauern das. Auf einem internen 93-Task-Benchmark erzielt das Modell einen 13-prozentigen Lift gegenüber dem Vorgänger. Auf CursorBench, einem praxisnahen Benchmark für autonomes Coding-Agenten-Verhalten, springt die Trefferquote von 58 % auf 70 %. Anthropic beschreibt außerdem, dass 4.7 dreimal mehr Produktions-Tasks eigenständig löst als sein Vorgänger. Vier der 93 internen Tasks konnte weder Opus 4.6 noch Sonnet 4.6 lösen. Dazu kommt State-of-the-Art auf der GDPval-AA-Evaluation und bei einem Finance-Agent-Benchmark.

Praktisch bedeutet das: Komplexe, mehrstufige Aufgaben, bei denen Opus 4.6 noch abgebrochen oder falsch abgebogen ist, etwa Refactoring über viele Dateien, parallele Tool-Calls oder Debugging mit unvollständigen Kontextinformationen, laufen mit 4.7 zuverlässiger durch. Das Modell überprüft außerdem seine eigenen Ausgaben aktiver, bevor es Ergebnisse zurückmeldet. Was genau das unter der Haube bedeutet, beschreibt Anthropic nicht. Spürbar ist es aber.

Im externen Vergleich führt Opus 4.7 aktuell beim SWE-bench Pro mit 64,3 % gegenüber GPT-5.4 mit 57,7 %. Beim klassischen SWE-bench Verified liegt GPT-5.4 noch minimal vorne (74,9 % vs. ~74 %), der Vorsprung der neuen Version dürfte sich aber in Richtung schwierigerer, realistischer Aufgaben verschieben, genau dort, wo der neue Benchmark stärker gewichtet.

Vision: von Briefmarke zu Poster

Die Verbesserung bei der Bildverarbeitung ist die überraschendste Zahl in Anthropics Ankündigung. Opus 4.7 akzeptiert Bilder mit bis zu 2.576 Pixeln auf der langen Kante, das entspricht etwa 3,75 Megapixeln. Zum Vergleich: Vorgängerversionen arbeiteten mit rund einem Megapixel. Ein Faktor von fast vier bei der nutzbaren Bildauflösung.

Auf einem visuellen Genauigkeits-Benchmark springt die Trefferquote von 54,5 % bei Opus 4.6 auf 98,5 % bei Opus 4.7. Das klingt zunächst dramatisch, und ist es auch, zumindest im Kontext von Computer-Use-Agenten, die Bildschirminhalte lesen müssen. Konkret kann das Modell jetzt auch chemische Strukturformeln und technische Diagramme zuverlässig lesen. Für Diagramm-Analyse, Screenshot-Debugging und UI-Referenzarbeit ist das eine direkte Verbesserung der Alltagstauglichkeit.

Anthropic beschreibt außerdem, dass das Modell bei der Erstellung von professionellen Inhalten, also Interfaces, Präsentationen und Dokumente, stilistisch stärker geworden ist. Subjektiv messbar, aber wer Opus 4.6 für Designaufgaben genutzt hat, dürfte den Unterschied relativ schnell bemerken.

Instruction-Following: präziser, manchmal überraschend

Opus 4.7 interpretiert Anweisungen literaler als frühere Versionen. Anthropic weist explizit darauf hin, dass bestehende Prompts, die auf dem Vorgänger liefen, unter Umständen neu kalibriert werden müssen. Was zunächst nach einer Verschlechterung klingt, ist tatsächlich ein Qualitätsmerkmal. Das Modell macht weniger eigenmächtige Interpretationen und folgt präziser dem, was tatsächlich geschrieben steht, nicht dem, was gemeint sein könnte.

Für Entwickler, die Prompts produktiv einsetzen, ist das ein zweischneidiges Schwert: einerseits vorhersagbarer, andererseits fehlerverzeihender in der Aufgabenbeschreibung war 4.6 an manchen Stellen. Es lohnt sich, beim Upgrade auf 4.7 die eigenen System-Prompts systematisch durchzugehen.

Beim Dokument-Verständnis liefert 4.7 außerdem 21 % weniger Fehler als sein Vorgänger auf OfficeQA Pro, einem Benchmark für das Extrahieren von Informationen aus strukturierten Business-Dokumenten wie Excel-Tabellen oder PowerPoint-Folien.

Neue Steuerungsmechanismen

Drei neue Features, die für regelmäßige API-Nutzer relevant sind:

xhigh-Effort-Level. Anthropic führt zwischen den bisherigen Stufen high und max ein neues Level xhigh ein. Das gibt feinere Kontrolle über den Tradeoff zwischen Reasoning-Tiefe und Latenz bei schwierigen Aufgaben, ohne direkt ins volle Token-Budget von max zu gehen. In Claude Code ist xhigh ab sofort der Standard für alle Pläne.

Task Budgets (Public Beta). Opus 4.7 erlaubt es, Token-Ausgaben für einzelne Aufgaben zu budgetieren. Bei Agentic-Workflows, die autonom mehrere Schritte durchlaufen, war die Token-Kontrolle bisher grob, entweder das gesamte Kontextfenster oder ein manueller Abbruch. Task Budgets geben dem Modell eine Richtlinie: wie viel Aufwand ist hier angemessen.

/ultrareview-Command. Neu in Claude Code: ein dedizierter Befehl für Code-Review-Sessions, der das Modell in einen Modus versetzt, in dem es aktiv nach Bugs und Design-Problemen sucht, nicht nur antwortet, sondern initiativ analysiert. Pro- und Max-Nutzer erhalten drei kostenlose Ultrareviews.

Tokenizer und Token-Verbrauch

Ein Detail, das leicht untergeht: Opus 4.7 verwendet einen aktualisierten Tokenizer. Derselbe Input erzeugt je nach Inhalt 1,0 bis 1,35× mehr Token als beim Vorgänger. Anthropic gibt an, dass der Nettoeffekt auf internen Coding-Evaluations positiv ausfällt, empfiehlt aber, den tatsächlichen Token-Verbrauch auf dem eigenen Traffic zu messen, bevor man Budgets anpasst. Generell produziert das Modell bei höheren Effort-Levels mehr Output-Token, besonders in späteren Turns agentic-lastiger Sessions. Das verbessert die Zuverlässigkeit bei schwierigen Problemen, kostet aber entsprechend mehr.

Sicherheit und Cyber-Safeguards

Im Sicherheitsprofil bleibt Opus 4.7 nah am Vorgänger: niedrige Raten bei Täuschung, Sycophancy und Kooperation bei Missbrauch. Bei Ehrlichkeit und Resistenz gegen Prompt-Injection-Angriffe schneidet 4.7 sogar besser ab als 4.6. Eine kleine Schwäche nennt Anthropic selbst: das Modell gibt bei kontrollierten Substanzen etwas detailliertere Harm-Reduction-Hinweise als gewünscht.

Im Bereich Cybersicherheit sind die Fähigkeiten bewusst unterhalb von Mythos Preview gehalten. Hochriskante Cybersecurity-Anfragen werden automatisch erkannt und blockiert. Für legitime Sicherheitsforscher, also Penetration-Tester, Red-Teamer und Vulnerability-Researcher, gibt es ein neues Cyber Verification Program, das gezielten Zugang freischaltet.

Performance-Vergleich

BenchmarkClaude Opus 4.7Claude Opus 4.6GPT-5.4Gemini 3.1 Pro
SWE-bench Pro (autonomes Coding)64,3 %~55 %57,7 %k. A.
SWE-bench Verified~74 %74 %74,9 %63,8 %
CursorBench (Agentic Coding)70 %58 %k. A.k. A.
GPQA Diamond (Reasoning)94,2 %~92 %94,4 %94,3 %
Visuelle Genauigkeit (Computer Use)98,5 %54,5 %k. A.k. A.
OfficeQA Pro (Dokument-Analyse)−21 % Fehler ggü. 4.6Basisk. A.k. A.
Long-Context Research (0–1)0,715k. A.k. A.k. A.
Preis Input / Output ($/M Token)$5 / $25$5 / $25~$10 / $30$2 / $12

Quellen: Anthropic, The Next Web, LM Council (April 2026). k. A. = kein offizieller Wert verfügbar. Benchmarks sind nicht vollständig vergleichbar, verschiedene Testsets und Versionen.

Das unausgesprochene Thema: Mythos

Anthropic hat in der Ankündigung etwas getan, das eher ungewöhnlich ist: das Unternehmen hat bestätigt, dass es ein Modell namens Mythos gibt, und dass dieses Modell Opus 4.7 in den Fähigkeiten übertrifft. Gleichzeitig wurde kommuniziert, dass Mythos aus Sicherheitsgründen noch nicht veröffentlicht wird.

Die Geschichte hinter Mythos ist allerdings komplexer, als eine einzelne Zeile in einem Release-Blogpost vermuten lässt. Sandbox-Ausbruch im kontrollierten Test, tausende behauptete Zero-Days auf Basis von 198 manuell geprüften Fällen, ein exklusives Partnerprogramm namens Project Glasswing, und die Frage, wo die Grenze zwischen echtem Sicherheitsrisiko und strategischer Inszenierung verläuft. Wer das im Detail nachlesen will: die Analyse zu Claude Mythos ordnet das anhand von 18 Quellen ein.

Wann Mythos kommt, ist offen. Dass es kommt, steht fest.

Quellen