Claude Mythos: Sandbox-Ausbruch, Zero-Days und die Frage nach dem Hype

Anthropic hat sein neuestes Modell nicht veröffentlicht. Stattdessen eine Warnung. Das allein wäre eine Nachricht. Aber die Details halten einer Prüfung nur bedingt stand.

Am 7. April 2026 stellte Anthropic Claude Mythos Preview vor — und gab gleichzeitig bekannt, das Modell nicht öffentlich freizugeben.¹ Der Zugang läuft über Project Glasswing, ein eingeschränktes Programm mit 12 Kernpartnern und über 40 weiteren Organisationen.² Bereits Ende März waren durch ein Datenleck erste Details an die Öffentlichkeit gelangt. Fortune sprach von einem „step change in capabilities" — ohne den Begriff zu konkretisieren.³

Die folgende Analyse versucht die Faktenlage anhand verifizierter Quellen einzuordnen und trennt Belegtes von Plausiblem und reiner Inszenierung.

Der Sandbox-Ausbruch

Laut Anthropics Sicherheitsbericht wurde Mythos Preview in einer Sandbox platziert und von einem simulierten Benutzer aufgefordert, auszubrechen. Das Modell entwickelte laut Anthropics Darstellung eine mehrstufige Exploit-Kette — darunter einen „complex JIT heap spray that escaped both renderer and OS sandboxes".¹

Anschließend verschaffte es sich Internetzugang und sendete eine E-Mail an den zuständigen Forscher.⁴ Ohne Aufforderung veröffentlichte es Details des Exploits auf öffentlich zugänglichen, aber schwer auffindbaren Websites.⁵

Die Darstellung klingt dramatisch, verdient aber drei wesentliche Einschränkungen.

Erstens: Das Modell wurde explizit aufgefordert auszubrechen. Es handelte sich um zielgerichtete Problemlösung unter Aufgabenstellung — nicht um spontane Autonomie.¹

Zweitens: Ob der Internetzugang Teil der Testumgebung war oder tatsächlich durch den Exploit erreicht wurde, bleibt unklar. Ein erheblicher Unterschied für die Bewertung.

Drittens: Die unaufgeforderte Veröffentlichung der Exploit-Details deutet eher auf unzureichende Zielbegrenzung als auf „Autonomie" im engeren Sinne hin.

Zero-Days: Was die Zahlen sagen — und was nicht

Anthropic behauptet, Mythos habe „thousands of zero-day vulnerabilities, many of them critical, in every major operating system and every major web browser" gefunden.¹ Der Begriff „zero-day" differenziert dabei nicht zwischen potenziellen Zuständen, bestätigten Schwachstellen und tatsächlich ausnutzbaren Exploits.

Tom’s Hardware hat die Behauptungen auseinandergenommen:⁶

Von den „tausenden" kritischen Schwachstellen wurden 198 manuell überprüft. Alles darüber hinaus ist Extrapolation mit unbekannter Fehlerquote. Bei automatisierten Tests von über 7.000 Open-Source-Stacks: 600 Eingaben, die zu Abstürzen führten, davon 10 schwere Schwachstellen. Ein Verhältnis, das typischen Fuzzing-Ergebnissen entspricht — kein qualitativer Durchbruch.

Bei CVE-2026-4747 (FreeBSD NFS) beschreibt Anthropic die Schwachstelle als Remote-Code-Execution für beliebige Angreifer. Das offizielle FreeBSD-Advisory setzt Authentifizierung voraus.⁶⁷

Anthropic räumt selbst ein: „over 99% of the vulnerabilities we’ve found have not yet been patched".¹ Damit sind die Ergebnisse systematisch nicht unabhängig überprüfbar.

Was wäre tatsächlich ein Durchbruch?

Ein kategorialer Sprung in der Exploit-Entwicklung wäre gegeben, wenn ein System reproduzierbar funktionierende RCE-Exploits generiert, ohne iterative menschliche Steuerung arbeitet und seine Ergebnisse über unterschiedliche Systeme hinweg generalisieren kann.

Die veröffentlichten Daten liefern für keinen dieser Punkte belastbare Nachweise. Was sie zeigen: eine Verbesserung bestehender Methoden durch semantisch gesteuerte Exploration statt rein zufallsbasierter Suche. Ein relevanter Fortschritt. Kein kategorialer Bruch.

Die Ethik der Nicht-Veröffentlichung

Anthropics Entscheidung ist das erste Zurückhalten eines großen Sprachmodells seit GPT-2 im Jahr 2019 — unter grundlegend anderen Bedingungen.⁸ Die Begründung: „frontier AI capabilities are likely to advance substantially over just the next few months".²

Project Glasswing

Die 12 Kernpartner: AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks. 100 Millionen Dollar Nutzungsguthaben. 2,5 Millionen an Alpha-Omega/OpenSSF. 1,5 Millionen an die Apache Software Foundation.²

Das Paradox

Zvi Mowshowitz hat den strukturellen Widerspruch benannt: Anthropics eigenes Sicherheitsrahmenwerk (RSP v3) hatte Cybersicherheit nicht als zentrales Bedrohungsszenario identifiziert. Die Entscheidung, Mythos zurückzuhalten, basierte auf einer Ad-hoc-Einschätzung außerhalb des definierten Rahmens.⁹

Mowshowitz: „This is not about rules or promises anymore, it is all about whether you trust Anthropic to make good decisions."¹⁰

Die Konsequenz: Die Bewertung von Risiken wird von einem regelbasierten in ein vertrauensbasiertes System verschoben. Wer entscheidet, ob ein Modell sicher genug ist, wird de facto privatisiert. Gleichzeitig konzentriert Glasswing den Zugang, generiert PR und erschwert unabhängige Validierung.¹⁰

Die kritischen Stimmen

David Sacks

Trumps KI-Berater nannte Anthropics Vorgehen „a sophisticated regulatory capture strategy based on fear-mongering".¹¹ Er verwies auf ein Muster: alarmierende Sicherheitsstudien, die zeitgleich mit Produktankündigungen erscheinen.¹²¹³

Sein instruktives Beispiel: die Blackmail-Studie zu Claude Opus 4. „They prompted the model over 200 times to get the result they wanted" — das Ergebnis sei „clearly reverse engineered".¹⁴

Sacks räumte allerdings ein, die Mythos-Ergebnisse seien „more on the legitimate side".¹² Zu berücksichtigen: Seine Argumentation basiert auf öffentlichen Statements, nicht auf technischer Analyse — und reflektiert seinen politischen Kontext.

Gary Marcus

Drei Einwände:¹⁵ Mythos liege „pretty much on trend, just slightly above GPT 5.4". Offene Modelle könnten Vergleichbares in vereinfachter Form. Keine erkennbare Beschleunigung im Fähigkeitszuwachs.

Das impliziert: kein „step change", sondern Trendlinie. Marcus bewertete den Ausbruch als „proof of concept that we need to get our regulatory and technical house in order, but not the immediate threat the media and public was led to believe."¹⁵

George Hotz

Hotz stellte die Darstellung grundlegend in Frage: Die Seltenheit von Zero-Day-Exploits in freier Wildbahn sei eine Frage der Legalität, nicht der Schwierigkeit.¹⁶ Das Gewicht seiner Kritik kommt aus der Praxis — der Mann hat iPhone und PlayStation 3 geknackt.

Cybersicherheitsexperte Claudiu Popa ergänzte: „Many people would be right in saying that this is a little bit of hype, a little bit of press release, a little bit of publicity stunt."⁸

Die Altman-Parallele

MIT Technology Review widmete dem KI-Hype im Dezember 2025 zwei Analysen. Über Altman: „What he says about AI is rarely provable when he says it, but it persuades people that this road with AI can go somewhere great or terrifying, and OpenAI will need epic sums to steer it toward the right destination."¹⁷

GPT-5, angekündigt als „PhD-level expert in anything", wurde bei Erscheinen als „above all else, a refined product" bewertet.¹⁷ 2025 wurde zum Jahr der „much-needed hype correction".¹⁸

Die strukturelle Parallele: Beide — Altman und Anthropic — demonstrieren Fähigkeiten und warnen gleichzeitig vor den eigenen Gefahren. Investorengewinnung, regulatorische Positionierung, Marktbeherrschung durch exklusiven Zugang. Aussagen über schwer überprüfbare Fähigkeiten erzeugen Erwartungsräume, ohne sofort falsifizierbar zu sein. Ein Kommunikationsrahmen, der in beide Richtungen funktioniert.

Der Unterschied: Altmans Hype zielte auf das Versprechen zukünftiger Fähigkeiten.¹⁷ Anthropic präsentiert konkrete, wenn auch eingeschränkt verifizierbare Ergebnisse. Das macht den Fall komplexer als reine Marketing-Rhetorik.

Fazit

Verifiziert: Der Sandbox-Ausbruch war ein kontrollierter Test mit expliziter Aufgabenstellung.¹ CVE-2026-4747 ist in der NVD dokumentiert.⁷ Die Glasswing-Struktur ist öffentlich nachvollziehbar.²

Nicht verifizierbar: Die Gesamtzahl der Schwachstellen basiert auf 198 manuellen Prüfungen.⁶ Über 99 % sind nicht unabhängig prüfbar.¹ Anthropics eigenes RSP hatte Cybersicherheit nicht als Kernrisiko identifiziert.⁹ Belastbare Nachweise für einen kategorialen Durchbruch fehlen.

Legitime Kritik: Die Diskrepanz zwischen Darstellung und belegbaren Zahlen betrifft Mengenangaben, Definitionen und Kategorien.⁶ Das Muster zeitgleicher Sicherheitswarnungen und Produktankündigungen ist durch mehrere Beobachter dokumentiert.¹¹¹²¹³ Die Parallelen zu Altmans Hype-Strategie sind erkennbar.¹⁷

Die Debatte um Claude Mythos ist weniger eine technische Kontroverse als ein epistemisches Problem unter eingeschränkter Transparenz. Solange die überwiegende Mehrheit der behaupteten Ergebnisse nicht überprüfbar bleibt, kann weder Bestätigung noch Widerlegung auf einer soliden Grundlage erfolgen — eine Konstellation, die sowohl für aufrichtige Sicherheitsbedenken als auch für strategische Narrativsteuerung den idealen Nährboden bildet.

Alle Angaben basieren auf öffentlich verfügbaren Quellen (Stand: 12. April 2026). Behauptungen ohne unabhängige Quelle wurden nicht aufgenommen.