KI-Markt: Claude 4.8 schlägt GPT-5.5 im Code
Tech & Wissen

KI-Markt: Claude 4.8 schlägt GPT-5.5 im Code

Anthropic hat mit Claude Opus 4.8 den Vorsprung bei schwierigen Coding-Aufgaben ausgebaut: 69,2 Prozent auf SWE-bench Pro, elf Prozentpunkte mehr als GPT-5.5. Gleichzeitig kostet DeepSeek V4 Pro nach einer 75-Prozent-Preissenkung weniger als ein Dreißigstel von Claude.

6. Juni 2026, 22:40 Uhr 845 Wörter · 5 Min. Lesezeit

87 Cent kostet eine Million Output-Token beim chinesischen KI-Modell DeepSeek V4 Pro. Die westliche Konkurrenz verlangt das Dreißigfache. Dass Anthropics Claude Opus 4.8 trotzdem nicht ins Hintertreffen gerät, liegt an einem Benchmark, der echte Entwicklerarbeit misst und bei dem Claude OpenAIs GPT-5.5 um elf Prozentpunkte überholt. Der KI-Markt kämpft gerade auf zwei Fronten: ein Qualitätswettbewerb zwischen westlichen Anbietern und ein Preiskampf, den China bereits gewonnen hat.

Was sich seit April verändert hat

Am 24. April 2026 veröffentlichte das chinesische Startup DeepSeek sein Modell V4 Pro. Mit einem Kontextfenster von einer Million Token und einem Startpreis von 3,48 Dollar pro Million Output-Token war es von Anfang an günstiger als Claude oder GPT-5.5. Seit dem 31. Mai hat DeepSeek den Preis um 75 Prozent gesenkt: Ein Millionen-Token-Paket kostet jetzt 87 Cent. Das ist ein Preisniveau, das westliche Anbieter nicht ansatzweise unterbieten.

Fünf Wochen nach DeepSeeks Launch brachte Anthropic am 28. Mai Claude Opus 4.8 heraus. Das Modell verbessert SWE-bench Pro deutlich. SWE-bench Pro ist ein Benchmark, der reale GitHub-Issues aus Open-Source-Projekten nutzt und dabei auf vorgefertigte Testfälle verzichtet: Das Modell muss selbst erkennen, ob seine Lösung korrekt ist. Näher an echter Entwicklerarbeit kommt kaum ein Test. Claude 4.8 erreicht dort 69,2 Prozent. GPT-5.5 kommt auf 58,6 Prozent, DeepSeek V4 Pro auf 55,4 Prozent.

Je schwerer der Test, desto größer Claudes Vorsprung

Auf dem etwas leichteren SWE-bench Verified, das mit vorhandenen Testfällen arbeitet, rückt DeepSeek näher heran, überholt aber nicht: DeepSeek V4 Pro erreicht 80,6 Prozent, Claude Opus 4.8 liegt mit 88,6 Prozent rund acht Prozentpunkte vorn. Auf dem schwereren Pro-Benchmark wächst dieser Abstand auf fast 14 Punkte. Wer nur auf den Verified-Score schaut, sieht ein knapperes Rennen. Das günstigere Modell kostet dabei rund ein Dreißigstel.

Die Differenz zwischen Verified und Pro erklärt den Unterschied. SWE-bench Verified testet bekannte Bugs mit vorhandenen Testgerüsten. SWE-bench Pro testet ohne: Das Modell bekommt ein Problem, keine Hinweise und keine Checks. Dieser Unterschied macht in der Praxis den Kern aus. Wer KI für eigenständige Entwicklungsaufgaben einsetzt, wo kein Mensch dahinter nachkontrolliert, braucht das Pro-Ergebnis. Dort hat Claude einen Vorsprung von 13,8 Prozentpunkten gegenüber DeepSeek.

DeepSeek-Gründer Liang Wenfeng hat seit dem R1-Schock vom Januar 2025 bewiesen, dass chinesische KI benchmarkfähig ist. V4 Pro hat offene Gewichte auf Hugging Face und läuft nach Angaben des Unternehmens auf Huawei-Chips statt auf NVIDIA-Hardware. Für Entwickler außerhalb der USA, die keine Dollar-Preise zahlen wollen oder können, ist DeepSeek längst keine zweite Wahl mehr, sondern die erste.

Wer noch 25 Dollar pro Million Token zahlt

Trotz des Preisabstands gibt es einen stabilen Markt für teure KI. Für einen Entwickler, der täglich einer Million Output-Token generiert, macht der Unterschied zwischen DeepSeek und Claude rund 730 Dollar im Monat aus. Trotzdem wählen viele Teams Claude oder GPT-5.5.

Erstens: Leistungsunterschiede bei komplexen Aufgaben. Die 13,8 Prozentpunkte Abstand auf SWE-bench Pro bedeuten, dass Claude bei echten Engineering-Tasks deutlich seltener auf ein falsches Ergebnis kommt. Bei einfachen Aufgaben ist der Unterschied marginal. Bei autonomen Agenten, die über Stunden ohne menschliche Kontrolle arbeiten, summiert er sich.

Zweitens: Compliance und Geopolitik. Amerikanische Unternehmen in regulierten Branchen (Banken, Pharma, Rüstung) setzen auf Anbieter, deren Infrastruktur US-Recht unterliegt. Der Datensicherheitsforscher Bruce Schneier wies bereits 2025 darauf hin, dass das Training auf Huawei-Chips keine Aussage über Datenschutz im Betrieb erlaubt. Europäische Datenschützer haben die Frage, ob der Einsatz von DeepSeek-APIs mit der DSGVO vereinbar ist, bislang nicht abschließend beantwortet.

Drittens: Benchmark-Skepsis. Kritiker weisen darauf hin, dass SWE-bench Verified und Pro nur einen Teilbereich realer Softwareentwicklung abbilden. Das Unternehmen Poolside AI, das Entwicklerwerkzeuge auf Basis eigener Modelle baut, hat öffentlich erklärt, SWE-bench-Ergebnisse für seine Produktentscheidungen kaum zu nutzen, weil Unternehmenscodebases strukturell anders seien als Open-Source-Repositories.

Anthropics IPO-Wette auf Benchmark-Stärke

Anthropic plant seinen Börsengang für Oktober 2026. Bei einer Bewertung von rund 965 Milliarden Dollar ist die Frage, welches Modell auf SWE-bench Pro führt, auch eine Investorenfrage. Wer an der Spitze steht, kann höhere Unternehmenspreise rechtfertigen und hat einen direkten Vertriebsvorteil bei Fortune-500-Unternehmen, die KI für Softwareentwicklung ausschreiben.

GPT-5.5 liegt auf SWE-bench Pro aktuell 10,6 Prozentpunkte hinter Claude 4.8. OpenAI hat bislang nicht angekündigt, wann ein Nachfolgemodell erscheint. DeepSeek muss zeigen, ob sein nächstes Modell den Pro-Rückstand von 13,8 Punkten schließen kann, ohne auf den Preisanker von 87 Cent zu verzichten. Solange das nicht gelingt, bleibt die Marktteilung stabil: Wer das Billigste braucht, nimmt DeepSeek. Wer das Schwierigste lösen muss, nimmt Claude.

Quellen (10)

Kommentare