GPT-5.5 Instant: ChatGPT macht deutlich weniger Fehler
Tech & Wissen

GPT-5.5 Instant: ChatGPT macht deutlich weniger Fehler

OpenAI hat ChatGPT auf das neue Modell GPT-5.5 Instant umgestellt. Bei medizinischen, rechtlichen und finanziellen Fragen produziert es 52,5 Prozent weniger erfundene Informationen als sein Vorgänger. Wie das möglich ist und wo die Grenzen bleiben.

30. Mai 2026, 23:00 Uhr 724 Wörter · 4 Min. Lesezeit

Wer ChatGPT nach der richtigen Dosierung eines Medikaments fragt, bekommt seit dem 5. Mai eine Antwort aus einem anderen Modell als zuvor. Bei solchen kritischen Anfragen lag die Fehlerquote von OpenAIs Standard-Chatbot bisher bei 18,7 Prozent. Mit GPT-5.5 Instant ist sie laut OpenAI auf 8,9 Prozent gefallen. Diese Verbesserung um mehr als die Hälfte geht auf veränderte Trainingsverfahren zurück, die das Modell bei Unsicherheit vorsichtiger machen sollen. Was diese Zahl bedeutet und wo GPT-5.5 Instant trotzdem an Grenzen stößt, erklärt sich an der Eigenart von Sprachmodellen.

Warum Sprachmodelle manchmal Fakten erfinden

Sprachmodelle wie ChatGPT wurden darauf trainiert, wahrscheinliche Texte zu erzeugen. Das macht sie gut darin, kohärent zu schreiben, Argumente zu strukturieren und Fragen zu beantworten. Es macht sie aber schlecht darin, den Unterschied zu erkennen zwischen Dingen, die sie tatsächlich gelernt haben und Dingen, die sie statistisch plausibel finden.

Das Phänomen nennt sich Halluzination: Das Modell erfindet keine Antworten aus böser Absicht, sondern weil seine Architektur keinen Mechanismus enthält, der zwischen verifizierten Fakten und wahrscheinlichen Formulierungen unterscheidet. Besonders problematisch wird das bei Fragen, wo ein falscher Satz Konsequenzen hat: Medikamentendosierungen, Rechtsfragen, Anlageentscheidungen. Hier kann eine zuversichtlich formulierte Fehlinformation ernste Folgen haben.

Was OpenAI an GPT-5.5 Instant geändert hat

Das vollständige GPT-5.5-Modell hat OpenAI am 23. April 2026 veröffentlicht. GPT-5.5 Instant ist die leichtere und schnellere Version, die das Unternehmen am 5. Mai als neuen Standard für alle ChatGPT-Nutzer ausgerollt hat. Laut OpenAI wurden tausende Stunden externer Evaluation durch Ärzte, Juristen und Finanzfachleute in das Training einbezogen, um die Modellgenauigkeit in diesen Bereichen gezielt zu verbessern. Auf dem internen Benchmark für hochriskante Anfragen sank die Fehlerquote von 18,7 auf 8,9 Prozent, was einer Reduktion um 52,5 Prozent entspricht.

OpenAI beschreibt die Methode als Kombination aus verfeinerten Trainingsdaten und einem Reward-Modell, das speziell für Faktentreue in Hochrisikodomänen ausgerichtet wurde. Wenn das Modell keine belastbare Grundlage in seinem Trainingswissen findet, soll es das nun häufiger explizit kommunizieren, statt eine plausibel klingende Aussage zu konstruieren. Das Modell wurde darauf trainiert, bei Unsicherheit zurückhaltender zu formulieren. OpenAI gibt an, dass ChatGPT von rund 900 Millionen Menschen wöchentlich genutzt wird, gemessen im Februar 2026.

Was sich für Nutzer in der Praxis verändert

Bei allgemeinen Anfragen, Textentwürfen oder Recherchehilfe ist der Unterschied kaum spürbar. Die Verbesserungen sind gezielt auf die drei Bereiche ausgerichtet, wo Fehler besondere Konsequenzen haben.

In medizinischen Anfragen gibt das Modell häufiger explizite Unsicherheitshinweise aus und erfindet seltener Medikamentennamen oder Dosierungsangaben. Wenn ChatGPT gefragt wird, ob zwei Wirkstoffe kombiniert werden dürfen, soll GPT-5.5 Instant laut OpenAI in solchen Fällen häufiger explizit darauf hinweisen, dass eine solche Frage eine Ärztin oder einen Apotheker erfordert. In Rechtsfragen sind Fehler bei der Zitation von Gerichtsurteilen und Paragrafen zurückgegangen. Bei Finanzthemen erfindet das Modell seltener Kurse oder Bilanzangaben.

Trotzdem: Bei 8,9 Prozent Fehlerquote in hochriskanten Bereichen ist statistisch fast jede zehnte Antwort noch falsch. Unabhängige Tests zeigten nach der Veröffentlichung, dass GPT-5.5 Instant weiterhin dazu neigt, eine falsche Antwort mit Überzeugung zu formulieren, statt zuzugeben, dass es etwas nicht weiß. Das gilt besonders für sehr spezifische Fragen: genaue Datumsangaben, direkte Zitate und konkrete Zahlen.

Was KI-Sprachmodelle grundsätzlich nicht können

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) warnt in seinen Leitlinien zum KI-Einsatz davor, Sprachmodelle als alleinige Informationsquelle für sicherheitsrelevante Entscheidungen zu nutzen. Die Begründung gilt auch für GPT-5.5 Instant: Ein Modell kennt nur, was in seinen Trainingsdaten stand. Es hat kein Wissen über Ereignisse nach seinem Trainings-Cutoff und kann die Qualität seiner eigenen Antworten nicht verlässlich beurteilen.

Medizinische und rechtliche Berufsverbände haben wiederholt betont, dass die fachliche Verantwortung bei KI-gestützten Empfehlungen beim Menschen bleiben muss. GPT-5.5 Instant verbessert die Qualität der Unterstützung, ändert an diesem Grundsatz aber nichts.

Bis zum Herbst: Was unabhängige Tests zeigen werden

GPT-5.5 Instant ist das erste OpenAI-Modell, das mit einem expliziten Versprechen reduzierter Halluzinationen in den Massenmarkt eingeführt wurde. Die Benchmark-Zahlen stammen bisher ausschließlich von OpenAI selbst. Ob sich 8,9 Prozent Fehlerquote in der Praxis bestätigt oder höher liegt, werden externe Evaluationen zeigen, die derzeit vorbereitet werden. Mit Ergebnissen wird nicht vor dem dritten Quartal 2026 gerechnet.

Für die meisten der 900 Millionen ChatGPT-Nutzer ändert sich der Alltag kaum spürbar: Die Texte klingen ähnlich, die Geschwindigkeit ist vergleichbar. Ob das Modell bei der nächsten Medizinfrage tatsächlich zurückhaltender antwortet, werden Nutzer in der Praxis selbst erfahren. Den wichtigsten Grundsatz im Umgang mit KI-generierten Informationen ändert GPT-5.5 Instant jedenfalls nicht: Kritische Fakten sollten in Primärquellen verifiziert werden.

Quellen (8)

Kommentare