Brancheneinblicke

Wieso ChatGPT Ihre GOÄ-Rechnung nicht prüfen kann

Über Halluzinationen, falsche Ziffern und die stille Gefahr hinter souverän klingenden KI-Antworten

7 Min. Lesedauer07. April 2026

Qodia Blog - Wieso ChatGPT Ihre GOÄ-Rechnungen nicht prüfen kann

Seit ChatGPT öffentlich zugänglich wurde, ist kaum eine Branche verschont geblieben von der Frage: Kann das auch KI übernehmen? In Arztpraxen und Abrechnungsunternehmen läuft das Experiment längst. Texte zusammenfassen, Korrespondenz formulieren, Diagnosen nachschlagen. Vieles davon funktioniert erstaunlich gut. Doch sobald die Frage lautet, welche GOÄ-Ziffer für eine bestimmte Leistung ansetzbar ist, ob ein Ausschluss besteht oder wie eine Analogabrechnung zu begründen ist, gerät man in gefährliches Territorium. Nicht weil Künstliche Intelligenz dazu nicht fähig wäre. Sondern weil sie das Falsche mit derselben Überzeugung antwortet wie das Richtige.

Das Grundproblem: Sprache ist nicht Wissen

Bevor man versteht, warum KI-Modelle wie ChatGPT, Gemini oder Microsoft Copilot an der GOÄ scheitern, muss man verstehen, wie diese Systeme überhaupt funktionieren.

Hintergrundwissen

Was ist eigentlich ein Sprachmodell (LLM)?

LLM steht für Large Language Model. Dahinter steckt ein System, das während seiner Entwicklung Milliarden von Texten gelesen hat: Bücher, Webseiten, Artikel, Foren, wissenschaftliche Publikationen, medizinische Fachzeitschriften. Aus dieser gewaltigen Textmenge hat es statistische Muster gelernt: Welche Wörter folgen typischerweise aufeinander? Welche Formulierungen treten in welchem Kontext auf? Welche Antwort klingt auf eine bestimmte Frage plausibel?

Das Entscheidende: Ein Sprachmodell schlägt nichts nach. Es hat keine Datenbank, auf die es zugreift, keine Tabelle, in der GOÄ-Ziffern hinterlegt sind, keine Regelmaschine, die Ausschlüsse prüft. Es erzeugt Text, der statistisch wahrscheinlich ist, basierend auf dem, was es während des Trainings gelernt hat. Dieser Text kann richtig sein. Er kann aber auch falsch sein. Und das Modell selbst kann beides nicht unterscheiden.

Genau das bezeichnet man als Halluzination: Das Modell erfindet sachlich falsche Inhalte, die sprachlich überzeugend wirken. Es ist kein Fehler im technischen Sinne. Das System funktioniert genau so, wie es konstruiert ist. Der Fehler liegt im Einsatz für Aufgaben, die faktische Präzision erfordern.

Warum die GOÄ besonders anfällig ist

Halluzinationen treten bei allen Sprachmodellen auf. Aber nicht alle Wissensgebiete sind gleich anfällig. Die GOÄ ist eines der ungünstigsten denkbaren Felder aus mehreren sich gegenseitig verstärkenden Gründen.

Geringer Anteil in den Trainingsdaten

Die Datenbasis, auf der ChatGPT & Co. trainiert wurden, umfasst das gesamte öffentliche Internet sowie große Teile der digitalen Buchliteratur. In diesem riesigen Korpus ist allgemeinmedizinisches Wissen, Pharmakologie oder Anatomie tausendfach vertreten. Die GOÄ hingegen ist ein hochspezialisiertes deutsches Regelwerk, das vor allem in geschlossenen Fachpublikationen, juristischen Kommentaren und internen Unterlagen lebt. Der Anteil an qualitativ hochwertigem, aktuellem GOÄ-Material im Trainingskorpus dieser Modelle ist verschwindend gering. Das bedeutet: Wenn das Modell eine GOÄ-Frage beantwortet, interpoliert es aus einem dünnen, fragmentierten Wissensfundament. Die Antwort klingt trotzdem vollständig.

Ausschlüsse folgen keiner Logik

Ein Sprachmodell kann medizinische Logik rekonstruieren. Es kann erklären, warum eine Wundversorgung bestimmte Schritte umfasst, oder warum zwei Diagnosen häufig zusammen auftreten. Was es nicht kann: Ausschlüsse zuverlässig kennen. Denn Ausschlüsse in der GOÄ sind keine Ableitungen aus medizinischer Notwendigkeit. Sie sind historisch gewachsene Verwaltungsentscheidungen, häufig geprägt von Kompromissen zwischen Ärzteverbänden, PKV-Verbänden und Gesetzgeber. Ein Ausschluss ist ein Fakt, der gelernt werden muss - er lässt sich nicht herleiten. Sprachmodelle halluzinieren Ausschlüsse, die nicht existieren, und übersehen solche, die gelten. Beides ist gefährlich.

Analogleistungen sind Ermessen plus Rechtssprechung

Für Leistungen, die in der GOÄ nicht explizit abgebildet sind, erlaubt §6 Abs. 2 die Analogabrechnung: Eine ähnliche Leistung wird als Grundlage herangezogen und entsprechend bewertet. Diese Entscheidung erfordert Kenntnis der Leistungslegende, der Kommentierungspraxis nach Brück oder Hoffmann, der PKV-Erstattungsrealität und relevanter Gerichtsentscheidungen. Ein Sprachmodell trifft auch hier Scheinentscheidungen: Es nennt eine Ziffer, die sprachlich plausibel klingt, aber abrechnungsrechtlich nicht haltbar ist.

Trainingsdaten sind nicht aktuell

Jedes Sprachmodell hat einen Wissensstichtag, nach dem keine neuen Informationen mehr einfließen. GOÄ-Kommentierungen, PKV-Erstattungsentscheidungen und Beschlüsse der Bundesärztekammer entwickeln sich laufend weiter. Die geplante GOÄ-Novelle, bekannt als Neue GOÄ oder GOÄ Neu, wird das gesamte Ziffernwerk grundlegend umstrukturieren. Ein Modell, das heute trainiert worden ist, kennt den Stand von gestern und kann keine neuen Erkenntnisse wissen. Insbesondere mit der Umstellung auf die neue GOÄ wird es vermehrt zu falsche Antworten bezüglich Leistungen geben, da der Wissensstand zur neuen GOÄ erst aufgebaut werden muss.

Die konkreten Risiken für Abrechnungsunternehmen und Praxen

Die Fehler, die Sprachmodelle bei der GOÄ produzieren, sind keine akademischen Ungenauigkeiten. Sie haben direkte wirtschaftliche und rechtliche Konsequenzen.

Finanzielle Verluste: Falsch angesetzte Ziffern führen zu Ablehnungen durch PKV und Beihilfe. Nicht erkannte Optimierungspotenziale bedeuten dauerhaften Erlösschwund. Rückforderungen nach Prüfung summieren sich schnell auf erhebliche Beträge.
Qualitätsverlust bei Abrechnungsunternehmen: Wer als Dienstleister fehlerhafte Rechnungen erstellt oder durchwinkt, gefährdet seinen Ruf, seine Mandatsbeziehungen und seine Zulassung.
Rechtliche Haftung: Falschabrechnung kann als Abrechnungsbetrug gewertet werden. Die berufsrechtlichen Konsequenzen treffen den Arzt und nicht das Tool. OpenAI haftet nicht für fehlerhafte Rechnungen, die mit ChatGPT erstellt wurden.
Patientenbeziehung: Patienten, deren PKV eine Rechnung ablehnt, suchen die Verantwortung beim Arzt. Das beschädigt Vertrauen, das schwer wiederaufzubauen ist.

Das Modell erklärt nicht, ob es eine Ziffer kennt oder sich ausdenkt. Und genau das macht es gefährlich.

Was eine echte KI-gestützte Abrechnungslösung leisten muss

Die Antwort auf die Frage „Kann Künstliche Intelligenz Privatabrechnung?“ ist kein Ja oder Nein. Sie lautet: Es kommt auf die Architektur an. Zwischen einem allgemeinen Sprachmodell und einem spezialisierten Abrechnungssystem liegen fundamental unterschiedliche technische Ansätze.

Verifizierte, aktuelle GOÄ-Datenbasis: Keine Approximation aus Trainingsgedächtnis, sondern ein gepflegter, maschinenlesbarer Regelkatalog mit Ziffern, Leistungslegenden, Ausschlüssen und Steigerungssätzen
Regelbasierte Ausschlussprüfung: Deterministisch und vollständig, nicht wahrscheinlichkeitsbasiert. Ein Ausschluss gilt oder gilt nicht, das darf kein statistisches Urteil sein.
Fachliche Supervision: Kein vollständig autonomes System. Das medizinische und rechtliche Urteil eines Menschen bleibt unverzichtbar, KI übernimmt Prüfung und Vorbereitung, nicht die Verantwortung.

Die richtige Frage ist also nicht: „Kann ChatGPT meine GOÄ-Abrechnung prüfen?“ Die richtige Frage lautet: „Welche KI-Architektur ist für diesen Zweck geeignet, und erfüllt sie die Anforderungen an Verlässlichkeit, Nachvollziehbarkeit und rechtliche Sicherheit?“

Fazit: Souveränität klingt gefährlicher als Unsicherheit

Das eigentliche Risiko beim Einsatz allgemeiner Sprachmodelle in der GOÄ-Abrechnung ist nicht, dass die KI sagt: „Das weiß ich nicht.“ Es ist, dass sie es weiß oder so klingt, als ob. Falsche Ziffern werden mit derselben Flüssigkeit geliefert wie richtige. Nicht vorhandene Ausschlüsse werden mit derselben Selbstverständlichkeit verneint wie tatsächlich fehlende. Wer das nicht weiß, vertraut. Und wer vertraut, haftet.

ChatGPT ist ein beeindruckendes Werkzeug für viele Aufgaben. Es kann Texte verfassen, Sachverhalte erklären, Recherchen beschleunigen. Aber die GOÄ-Abrechnung ist kein Sprachproblem. Sie ist ein Rechtsproblem mit einem Regelwerk und das verlangt eine andere Art von System.