Was sind KI-Halluzinationen?

Generative Sprachmodelle wie GPT-4, Gemini oder Claude sind im Kern statistisch arbeitende Systeme. Sie sagen auf der Basis enormer Trainingsmengen vorher, welches Token — vereinfacht: welches Wort oder welcher Teilausdruck — als nächstes wahrscheinlich erscheint. Diese Vorhersageleistung ist beeindruckend. Sie hat jedoch eine strukturelle Eigenschaft, die im juristischen Kontext erhebliche Konsequenzen hat: Das Modell prüft nicht, ob eine Aussage wahr ist. Es optimiert für Plausibilität.

Wenn ein solches Modell nach einem BGH-Urteil gefragt wird, das in seinem Trainingskorpus nicht vorhanden ist, gibt es in vielen Fällen trotzdem eine Antwort. Es konstruiert ein Aktenzeichen, ein Datum, einen Leitsatz — alles in dem Stil, der für BGH-Entscheidungen typisch ist. Das Ergebnis klingt korrekt. Es ist es nicht. Dieses Phänomen bezeichnet man als Halluzination.

Halluzinationen sind keine Fehlfunktion, sondern eine vorhersehbare Konsequenz der zugrundeliegenden Modellarchitektur. Ein autoregessives Sprachmodell ohne angebundene Faktendatenbank kann strukturell nicht zwischen Wissen und Konstruktion unterscheiden.

Konkrete Beispiele aus der Praxis

Im Jahr 2023 wurde bekannt, dass ein US-amerikanischer Rechtsanwalt in einem Bundesgerichtsverfahren einen Schriftsatz eingereicht hatte, der mit ChatGPT erstellt worden war. Der Schriftsatz enthielt sechs Gerichtsentscheidungen, die nicht existierten — vollständig erfunden, inklusive Aktenzeichen und Leitsätzen. Das Gericht verhängte eine Geldstrafe von 5.000 US-Dollar gegen den Anwalt und seine Kanzlei.

Ähnliche Fälle sind seitdem aus mehreren Jurisdiktionen dokumentiert worden. Das Muster ist konsistent: Der Anwalt vertraut dem Output des Sprachmodells, ohne die zitierten Quellen gegen eine autoritative Datenbank zu verifizieren. Das Modell hat keine Möglichkeit, den Anwalt auf die Nicht-Existenz einer Entscheidung hinzuweisen — denn es weiß nicht, dass es etwas nicht weiß.

Das Modell weiß nicht, dass es etwas nicht weiß. Es gibt keine interne Unsicherheitsanzeige, die dem Nutzer signalisiert: Diese Quelle ist unzuverlässig.

Warum sind Halluzinationen im Rechtsbereich besonders gefährlich?

In vielen Anwendungsdomänen sind Halluzinationen lästig, aber beherrschbar. Ein falsch zusammengefasstes Produktrezensionsset oder eine fehlerhafte Übersetzung hat begrenzte Konsequenzen. Im Rechtsbereich verhält sich das grundlegend anders.

Berufspflichtverletzung nach §43a BRAO

Die anwaltliche Sorgfaltspflicht ist in §43a Abs. 1 BRAO normiert. Danach ist der Anwalt verpflichtet, das Mandat gewissenhaft zu bearbeiten. Die Einreichung eines Schriftsatzes mit nicht existierenden Urteilen ist eine Verletzung dieser Pflicht — unabhängig davon, ob die Quelle ein KI-System oder ein menschlicher Mitarbeiter war. Die Verantwortung verbleibt beim Anwalt.

Standesrechtliche Konsequenzen reichen von einer Rüge durch die zuständige Rechtsanwaltskammer bis zur Einleitung eines berufsrechtlichen Verfahrens. In schwerwiegenden Fällen ist ein Haftungsanspruch des Mandanten denkbar, der durch die fehlerhafte Darstellung einen Prozessnachteil erlitten hat.

Vertrauensverlust beim Gericht

Gerichte dokumentieren und kommunizieren den Umstand, wenn ein Anwalt nicht existierende Entscheidungen zitiert. Dieser Umstand ist nicht nur eine Einzelfallpeinlichkeit: Er beeinträchtigt das Vertrauen in den Vortrag des betreffenden Anwalts in dem gesamten Verfahren und mitunter darüber hinaus.

Quantitativer Befund

Eine 2024 veröffentlichte Analyse der American Bar Association (ABA) kommt zu dem Ergebnis, dass 12 Prozent der mit generativer KI erstellten Schriftsätze fehlerhafte oder nicht verifizierbare Zitate enthielten. Die Dunkelziffer dürfte höher liegen, da nicht alle Schriftsätze einer systematischen Quellenprüfung unterzogen werden.

Technische Ursachen: Warum halluzinieren Sprachmodelle?

Das Verständnis der technischen Ursachen ist Voraussetzung für die Bewertung von Lösungsansätzen. Drei Mechanismen tragen maßgeblich zur Halluzinationsneigung bei:

Autoregressive Vorhersage ohne Wahrheitsabgleich

Standard-Sprachmodelle (sogenannte Decoder-only-Transformer) generieren Text Token für Token. Bei jedem Schritt wählt das Modell das wahrscheinlichste nächste Token auf Basis des bisherigen Kontexts. Dieser Prozess enthält keine externe Verifikationsschleife. Das Modell hat keinen Mechanismus, um zu prüfen, ob das, was es gerade generiert, mit einer externen Referenz übereinstimmt.

Das Confidence-Problem

Sprachmodelle liefern keine verlässlichen Konfidenzwerte für ihre Aussagen. Ein Modell, das ein nicht existierendes Urteil erfindet, tut dies mit derselben sprachlichen Sicherheit wie beim Zitieren einer tatsächlich vorhandenen Entscheidung. Es gibt keine zuverlässige syntaktische oder semantische Markierung, die dem Nutzer signalisiert, dass eine Aussage unsicher ist.

Kein Echtzeit-Abgleich mit Datenbanken

Standard-Sprachmodelle ohne zusätzliche Retrieval-Komponente können nicht in Echtzeit auf externe Datenbanken — juris, beck-online, das Bundesgesetzblatt — zugreifen. Ihr Wissen ist auf den Trainingskorpus beschränkt, der einen bestimmten Stichtag hat. Rechtsprechung, die nach diesem Stichtag veröffentlicht wurde, ist dem Modell unbekannt.

Retrieval-Augmented Generation (RAG) als Gegenpol

Der Ansatz, der die Halluzinationsproblematik strukturell adressiert, heißt Retrieval-Augmented Generation (RAG). Dabei durchsucht das System zunächst eine kuratierte, aktuelle Datenbank und übergibt die gefundenen Dokumente als Kontext an das Sprachmodell. Das Modell generiert seine Antwort auf Basis dieser belegten Grundlage — nicht aus dem Trainingsgedächtnis. Wenn kein relevantes Dokument gefunden wird, wird keine Antwort generiert.

Was unterscheidet eine kanzlei-konforme KI-Architektur?

Nicht jede KI-Lösung für Kanzleien begegnet der Halluzinationsproblematik mit derselben Ernsthaftigkeit. Die Unterschiede liegen in der Systemarchitektur, nicht in der Modellqualität.

Retrieval zuerst, Generierung danach

Eine kanzlei-konforme Architektur stellt sicher, dass jede juristische Aussage aus einem verifizierbaren Quelldokument abgeleitet wird. Das bedeutet: Das System durchsucht zunächst eine geprüfte Rechtsquelldatenbank, identifiziert die relevanten Textstellen und übergibt diese — mit Metadaten wie Aktenzeichen, Gericht und Datum — als Kontext an das Modell.

Quellennachweis als zwingende Bedingung

Der entscheidende Schritt ist die Verpflichtung des Systems, jede Aussage mit einer konkreten Quelle zu belegen. Nicht als optionaler Zusatz, sondern als Ausgabebedingung. Wenn das System keine belegte Quelle findet, gibt es keine Antwort. Es rät nicht.

LAWSON Assistant AI folgt diesem Prinzip konsequent: Was nicht belegbar ist, wird nicht ausgegeben. Grundlage bilden 500.000 geprüfte deutsche Rechtsquellen aus 28 Rechtsgebieten — Gesetze, Urteile, Verordnungen, Kommentarliteratur. Jede Ausgabe enthält die Fundstelle mit Aktenzeichen oder Normbezeichnung.

Kein Raten bei fehlenden Treffern

Bei Standard-Sprachmodellen ist das Ausbleiben einer Antwort die Ausnahme — das Modell tendiert dazu, immer etwas zu produzieren. Bei einer RAG-basierten, quellengebundenen Architektur ist das Gegenteil der Fall: Kein Treffer in der Datenbank bedeutet keine Ausgabe. Diese Eigenschaft ist kein Komfortmangel, sondern eine wesentliche Sicherheitseigenschaft für den Kanzleibetrieb.

Checkliste: Wie Kanzleien das Halluzinationsrisiko prüfen

Bevor eine Kanzlei ein KI-System für die juristische Arbeit einsetzt, empfiehlt sich eine systematische Prüfung anhand folgender Kriterien:

Gibt das Tool zu jeder juristischen Aussage eine konkrete Quelle mit Aktenzeichen oder Normbezeichnung an?
Ist diese Quelle in einer anerkannten Datenbank — juris, beck-online, Rechtsprechungsdatenbanken der Gerichte — verifizierbar?
Was gibt das System aus, wenn keine belegte Quelle existiert? Verweigert es eine Antwort — oder konstruiert es eine?
Auf welchem Stand ist die Rechtsquelldatenbank? Werden aktuelle Entscheidungen zeitnah aufgenommen?
Wo werden die eingegebenen Daten verarbeitet und gespeichert? EU-Hosting oder US-Server?
Ist die anwaltliche Verschwiegenheitspflicht nach §43a BRAO durch die Systemarchitektur gewährleistet — insbesondere hinsichtlich Mandantenisolierung und fehlender Trainingsnutzung eingegangener Daten?
Liegt ein Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO mit dem Anbieter vor?
Ist die Lösung nachweislich für die Anforderungen des deutschen Rechts und deutschen Kanzleisoftware-Ecosystems entwickelt worden — oder ist sie eine generische anglophone Plattform mit oberflächlicher Lokalisierung?

Hinweis zur Verifikation: Ein einfacher Praxistest besteht darin, das System nach einem fiktiven, nicht existierenden Urteil zu fragen — mit einem plausibel klingenden Aktenzeichen. Ein System mit konsequenter RAG-Architektur und Quellengebundenheit wird antworten, dass dieses Urteil in der Datenbank nicht vorhanden ist. Ein reines Generierungsmodell wird es erfinden.

Fazit

KI-Halluzinationen sind kein behebbarer Bug, den ein Softwareupdate beseitigt. Sie sind ein strukturelles Merkmal autoregessiver Sprachmodelle ohne Retrieval-Anbindung. Kanzleien, die generative KI einsetzen, ohne diese Eigenschaft zu kennen und zu adressieren, gehen ein berufsrechtliches und haftungsrechtliches Risiko ein, das durch technische und organisatorische Maßnahmen vermeidbar ist.

Die juristische Verantwortung für KI-generierte Inhalte verbleibt beim Anwalt — unabhängig davon, welches System eingesetzt wurde. Das ist der entscheidende Ausgangspunkt für jede Entscheidung über den Einsatz von KI in der anwaltlichen Berufsausübung.

Die Lösung liegt nicht in besseren Prompts oder in der Hoffnung auf verbesserte Modellversionen. Sie liegt in der Systemarchitektur: quellengebundene Retrieval-Systeme, die keine Aussage ohne belegbare Grundlage ausgeben. Für eine Kanzlei ist das keine technische Präferenzfrage, sondern eine berufsrechtliche Anforderung.

Weiterführende Informationen zur DSGVO-konformen Nutzung von KI in Kanzleien finden Sie in unserem Beitrag zu DSGVO und KI in Kanzleien. Einzelheiten zur Sicherheitsarchitektur von LAWSON sind auf der Sicherheitsseite dokumentiert.

KI-Halluzinationen in Kanzleien