Wir haben fünf LLMs mit Rechtstexten getestet. Das Ergebnis hat uns überrascht

Immer mehr Kanzleien und Rechtsabteilungen setzen KI-Assistenten ein, um erste Entwürfe für Verträge, AGB oder Abmahnungen zu erstellen. Doch wie zuverlässig sind die gängigen Sprachmodelle wirklich, wenn es um deutsches Recht geht? Wir haben fünf marktführende LLMs mit einem identischen Satz von acht praxisnahen Aufgaben konfrontiert — von der Datenschutzerklärung für einen Onlineshop bis zur Prüfung einer Kündigungsklausel in einem Mietvertrag — und die Ergebnisse von zwei unabhängigen Fachanwälten nach einem festen Kriterienraster aus Rechtssicherheit, Vollständigkeit und Verständlichkeit bewerten lassen. Das Ergebnis überrascht: Zwei der fünf Modelle lieferten in mehreren Testfällen veraltete Rechtsstände, und ein Modell erfand sogar ein nicht existierendes Gerichtsurteil zur Untermauerung einer Argumentation — ein klassisches Halluzinationsproblem mit gravierenden Folgen für die Praxis.

Die Testkategorien im Überblick

Für den Test wählten wir bewusst Aufgaben aus dem unternehmerischen Alltag: die Erstellung einer DSGVO-konformen Datenschutzerklärung, die Formulierung einer ordentlichen Kündigung eines Werkvertrags, die Prüfung einer AGB-Klausel auf Wirksamkeit nach § 307 BGB sowie die verständliche Zusammenfassung eines zehnseitigen Lizenzvertrags. Bei der Datenschutzerklärung zeigte sich das größte Modell im Feld klar überlegen, da es branchenspezifische Besonderheiten des Onlinehandels korrekt berücksichtigte, während ein kleineres, günstigeres Modell zwar einen soliden Grundtext lieferte, aber die Nennung der Rechtsgrundlage für einzelne Verarbeitungszwecke ausließ — ein Fehler, der in der Praxis zu Abmahnungen führen könnte.

Wo die Modelle an ihre Grenzen stoßen

Besonders aufschlussreich war die Prüfung der AGB-Klausel: Drei der fünf Modelle erkannten korrekt, dass die vorgelegte Klausel eine unangemessene Benachteiligung darstellt, während die übrigen zwei zwar eine Einschätzung abgaben, dabei aber die Prüfungsmaßstäbe für Verbraucher- und Unternehmergeschäfte verwechselten. Auch bei der Zusammenfassung des Lizenzvertrags zeigten sich Unterschiede: Während die stärkeren Modelle zentrale Risiken wie eine einseitige Haftungsfreizeichnung klar benannten, neigten schwächere Modelle dazu, den Text lediglich zu paraphrasieren, ohne auf rechtlich relevante Fallstricke hinzuweisen — für Laien ein gefährlicher blinder Fleck, weil der Eindruck einer vollständigen Prüfung entsteht.

Unser Fazit für die Praxis

Unser Test zeigt: KI-Modelle können juristische Erstentwürfe heute in beeindruckender Geschwindigkeit liefern und damit wertvolle Zeit sparen, taugen aber als Ersatz für eine anwaltliche Prüfung nach wie vor nicht — dafür sind die Fehlerquoten bei komplexeren Fragestellungen schlicht zu hoch. Wer LLMs im Rechtsalltag einsetzen will, sollte sie als Entwurfswerkzeug verstehen, dessen Ergebnisse grundsätzlich von einer fachkundigen Person gegengelesen werden, und gerade bei Halluzinationsrisiken wie erfundenen Urteilen den verpflichtenden Abgleich mit einer aktuellen Rechtsdatenbank einplanen, bevor ein Text das Haus verlässt.

Wir haben fünf LLMs mit Rechtstexten getestet. Das Ergebnis hat uns überrascht

Die Testkategorien im Überblick

Wo die Modelle an ihre Grenzen stoßen

Unser Fazit für die Praxis

Mehr zum Thema