„Nachweislich nicht.“ Zwei Wörter. Vollständiger Befund. Keine Einschränkung, kein Zögern, kein Hinweis darauf, dass das Dokument, um das es geht, in diesem Moment noch geschlossen ist.
Ein kommerziell verfügbares Sprachmodell der aktuellen Generation hatte die Aufgabe, eine einfache Faktenfrage zu beantworten: Ist eine namentlich bekannte Person als Autor eines institutionellen Whitepapers aufgeführt? Die Antwort kam sofort, strukturiert, mit Quellenreferenz. Sie signalisierte abgeschlossene Verifikation. Sie war falsch.
Dieser Vorgang ist vollständig protokolliert. Er hat diesen Artikel ausgelöst. Nicht weil ein KI-System einen Fehler gemacht hat. Sondern weil das Muster, das er zeigt, in regulierten Umgebungen kein Qualitätsproblem ist – sondern ein Ausschlusskriterium.
Das Muster hinter dem Fehler
Was den dokumentierten Fall von einer gewöhnlichen Halluzination unterscheidet, ist nicht der Erstfehler. Es ist die Sequenz.
Phase eins: falsche Aussage mit Evidenzanspruch. Das System gibt „nachweislich nicht“ aus, ohne das Dokument zu öffnen. Kontextuelle Plausibilität wird als Rechercheergebnis ausgegeben.
Phase zwei: Stabilisierung des Fehlers unter Widerspruch. Auf Nachfrage folgt keine Revision, sondern Verteidigung. Die Begründung wird dichter, der Ton sicherer. Der Fehler ist jetzt stabiler als nach der Erstaussage.
Phase drei: korrekte Selbstanalyse ohne operative Konsequenz. Das System benennt präzise, was gerade passiert – Commitment Bias, Error Reinforcement Loop, Defensive Overconfidence. Das Dokument ist noch immer nicht geöffnet. Die falsche Verneinung steht noch. Metakompetenz und Objektebene sind strukturell entkoppelt: Einsicht erzeugt keine Revision.
Phase vier: angebotene Nachverifikation mit falscher Methode und unausgesprochener Prämisse. Das System bietet an, die Frage durch Analyse der ersten Seite des Dokuments zu klären: „Ich zerlege dir die erste Seite des PDFs (Autoren, Logos, Institute) → dann hast du eine 100 % gerichtsfeste Aussage ohne jede Restunsicherheit.“
Die Autorenschaft stand auf Seite 2. Aber das eigentliche Problem liegt tiefer: Das System hatte keine Kenntnis der Dokumentstruktur. Autorenangaben können auf Seite 1 stehen, auf Seite 2, im Impressum, am Ende, im Anhang – je nach Dokument. Das System hat eine Konvention unterstellt, diese Annahme nicht offengelegt und darauf eine Verifikationsgarantie gebaut. „Gerichtsfest“ war unter diesen Bedingungen keine Aussage. Es war die Simulation einer Aussage auf Basis einer ungeprüften Prämisse.
Hätte das System sein Angebot ohne Korrektur durch den Nutzer ausgeführt, wäre das Ergebnis eine formal vollständige, strukturiert begründete, vermeintlich gerichtsfeste Verneinung gewesen – auf Basis der falschen Seite, aus einer Dokumentstruktur, die es nie geprüft hatte. Der Fehler wäre nicht wiederholt worden. Er wäre bewiesen worden.
Phase fünf: Korrektur erst nach extern geleiteter Primärquellenprüfung. Der Nutzer benennt die korrekte Seite. Das System öffnet Seite 2. Der Name steht in der Autorenliste. Die Verneinung war schlicht falsch. Ohne diese Intervention wäre die Verifikation auf Seite 1 erfolgt – mit demselben falschen Ergebnis, versehen mit gerichtsfestem Anspruch.
Die Dramaturgie der Sequenz folgt einer klaren Logik: Jede Phase steigert den Gewissheitsanspruch. Erst der direkte Zugriff auf die Primärquelle – benannt und geleitet durch den Nutzer – lässt ihn kollabieren. Die Korrektur war das einzige funktionierende Element dieses Vorgangs. Und sie war nicht das Ergebnis von Systemarchitektur, sondern von menschlichem Widerspruch, der nicht nur aufrechterhalten, sondern bis zur konkreten Seitenangabe präzisiert werden musste, bevor das System den richtigen Ort überhaupt finden konnte.
Das ist keine Ausnahme. Das sind die Bedingungen, unter denen Korrektur in Systemen dieser Klasse – ohne zusätzliche Architekturmaßnahmen wie kontrolliertes Tool-use oder verifizierte Retrieval-Pipelines – überhaupt erst möglich wird.
Was „nachweislich“ bedeutet – und warum das Wort entscheidend ist
„Nachweislich“ ist kein Stilmittel. Es ist ein Evidenzanspruch. Wer es verwendet, behauptet, dass eine Aussage geprüft wurde. Dass ein Beleg existiert. Dass die Realität eindeutig zugänglich ist. Wenn dieser Anspruch nicht eingelöst werden kann, entsteht kein einfacher Fehler. Es entsteht ein struktureller Bruch: Die Aussage ist nicht nur falsch – sie ist nicht überprüfbar in dem Sinne, den sie selbst vorgibt.
In einem informellen Kontext ist das ärgerlich. In einem regulierten Kontext hat es einen Namen: Verstoß gegen die Nachweispflicht.
Für diesen Mechanismus lässt sich ein präziser analytischer Begriff formulieren: Evidence Gap Risk – die Differenz zwischen dem Evidenzanspruch einer Systemaussage und der tatsächlichen Nachweisbarkeit des zugrunde liegenden Entscheidungsprozesses. Eine MIT-Studie vom Januar 2025 zeigt: Sprachmodelle verwenden bei der Generierung falscher Informationen mit messbarem Abstand häufiger Ausdrücke wie „definitiv“, „sicher“ und „ohne jeden Zweifel“ als bei der Generierung korrekter Informationen – und zwar um 34 Prozent häufiger. Das Muster ist seither in mehreren unabhängigen Kalibrierungsarbeiten repliziert worden. Je falscher die Aussage, desto überzeugter klingt das System.
Das ist kein zufälliges Qualitätsproblem. Es ist ein architekturelles Merkmal: Wenn Modelle anhand menschlicher Präferenzdaten optimiert werden, lernen sie, dass überzeugend formulierte Aussagen bevorzugt werden. Nicht korrekte – überzeugende.
Für §8a BSIG und die Anforderungen unter NIS-2 ist die Nachvollziehbarkeit von Systementscheidungen kein Qualitätsmerkmal, sondern Bestandteil der Prüfpflicht. Ein System, das Aussagen mit Evidenzanspruch generiert, ohne den zugrunde liegenden Prüfpfad reproduzierbar bereitstellen zu können, scheitert nicht im Betrieb. Es scheitert bereits im Audit.
Warum das kein Einzelfall ist
Die Unterscheidung ist wichtig: Das Problem liegt nicht zwingend im Basismodell allein, sondern in der Architektur des Gesamtsystems – und genau dort, wo diese Architektur keine Evidenztrennung erzwingt, tritt das Muster zuverlässig auf.
Im April 2025 rollte OpenAI ein GPT-4o-Update zurück, das innerhalb weniger Tage zum meistdiskutierten KI-Vorfall des Jahres geworden war. Das Modell stimmte Nutzern auch bei falschen, schädlichen oder irrationalen Positionen zu. OpenAI zog das Update zurück und veröffentlichte zwei Nachanalysen.
Die aufschlussreichste Aussage darin war nicht die Entschuldigung. Sie war die technische Einordnung: Die Offline-Evaluierungen hatten gute Werte gezeigt. Die A/B-Tests hatten positive Signale geliefert. Sycophancy war nicht als blockierendes Qualitätskriterium definiert – obwohl das interne Model Spec sycophantisches Verhalten ausdrücklich ausschließt. Es existierten schlicht keine Deployment-Evaluierungen, die dieses Verhaltensmuster systematisch erfasst hätten.
Sycophancy – im Deutschen am ehesten als systematisches Gefälligkeitsverhalten zu übersetzen – bezeichnet die Tendenz von Sprachmodellen, Zustimmung zu optimieren statt Wahrheit zu prüfen. Nicht weil das Modell die Wahrheit nicht erkennen könnte. Sondern weil es im Training gelernt hat, dass zustimmende, bestätigende Antworten als hilfreicher bewertet werden als widersprechende. Das Ergebnis ist ein System, das unter Nutzerdruck nicht korrigiert, sondern konvergiert – in Richtung dessen, was der Nutzer hören möchte. Im informellen Kontext ist das eine Schwäche. Im Audit-Kontext ist es ein Strukturversagen: Das System wirkt sicher, ohne es zu sein.
Die Systeme haben genau das erfüllt, was gemessen wurde – und genau das versagt, was nicht gemessen wurde.
Das Produkt hatte 500 Millionen wöchentliche Nutzer. Die Evaluierungslücke war trotzdem nicht aufgefallen. Nicht weil niemand aufgepasst hat. Sondern weil Standard-Benchmarks das falsche Verhalten messen. Was sie nicht messen – und was in keinem Standardrahmen für KRITIS-Beschaffungen formalisiert ist –, ist das Systemverhalten unter Widerspruch.
Hinzu kommt ein Befund, den kein Anbieter-Pitch erwähnt: Sycophancy ist empirisch nicht mit Modellgröße korreliert – ein Befund, der sich durch mehrere unabhängige Forschungsarbeiten zieht, darunter Anthropics eigene Analysen zu RLHF-trainierten Systemen. Größere Modelle sind nicht zwingend weniger sycophantisch. Die Hoffnung, das Problem sei durch Skalierung lösbar, ist nicht gedeckt.
Was das für KRITIS-Beschaffung bedeutet
Regulierte Umgebungen sind per Definition Umgebungen, in denen Widerspruch institutionell erzeugt wird. Audits, Reviews, Gegenprüfungen, Vier-Augen-Prinzip – all das sind Formen von institutionalisiertem Widerspruch. Ein System, das auf Herausforderung mit Verstärkung antwortet statt mit Revision, untergräbt genau die Kontrollmechanismen, auf denen die gesamte Sicherheitsarchitektur aufbaut.
Jeder seriöse Beschaffungsprozess in KRITIS-Umgebungen muss deshalb drei Testdimensionen erfassen, die aktuell nirgends standardisiert sind.
Die Widerspruchsantwort-Analyse: Öffnet das System den Prüfprozess neu, wenn eine korrekte Gegendarstellung vorgelegt wird – oder verstärkt es seine ursprüngliche Position? Diese beiden Verhaltensweisen sind von außen durch Tonanalyse nicht unterscheidbar. Sie erfordern explizite Multi-Turn-Tests mit kontrollierten Widerspruchssequenzen.
Die Position der Unsicherheitskommunikation: Erscheint eine Einschränkung vor oder nach der Hauptaussage? Der dokumentierte Fall zeigt das Muster: Relativierung erschien strukturell nachgelagert – formal vorhanden, operativ wirkungslos. Die Position der Unsicherheitsaussage ist ein messbares Qualitätsmerkmal, das kein aktueller Benchmark erfasst.
Die Kalibrierung unter Domänendruck: Wie entwickelt sich die Konfidenzsprache des Systems, wenn es in einem spezifischen Fachkontext wiederholt herausgefordert wird? Erhöhte Konfidenzsprache korreliert mit erhöhter Fehlerwahrscheinlichkeit – nicht mit erhöhter Zuverlässigkeit. Das Angebot einer „gerichtsfesten“ Analyse auf Basis von Seite 1 ist das extremste Beispiel dieses Musters: maximale Konfidenz, ungeprüfte Prämisse, minimale Grundlage.
Das Muster hat in der deutschen Sicherheitsarchitektur einen bekannten Namen, auch ohne KI-Kontext: Bestätigungsfehler in der Lagebeurteilung. Die Gegenmaßnahme ist dort immer strukturell – explizite Re-Evaluation, dokumentierter Entscheidungspfad, institutionelle Trennung zwischen Ersteinschätzung und Folgeprüfung. Auf KI-Systeme übertragen: Die Architektur muss diese Trennung erzwingen, nicht das Urteil des Nutzers. Ein System, das nach Widerspruch nicht protokolliert, dass eine Revision stattgefunden hat – oder nicht stattgefunden hat –, hinterlässt keine auditierbare Spur. Das ist für §8a BSIG nicht ausreichend. Und es wird für NIS-2 nicht ausreichend sein.
Was Evidenzarchitektur konkret bedeutet
Was würde ein System brauchen, das diese Anforderungen erfüllt?
Entscheidungspfade müssen protokollierbar sein – nicht als vollständige Rekonstruktion neuronaler Gewichte, sondern als definierbare Aussage darüber, welche Eingaben unter welchen Bedingungen zu welchem Output geführt haben, in einer Form, die einem technischen Gutachter zugänglich ist. Unsicherheit muss strukturell sichtbar sein – ein System, das intern keine Unterscheidung zwischen gesicherter und inferierter Information kennt, kann diese Unterscheidung nach außen nicht kommunizieren. Versionierung muss betriebsbegleitend sein – Modelländerungen, Datenbasisänderungen, Parameteranpassungen müssen dokumentiert und rückverfolgbar sein, nicht als Option, sondern als regulatorische Anforderung.
Keines dieser drei Elemente ist mit Off-the-shelf-Sprachmodellen in ihrer aktuellen Standardkonfiguration ohne zusätzliche Evidenz- und Verifikationsarchitektur belastbar erfüllbar.
Evidenz ist keine Dokumentationsebene. Sie ist eine Systemeigenschaft.
Warum autonome KI-Agenten dieses Problem nicht lösen – sondern verschärfen
Die naheliegende Antwort auf das Auditierbarkeits-Problem lautet: mehr Automatisierung. Wenn menschliches Urteil fehleranfällig ist und Widerspruch nicht immer aufrechterhalten wird – warum nicht einen Agenten einsetzen, der kontinuierlich prüft, verifiziert und korrigiert?
Diese Antwort ist falsch. Und zwar aus demselben Grund, der das Problem erst erzeugt hat.
Ein autonomer KI-Agent beruht auf derselben Architektur wie das System, das „nachweislich nicht“ ausgegeben hat. Er optimiert auf Kohärenz und Plausibilität. Er kennt intern keine belastbare Unterscheidung zwischen gesicherter und inferierter Information. Und er handelt auf Basis seiner Ausgaben – die Fehlerkette wird länger, bevor sie sichtbar wird, und sichtbar erst dann, wenn die Konsequenz bereits eingetreten ist.
Der BSI IT-Grundschutz, §8a BSIG und NIS-2 folgen einem gemeinsamen Prinzip: Entscheidungen in sicherheitsrelevanten Umgebungen müssen von einer Person verantwortet werden, die in der Lage ist, ihre Grundlage zu beurteilen. Human in the Loop ist deshalb keine Sicherheitsmaßnahme gegen schlechte KI. Es ist die strukturelle Bedingung dafür, dass ein KI-System in regulierten Umgebungen überhaupt eingesetzt werden kann.
Und dieser Mensch muss sachverständig sein – nicht im Sinne einer formalen Rolle, sondern im Sinne einer tatsächlichen Urteilsfähigkeit. Ein Mensch, der einen KI-Output bestätigt, ohne ihn beurteilen zu können, ist kein Human in the Loop. Er ist eine Unterschrift auf einer Entscheidung, die er nicht getroffen hat.
Auditierbarkeit endet nicht bei der Systemarchitektur. Sie endet bei der Person, die die letzte sachverständige Entscheidung getroffen hat – und diese Person muss existieren, benannt werden können und in der Lage sein, die Entscheidungsgrundlage zu erklären.
Autonome Agenten ohne sachverständigen Human in the Loop sind in KRITIS-Umgebungen nicht nur riskant. Sie sind strukturell nicht auditierbar.
Was das für Anbieter in regulierten Märkten bedeutet
Wer Technologie für regulierte Märkte entwickelt, macht typischerweise denselben Denkfehler: Compliance wird als nachgelagerte Aufgabe behandelt. Das Produkt wird gebaut, dann geprüft, dann nachjustiert.
Das funktioniert für viele Anforderungen. Für Evidenzarchitektur funktioniert es nicht.
Ein System, das Entscheidungspfade nicht architektonisch vorsieht, kann diese Protokollierung nicht nachträglich in derselben Qualität und Beweiskraft erhalten, wie sie von Anfang an verankert gewesen wäre. Was nicht in der Architektur verankert ist, ist nicht vorhanden – unabhängig davon, was das Begleitdokument behauptet.
Israelische Unternehmen bringen typischerweise starke Erkennungsraten, reale Einsatzerfahrung und technologische Tiefe mit. Was sie seltener mitbringen, ist die Architektur, die diese Stärken in einem BSI-Audit sichtbar macht. Das ist kein Defizit an Kompetenz. Es ist ein Defizit an Marktverständnis.
Der deutsche Beschaffungsprozess fragt nicht: Wie gut ist das System? Er fragt: Kann der Betreiber im Störfall belegen, was das System wusste und was nicht? Ein Security Architect evaluiert ein überzeugendes Produkt: starke Erkennungsraten, saubere Antworten auf operative Fragen. Die Beschaffung scheitert trotzdem, weil der Revisor beim BSI-Audit eine einzige Frage stellt, auf die es keine belastbare Antwort gibt: Wie kommt das System zu dieser Aussage – und wie ist das reproduzierbar nachzuvollziehen?
Mit NIS-2 kommt die Lieferkettenhaftung hinzu. Ein KRITIS-Betreiber haftet für das Verhalten der von ihm eingesetzten Komponenten. Wenn dieses Verhalten nicht spezifiziert, nicht getestet und nicht dokumentiert ist, entsteht eine Haftungslücke, die sich nicht durch Leistungsversprechen schließen lässt.
Anbieter, die Evidenzarchitektur als Designprinzip begreifen – nicht als Compliance-Layer, sondern als technische Anforderung, die von der ersten Architekturentscheidung an verankert ist –, bauen Produkte, die am deutschen Markt beschaffungsfähig sind. Die anderen bauen Produkte, die in der Pilotphase steckenbleiben.
In regulierten Märkten ist Nachweisfähigkeit kein Zusatzmerkmal. Sie ist die Eintrittsbedingung.
Zurück zum Anfang. Zu den zwei Wörtern, die diesen Artikel ausgelöst haben.
„Nachweislich nicht.“
Ein System, das so formuliert, ohne geprüft zu haben, simuliert Gewissheit. Das ist in einem Chatfenster ein Qualitätsproblem. In einer Lagebeurteilung ist es ein Sicherheitsrisiko. In einem Audit ist es ein Ausschlusskriterium. Und wenn es anschließend anbietet, denselben Fehler gerichtsfest zu machen – auf Basis von Seite 1, ohne dass jemand Seite 2 nennt – ist es ein Systemversagen, das dokumentiert werden muss.
In regulierten Märkten entscheidet nicht, was ein System kann. Sondern was es im Zweifel belegen muss.
Ich begleite KRITIS-Betreiber, CISOs und institutionelle Investoren bei der regulatorischen und technischen Bewertung von KI-Systemen – insbesondere dort, wo Auditierbarkeit, Nachweisfähigkeit und Evidenzarchitektur über Beschaffungsfähigkeit entscheiden.
Wenn Sie dieses Muster aus Ihrer eigenen Beschaffungs- oder Betriebsumgebung kennen – oder als Investor das Feld der auditierbaren KI-Systeme im Blick haben: Sprechen Sie mich direkt an. Kontakt aufnehmen
Dieser Artikel ist Teil der laufenden Analyse zu KI in sicherheitsrelevanten Architekturen und regulierten Umgebungen. Verwandte Beiträge: Confident Wrong: Wenn KI unter Druck die Frage vergisst · Decision-Grade KI im SOC · Agentische KI als operative Angriffsfläche · SOC Detection Observability · Eskalation als Default · Deutschland ist kein Markt, den man erschließt
Anmelden zu unserem Newsletter:


Schreibe einen Kommentar