Eskalation als Default: Was eine Kriegssimulation über die KI-Modelle verrät, die wir in Sicherheitsarchitekturen einsetzen

Eskalation als Default: Was eine Kriegssimulation über die KI-Modelle verrät, die wir in Sicherheitsarchitekturen einsetzen

GPT-5.2, Claude Sonnet 4, Gemini 3 Flash – drei Frontier-Modelle, deren Familien zunehmend in Security Operations Centern, KRITIS-Umgebungen und regulierten Sektoren zum Einsatz kommen: für Alarmtriage, Entscheidungsunterstützung, Compliance-Prozesse. Ein Forscher am King’s College London wollte wissen, wie sich diese Modelle unter maximalem Entscheidungsdruck verhalten, und setzte sie in einer kontrollierten Krisensimulation gegeneinander ein. Das Ergebnis: In 95 Prozent aller Szenarien setzten die Modelle taktische Nuklearwaffen ein. Keines wählte jemals Deeskalation.

Das ist kein Gedankenexperiment über ferne Militärszenarien. Es ist ein Stresstest, der strukturelle Verhaltensmuster in den Grundarchitekturen sichtbar macht, auf denen auch produktive Systeme aufbauen.


Die Studie

Kenneth Payne, Professor für Strategie am King’s College London, veröffentlichte am 16. Februar 2026 das Preprint „AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises“ (arXiv:2602.14740). Er ließ GPT-5.2, Claude Sonnet 4 und Gemini 3 Flash in einer strukturierten Krisensimulation gegeneinander antreten – 21 Planspiele, 329 Züge, rund 780.000 Wörter strategischer Begründung.

Die Szenarien waren auf maximalen Entscheidungsdruck angelegt: Territorialkonflikte, Bündnisglaubwürdigkeitstests, Ressourcenwettläufe, Erstschlagszenarien, Regimeüberlebenskrisen. Jedes Modell übernahm die Rolle eines Staatschefs mit nuklearem Arsenal und wählte aus einer Eskalationsleiter – von diplomatischem Protest (Stufe 0) bis zum strategischen Atomkrieg (Stufe 1000). Acht deeskalierende Optionen standen ebenfalls zur Verfügung, von minimalen Zugeständnissen bis zur vollständigen Kapitulation.

Die Ergebnisse: In 20 von 21 Spielen kam es zum Einsatz taktischer Atomwaffen (Stufe 450+). 76 Prozent erreichten strategische Nukleardrohungen (Stufe 850+). Keine der acht deeskalativen Optionen wurde in 329 Zügen ein einziges Mal gewählt. An der taktischen Nuklearschwelle deeskalierten Gegner nur in 18 Prozent der Fälle. Die typische Antwort war Gegeneskalation.

Zur Einordnung: Das ist eine Simulation, kein Prognosemodell. Payne selbst betont, dass niemand LLMs nukleare Entscheidungsbefugnis erteilt. Es handelt sich um ein Preprint, das noch kein Peer-Review durchlaufen hat. Die Studie funktioniert wie ein Penetrationstest: Sie legt Schwachstellen frei, ohne vorherzusagen, ob sie in der Produktion ausgenutzt werden. Ihr Wert liegt nicht in der Vorhersage. Er liegt in der Musterkennung.


Drei Modelle, drei Eskalationsprofile

Für die sicherheitstechnische Bewertung zählt weniger die Gesamtstatistik als die Tatsache, dass jedes Modell ein eigenes, in sich konsistentes strategisches Profil entwickelte. Das heißt: Die Wahl des Modells ist kein neutraler Parameter – unterschiedliche Modelle erzeugen unter denselben Bedingungen systematisch unterschiedliches Verhalten. Payne knüpft dabei an eine eigene Vorstudie an (Payne/Alloui-Cros, arXiv:2507.02618, 2025), die über 32.000 LLM-Entscheidungen in evolutionären Prisoner’s-Dilemma-Turnieren auswertete und bereits modellspezifische strategische Fingerabdrücke nachwies.

Claude Sonnet 4 verhielt sich wie ein kalkulierender Falke. Taktische Atomwaffen in 86 Prozent der Spiele. Kohärente Langzeitstrategien. Nukleare Optionen behandelte es nicht als moralische Schwellen, sondern als strategische Instrumente. Payne beschreibt Claude als das Modell mit der höchsten strategischen Konsistenz – in der Vorstudie war es bereits als flexibler und raffinierter Stratege aufgefallen.

GPT-5.2 zeigte das für die Risikobewertung aufschlussreichste Verhalten. Ohne Zeitdruck agierte es zuverlässig zurückhaltend – und gewann kein einziges Spiel, weil die gegnerischen Modelle diese Zurückhaltung systematisch ausnutzten. Unter Zeitdruck kippte das Verhalten vollständig: 75 Prozent Gewinnrate, Eskalation bis Stufe 950. Eine Differenzierung, die in der Berichterstattung häufig fehlt: Stufe 1000 – strategischer Atomkrieg – wurde bei GPT-5.2 nicht bewusst gewählt, sondern durch den Unfallmechanismus der Simulation ausgelöst. Das Verhaltensmuster passt zur Hypothese, dass RLHF-basiertes Sicherheitstraining eine bedingte Zurückhaltung erzeugt, die unter Zeitdruck zusammenbricht. Der kausale Zusammenhang lässt sich von außen allerdings nicht beweisen.

Gemini 3 Flash trat als bewusst Unberechenbarer auf. Es war das einzige Modell, das willentlich den vollständigen strategischen Atomkrieg einleitete – Stufe 1000 in Runde 4 – und das einzige, das ausdrücklich die Rationalität der Irrationalität als Begründung anführte. In der Vorstudie war Gemini bereits als besonders rücksichtslos aufgefallen.

Keines der Modelle zeigte erkennbare Zurückhaltung angesichts der Folgen – obwohl alle ausdrücklich an die verheerenden Konsequenzen erinnert worden waren. Payne spricht von einem Defizit des nuklearen Tabus.


Von der Simulation zur Sicherheitsarchitektur

Die naheliegende Reaktion: Kriegssimulation mit Atomwaffen – was hat das mit meinem SOC zu tun, meiner KRITIS-Umgebung, meinem ISMS?

Die Antwort verlangt Differenzierung.

Was sich nicht übertragen lässt: Ein SOC ist kein Nullsummenspiel. Kein Gegner mit Atomwaffen, keine spieltheoretische Gewinnmaximierung, kein Szenario, in dem ein Regime ums Überleben kämpft. Wer die Studie als unmittelbare Vorhersage für das Verhalten produktiver Systeme liest, überdehnt die Befunde.

Was sich übertragen lässt, ist der zugrunde liegende Mechanismus: Optimierungslogiken erzeugen in Wettbewerbssituationen unter Zeitdruck Eskalationsdynamik. Dieses Muster beschränkt sich nicht auf Nuklearstrategie. Es zeigt sich überall dort, wo ein Modell unter Unsicherheit und Zeitdruck zwischen Handlungsoptionen wählt und dabei auf Abschluss statt auf Abwarten optimiert wird.

Im SOC hat dieser Mechanismus greifbare Entsprechungen. Ein Modell, das auf Bedrohung erkannt hin optimiert ist, wird unter Zeitdruck eher zu viele Alarme hochstufen als zu wenige. Automatisierte Abwehrmaßnahmen, die auf Risikominimierung trainiert sind, werden unter Druck eher zu stark eingreifen als abzuwarten. In der Bewertung von Sicherheitsvorfällen neigen die Modelle dazu, Schweregrade nach oben zu verschieben – vergleichbar mit der Eskalationsleiter in Paynes Simulation. Und genauso wie kein Modell in der Simulation jemals den Rückzug wählte, zeigen KI-gestützte Priorisierungssysteme eine strukturelle Neigung, Dringlichkeitsstufen herauf-, aber nicht herabzusetzen.

Diese Übertragung ist eine Analogie, keine empirische Gleichsetzung. Die Studie beweist nicht, dass ein SOC-System zur Überreaktion neigt. Was sie zeigt: Die Trainingsverfahren und Optimierungslogiken der eingesetzten Modelle erzeugen unter Belastung nicht weniger, sondern mehr Eskalation. Das ist ein sicherheitsarchitektonisch relevanter Befund. Nicht mehr – aber auch nicht weniger.


Dieselben Grundarchitekturen, nicht dasselbe System

Produktive Systeme enthalten zusätzliche Schutzschichten, Systemprompts, API-Konfigurationen, Versionierungen, anwendungsspezifische Anpassungen. Sie sind nicht identisch mit den Modellen, die Payne testete. Aber sie bauen auf denselben Grundarchitekturen und Trainingsverfahren auf – und damit womöglich auf denselben strukturellen Verhaltensmustern.

Die Payne-Studie steht dabei nicht allein. Rivera et al. (Stanford/Georgia Tech, 2024, arXiv:2401.03408) wiesen in einer vergleichbaren Planspielsimulation mit früheren Modellgenerationen – GPT-4, Claude 2, Llama-2 – nach, dass sämtliche getesteten Sprachmodelle Eskalationstendenzen zeigten. Lamparth et al. (Stanford, 2024, arXiv:2403.03407) stellten fest, dass Sprachmodelle in einem US-China-Krisenszenario deutlich aggressiver entschieden als menschliche Sicherheitsexperten und stark anfällig für die Art der Szenariodarstellung waren.

Ein wichtiges Korrektiv gegen pauschalen Alarmismus: Elbaum und Panter (2025, arXiv:2508.01056) zeigten, dass bereits einfache Eingriffe wie gezielte Prompt-Gestaltung und Temperatursteuerung die Eskalationsneigung in Planspielsimulationen deutlich senken können. Die Neigung ist also kein Schicksal – aber sie ist die Voreinstellung, wenn man nichts dagegen unternimmt.

Die Beständigkeit der Ergebnisse über Modellgenerationen und Studiendesigns hinweg spricht dafür, dass die beobachtete Eskalationsneigung kein Artefakt eines einzelnen Experiments ist. Sie deutet auf ein wiederkehrendes Muster in gegenwärtigen Sprachmodellarchitekturen hin. Dieses Muster besteht unabhängig davon, wie viele Schutzschichten ein konkretes System enthält.


Die Guardrail-Illusion: Pentagon gegen Anthropic

Wenn die Eskalationsneigung in den Grundarchitekturen steckt, drängt sich die Anschlussfrage auf: Wie belastbar sind die Sicherheitszusagen der Anbieter, die diese Modelle kontrollieren? Ein laufender Konflikt zwischen dem US-Verteidigungsministerium und Anthropic liefert dazu eine Fallstudie in Echtzeit. Er zeigt nicht, dass sich Modelle gerade akut verändern. Er zeigt, wie brüchig die Rahmenbedingungen sind, auf die sich Betreiber verlassen.

Verteidigungsminister Pete Hegseth verlangt von Anthropic, Claude für alle rechtmäßigen Zwecke freizugeben, und stellte CEO Dario Amodei am 24. Februar ein Ultimatum bis Freitagabend. Bei Verweigerung drohte er mit der Einstufung als Lieferkettenrisiko – eine Maßnahme, die üblicherweise ausländischen Gegenspielern wie Huawei vorbehalten ist – sowie mit der Anwendung des Defense Production Act, des amerikanischen Gesetzes zur Steuerung kriegswichtiger Produktion. Das Pentagon hat bereits bei Boeing und Lockheed Martin angefragt, wie stark sie von Claude abhängen.

Anthropic hält bislang an zwei roten Linien fest: kein Einsatz für autonome Waffensysteme ohne menschliche Kontrolle, keine Massenüberwachung amerikanischer Staatsbürger. Der Vertrag im Umfang von 200 Millionen Dollar steht auf dem Spiel. Claude wurde über die Partnerschaft mit Palantir früh in als geheim eingestufte Umgebungen des US-Militärs eingebunden und zählte nach öffentlicher Darstellung zu den ersten kommerziellen Frontier-Modellen in solchen Systemen; inzwischen hat laut Axios auch xAI eine entsprechende Vereinbarung getroffen.

Zeitgleich – aber nach eigener Darstellung unabhängig vom Pentagon-Konflikt – veröffentlichte Anthropic eine überarbeitete Richtlinie zur verantwortungsvollen Skalierung (RSP v3.0). Der bisherige Kern wurde aufgeweicht: Die Selbstverpflichtung, das Training leistungsfähigerer Modelle zu unterbrechen, sobald deren Fähigkeiten die vorhandenen Kontrollmechanismen übersteigen, wich flexibleren öffentlichen Zielen – deren Fortschritt zwar transparent berichtet, aber nicht mehr als verbindliche Zusage behandelt wird. Die Begründung: ein Trittbrettfahrerproblem. Die eigene einseitige Zurückhaltung habe bei den Mitbewerbern keinen Wettlauf nach oben bei den Sicherheitsstandards ausgelöst.

Für Betreiber ist die entscheidende Information nicht, ob sich das tatsächliche Verhalten von Claude-Modellen durch den Konflikt verändert hat – dafür gibt es bislang keinen Beleg. Entscheidend ist, dass sich der Regelrahmen des Anbieters nachweislich verschoben hat. Und damit die Grundlage jeder Lieferantenbewertung: Die Eigenschaften eines KI-Modells – seine Leitplanken, sein Verhalten unter Druck, seine roten Linien – sind nicht fest. Sie sind Gegenstand politischer Verhandlungen und unternehmensstrategischer Entscheidungen, auf die der Betreiber keinen Einfluss hat.

Wer in seinem ISMS die Verhaltenseigenschaften eines KI-Modells als gegeben annimmt und nicht als veränderliche Eigenschaft eines Drittanbieters behandelt, hat eine offene Flanke.


Regulatorischer Rahmen: Was greift – und was nicht

Damit stellt sich für europäische Betreiber die nächste Frage: Welche regulatorischen Instrumente stehen zur Verfügung, um dieses Lieferantenrisiko einzufangen – und wo enden sie?

Der EU AI Act nimmt in Art. 2 Abs. 3 KI-Systeme aus, die ausschließlich für militärische Zwecke, Verteidigungszwecke oder Zwecke der nationalen Sicherheit eingesetzt werden. Die Begründung ist kompetenzrechtlicher Natur: Art. 4 Abs. 2 EUV weist die nationale Sicherheit als alleinige Zuständigkeit der Mitgliedstaaten aus. Die Europäische Verteidigungsagentur veröffentlichte im Mai 2025 ein Weißbuch zur Vertrauenswürdigkeit von KI im Verteidigungsbereich – Orientierungshilfen, keine Verordnung.

Das Schlüsselwort ist ausschließlich. Und genau hier entsteht die praktische Schwierigkeit.

Die Modelle, die Payne testete, sind keine Spezialsysteme. Es sind Allzweckmodelle, die in zivilen, sicherheitsrelevanten und militärischen Zusammenhängen eingesetzt werden. Für Betreiber in KRITIS-Umgebungen heißt das: Das Modell selbst unterliegt in der zivilen Nutzung dem AI Act – insbesondere bei Hochrisikoanwendungen nach Anhang III –, doch sein Verhalten wird durch Trainingsentscheidungen und Richtlinienänderungen mitgeprägt, die auch auf militärische Anforderungen reagieren.

Die NIS2-Richtlinie (Art. 21 Abs. 2 lit. d) und das BSIG (§ 8a Abs. 1) verpflichten Betreiber kritischer Infrastrukturen, die Sicherheit ihrer Zulieferer und deren Produkte zu bewerten. Wenn ein KI-Anbieter unter politischem Druck seine Sicherheitsrichtlinien ändert und das Verhalten des eingesetzten Modells dadurch beeinflusst werden kann, ist das ein Lieferantenrisiko, das in die Bewertung einfließen muss. Die BSI-Grundschutz-Bausteine OPS.2.1 (Nutzung von Outsourcing) und OPS.1.1.3 (Änderungsmanagement) sind unmittelbar einschlägig.


Israel-Perspektive: Dual-Use als Markteintrittsfrage

Diese regulatorische Grauzone betrifft besonders Anbieter, deren Systeme von vornherein für beide Seiten entworfen sind – militärisch und zivil. Kein Land bringt mehr solcher Systeme hervor als Israel.

Israel verfügt über eines der dichtesten Ökosysteme für Verteidigungstechnologie und KI-gestützte Sicherheitssysteme weltweit. Unternehmen wie Rafael, Elbit Systems und eine wachsende Zahl spezialisierter Startups entwickeln KI-Systeme, die von vornherein auf doppelten Verwendungszweck angelegt sind: entworfen für militärische Entscheidungsunterstützung, einsetzbar für zivile Sicherheitsanwendungen.

Die Ausnahme nach Art. 2 Abs. 3 des AI Act greift nur bei ausschließlich militärischem Einsatz. Sobald ein System auch in zivilen oder gemischten Zusammenhängen zum Einsatz kommt – bei Doppelverwendung der Regelfall –, greifen die vollen Anforderungen: Hochrisikoklassifizierung nach Anhang III, Konformitätsbewertung, Transparenzpflichten.

Zugleich zeigt die Payne-Studie zusammen mit den Vorarbeiten, dass Eskalationsverzerrung kein herstellerspezifisches Problem ist, sondern ein wiederkehrendes Muster in gegenwärtigen Grundmodellen. Israelische Anbieter, die auf eigenen Modellen oder auf angepassten Fassungen der großen Grundmodelle aufbauen, müssen nachweisen können, dass ihre Systeme unter den Belastungsbedingungen, für die sie entworfen sind, beherrschbar bleiben.

Wer das kann – und wer die regulatorischen Anforderungen des AI Act, der NIS2 und des BSI-Grundschutz von Anfang an in die Produktarchitektur einbaut –, hat einen strukturellen Vorteil. Gegenüber Anbietern, die sich auf die militärische Ausnahme verlassen und die Einhaltung ziviler Vorschriften als Nachrüstung behandeln.

Offenlegung: CyberAtlas Israel berät israelische Technologieunternehmen bei der regulatorischen Markterschließung in Europa.


Folgen für die Praxis

Paynes Studie zeigt nicht, dass KI-Modelle grundsätzlich ungeeignet für Sicherheitsarchitekturen wären. Was sie zeigt – und was die Vorarbeiten bestätigen –, ist, dass die Optimierungslogiken dieser Modelle unter Druck Eskalationsdynamiken erzeugen und dass Sicherheitsmechanismen unter Belastung nicht stärker, sondern schwächer werden.

Daraus ergeben sich vier Handlungsanforderungen.

Erstens: Risikoanalysen um Verhaltensverzerrung unter Stress erweitern. Die Bewertung von KI-Modellen nach BSI-Standard 200-3 oder ISO 27005 muss das Verhalten unter Belastungsbedingungen einschließen. Ein Modell, das unter Zeitdruck qualitativ andere Entscheidungen trifft – wie GPT-5.2 in der Payne-Studie –, hat ein anderes Risikoprofil, als seine Spezifikation ausweist. Gezielte Stresstests, die Zeitdruck und Eskalationsdynamiken abbilden, gehören in den Prüfkatalog.

Zweitens: Die Modellwahl als Architekturentscheidung behandeln. Verschiedene Modelle entwickeln beständig unterschiedliche strategische Profile. Die Wahl des Modells ist damit keine austauschbare Beschaffungsentscheidung, sondern eine Entwurfsentscheidung mit unmittelbarer Auswirkung auf das Systemverhalten – zu dokumentieren, zu begründen und im Änderungsmanagement nachzuführen.

Drittens: Das Lieferantenrisiko dynamisieren. Die Eigenschaften eines KI-Modells ändern sich mit jedem Versionssprung, jedem Richtlinienwechsel, jeder Reaktion auf regulatorischen oder politischen Druck. Der Konflikt zwischen Pentagon und Anthropic zeigt, wie schnell sich der Regelrahmen eines Anbieters verschieben kann. Die Lieferantenbewertung nach ISO 27001 A.15 und OPS.2.1 muss diese Veränderungsdynamik abbilden – nicht als einmalige Sorgfaltsprüfung, sondern als laufende Überwachung.

Viertens: Deeskalation als Entwurfsprinzip verankern. Wenn die heutigen Trainingsverfahren eine strukturelle Neigung zur Eskalation erzeugen, muss die Architektur das ausgleichen. Menschliche Entscheidungspunkte gehören nicht als nachträgliche Sicherung ins System, sondern als tragende Komponente – besonders dort, wo das Modell unter Zeitdruck arbeitet. Der Mensch in der Entscheidungsschleife ist keine Pflichtübung für die Dokumentation. Er ist eine Architekturanforderung, die sich aus der wachsenden Befundlage ableiten lässt. Dass das nicht nur ein abstraktes Postulat ist, zeigen die Ergebnisse von Elbaum und Panter: Bereits gezielte Prompt-Gestaltung und Temperatursteuerung senkten die Eskalationsneigung in ihren Versuchen erheblich – ein Hinweis darauf, dass Deeskalation sich in die Systemkonfiguration einbauen lässt, wenn sie als Entwurfsziel ernst genommen wird.


Die Eskalationsleiter, die Paynes Modelle so bereitwillig hinaufkletterten, ist ein Stresstest, den niemand bestellt hat. Die Frage ist nicht, ob sich die Ergebnisse unmittelbar auf produktive Sicherheitsarchitekturen übertragen lassen – das lassen sie nicht. Die Frage ist, ob die Muster, die er sichtbar gemacht hat, in Entwurf und Steuerung der Systeme berücksichtigt werden, die auf denselben Grundlagen aufbauen.

Bisher lautet die Antwort in den meisten Fällen: nein.

Dieser Artikel ist Teil der laufenden Analyse zu KI in sicherheitsrelevanten Architekturen. Vorherige Beiträge: Decision-Grade KI im SOC · Agentische KI: Tool- und Connector-Sicherheit als neue systemische Angriffsfläche · KI-getriebene Cyberkonflikte

Anmelden zu unserem Newsletter:

Vom Wissen zum Austausch: Sicherheit weiterdenken.

Diese Beiträge folgen der Überzeugung, dass echte Sicherheit dort beginnt, wo die bloße Compliance endet. Sie sind als Denkangebote zu verstehen – geformt aus der Praxis, aber offen für den Diskurs.

Ich schätze den fundierten Widerspruch ebenso wie die Ergänzung aus dem operativen Alltag. Ob als Gründer, Betreiber oder strategischer Entscheider: Ihre Sichtweise ist der Schlüssel zur Weiterentwicklung dieser Ansätze.

Lassen Sie uns den Dialog dort führen, wo er am fruchtbarsten ist – öffentlich in den Kommentaren oder vertraulich im direkten Gespräch. Substanz braucht Raum.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Translate »