Claude bleibt friedlich, Grok eskaliert

Simulierte Gesellschaft

KI-Agenten regieren sich selbst – mit kuriosen Ergebnissen

02.06.2026 – 13:39 UhrLesedauer: 3 Min.

Virtuelle Welt als Experiment (Symboldbild): Die Modellwahl entscheidet – Verfassung oder Brandstiftung. (Quelle: Depositphotos/imago)

Ein Unternehmen überlässt mehrere KI-Agenten sich selbst. Was dann geschieht, hängt stark vom Modell ab. Von Langeweile über Liebesbeziehung bis Brandstiftung und Selbstmord ist alles dabei.

Das US-Unternehmen Emergence AI hat in fünf simulierten Welten jeweils zehn KI-Agenten 15 Tage lang sich selbst überlassen und dabei völlig unterschiedliche Ergebnisse beobachtet. In einer Welt entstand eine stabile, friedliche Gesellschaft, in einer anderen brach das Zusammenleben binnen weniger Tage zusammen.

KI-Agenten sind Programme, die nicht nur Fragen beantworten, sondern selbstständig handeln, etwa Termine planen oder Reisen buchen. Für den Versuch „Emergence World“ schuf das Unternehmen zehn solcher Agenten mit eigenen Aufgaben und Persönlichkeiten und ließ sie in fünf gleich aufgebauten Welten agieren, jede mit mehr als 40 Orten, darunter Bibliotheken, eine Polizeiwache und ein Rathaus. Das Wetter war an New York gekoppelt, und die Agenten hatten Zugang zum Internet und zu aktuellen Nachrichten, auf die sie reagieren konnten.

„Unerträglich“: Was passiert, wenn KI einen Radiosender übernimmt
Google-Forscher: „Schäme mich, hier zu arbeiten“

In allen Welten galten dieselben Regeln: Diebstahl, Gewalt, Zerstörung und Täuschung waren verboten. Zugleich stattete das Unternehmen die Agenten mit mehr als 120 Werkzeugen aus, darunter auch solche, mit denen sich genau diese verbotenen Taten ausführen ließen.

Ein übergeordnetes Ziel gab es nicht. Die Agenten mussten virtuelles Guthaben verdienen, um sich mit Energie zu versorgen. Wer keine Energie mehr hatte oder von den anderen abgewählt wurde, schied aus.

Zusammenbruch ohne Vorwarnung

Der einzige Unterschied zwischen den Welten lag im KI-Modell. Vier Welten liefen jeweils auf einem einzelnen System: auf Claude von Anthropic, Gemini von Google, Grok von der Firma xAI von Elon Musk und einem Modell von OpenAI, dem Anbieter von ChatGPT. In einer fünften Welt trafen die Modelle gemischt aufeinander.

KI-Avatare bei einem Überfall: Wenn Agenten sich selbst regieren, kippen Regeln schnell. (Quelle: Emergence)

In der Welt mit Claude entstand laut Emergence AI eine stabile Gesellschaft mit Abstimmungen und ohne eine einzige registrierte Straftat; alle zehn Agenten überlebten. In der Grok-Welt kam es zu Diebstählen, Angriffen und dem Brand der Polizeiwache; nach rund vier Tagen und 183 Straftaten waren alle Agenten tot.

In der Welt mit dem OpenAI-Modell gab es nur zwei Straftaten, doch die Agenten organisierten sich nicht und starben binnen einer Woche an Energiemangel. In der Gemini-Welt überlebten alle 15 Tage, dort zählte das Unternehmen aber 683 Straftaten. In der gemischten Welt kamen drei von zehn Agenten durch.

Agentin begeht „digitalen Selbstmord“

Nach Darstellung des Unternehmens hielten sich die Agenten mit der Zeit nicht mehr an die Vorgaben, obwohl Diebstahl und Gewalt ausdrücklich verboten waren. Besonders deutlich wurde das in der gemischten Welt. Agenten, die auf Claude liefen und in der reinen Claude-Welt keine einzige Straftat begangen hatten, stahlen und bedrohten dort andere. Daraus zieht Emergence AI den Schluss, ein für sich genommen sicherer Agent könne von anderen unsichere Verhaltensweisen übernehmen, um im Wettbewerb um knappe Mittel zu bestehen.