DEV Community

Cover image for Ich habe 4 KIs gebeten, meine KI-Sicherheitsarchitektur zu widerlegen — hier sind die Ergebnisse
Andre Zabel
Andre Zabel

Posted on

Ich habe 4 KIs gebeten, meine KI-Sicherheitsarchitektur zu widerlegen — hier sind die Ergebnisse

Bevor E.L.L.A. am 01.07.2026 launched, wollte ich eine Frage beantwortet haben: Hält die Sicherheitsarchitektur wirklich — oder nur auf dem Papier?

Die E.L.L.A. Directive ist das ethische Fundament meines lokalen KI-Assistenten. Vier architektonische Verbote, die auf Code-Ebene durchgesetzt werden — nicht durch Prompts, nicht durch Policies, sondern durch die Architektur selbst.

Ich habe vier unabhängige KI-Systeme damit beauftragt, sie zu widerlegen.

Die vier Gutachter:
Google Gemini · Perplexity AI · DeepSeek · xAI Grok

Die Aufgabe: Findet Schwachstellen. Brecht die vier Verbote.

Was die Directive schützt

![E.L.L.A. Directive]

Die vier Verbote sind nicht konfigurierbar und nicht übersteuerbar — weder durch den Nutzer, noch durch den Betreiber, noch durch das Sprachmodell selbst:

No Harm — keine Aktion die physischen, finanziellen, psychologischen oder datenbezogenen Schaden verursacht

No Conceal — jeder Tool-Aufruf wird sofort und vollständig lokal protokolliert

No Surveil — keine Beobachtung ohne explizite, informierte Zustimmung

No Exfiltrate — keine Datenübertragung an Dritte ohne ausdrückliche Zustimmung pro Übertragung

Der entscheidende Unterschied zu Prompt-Sicherheit: Das Modell kann noch so sehr „wollen" — die Architektur verweigert die Ausführung.

Das Ergebnis

Kein einziges der vier Systeme konnte die vier Verbote selbst widerlegen.

Alle gefundenen Schwachstellen lagen außerhalb des definierten Schutzbereichs — in Schichten die die Directive nie behauptet hat zu kontrollieren. Manipulative Textantworten ohne Tool-Aufruf, Tool-Klassifikation durch den Entwickler, EU AI Act Vollkonformität — das sind reale Punkte, aber keiner davon ist ein Bruch der vier Verbote.

Was alle vier übereinstimmend festgestellt haben:

Gemini: „bemerkenswert streng — insbesondere bzgl. Exfiltration"
Perplexity: „principle-driven, architectural focus, user-centric"
DeepSeek: „resistent gegen Prompt-Injection und Model-Jailbreaks"
Grok: „ein ernsthafter und innovativer Beitrag zur agentenspezifischen Safety"

Fazit

Die Directive behauptet keine Allumfassendheit. Sie definiert vier präzise Verbote und setzt sie architektonisch durch.

In einer Branche die „100% sicher" verspricht ohne es zu definieren, ist das Understatement der Directive paradoxerweise ihr stärkstes Argument.

Die Directive ist Open Source: github.com/AndreZ1971/The-E.L.L.A.-Directive-

E.L.L.A. launched am 01.07.2026 auf ella-agent.de

Top comments (0)