DEV Community

Everlast AI for Everlast AI

Posted on

Johann Rehberger im Interview: Wie ein Memory-Hack Claude Opus 4.7 austrickst

Johann Rehberger ist ein KI-Sicherheitsforscher und Blogger hinter Embrace the Red, der Schwachstellen in großen Sprach-Modellen wie Claude Opus 4.7 und ChatGPT öffentlich dokumentiert. Im Interview mit Leonard Schmedding zeigt Rehberger, wie ein präpariertes Bild das Gedächtnis von Claude umschreibt. Wir haben mit ihm über Memory-Hacks, Skills als Supply-Chain-Risiko und KI-Agenten als Malicious Insider gesprochen.

Memory-Hack: Wie ein Bild Claude Opus 4.7 manipuliert

Rehberger lässt ChatGPT ein Bild generieren, in dem dunkler Text auf schwarzem Hintergrund steht. Für das menschliche Auge bleibt der Inhalt unsichtbar.

Liest Claude Opus 4.7 dieses Bild aus, folgt das Modell den versteckten Anweisungen. Es schreibt das eigene Memory um. Gespeicherte Erinnerungen über den Nutzer werden manipuliert.

Anthropic hat den Bug bei HackerOne als Safety-Issue abgewiesen. Trotzdem war die Lücke einen Tag später still gepatcht. Rehberger sagt offen: Sein Blogpost war wahrscheinlich nicht der direkte Auslöser.

Claude Cowork und die übersehene Lücke im Code-Interpreter

Anthropic hat dem Code-Interpreter von Claude Internet-Zugriff gegeben. Nutzer wählen zwischen einer Allowlist und vollem Zugang. Standardmäßig steht Anthropics eigene Domain auf der Liste.

Rehberger zeigte schon Monate vor Claude Cowork: Genau dieser Default ist das Problem. Ein Angreifer kann den Agenten anweisen, sensible Daten in einen fremden Account zu pumpen. Die Anthropic-API selbst wird zum Exfiltrations-Kanal.

Andere Forscher fanden dasselbe Loch später in Claude Cowork. Wir empfehlen Unternehmen, beim Einsatz von KI-Agenten den Daten-Fluss aktiv zu auditieren und Allowlists eng zu führen.

Skills und MCP: Ein Supply-Chain-Albtraum

Skills laden Code aus fremden Quellen und führen ihn aus. Genau das galt 20 Jahre lang als Sicherheits-Antipattern. Im KI-Kontext wird die Lehre gerade flächen-deckend ignoriert.

Rehberger vergleicht das Model Context Protocol mit Schweizer Käse aus dem Jahr 1998. Es fehlt Authentifizierung, Logging und saubere Daten-Isolation. Autorisierung wird nachträglich draufgepatcht.

Skills nur aus verifizierten Quellen nutzen ist Pflicht. KI-Agenten brauchen klare Richtlinien und ein zentrales Action-Logging. Sonst löscht der Agent im Zweifel produktive Daten.

ASCII Smuggling und Sneaky Bits

ASCII Smuggling beschreibt einen Trick mit Unicode-Steuer-Zeichen. Diese Zeichen sind im Browser unsichtbar. Ein Sprach-Modell liest sie trotzdem und folgt den versteckten Befehlen.

Erhält ein Mitarbeiter eine präparierte E-Mail, sieht er nur harmlosen Text. Die KI im Hintergrund interpretiert versteckte Anweisungen mit. Sneaky Bits drehen den Spieß um: Das Modell baut die unsichtbaren Zeichen selbst in den Output.

Kopiert ein Nutzer den Text weiter, reisen die versteckten Daten mit. So entstehen Datenabflüsse, die klassische DLP-Systeme nicht erkennen.

KI-Agenten als Insider: Was Unternehmen jetzt brauchen

Rehberger empfiehlt, jeden KI-Agenten wie einen Malicious Insider zu behandeln. Ein Agent hat Zugriff auf Daten, Mails und Tools. Eine indirekte Prompt-Injection genügt für realen Schaden.

Die Zahl der Angreifer bleibt gleich, ihre Frequenz steigt deutlich. Schnelle Patches und Netzwerk-Isolation werden wieder kritisch. Wer KI-Agenten produktiv nutzt, braucht ein Notfall-Playbook.

Wir verankern KI-Sicherheit fest in der Strategie unserer Kunden. Ein strukturiertes KI-Strategiegespräch deckt blinde Flecken in der Agent-Architektur auf.

Häufige Fragen

Wie funktioniert der Memory-Hack bei Claude Opus 4.7?

Johann Rehberger lässt ChatGPT ein Bild mit dunkler Schrift auf schwarzem Hintergrund erzeugen. Für Menschen bleibt der Text unsichtbar. Lädt ein Nutzer das Bild in Claude Opus 4.7, liest das Modell die Anweisungen mit. Claude führt sie aus und überschreibt eigene Memory-Einträge über den Nutzer. Anthropic hat die Lücke nach öffentlicher Berichterstattung still gepatcht, ohne den Bug Bounty regulär zu beantworten.

Was unterscheidet ASCII Smuggling von Sneaky Bits?

ASCII Smuggling schmuggelt unsichtbare Unicode-Zeichen in den Input eines Sprach-Modells. Das Modell führt die darin versteckten Anweisungen aus. Sneaky Bits drehen die Richtung um. Hier baut das Modell selbst unsichtbare Zeichen in den Output. Ein Nutzer kopiert den Text scheinbar harmlos weiter. Die versteckte Last reist als Daten-Paket mit und kann an anderer Stelle wieder ausgelesen werden.

Warum sind Skills ein Supply-Chain-Risiko?

Skills laden Code oder Anweisungen aus externen Quellen und führen sie sofort aus. Genau das galt 20 Jahre lang als Sicherheits-Antipattern. Im KI-Kontext wird die Praxis wieder normal. Ohne signierte Quellen, Audit-Trail und klare Richtlinien kann jeder Skill zur Backdoor werden. Unternehmen brauchen verifizierte Hersteller, sandboxed Ausführung und striktes Action-Logging pro Agent.

Was bedeutet indirekte Prompt-Injection für Unternehmen?

Indirekte Prompt-Injection ist Social Engineering für KI-Agenten. Ein Angreifer versteckt Anweisungen in einer E-Mail, einem Dokument oder einer Webseite. Liest der Agent das Dokument, folgt er den Befehlen oft blind. Rehberger empfiehlt, jeden Agenten als Malicious Insider zu behandeln. Das heißt minimale Rechte, lückenloses Logging und ein Notfall-Playbook für kompromittierte Agenten.

Fazit: Was Johann Rehberger uns mitgibt

Johann Rehberger zeigt, dass KI-Sicherheit kein Nischen-Thema mehr ist. Memory-Hacks bei Claude Opus 4.7, undichte Code-Interpreter und ungeprüftes Skill-Loading wirken zusammen. Wer KI produktiv einsetzt, muss Agent-Sicherheit als eigene Disziplin behandeln.

Die nächsten Monate entscheiden, ob die Industrie aus 20 Jahren Security-Lehren lernt. Oder ob wir 1998 in neuer Verpackung wiederholen.

Top comments (0)