Google DeepMind entwickelt CaMeL: Neues Framework gegen KI-Prompt-Injection-Angriffe
Moritz AlbrechtGoogle DeepMind entwickelt CaMeL: Neues Framework gegen KI-Prompt-Injection-Angriffe
Google DeepMind stellt neues Sicherheitsframework CaMeL vor, um Prompt-Injection-Angriffe auf KI-Systeme zu bekämpfen
Das Framework zielt darauf ab, digitale Assistenten sicherer zu machen, indem KI-Komponenten als nicht vertrauenswürdige Elemente in einer kontrollierten Umgebung behandelt werden.
Prompt-Injection-Angriffe nutzen Schwachstellen in Sprachmodellen aus, um sie durch getarnte, scheinbar legitime Befehle zu manipulieren und schädliche Anweisungen auszuführen. Mit CaMeL will Google DeepMind dieser Bedrohung entgegenwirken.
Zwei getrennte Sprachmodelle für mehr Sicherheit CaMeL funktioniert, indem es Aufgaben auf zwei separate Sprachmodelle aufteilt: Ein "privilegiertes LLM" generiert auf Basis vordefinierter Werte Code, während ein "isoliertes LLM" unstrukturierte Nutzeranfragen in strukturierte Daten umwandelt – ohne Zugriff auf Tools oder Speicher. Diese Trennung verhindert, dass bösartige Texte kritische Systementscheidungen beeinflussen.
Das Framework übersetzt Nutzerinputs in eine Abfolge von Schritten, die in einem sicheren Interpreter ausgeführt werden. Dabei wird der Datenfluss streng überwacht, um zu verhindern, dass unzuverlässige Informationen sicherheitsrelevante Aktionen erreichen. Tests mit dem AgentDojo-Benchmark zeigten, dass CaMeL Prompt-Injection-Angriffe abwehrt, die zuvor als unlösbar galten – und das bei hoher Funktionalität.
Fortschritt, aber keine absolute Sicherheit Trotz seiner Stärken beseitigt CaMeL das Risiko von Prompt-Injection-Angriffen nicht vollständig. Nutzer müssen weiterhin eigene Sicherheitsrichtlinien definieren und pflegen, um die Wirksamkeit des Systems zu gewährleisten. Die Architektur hilft zudem, Insider-Bedrohungen einzudämmen, indem sie verhindert, dass private Daten an unbefugte Empfänger gelangen.
Ein wichtiger Schritt für sichere KI-Assistenten CaMeL markiert einen bedeutenden Fortschritt hin zu sicheren, universell einsetzbaren digitalen Assistenten. Durch das Dual-LLM-Design und die kontrollierte Ausführungsumgebung werden Schwachstellen in KI-Systemen reduziert. Dennoch bleibt die kontinuierliche Anpassung der Sicherheitsrichtlinien entscheidend, um langfristig gegen sich weiterentwickelnde Bedrohungen gewappnet zu sein.






