Unternehmen setzen zunehmend große Sprachmodelle (LLMs) wie OpenAI GPT, Anthropic Claude oder Meta LLaMA ein, um Chatbots, Produktivitäts-Tools oder andere Anwendungen zu betreiben.
Diese Modelle werden meist nur geringfügig angepasst, wodurch sich eine Homogenität über viele Anwendungen hinweg ergibt. Genau diese Standardisierung eröffnet potenziellen Angreifern neue Angriffspunkte: Ein einmal entwickelter Exploit, sogenannte Jailbreak-Prompts, kann in vielen Bereitstellungen wiederverwendet werden.
Jailbreaks zwingen KI-Modelle dazu, Einschränkungen zu umgehen und Antworten zu liefern, die normalerweise blockiert würden. Das Risiko reicht von der Offenlegung sensibler Daten bis hin zu schädlichen oder falschen Inhalten. Ähnlich problematisch wie kompromittierte Software-Updates kann diese wiederholte Verwundbarkeit zu massiven Sicherheitslücken führen.
LLM-Salting: Eine neue Schutzmethode
SophosAI hat eine Technologie entwickelt, die diesen Jailbreak-Angriffen entgegenwirkt: LLM-Salting. Das Prinzip lehnt sich an das bekannte Passwort-Salting an, bei dem kleine Variationen eingeführt werden, um die Wiederverwendung vorab berechneter Eingaben zu verhindern. Bei LLM-Salting werden gezielt Variationen im Modellverhalten erzeugt, um Exploits unbrauchbar zu machen.
Im Detail rotieren die SophosAI-Experten bestimmte Bereiche der Modellaktivierung, die für das Verweigerungsverhalten verantwortlich sind. Dadurch funktionieren Jailbreak-Prompts, die für unveränderte Modelle entwickelt wurden, bei „gesalzten“ Modellen nicht mehr. Gleichzeitig bleibt die KI in der Lage, reguläre Anfragen korrekt zu beantworten.
Überzeugende Ergebnisse in Tests
Die Schutzwirkung von LLM-Salting wurde in umfangreichen Tests überprüft. 300 GCG-Jailbreak-Prompts wurden auf zwei Open-Source-Modellen getestet. Ohne Schutz erzielten die Angriffe eine Erfolgsrate von 100 Prozent. Mit der LLM-Salting-Methode sank diese Erfolgsrate auf lediglich 2,75 Prozent beziehungsweise 1,35 Prozent, je nach Modell.
Damit zeigt sich, dass gezieltes Salting die Wirksamkeit von vorab erstellten Jailbreaks drastisch reduziert, ohne die Leistungsfähigkeit der KI bei harmlosen Eingaben einzuschränken. SophosAI plant, diese Technik künftig auf weitere, größere Modelle auszudehnen, um die Resilienz gegenüber noch komplexeren Jailbreaks zu evaluieren.
Mit der zunehmenden Verbreitung von LLMs in Unternehmen wird der Schutz vor gezielten Manipulationen immer wichtiger. Technologien wie LLM-Salting zeigen, dass Sicherheitsmechanismen frühzeitig im KI-Betrieb implementiert werden müssen, um großflächige Risiken zu vermeiden. Der Trend geht zu präventiven Schutzmaßnahmen, die KI-Modelle widerstandsfähiger gegen Missbrauch machen, ohne ihre Leistungsfähigkeit einzuschränken.