„LLM-Salting“

Die Gefahr lauert in der KI: Verbreitung kompromittierter Sprachmodelle

Large Language Models, LLMs, KI-Sprachmodelle, KI

Unternehmen setzen zunehmend große Sprachmodelle (LLMs) wie OpenAI GPT, Anthropic Claude oder Meta LLaMA ein, um Chatbots, Produktivitäts-Tools oder andere Anwendungen zu betreiben.

Diese Modelle werden meist nur geringfügig angepasst, wodurch sich eine Homogenität über viele Anwendungen hinweg ergibt. Genau diese Standardisierung eröffnet potenziellen Angreifern neue Angriffspunkte: Ein einmal entwickelter Exploit, sogenannte Jailbreak-Prompts, kann in vielen Bereitstellungen wiederverwendet werden.

Anzeige

Jailbreaks zwingen KI-Modelle dazu, Einschränkungen zu umgehen und Antworten zu liefern, die normalerweise blockiert würden. Das Risiko reicht von der Offenlegung sensibler Daten bis hin zu schädlichen oder falschen Inhalten. Ähnlich problematisch wie kompromittierte Software-Updates kann diese wiederholte Verwundbarkeit zu massiven Sicherheitslücken führen.

LLM-Salting: Eine neue Schutzmethode

SophosAI hat eine Technologie entwickelt, die diesen Jailbreak-Angriffen entgegenwirkt: LLM-Salting. Das Prinzip lehnt sich an das bekannte Passwort-Salting an, bei dem kleine Variationen eingeführt werden, um die Wiederverwendung vorab berechneter Eingaben zu verhindern. Bei LLM-Salting werden gezielt Variationen im Modellverhalten erzeugt, um Exploits unbrauchbar zu machen.

Im Detail rotieren die SophosAI-Experten bestimmte Bereiche der Modellaktivierung, die für das Verweigerungsverhalten verantwortlich sind. Dadurch funktionieren Jailbreak-Prompts, die für unveränderte Modelle entwickelt wurden, bei „gesalzten“ Modellen nicht mehr. Gleichzeitig bleibt die KI in der Lage, reguläre Anfragen korrekt zu beantworten.

Anzeige

Überzeugende Ergebnisse in Tests

Die Schutzwirkung von LLM-Salting wurde in umfangreichen Tests überprüft. 300 GCG-Jailbreak-Prompts wurden auf zwei Open-Source-Modellen getestet. Ohne Schutz erzielten die Angriffe eine Erfolgsrate von 100 Prozent. Mit der LLM-Salting-Methode sank diese Erfolgsrate auf lediglich 2,75 Prozent beziehungsweise 1,35 Prozent, je nach Modell.

Damit zeigt sich, dass gezieltes Salting die Wirksamkeit von vorab erstellten Jailbreaks drastisch reduziert, ohne die Leistungsfähigkeit der KI bei harmlosen Eingaben einzuschränken. SophosAI plant, diese Technik künftig auf weitere, größere Modelle auszudehnen, um die Resilienz gegenüber noch komplexeren Jailbreaks zu evaluieren.

Mit der zunehmenden Verbreitung von LLMs in Unternehmen wird der Schutz vor gezielten Manipulationen immer wichtiger. Technologien wie LLM-Salting zeigen, dass Sicherheitsmechanismen frühzeitig im KI-Betrieb implementiert werden müssen, um großflächige Risiken zu vermeiden. Der Trend geht zu präventiven Schutzmaßnahmen, die KI-Modelle widerstandsfähiger gegen Missbrauch machen, ohne ihre Leistungsfähigkeit einzuschränken.

Pauline

Dornig

Online-Redakteurin

IT Verlag GmbH

Pauline Dornig joined the IT Verlag team as an online editor in May 2020. (pd)
Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.