Generative Systeme wie ChatGPT haben längst Einzug in Schule, Studium und Arbeitswelt gehalten.
Neben den vielen sinnvollen Einsatzmöglichkeiten besteht jedoch die Gefahr des Missbrauchs – etwa zur Erstellung gefährlicher oder illegaler Inhalte. Bisher setzen Hersteller auf nachträgliche Filtermechanismen, die verhindern sollen, dass KI auf Anfragen zu Selbstverletzung, Waffen oder anderen verbotenen Themen reagiert. Doch diese Schutzmaßnahmen sind nicht lückenlos.
Forschungsansatz aus Oxford und Partnerinstitutionen
Ein Team von Wissenschaftlerinnen und Wissenschaftlern der University of Oxford, von EleutherAI und dem UK AI Security Institute hat nun eine andere Strategie untersucht. Statt problematische Inhalte nach dem Training herauszufiltern, konzentrierten sie sich auf die Grundlage der KI: die Daten, mit denen sie trainiert wird (via Pressetext).
Die Idee: Wird das Modell von Beginn an mit sorgfältig kuratierten Datensätzen trainiert, die keine missbräuchlich nutzbaren Informationen enthalten, sinkt das Risiko erheblich, dass es später für gefährliche Zwecke eingesetzt werden kann.
Die Ergebnisse ihrer Studie wurden im frei zugänglichen Facharchiv arXiv veröffentlicht.
Der Oxford-Forscher Yarin Gal, Mitautor der Arbeit, betont, dass trotz großer Fortschritte die Absicherung offener Sprachmodelle eine zentrale Herausforderung bleibe. Denn sobald solche Modelle öffentlich verfügbar sind, können sie leicht verändert oder in unsicheren Varianten weitergegeben werden. Herkömmliche Filter lassen sich zudem oft umgehen.
Fokus auf biologische Gefahren
Für ihre Untersuchung wählten die Forschenden zunächst ein besonders sensibles Feld: biologische Bedrohungen. Dazu zählen Themen wie Virologie, Biowaffen oder gentechnische Methoden, die theoretisch missbraucht werden könnten.
Das KI-Modell wurde so trainiert, dass es auch nach Konfrontation mit rund 25.000 Artikeln aus diesem Themenbereich keine sicherheitskritischen Antworten mehr lieferte. Laut Studie war dieses Vorgehen mehr als zehnmal effektiver als bisherige Schutzmethoden.
Ein zentrales Ergebnis: Das gefilterte Modell blieb auch unter massiven Manipulationsversuchen stabil. Selbst nach 10.000 Angriffsschritten mit über 300 Millionen zusätzlichen Trainings-Tokens zeigte es keine gravierenden Sicherheitslücken. Damit hebt sich dieser Ansatz deutlich von bisherigen Strategien ab, die auf Feinabstimmung oder Zugriffsbeschränkungen setzen.
Die Arbeit von Oxford, EleutherAI und dem UK AI Security Institute deutet auf eine mögliche Wende in der KI-Sicherheit hin: weg von nachträglichen Filtern, hin zu einer gezielten Gestaltung der Trainingsdaten. Langfristig könnte dieser Ansatz einen entscheidenden Beitrag leisten, offene Sprach- und Bildmodelle gegen Missbrauch abzusichern.