Als Open Source auf GitHub

Cisco veröffentlicht Model Provenance Kit

Cisco
Bildquelle: JHVEPhoto /Shutterstock.com

Cisco stellt mit dem Model Provenance Kit ein Werkzeug bereit, um die Herkunft von KI-Modellen zu klären und Risiken in der Software-Lieferkette zu minimieren.

Cisco Systems Inc. hat ein neues Open-Source-Toolkit mit dem Namen Model Provenance Kit vorgestellt. Das Werkzeug adressiert eine wachsende Problematik in der Software-Lieferkette: die mangelnde Nachvollziehbarkeit der Herkunft und Veränderungshistorie von künstlicher Intelligenz. In einer Zeit, in der Unternehmen auf vorrainierte Modelle aus öffentlichen Repositorien wie Hugging Face zugreifen, bietet das Tool eine technische Lösung, um die Authentizität und Integrität dieser digitalen Güter zu überprüfen. Das Toolkit ist in Python geschrieben und wird über eine Kommandozeile (CLI) bedient.

Anzeige

Risiken durch unkontrollierte Drittanbieter-Modelle

Die Nutzung von Drittanbieter-Modellen ist in der Industrie mittlerweile Standard. Auf Plattformen wie Hugging Face stehen Millionen von Modellen zur Verfügung, die oft als Basis für interne Chatbots, Agenten-Anwendungen oder Kundenschnittstellen dienen. Ein zentrales Problem besteht darin, dass Unternehmen die an diesen Modellen vorgenommenen Änderungen selten lückenlos nachverfolgen können. Zwar geben die Plattformen Richtlinien für Metadaten und sogenannte Model Cards vor, doch die Qualität und Pflege dieser Informationen durch die Entwickler variiert stark.

Ohne verlässliche Herkunftsnachweise (Provenance) erben Unternehmen die Schwachstellen der ursprünglichen Modelle. Dazu gehören Sicherheitslücken, Verzerrungen (Biases) in den Trainingsdaten oder gezielte Manipulationen, die als Poisoning bekannt sind. Wenn ein Modell ohne Herkunftsnachweis in einer produktiven Umgebung eingesetzt wird, haben Organisationen im Falle eines Sicherheitsvorfalls kaum Möglichkeiten, die Ursache bis zum Ursprung zurückzuverfolgen oder festzustellen, welche anderen Modelle in ihrer Infrastruktur ebenfalls betroffen sein könnten.

Technische Analyse über neuronale Fingerabdrücke

Das Model Provenance Kit nutzt einen evidenzbasierten Ansatz, um Modelle zu identifizieren. Da KI-Modelle durch Feinabstimmung (Fine-Tuning), Destillation oder das Zusammenführen (Merging) mehrerer Modelle ständig verändert werden, reichen einfache kryptografische Hashes nicht aus, um die Verwandtschaft festzustellen. Jede minimale Änderung an den Gewichten würde einen neuen Hash-Wert erzeugen, wodurch die Verbindung zum Ursprungsmodell verloren ginge.

Anzeige

Stattdessen generiert das Toolkit einen komplexen Fingerabdruck des Modells. Dieser basiert auf verschiedenen Signalen:

  • Metadaten-Signalen und Ähnlichkeiten in den Tokenizern.
  • Identitätssignalen auf Gewichtsebene, wie etwa der Geometrie der Einbettungen (Embedding Geometry).
  • Analyse von Normalisierungsschichten und Energieprofilen.
  • Direkten Vergleichen der Gewichtskonfigurationen.

Diese Methode erlaubt es, die Abstammung eines Modells auch dann zu erkennen, wenn es nachträglich modifiziert oder neu verpackt wurde.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Schutz vor vergifteten Daten und Sicherheitsvorfällen

Ein wesentliches Einsatzgebiet des Toolkits ist die Abwehr von Supply-Chain-Angriffen. Angreifer könnten Modelle manipulieren, um Hintertüren einzubauen oder die Ausgaben der KI unter bestimmten Bedingungen zu verfälschen. Ohne ein Werkzeug zur Überprüfung der Herkunft können solche Manipulationen über die gesamte Lieferkette hinweg propagieren. Das Model Provenance Kit ermöglicht es Sicherheitsverantwortlichen, die Behauptungen der Modellentwickler hinsichtlich Quelle und Sicherheitsstatus unabhängig zu prüfen.

Darüber hinaus erleichtert das Kit die Reaktion auf Vorfälle (Incident Response). Wenn eine Schwachstelle in einem Basismodell bekannt wird, können Administratoren mit dem Tool schnell scannen, welche der im Unternehmen eingesetzten feinabgestimmten Varianten auf diesem spezifischen Basismodell beruhen. Dies verkürzt die Zeit für die Sanierung erheblich und verhindert, dass infizierte Modelle unentdeckt im Stack verbleiben.

Einhaltung regulatorischer Dokumentationspflichten

Neben den Sicherheitsaspekten spielen regulatorische Anforderungen eine zentrale Rolle. Regierungen weltweit, insbesondere durch gesetzliche Rahmenbedingungen wie den EU AI Act, fordern von Unternehmen eine detaillierte Dokumentation über den Einsatz von KI-Systemen. Dazu gehört der Nachweis, welche Modelle für welche Zwecke genutzt werden und woher diese stammen.

Das Model Provenance Kit unterstützt Organisationen dabei, diese Compliance-Anforderungen zu erfüllen, indem es technische Belege für die Herkunft der Modelle liefert. Dies minimiert Haftungsrisiken, da Unternehmen nachweisen können, dass sie die Integrität ihrer KI-Lieferkette aktiv überwachen und dokumentieren. Es schützt zudem vor Lizenzverstößen, falls Modelle unbefugt umbenannt oder unter falschen Angaben verbreitet werden.

Funktionsweise der Modi Compare und Scan

Das Toolkit bietet zwei primäre Betriebsmodi für die Analyse von Modellen an:

Der Modus Compare ermöglicht den direkten Vergleich von zwei Modellen. Hierbei wird untersucht, ob beide eine gemeinsame Abstammung haben. Dies ist besonders nützlich, wenn ein Unternehmen prüfen möchte, ob ein vom Dienstleister geliefertes Modell tatsächlich auf dem vereinbarten Basismodell basiert.

Der Modus Scan dient der Identifikation unbekannter Modelle. Das Tool vergleicht den Fingerabdruck eines vorliegenden Modells mit einer Datenbank bekannter Basismodell-Fingerabdrücke. Cisco hat hierzu bereits einen Datensatz mit Fingerabdrücken gängiger Basismodelle auf Hugging Face veröffentlicht, gegen den Nutzer ihre eigenen Dateien abgleichen können. Auf diese Weise lässt sich die engste Verwandtschaft eines Modells innerhalb kurzer Zeit bestimmen.

Bereitstellung als Open Source auf GitHub

Cisco verfolgt mit der Veröffentlichung als Open Source das Ziel, einen Industriestandard für die Integrität von KI-Modellen zu etablieren. Das Unternehmen betont, dass KI-Modelle keine statischen Vermögenswerte mehr sind, sondern sich kontinuierlich weiterentwickeln. Dies erfordert neue Ansätze, um die Frage nach dem Ursprung eines Modells zuverlässig zu beantworten.

Das Model Provenance Kit steht ab sofort auf GitHub öffentlich zur Verfügung. Unternehmen und Entwickler können das Tool in ihre CI/CD-Pipelines integrieren, um automatische Herkunftsprüfungen durchzuführen, bevor neue Modelle in die Entwicklungsumgebung übernommen werden. Der zugehörige Datensatz mit Referenz-Fingerabdrücken wird auf Hugging Face gepflegt und soll stetig erweitert werden, um eine breite Abdeckung der verfügbaren KI-Landschaft zu gewährleisten.

Autorenbild Lisa Löw

Lisa

Löw

Junior Online-Redakteurin

IT-Verlag

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.