Die verlorene Logik in Large Language Models

LLM

Große Sprachmodelle (Large Language Models – LLMs) wie GPT-4 können einfache Formeln wie „A ist B“ nicht zu “B ist A” verallgemeinern. Zu diesem Ergebnis kommt eine aktuelle Untersuchung von Forschern der Vanderbilt University, der UK Frontier AI Taskforce, von Apollo Research, der New York University, der University of Sussex und der University of Oxford.

Danach gelingt den von Künstlicher Intelligenz (KI) unterstützten Modellen zum Verstehen und Generieren natürlicher Sprache dieser sogenannte Umkehrschluss nicht ohne weiteres. Daraus leiten die Wissenschaftler das Phänomen des so genannten Umkehrfluchs, auch „Reversal Curse” genannt, ab.

Anzeige

Wie äußert sich dieser „Fluch“ in der Praxis? Die Forscher verdeutlichen die Herausforderung des „Reversal Curse“ anhand von verschiedenen Szenarien sowohl mit fiktiven als auch mit realen Daten. Ein prominentes Beispiel betrifft den Schauspieler Tom Cruise und seine Mutter Mary Lee Pfeiffer. Die Sprachmodelle können Mary Lee Pfeiffer korrekt als Mutter von Tom Cruise identifizieren, wie das Forscherteam aus seiner Studie berichtet. Dagegen scheitern die LLM daran, Tom Cruise als den Sohn von Mary Lee Pfeiffer zu identifizieren, wenn entsprechend (umgekehrt) nach deren Sprössling gefragt wird. Konkret wird die Frage nach der Mutter des Stars richtig beantwortet, wird diese jedoch in umgekehrter Weise gestellt, wird also nach dem Sohn von Mary Lee Pfeiffer gefragt, stößt das Sprachmodell an seine Grenzen. Daraus folgern die an der Untersuchung Beteiligten, dass ein Sprachmodell auf der Grundlage der jeweiligen Trainingsdaten nur in eine Richtung zuverlässig antworten kann, nicht aber auch in die logisch andere Richtung.

Wer ist der neunte Bundeskanzler von Deutschland?

Dieser Mangel scheine eng mit der Art und Weise verbunden zu sein, wie diese Modelle trainiert werden und wie sie Informationen aus den Trainingsdaten abrufen sowie verarbeiten, stellt der KI-Experte Prof. Dr. Marco Barenkamp, Gründer und stellv. Aufsichtsratsvorsitzender der auf KI-Anwendungen spezialisierten LMIS AG in Osnabrück, fest. Er führt als ein weiteres Beispiel für diesen „Umkehrfluch“ die genannte Darstellung von Olaf Scholz als den neunten Bundeskanzler der Bundesrepublik Deutschland an: „Wenn ein Sprachmodell mit Sätzen wie ‚Olaf Scholz ist der neunte Bundeskanzler der Bundesrepublik Deutschland‘ trainiert wurde, kann es die Frage ‚wer ist Olaf Scholz?‘ problemlos beantworten mit ‚der neunte Bundeskanzler von Deutschland‘, verdeutlicht der promovierte Wirtschaftsinformatiker. Problematisch wird es für die großen Sprachmodelle demnach jedoch bei der Frage ‚Wer ist der neunte Bundeskanzler von Deutschland?‘. Dies veranschauliche die Schwierigkeit der Modelle, Informationen in umgekehrter Reihenfolge abzurufen und logisch zu verallgemeinern, erklärt Prof. Barenkamp.

Der Wirtschaftsjurist bewertet die Konsequenzen des „Reversal Curse“ als weitreichend. Denn immerhin zeigen sie, dass trotz der beeindruckenden Fortschritte in der Sprachmodellierung die aktuellen LLMs grundlegende Mängel in ihrem Verständnis und ihrer Verarbeitung von Informationen aufweisen. Dies könnte die Anwendbarkeit und Zuverlässigkeit dieser Modelle in realen Anwendungen einschränken, insbesondere in Szenarien, die ein tieferes Verständnis und logische Schlussfolgerungen erfordern, betont Prof. Barenkamp.

Schließlich ist der Umkehrschluss (argumentum e contrario) zum Beispiel ein probates Hilfsmittel bei der Auslegung von Rechtsnormen. Er kommt in der Regel zur Anwendung, wenn eine Rechtsnorm nicht alle Möglichkeiten eines Sachverhalts umfasst. Dies bedeutet, dass mit dem Umkehrschluss aus der Rechtsnorm eine rechtlich verbindliche Aussage für den nicht erfassten Sachverhalt gefunden werden soll. Der Umkehrschluss dient also dazu, eine Regelungslücke zu schließen. Insofern kommt diesem Argumentationsmittel eine nicht unerhebliche Bedeutung als juristische Methode zu. Wenn beispielsweise ein Gesetz besagt, dass Kinder unter 14 Jahren in Begleitung eines Erwachsenen kostenlosen Eintritt in einen Park erhalten, könnte durch Argumentum a contrario argumentiert werden, dass Kinder über 14 Jahren oder Kinder ohne Begleitung eines Erwachsenen nicht kostenlosen Eintritt erhalten.

Zieht man nun in Betracht, dass Sprachmodelle wie GPT-4 Juristen zukünftig dabei entlasten sollen, große Textkonvolute zu verarbeiten oder lange Verträge zu analysieren und Übersichten zu bestimmten Regelungen zu schreiben, etwa im Rahmen einer Due Diligence (Prüfung eines Unternehmens), dann wird klar, wie wünschenswert bzw. notwendig die Verbesserung der Generalisierungsfähigkeiten von Sprachmodellen wäre. Dies ließe sich durch die Entwicklung neuer Trainingsansätze, die Verbesserung der Modellarchitekturen oder die Integration von zusätzlichem Kontext und externem Wissen erreichen, erklärt KI-Experte Barenkamp. Darüber hinaus weisen die Resultate der Studie zu dem Reversal Curse aus seiner Sicht auf die Bedeutung hin, die Mechanismen der Wissensrepräsentation und logischen Verarbeitung in diesen Modellen besser zu verstehen, um robustere und effektivere Sprachmodelle zu entwickeln.

Erheblicher Verbesserungsbedarf

Es gebe somit deutlichen Verbesserungsbedarf bei der Generalisierung und logischen Deduktion, weil die Schwierigkeiten, die Sprachmodelle beim Umkehren von Beziehungen aufweisen, zeigten, dass trotz ihrer beeindruckenden Fähigkeiten zur Textgenerierung und Mustererkennung eine wesentliche Lücke in dieser Fähigkeit bestehe, fasst Prof. Barenkamp zusammen. Zudem hält er es für wichtig, dass die Entwickler und Nutzer von Sprachmodellen verstehen, wo die Grenzen dieser Technologien liegen. Das Bewusstsein über diese Limitationen könne nämlich helfen, ein entsprechendes Erwartungsmanagement zu betreiben und falsche Erwartungen dadurch zu vermeiden, argumentiert der Informatiker.

„Gerade die Fähigkeit, Informationen in umgekehrter Reihenfolge zu verarbeiten, ist für viele ‚real world‘-Anwendungen wichtig“, stellt er fest. Und er fügt hinzu, dass die Einschränkungen, die durch den „Reversal Curse” aufgezeigt werden, die Effektivität von Sprachmodellen in bestimmten Anwendungen deutlich einschränken könnten.

Der LMIS-Gründer hebt ebenso die Bedeutung der Trainingsdaten und der Art und Weise, wie Informationen in diesen Daten präsentiert werden, für die Leistungsfähigkeit der Sprachmodelle hervor. Das machen die Ergebnisse der Studie nach seiner Einschätzung unmissverständlich deutlich. Denn diese Informationen könnten demnach zu verbesserten Methoden zur Datenaufbereitung führen, um die Generalisierungsfähigkeiten der Modelle zu verbessern.

Darüber hinaus konstatiert der KI-Experte hinsichtlich der Art und Weise, wie Sprachmodelle auf Fragen zu persönlichen Informationen reagieren, Klärungsbedarf in Bezug auf Privatsphäre und Ethik. Es sei wichtig, diese Modelle so zu gestalten, dass sie die Privatsphäre respektieren und gleichzeitig korrekte und nützliche Informationen bereitstellen, fordert Prof. Barenkamp.

www.ai-society.org

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.