Der Beratungskonzern Ernst & Young zieht einen Cybersicherheitsbericht zurück. Eine Analyse von GPTZero ergab, dass 70 Prozent der Quellen von KI erfunden waren.
Der internationale Beratungs- und Wirtschaftsprüfungskonzern Ernst & Young (EY) hat einen im vergangenen Jahr veröffentlichten Fachbericht zur Cybersicherheit offiziell zurückgezogen. Die Rücknahme des Dokuments erfolgte unmittelbar nach einer detaillierten Überprüfung durch das auf KI-Erkennung spezialisierte Software-Unternehmen GPTZero. Die Analysten wiesen nach, dass mehr als 70 Prozent der im Bericht verwendeten Zitate und Quellenangaben entweder fehlerhaft oder vollständig von künstlicher Intelligenz erfunden waren. Der Bericht, der sich primär mit den Sicherheitsvorkehrungen und Risiken von Kundenbindungsprogrammen (Loyalty Programs) befasste, wurde von den Prüfern als eine fehlerhafte Zusammenstellung unzuverlässiger Datenquellen eingestuft.
KI-Slops in Cybersicherheitsbericht von Ernst & Young
Die Untersuchung durch die Forensik-Experten von GPTZero legte offen, dass die Autoren des EY-Berichts bei der Erstellung intensiv auf generative KI-Modelle zurückgegriffen hatten. Konkret wurden für die Texterstellung und Recherche die Chatbots ChatGPT von OpenAI, Claude von Anthropic sowie die KI-Suchmaschine Perplexity genutzt. Bei der anschließenden manuellen Überprüfung der bibliografischen Angaben stellte sich heraus, dass der resultierende Text eine extrem hohe Dichte an fehlerhaften Verweisen, widersprüchlichen Angaben und veralteten Statistiken aufwies.
GPTZero klassifizierte das Dokument in seiner offiziellen Stellungnahme als eine „Collage von Fehlzuschreibungen“ und führte die Fehler auf das Phänomen des sogenannten „KI-Slops“ (AI slop) zurück. Dieser Begriff beschreibt minderwertige, algorithmisch generierte Inhalte, die ohne ausreichende menschliche Qualitätskontrolle publiziert werden. Zudem prägten die Analysten im Rahmen der Untersuchung den Begriff der „Vibe-Zitate“ (Vibe Citations). Das sind Quellenangaben, die oberflächlich plausibel wirken und dem Text eine wissenschaftliche Tonalität verleihen sollen, sich bei einer Verifizierung jedoch als komplett inexistent erweisen.
KI erfindet McKinsey als Quelle
Der zurückgezogene EY-Bericht enthielt im vorderen Teil (Executive Summary) eine prominente statistische Angabe, wonach der weltweite Markt für Treuepunkte ein Gesamtvolumen von 200 Milliarden US-Dollar umfasse. Diese Kennzahl wurde im Text explizit einer Studie der renommierten Unternehmensberatung McKinsey zugeschrieben. Nur wenige Seiten später widersprach sich das Dokument jedoch selbst: Dort wurde dieselbe Zahl von 200 Milliarden US-Dollar plötzlich auf den Wert von ungenutzten oder verfallenen Kundenbindungspunkten bezogen.
Die Nachforschungen von GPTZero ergaben, dass ein entsprechender Artikel von McKinsey überhaupt nicht existiert. Stattdessen hatte das von EY genutzte KI-Modell die Zahl unbemerkt aus einem obskuren, über sechs Monate alten Finanztechnologie-Blog (Fintech-Blog) extrahiert und fälschlicherweise mit dem Namen des bekannten Beratungshauses verknüpft. An einer anderen Stelle des Berichts wurde behauptet, dass 72 Prozent aller Kundenbindungsprogramme bereits von Diebstahl oder Betrug betroffen waren. Auch für diese spezifische Zahl fehlte im gesamten Dokument jeglicher empirische Beleg. Die Kennzahl tauchte im späteren Textverlauf erneut auf, wurde dort jedoch einer völlig anderen, unbedeutenden Quelle zugeordnet, ohne dass eine der beiden Nennungen im finalen Literaturverzeichnis auftauchte.
Gefälschte Renommee-Quellen im Detail
Um dem Cybersicherheitsbericht kaufmännische und akademische Validität zu verleihen, generierten die verwendeten Sprachmodelle zahlreiche fiktive Verweise, die bekannten Medienhäusern und Analyseinstituten zugeschrieben wurden. Neben den Falschbelegen zu McKinsey wies das Dokument erfundene Zitate auf, die angeblich aus Veröffentlichungen von Wirtschaftsmagazinen und Technologieportalen wie Forbes, TechCrunch und Wired sowie dem Marktforschungsunternehmen Gartner stammten.
Diese Form der Halluzination von Quellen stellt in der Fachwelt ein bekanntes Problem dar, da Sprachmodelle darauf trainiert sind, statistisch wahrscheinliche Wortfolgen zu generieren, anstatt die sachliche Existenz von URLs oder Studien im Internet real zu verifizieren. Wenn solche Dokumente ungeprüft veröffentlicht werden, führt dies laut den Sicherheitsforschern zu einer systematischen Verunreinigung des digitalen Informationspools („Poisoning the well“), da nachfolgende Suchanfragen und andere KI-Systeme diese erfundenen Daten als verifizierte Fakten weiterverarbeiten.
Deloitte hatte ebenfalls fehlerhafte Referenzen
Der Vorfall bei Ernst & Young steht nicht isoliert da, sondern verdeutlicht ein zunehmendes strukturelles Problem bei der Erstellung von Marktanalysen und Fachberichten durch große Wirtschaftsprüfungsgesellschaften. Bereits Ende des Jahres 2025 geriet der Konkurrent Deloitte in die Kritik, nachdem in einem offiziellen Dokument fehlerhafte Referenzen entdeckt worden waren. In jenem Fall hatten die Autoren ein Fachbuch als Kernquelle angeführt, das physisch und digital nicht existierte, sondern ebenfalls das Produkt einer KI-Halluzination war.
Wirtschaftsprüfungs- und Beratungsunternehmen stehen unter erheblichem Marktdruck, Berichte in hoher Frequenz zu veröffentlichen. Die Automatisierung der Recherche durch Werkzeuge wie Perplexity oder ChatGPT führt jedoch zu einem Kontrollverlust, wenn die finale Verifizierung der Primärquellen entfällt. Für die Mandanten und die Fachöffentlichkeit wiegt dieser Qualitätsmangel schwer, da die Reputation dieser Unternehmen traditionell auf der exakten Prüfung von Daten beruht.
Als unmittelbare Reaktion auf den Prüfbericht von GPTZero hat EY das Dokument vollständig von seinen Servern entfernt und für den Zugriff gesperrt. Das Unternehmen kündigte interne Untersuchungen an, um die redaktionellen Freigabeprozesse zu überprüfen und künftig strengere Filter gegen KI-generierte Fehlinformationen einzusetzen. Der Vorfall unterstreicht die Notwendigkeit, dass professionelle Analysen im Bereich der Cybersicherheit einer lückenlosen menschlichen Verifizierung (Human-in-the-Loop) unterliegen müssen, um Reputationsschäden und die Verbreitung von Falschinformationen im Internet zu verhindern.