Cloudflare beschuldigt den KI-Suchassistenten Perplexity, trotz expliziter Blockaden weiterhin Inhalte von zehntausenden Websites abzugreifen. Laut dem Infrastruktur-Anbieter nutzte das Startup heimliche Crawler, die sich als normale Browser ausgaben, um robots.txt-Direktiven und Firewall-Regeln zu umgehen.
Das in San Francisco ansässige Unternehmen Perplexity AI steht nun im Zentrum einer Kontroverse um ethische Crawler-Praktiken. Cloudflare-Ingenieure dokumentierten in einer ausführlichen Analyse, wie Perplexity systematisch Website-Sperren umging.
“Wir führten ein Experiment durch, indem wir Perplexity AI Fragen zu diesen Domains stellten und entdeckten, dass Perplexity dennoch detaillierte Informationen über die exakten Inhalte dieser gesperrten Domains lieferte”, erklärten die Cloudflare-Experten Gabriel Corral, Vaibhav Singhal, Brian Mitchell und Reid Tatoris.
Für den Test erwarb Cloudflare mehrere neue Domains mit restriktiven robots.txt-Dateien, die jeglichen automatisierten Zugriff untersagten. Trotz dieser klaren Vorgaben konnte Perplexity detaillierte Informationen über die Inhalte dieser Seiten bereitstellen.
Getarnte Browser-Identitäten und IP-Rotation
Perplexity setzte nicht nur seine deklarierten Crawler ein, sondern auch getarnte Versionen, die sich als Google Chrome auf macOS ausgaben. Diese “undeklarierten” Crawler nutzten ausgeklügelte Verschleierungstechniken durch Rotation zwischen verschiedenen IP-Adressen außerhalb der offiziellen Perplexity-Ranges und den Wechsel zwischen verschiedenen Autonomous System Numbers (ASNs).
Während Perplexitys offizielle Crawler täglich 20-25 Millionen Anfragen generieren, kommen durch die heimlichen Methoden weitere 3-6 Millionen Requests pro Tag hinzu – verteilt über zehntausende Domains.
Cloudflares Gegenmaßnahmen
Als Reaktion hat Cloudflare nicht nur Perplexity aus seinem Verified-Bot-Programm entfernt, sondern auch mehrere technische Gegenmaßnahmen implementiert. Das Unternehmen hat Signatur-Erkennungen für die heimlichen Crawler entwickelt und diese Schutzmaßnahmen für alle Kunden verfügbar gemacht, einschließlich kostenloser Nutzer. Langfristig plant Cloudflare die Entwicklung eines “AI-Labyrinths”, das non-konforme Bots in Netzen aus Fake-Content gefangen hält, sowie den Aufbau eines “Pay-per-Crawl”-Marktplatzes für kommerzielle Inhaltsnutzung.
Industrie-weite Blockade-Bewegung
Mehr als eine Million Websites haben sich bereits der Blockade-Bewegung angeschlossen, darunter prominente Publisher wie Associated Press, Time, The Atlantic, BuzzFeed, Reddit, Quora und Universal Music Group. Cloudflares “Content Independence Day”-Initiative blockiert KI-Crawler standardmäßig für alle neuen Domains.
Perplexitys Reaktion
Auf Anfragen zu den Vorwürfen reagierte Perplexity AI zunächst nicht. Ein Unternehmenssprecher wies die Anschuldigungen gegenüber TechCrunch als bloßen “Sales Pitch” von Cloudflare zurück.
Cloudflare kontrastiert Perplexitys Verhalten mit dem von OpenAI, das robots.txt-Dateien korrekt respektiere und das Crawling bei Blockaden einstelle.