Photo by Joshua Woroniecki on Unsplash
A Cloudflare kutatók azt állítják, hogy a Perplexity ellenére is scrape-li a weboldalakat, annak ellenére, hogy az AI Bot blokkolja.
A Cloudflare internet infrastruktúra szolgáltató kutatói azt állítják, hogy a Perplexity nevű AI rendszer engedély nélkül gyűjti a tartalmakat a weboldalakról, még akkor is, amikor a kiadók AI bot blokkolásokat hajtottak végre.
Sietésben vagy? Itt vannak a legfontosabb tények:
- Cloudflare állítja, hogy a Perplexity engedély nélkül gyűjtött tartalmat weboldalakról.
- A kutatók megerősítették a Perplexity „stealth crawling” viselkedését, még akkor is, ha a kiadók AI bot blokkokat alkalmaznak.
- A Perplexity szóvivője a Cloudflare jelentését „publicitási fogásnak” nevezte.
A Cloudflare által hétfőn megosztott jelentés szerint a Perplexity alapértelmezett felhasználói ügynökkel böngészi az oldalakat, majd váltja identitását, hogy megkerülje ezeket a blokkolásokat. Ezt a “stealth crawling”, azaz “rejtett böngészési” magatartást a Cloudflare szakértői is megerősítették.
“Folyamatosan tapasztaljuk, hogy a Perplexity ismételten módosítja a felhasználói ügynökét és változtatja a forrás ASNs-ét, hogy elrejtse a weboldalakon végzett indexelő tevékenységét, és figyelmen kívül hagyja, vagy néha még be sem tölti a robots.txt fájlokat” – írták a kutatók.
Az indexelőktől elvárható, hogy átláthatóak legyenek, világosan közöljék céljaikat, és tiszteletben tartsák a weboldalak preferenciáit, de a kutatók szerint a Perplexity nem követi ezeket a bizalmi elveket. Ezekre a következtetésekre jutottak egy olyan vizsgálat során, amelyet ügyfélpanaszok váltottak ki.
“Panasszal fordultak hozzánk azok az ügyfelek, akik mind a robots.txt fájlokban megtiltották a Perplexity mászótevékenységét, mind pedig WAF szabályokat hoztak létre, hogy kifejezetten blokkolják a Perplexity által bejelentett mindkét mászót: a PerplexityBotot és a Perplexity-Usert” – írták a kutatók. “Ezek az ügyfelek azt mondták nekünk, hogy a Perplexity még akkor is képes volt hozzáférni a tartalmukhoz, amikor látták, hogy a botjait sikeresen blokkolták.”
A Cloudflare kutatói azt mondták, hogy ellenőrizték ezen állításokat a blokkok replikálásával és több teszt elvégzésével, hogy megfigyeljék a mászó viselkedését. Egyik tesztben új domaineket hoztak létre, amelyeket még nem indexeltek, és robots.txt fájlokat is hozzáadtak, hogy blokkolják a “tisztelettudó botokat”. Később lekérdezéseket végeztek a Perplexitynél a korlátozott domainekkel kapcsolatos konkrét információkról, és azt találták, hogy az AI-alapú válaszmotor még mindig részleteket és pontos információkat szolgáltatott a weboldalról.
“Ez a válasz váratlan volt, mivel minden szükséges óvintézkedést megtettünk, hogy megakadályozzuk adataink lekérdezhetőségét az ő keresőrobotjaik által” – tették hozzá a kutatók.
Perplexity szóvivője, Jesse Dwyer a kutatást “publicitási fogásnak” nevezte egy nyilatkozatban, amelyet a The Verge számára adott. Dwyer hozzátette, hogy “félreértések” vannak a Cloudflare jelentésében.
A Cloudflare több eszközt is fejlesztett azért, hogy segítsen a kiadóknak megakadályozni a jogosulatlan AI indexelést. Márciusban a Cloudflare bemutatta az “AI Labirintus” nevű eszközét, amely az engedély nélküli indexelőket AI által generált tartalomlabirintusba irányítja. Tavaly hónapban indította el az “Pay Per Crawl” rendszerét, amelynek keretében az AI botoknak fizetniük kell a kiadók tartalmának eléréséért.