Cloudflare keert AI tegen zichzelf met een eindeloos labyrint van irrelevante gegevens

Woensdag hebben leveranciers van webinfrastructuur een nieuwe functie van Cloudflare aangekondigd, aangeduid als “AI”. Het doel is om ongeoorloofd verzamelen van AI-trainingsgegevens tegen te gaan door scraping-bots valse, door AI blootgestelde materialen te serveren. De dienst probeert zo AI-bedrijven te misleiden die zonder toestemming websites doorzoeken om data te verzamelen voor grote taalmodellen zoals ChatGPT.

Cloudflare, vooral bekend als leverancier van infrastructuur- en beschermingsdiensten voor websites, biedt onder meer bescherming tegen DDoS-aanvallen en ander ongewenst verkeer. In plaats van bots simpelweg te blokkeren, zet Cloudflare met deze nieuwe aanpak een veel verfijnder mechanisme in: in plaats van directe blokkade worden crawlers naar een kunstmatige ’labyrint’-omgeving geleid die rekenbronnen van de crawler verbruikt.

Volgens Cloudflare kan het eenvoudige blokkeren van een bot averechts werken, omdat die blokkade de operatoren juist kan waarschuwen dat ze zijn geïdentificeerd. In plaats daarvan wil Cloudflare crawling-activiteiten misleiden: wanneer ongeautoriseerd crawlen wordt waargenomen, worden crawlers door een reeks AI-blootgestelde pagina’s geleid die overtuigend genoeg zijn om door te blijven kruipen, maar feitelijk geen bruikbare inhoud bevatten. Dit zorgt ervoor dat tijd en middelen van de crawler worden verspild.

Het bedrijf stelt dat de content die aan bots wordt geserveerd opzettelijk irrelevant is, maar soms zorgvuldig wordt samengesteld — met verwijzingen naar echte wetenschappelijke thema’s (biologie, natuurkunde, wiskunde) — om de kans op verspreiding van onjuiste informatie te verkleinen. Cloudflare produceert deze content met behulp van zijn Workers AI-services, een commercieel platform voor AI-werk.

Cloudflare ontwierp de zogenaamde ’trap’-pagina’s en -links zodanig dat ze onzichtbaar blijven voor normale bezoekers, zodat mensen die door het web bladeren er niet per ongeluk in terechtkomen.

Een slimme honeypot

De AI-labyrinth-aanpak functioneert als een volgende generatie honeypot. Cloudflare plaatst onzichtbare links die menselijke bezoekers niet kunnen zien, maar die door parsing-bots gevolgd worden. Moderne bots zijn echter steeds beter in het identificeren van eenvoudige valstrikken, wat geavanceerdere technieken noodzakelijk maakt. Valse links bevatten ook meta-richtlijnen om te voorkomen dat zoekmachines die pagina’s indexeren, terwijl ze tegelijkertijd aantrekkelijk zijn voor data-scraping-bots.

Bronlink: Ars Technica — Cloudflare turns AI against itself with endless maze of irrelevant facts

Een slimme honeypot

Gerelateerde Artikelen

Vroegere cyberchef: verzoek aan Apple om encryptie te breken was 'dwaas'

FTC-workshop onderzoekt problemen bij online ticketverkoop

Cooper Flag gezien in rolstoel na enge enkelblessure