Nätet fylls nu av AI-boots, automatiska funktioner som dammsuger nätet på darts som ska användas för att träna olika AI-lösningar. Den här typen av data trålar är dessutom extremt vanliga i och de ber inte om lov innan de samlar in dina texter, det du skriver och dina bilder – de bara tar för sig.
En gång i tiden användes en liten textfil, robots.txt, som lades i roten (startkatalogen) på en webbplats. I den filen så skrevs regler in för vilka automatiska system som tilläts och vilka som inte gjorde det. Länge så respekterade de flesta ute på nätet innehållet i robots.txt men den tiden är sedan länge förbi.
Efter det att AI slagit igenom på allvar så har trafiken med så kallade crawlers exploderat. I stort sett alla webbplatser får tusentals besök – varje timme – från AI-crawlers som förser sig, utan att be om lov eller förvarna de som faktiskt äger informationen. De samlar in enorma mängder data som skickas tillbaka till den AI-lösning som ska tränas.
Välbesökt
Magasin Macken är en hyggligt välbesökt liten blogg – på 30 minuter räknades 1 337 AI-crawlers in och det är en rätt konstant siffra, varje timme. Flertalet av de här datatrålarna är blockerade i min robots.txt – men det bryr de sig inte om. De försöker samla in alla nya texter, ny information utan att be vare sig mig eller någon annan om lov.
Då jag själv använder AI-lösningar så har jag inget emot att dela med mig men jag sitter inte och skriver texter gratis – för att någon ska kunna scanna mina alster och sedan träna en kommersiell tjänst. Vill du ha mina data – öppna plånboken i och betala så kan jag skicka pengarna vidare till någon som behöver dem bättre än mig. Berkley Universitetets utveckling av FreeBSD, utbildning av barnmorskor i Afghanistan ( andra länder) eller Reportrar och Läkare i utan gränser – dit vi skickar pengar regelbundet idag.
Det som finns här på Macken är det fritt att ta för sig av – icke-kommersiellt, nämligen. Jag hävdar ingen upphovsrätt men ska du använda det du tar för dig av kommersiellt så får du vackert öppna plånboken.
Cloudflare
Cloudflare har precis startat ett projekt som ska utmynna i det – ett skydd mot AI-crawlers och en möjlighet för ägare av en webbplats att sätta ett pris – scanna gärna men betala för dig.
För första gången kommer webbplats- och innehållsskapare att kunna snabbt och enkelt förstå hur AI -modellleverantörer använder sitt innehåll och sedan tar kontroll över om och hur modellerna kan komma åt det. Dessutom utvecklar CloudFlare en ny funktion där innehållsskapare på ett tillförlitligt sätt kan sätta ett rimligt pris för deras innehåll som används av AI -företag för modellträning och återhämtning Augmented Generation (RAG).
Under tiden, tills Cloudflare har lanserats sitt verktyg så finns det några andra sätt att försöka hålla AI-crawlers borta.
Det här är en plugin, lätt att installera – ladda ned och aktivera. Det är i stort sett allt. Block AI Crawlers skapar en virtuell robots.txt som snabbt kan uppdateras men det betyder också att en hel del AI-crawlers som inte bryr sig om innehållet och som struntar i vad du har skrivit in kommer att samla in dina data i alla fall.
Har tagit ett annat grepp – en kopplad robots.txt som uppdaterats direkt och automatiskt – dock med samma svaghet – respekteras inte robots.txt så lär AI-trålaren plocka åt sig data i alla fall. Här finns en möjlighet att köpa och betala för ett filter – en blockeringsfunktion som ska kunna stoppa de AI-bottar och andra som försöker dammsuga din webbplats.
Magasin Macken återkommer i ämnet när Cloudflare presenterat sin lösning för att sätta stopp för AI-bottarnas trålande ute på nätet.