Så stoppar du alla dessa AI-bottar

av Mikael Winterkvist | sep 28, 2024 | Bluesky, Mastodon, Reportage, Threads

Nätet fylls nu av AI-boots, automatiska funktioner som dammsuger nätet på darts som ska användas för att träna olika AI-lösningar. Den här typen av data trålar är dessutom extremt vanliga i och de ber inte om lov innan de samlar in dina texter, det du skriver och dina bilder – de bara tar för sig.

En gång i tiden användes en liten textfil, robots.txt, som lades i roten (startkatalogen) på en webbplats. I den filen så skrevs regler in för vilka automatiska system som tilläts och vilka som inte gjorde det. Länge så respekterade de flesta ute på nätet innehållet i robots.txt men den tiden är sedan länge förbi.

Efter det att AI slagit igenom på allvar så har trafiken med så kallade crawlers exploderat. I stort sett alla webbplatser får tusentals besök – varje timme – från AI-crawlers som förser sig, utan att be om lov eller förvarna de som faktiskt äger informationen. De samlar in enorma mängder data som skickas tillbaka till den AI-lösning som ska tränas.

Välbesökt

Magasin Macken är en hyggligt välbesökt liten blogg – på 30 minuter räknades 1 337 AI-crawlers in och det är en rätt konstant siffra, varje timme. Flertalet av de här datatrålarna är blockerade i min robots.txt – men det bryr de sig inte om. De försöker samla in alla nya texter, ny information utan att be vare sig mig eller någon annan om lov.

Då jag själv använder AI-lösningar så har jag inget emot att dela med mig men jag sitter inte och skriver texter gratis – för att någon ska kunna scanna mina alster och sedan träna en kommersiell tjänst. Vill du ha mina data – öppna plånboken i och betala så kan jag skicka pengarna vidare till någon som behöver dem bättre än mig. Berkley Universitetets utveckling av FreeBSD, utbildning av barnmorskor i Afghanistan ( andra länder) eller Reportrar och Läkare i utan gränser – dit vi skickar pengar regelbundet idag.

Det som finns här på Macken är det fritt att ta för sig av – icke-kommersiellt, nämligen. Jag hävdar ingen upphovsrätt men ska du använda det du tar för dig av kommersiellt så får du vackert öppna plånboken.

Cloudflare

Cloudflare har precis startat ett projekt som ska utmynna i det – ett skydd mot AI-crawlers och en möjlighet för ägare av en webbplats att sätta ett pris – scanna gärna men betala för dig.

För första gången kommer webbplats- och innehållsskapare att kunna snabbt och enkelt förstå hur AI -modellleverantörer använder sitt innehåll och sedan tar kontroll över om och hur modellerna kan komma åt det. Dessutom utvecklar CloudFlare en ny funktion där innehållsskapare på ett tillförlitligt sätt kan sätta ett rimligt pris för deras innehåll som används av AI -företag för modellträning och återhämtning Augmented Generation (RAG).

Cloudflare

Under tiden, tills Cloudflare har lanserats sitt verktyg så finns det några andra sätt att försöka hålla AI-crawlers borta.

Block AI Crawlers

Det här är en plugin, lätt att installera – ladda ned och aktivera. Det är i stort sett allt. Block AI Crawlers skapar en virtuell robots.txt som snabbt kan uppdateras men det betyder också att en hel del AI-crawlers som inte bryr sig om innehållet och som struntar i vad du har skrivit in kommer att samla in dina data i alla fall.

Dark Visitors

Har tagit ett annat grepp – en kopplad robots.txt som uppdaterats direkt och automatiskt – dock med samma svaghet – respekteras inte robots.txt så lär AI-trålaren plocka åt sig data i alla fall. Här finns en möjlighet att köpa och betala för ett filter – en blockeringsfunktion som ska kunna stoppa de AI-bottar och andra som försöker dammsuga din webbplats.

Magasin Macken återkommer i ämnet när Cloudflare presenterat sin lösning för att sätta stopp för AI-bottarnas trålande ute på nätet.

Magasin Macken använder AI för att samla in information och underlag för de texter som publiceras. Vi använder även AI för att skapa bilder och illustrationer. Dessa märks alltid med att det är AI-bilder. I förekommande fall så läggs även till länkar till källa och referenser till i texterna som alltid kontrolleras av en mänsklig skribent – som är den som skriver och redigerar alla texter till alla väsentliga delar.

0 kommentarer

Mikael Winterkvist

Fyrabarns-far, farfar, morfar och egen företagare i Skellefteå med kliande fingrar. Jag skriver om fotografering, sport, dataprylar, politik, nöje, musik och film. Vid sidan av den här bloggen så jobbar jag med med det egna företaget Winterkvist.com. Familjen består av hustru, fyra barn (utflugna) och fem barnbarn.

Jag har hållit på med datorer sedan tidigt 1980-tal och drev Artic BBS innan Internet knappt existerade. Efter BBS-tiden har det blivit hemsidor, design, digitala medier och trycksaker. Under tiden som journalist jobbade jag med Mac men privat har det varit Windows som har gällt fram till vintern 2007. Då var det dags att byta och då bytte vi, företaget, helt produktionsplattform till macOS. På den vägen är det.

_____________________________________________________________________________________

Anmäl dig till Magasin Mackens nyhetsbrev

Du får förhandsinformation om Macken, våra planer och du får informationen, först och direkt till din mail. Vi lovar att inte skicka din information vidare och vi lovar att inte skicka ut mer än max ett nyhetsbrev per månad.

Anmäl dig här

_____________________________________________________________________________________

De senaste inläggen:

« Äldre inlägg

Så stoppar du alla dessa AI-bottar

Välbesökt

Cloudflare

0 kommentarer

Mikael Winterkvist

De senaste inläggen:

De digitala dinosaurierna – programmen som aldrig pensionerades

Mellan promptar och paragrafer – mina första dagar på redaktionen

Så bygger du en Apple-hemmastudio för under 5 000 kronor