Reddit har stämt AI-sökmotorn Perplexity och tre samarbetspartner för att olagligt ha skrapat innehåll från Google-sidor som visar Reddit-inlägg. I stämningsansökan, inlämnad på onsdagen, anklagar Reddit företagen för att medvetet ha kringgått både Googles och Reddits skydd mot automatiserad datainsamling.
Enligt Reddit bygger Perplexitys påstådda “answer engine” inte på egen teknik, utan på att använda ett annat företags språkmodell för att analysera stora mängder Google-resultat. ”Perplexity kan bara köra sin ’answer engine’ genom att olagligt få tillgång till och skrapa Reddit-innehåll som visas i Googles sökresultat,” skriver Reddit i sin stämning. Företaget beskriver samarbetet mellan de inblandade som ”bankrånare” och hävdar att Perplexity tagits ”på bar gärning”.
Anklagelserna
För att bevisa anklagelserna publicerade Reddit testinlägg som endast kunde hittas via Google-sökresultat. Inom några timmar dök innehållet upp i Perplexitys tjänst, vilket enligt Reddit visar att företaget och dess medkonspiratörer skrapat Googles sidor och snabbt använt datan i sin produkt.
Perplexity nekar till brott och menar att deras sökmotor enbart sammanfattar offentliga diskussioner och citerar Reddit-trådar på samma sätt som andra användare som delar länkar. ”Vi kommer inte att låta oss utpressas och vi kommer inte att hjälpa Reddit att utpressa Google,” skrev Perplexity i ett inlägg på Reddit. Företaget hävdar att Reddit försöker tvinga fram licensavtal som egentligen handlar om förhandlingar kring träningsdata med Google och OpenAI.
I sin stämning framhåller Reddit att företagets robots.txt-fil uttryckligen säger: ”Reddit believes in an open Internet, but not the misuse of public content.”
Skrapning
Reddit uppger att man använder skydd mot skrapning som inloggningsbegränsningar, IP-gränser, captcha-filter och verktyg för att upptäcka avvikande aktivitet. Google ska ha liknande skydd via sitt system SearchGuard, som ”hindrar automatiserade system från att få tillgång till hela sökresultat” och därmed skyddar även Reddit-innehåll.
Reddit menar att Perplexity och tre samarbetande företag – Oxylabs UAB i Litauen, AWMProxy (en tidigare rysk botnät-tjänst) och det amerikanska företaget SerpApi – medvetet har kringgått dessa system. De ska enligt Reddit ha utgett sina robotar för att vara vanliga användare och på två veckor skrapat nästan tre miljarder sökresultat som innehöll Reddit-innehåll.
SerpApi säger till Ars Technica att man inte informerats innan stämningen lämnades in: ”Vi bestrider Reddits anklagelser och kommer att försvara oss kraftfullt i domstol. Vi har alltid verkat inom lagens ramar,” sade företagets talesperson. Oxylabs uppger att de är ”chockade och besvikna” över stämningen och hävdar att deras tjänster används lagligt för att samla in offentliga data till forskning och samhällsnytta. ”Inget företag bör göra anspråk på ägande av offentlig data som inte tillhör dem,” sade Oxylabs chefsjurist Denas Grybauskas.
Misstänkta
Reddit hävdar att de märkte den misstänkta aktiviteten efter att ha skickat flera varningsbrev till Perplexity – vilket enligt Reddit bara ledde till att skrapningen ökade fyrtiofalt. Företaget menar att Perplexity är kund hos SerpApi och använder deras tjänster för att kringgå Googles skydd.
Enligt Reddit har skrapningen orsakat ”förlorade intäkter och affärsmöjligheter, skadat rykte och minskat användarnas förtroende.” Bolaget begär nu att domstolen förbjuder företagen att skrapa Reddit-innehåll via Google, sälja datan vidare eller utveckla teknik som kan kringgå tekniska skydd.
Om Reddit vinner kan de inblandade tvingas betala stora skadestånd eller lämna över vinster som gjorts på försäljningen av Reddit-data.
Källa: Ars Technica
Läs mer
Cloudflare avslöjar hur AI-sökmotor smyger förbi spärrar för att stjäla data
