Home Technologia Strony internetowe oskarżają startup AI Anthropic o ominięcie ich zasad i protokołu...

Strony internetowe oskarżają startup AI Anthropic o ominięcie ich zasad i protokołu antyscrapingowego

33
0


Freelancer oskarżył Anthropic, startup AI stojący za dużymi modelami językowymi Claude, o ignorowanie protokołu „do not crawl” robots.txt w celu zeskrobywania danych ze swoich stron internetowych. Tymczasem dyrektor generalny iFixit Kyle Wiens powiedział, że Anthropic zignorował politykę strony internetowej zakazującą używania jej treści do szkolenia modeli AI. Matt Barrie, dyrektor generalny Freelancer, powiedział Informacja że ClaudeBot firmy Anthropic jest „najbardziej agresywnym scraperem”. Jego witryna rzekomo uzyskała 3,5 miliona odwiedzin z crawlera firmy w ciągu czterech godzin, co stanowi „prawdopodobnie około pięć razy więcej niż liczba odwiedzin crawlera AI numer dwa”. Podobnie, Wiens opublikowano na X/Twitterze że bot Anthropic uderzył w serwery iFixit milion razy w ciągu 24 godzin. „Nie tylko bierzecie nasze treści bez płacenia, ale też angażujecie nasze zasoby DevOps” – napisał.

W czerwcu, Oskarżony o podsłuch inna firma AI, Perplexity, indeksowania swojej witryny pomimo obecności protokołu wykluczenia robotów, czyli robots.txt. Plik robots.txt zazwyczaj zawiera instrukcje dla robotów sieciowych, które strony mogą, a których nie mogą uzyskać dostępu. Chociaż zgodność jest dobrowolna, jest ona w większości ignorowana przez złe boty. Po Przewodowy sztuka wyszedł startup o nazwie TollBit, który łączy firmy AI z wydawcami treści, poinformował, że nie tylko Perplexity omija sygnały robots.txt. Chociaż nie wymienił nazw, Informacje biznesowe poinformował, że dowiedział się, iż OpenAI i Anthropic również ignorują protokół.

Barrie powiedział, że Freelancer początkowo próbował odrzucić żądania dostępu bota, ale ostatecznie musiał całkowicie zablokować robota Anthropic. „To rażące scrapowanie (które) spowalnia działanie witryny dla wszystkich użytkowników i ostatecznie wpływa na nasze przychody” — dodał. Jeśli chodzi o iFixit, Wiens powiedział, że witryna ustawiła alarmy przy dużym ruchu, a jego ludzie zostali obudzeni o 3 nad ranem z powodu działań Anthropic. Robot firmy przestał scrapować iFixit po dodaniu wiersza do swojej plik robots.txt co w szczególności blokuje bota Anthropic.

Startup zajmujący się sztuczną inteligencją powiedział Informacja że szanuje plik robots.txt i że jego crawler „szanował ten sygnał, gdy iFixit go zaimplementował”. Powiedział również, że dąży do „minimalnego zakłócenia poprzez rozważne podejście do tego, jak szybko (przeszukuje) te same domeny”, dlatego teraz bada tę sprawę.

Firmy AI używają crawlerów do zbierania treści ze stron internetowych, których mogą używać do trenowania swoich generatywnych technologii AI. Były cel wielu pozwów w rezultacie wydawcy oskarżyli ich o naruszenie praw autorskich. Aby zapobiec składaniu kolejnych pozwów, firmy takie jak OpenAI zawarły umowy z wydawcami i witrynami internetowymi. Partnerzy OpenAI w zakresie treści, jak dotąd, obejmują Wiadomości Corp, Vox Mediaten Financial Times I RedditWiens z iFixit wydaje się być otwarty na pomysł podpisania umowy na artykuły na stronie internetowej poświęconej poradom w zakresie napraw, informując w tweecie serwis Anthropic, że jest gotowy porozmawiać o licencjonowaniu treści do użytku komercyjnego.





Source link