Home Technologia Według doniesień firmy zajmujące się sztuczną inteligencją nadal scrapują strony internetowe pomimo...

Według doniesień firmy zajmujące się sztuczną inteligencją nadal scrapują strony internetowe pomimo protokołów mających je blokować

9
0


Perplexity, firma, która opisuje swój produkt jako „bezpłatną wyszukiwarkę AI”, była w ciągu ostatnich kilku dni krytykowana. Wkrótce po Forbesa oskarżył go o kradzież jego historii i ponowne opublikowanie jej na wielu platformach, Przewodowy poinformowało, że Perplexity ignoruje protokół wykluczenia robotów, czyli plik robots.txt, oraz usuwa swoją witrynę internetową i inne publikacje Condé Nast. Strona internetowa poświęcona technologii Skrót oskarżył również firmę o skrobanie swoich artykułów. Teraz, Reutera poinformował, że zakłopotanie nie jest jedynym Firma AI oznacza to omijanie plików robots.txt i pobieranie witryn internetowych w celu uzyskania treści, które są następnie wykorzystywane do szkolenia ich technologii.

Reutera stwierdziło, że widziało list skierowany do wydawców od TollBit, start-upu, który łączy ich z firmami zajmującymi się sztuczną inteligencją, aby mogli zawierać umowy licencyjne, i ostrzegał ich, że „agenci AI z wielu źródeł (a nie tylko jednej firmy) decydują się na ominięcie pliku robots.txt protokół pobierania treści ze stron internetowych.” Plik robots.txt zawiera instrukcje dla robotów sieciowych, do których stron mogą uzyskać dostęp, a do których nie. Twórcy stron internetowych korzystają z protokołu od 1994 roku, ale zgodność z nim jest całkowicie dobrowolna.

W liście TollBit nie wymieniono żadnej firmy, ale Znawca biznesu twierdzi, że się tego nauczył OpenAI I Antropiczny — twórcy odpowiednio chatbotów ChatGPT i Claude — również omijają sygnały robots.txt. Obie firmy oświadczyły już wcześniej, że przestrzegają instrukcji „nie indeksuj”, które strony internetowe umieszczają w swoich plikach robots.txt.

W trakcie dochodzenia Przewodowy odkrył, że maszyna na serwerze Amazon „z pewnością obsługiwana przez firmę Perplexity” omijała instrukcje zawarte w pliku robots.txt swojej witryny internetowej. Aby potwierdzić, czy Perplexity skrobało jego zawartość, Przewodowy dostarczyło narzędziu firmy nagłówki artykułów lub krótkie podpowiedzi opisujące jej historie. Narzędzie podobno dało wyniki, które ściśle parafrazowały jego artykuły „z minimalnym podaniem źródła”. Czasami nawet generował niedokładne streszczenia swoich historii – Przewodowy twierdzi, że chatbot fałszywie twierdził, że w jednym przypadku poinformował o popełnieniu przestępstwa przez konkretnego kalifornijskiego policjanta.

W wywiadzie z Szybka FirmaDyrektor generalny firmy Perplexity, Aravind Srinivas, powiedział w publikacji, że jego firma „nie ignoruje protokołu dotyczącego wykluczeń robotów, a następnie kłamie na jego temat”. Nie oznacza to jednak, że nie czerpie korzyści z robotów indeksujących, które ignorują protokół. Srinivas wyjaśnił, że oprócz własnych robotów indeksujących firma korzysta z robotów indeksujących strony trzecie i że robot ten Przewodowy zidentyfikowany był jednym z nich. Gdy Szybka Firma zapytany, czy Perplexity kazał dostawcy robota zaprzestać przeglądania witryny Wired, odpowiedział tylko, że „to skomplikowane”.

Srinivas bronił praktyk swojej firmy, stwierdzając w publikacji, że Protokół wykluczania robotów „nie stanowi ram prawnych” i sugerując, że wydawcy i firmy takie jak jego mogą być zmuszone do nawiązania nowego rodzaju relacji. Podobno też to zasugerował Przewodowy celowo użył podpowiedzi, aby chatbot Perplexity zachowywał się w taki sposób, w jaki to zrobił, więc zwykli użytkownicy nie uzyskają takich samych wyników. Jeśli chodzi o niedokładne podsumowania wygenerowane przez narzędzie, Srinivas powiedział: „Nigdy nie powiedzieliśmy, że nigdy nie mieliśmy halucynacji”.



Source link