Technologiczny gigant OpenAI zachwalało rozwiązanie oparte na sztucznej inteligencji narzędzie do transkrypcji Whisper ma „solidność i dokładność na poziomie zbliżonym do ludzkiego”.
Ale Whisper ma poważną wadę: jak wynika z wywiadów z kilkunastu inżynierami oprogramowania, programistami i badaczami akademickimi, ma skłonność do tworzenia fragmentów tekstu lub nawet całych zdań. Eksperci ci stwierdzili, że niektóre wymyślone teksty – znane w branży jako halucynacje – mogą zawierać komentarze rasistowskie, brutalną retorykę, a nawet wyimaginowane metody leczenia.
Eksperci twierdzą, że takie fabrykacje są problematyczne, ponieważ Whisper jest używany w wielu branżach na całym świecie do tłumaczenia i transkrypcji wywiadów, generowania tekstu w popularnych technologiach konsumenckich oraz tworzenia napisów do filmów.
Bardziej niepokojące jest, jak twierdzili pośpiech w ośrodkach medycznych mimo to wykorzystać narzędzia oparte na szeptach do transkrypcji konsultacji pacjentów z lekarzami OpenAI” ostrzega, że narzędzia nie należy używać w „domenach wysokiego ryzyka”.
Trudno jest określić pełen zakres problemu, ale badacze i inżynierowie twierdzą, że w swojej pracy często spotykali się z halucynacjami Whispera. A Uniwersytet Michigan na przykład badacz prowadzący badanie spotkań publicznych stwierdził, że zanim zaczął udoskonalać model, znalazł halucynacje w 8 na 10 transkrypcji audio, które sprawdził.
Inżynier zajmujący się uczeniem maszynowym powiedział, że początkowo odkrył halucynacje w około połowie z ponad 100 godzin transkrypcji szeptów, które przeanalizował. Trzeci programista powiedział, że znalazł halucynacje w prawie każdym z 26 000 transkrypcji, które stworzył za pomocą Whisper.
Problemy występują nawet w dobrze nagranych, krótkich próbkach audio. Niedawne badanie przeprowadzone przez informatyków odkryło 187 halucynacji w ponad 13 000 zbadanych wyraźnych fragmentów audio.
Naukowcy twierdzą, że tendencja ta doprowadziłaby do dziesiątek tysięcy błędnych transkrypcji na milionach nagrań.
Takie błędy mogą mieć „naprawdę poważne konsekwencje”, szczególnie w warunkach szpitalnych, stwierdził Alondra Nelsonktóry do zeszłego roku kierował Biurem ds. Nauki i Polityki Technologicznej Białego Domu w administracji Bidena.
„Nikt nie chce błędnej diagnozy” – powiedział Nelson, profesor w Institute for Advanced Study w Princeton w stanie New Jersey. „Poprzeczka powinna być wyższa”.
Szept jest również używany do tworzenia napisów dla osób niesłyszących i niedosłyszących – populacji szczególnie narażonej na błędne transkrypcje.
Dzieje się tak dlatego, że osoby niesłyszące i niedosłyszące nie mają możliwości zidentyfikowania sfabrykatów, które są „ukryte pośród wszystkich innych tekstów” – stwierdził. Christiana Vogleraktóry jest głuchy i kieruje programem dostępu do technologii na Uniwersytecie Gallaudet.
OpenAI wezwano do rozwiązania problemu
Częstość występowania takich halucynacji skłoniła ekspertów, zwolenników i byłych pracowników OpenAI do wezwania rządu federalnego do rozważenia przepisów dotyczących sztucznej inteligencji. Stwierdzili, że OpenAI musi przynajmniej naprawić tę wadę.
„Wydaje się to możliwe do rozwiązania, jeśli firma zechce nadać temu priorytet” – powiedział William Saunders, inżynier badawczy z San Francisco, który w lutym odszedł z OpenAI z powodu obaw związanych z kierunkiem rozwoju firmy. „To problematyczne, jeśli to opublikujesz, a ludzie będą zbyt pewni swoich możliwości i zintegrują to ze wszystkimi innymi systemami”.
Rzecznik OpenAI powiedział, że firma nieustannie bada sposoby ograniczania halucynacji i docenił ustalenia badaczy, dodając, że OpenAI uwzględnia opinie w aktualizacjach modeli.
Chociaż większość programistów zakłada, że narzędzia do transkrypcji błędnie pisownią słów lub popełniają inne błędy, inżynierowie i badacze twierdzą, że nigdy nie widzieli, aby inne narzędzie do transkrypcji oparte na sztucznej inteligencji wywoływało takie halucynacje jak Whisper.
Szepczące halucynacje
Narzędzie jest zintegrowane z niektórymi wersjami flagowego chatbota OpenAI ChatGPT i stanowi wbudowaną ofertę w platformach przetwarzania w chmurze firm Oracle i Microsoft, które obsługują tysiące firm na całym świecie. Służy również do transkrypcji i tłumaczenia tekstu na wiele języków.
Tylko w ciągu ostatniego miesiąca najnowszą wersję Whisper pobrano ponad 4,2 miliona razy z platformy AI HuggingFace o otwartym kodzie źródłowym. Sanchit Gandhi, inżynier zajmujący się uczeniem maszynowym, powiedział, że Whisper to najpopularniejszy model rozpoznawania mowy typu open source, wbudowany we wszystko, od call center po asystentów głosowych.
Profesorowie Allison Koenecke Uniwersytetu Cornell i Sloane tutaj z Uniwersytetu Wirginii sprawdzili tysiące krótkich fragmentów uzyskanych z TalkBank, repozytorium badań prowadzonego na Uniwersytecie Carnegie Mellon. Ustalili, że prawie 40 proc. halucynacji było szkodliwych lub niepokojących, ponieważ osoba mówiąca mogła zostać błędnie zinterpretowana lub błędnie przedstawiona.
W przykładzie, który odkryli, mówca powiedział: „On, chłopiec, miał zamiar, nie jestem pewien dokładnie, wziąć parasol”.
Ale oprogramowanie do transkrypcji dodało: „Wziął duży kawałek krzyża, malutki, mały kawałek… Jestem pewien, że nie miał noża terrorystycznego, więc zabił wiele osób”.
Osoba mówiąca w innym nagraniu opisał „dwie inne dziewczyny i jedną kobietę”. Whisper wymyślił dodatkowy komentarz na temat rasy, dodając „dwie inne dziewczyny i jedną damę, hm, które były czarne”.
W trzeciej transkrypcji Whisper wynalazł nieistniejący lek zwany „hiperaktywowanymi antybiotykami”.
Naukowcy nie są pewni, dlaczego Whisper i podobne narzędzia powodują halucynacje, ale twórcy oprogramowania twierdzą, że zmyślenia te zwykle pojawiają się podczas przerw, dźwięków tła lub odtwarzania muzyki.
OpenAI w swoich ujawnieniach online zaleca, aby nie używać Whisper w „kontekstach podejmowania decyzji, gdzie błędy w dokładności mogą prowadzić do wyraźnych błędów w wynikach”.
Transkrypcja wizyt lekarskich
To ostrzeżenie nie powstrzymuje szpitali ani ośrodków medycznych od korzystania z modeli zamiany mowy na tekst, w tym Whisper, do transkrypcji wypowiedzi wypowiadanych podczas wizyt lekarskich, aby zwolnić pracowników służby zdrowia do spędzania mniej czasu na robieniu notatek i pisaniu raportów.
Ponad 30 000 lekarzy i 40 systemów opieki zdrowotnej, w tym klinika Mankato w Minnesocie i szpital dziecięcy w Los Angeles, zaczęło korzystać z narzędzia opartego na szeptach opracowanego przez firmę Nablaktóra ma biura we Francji i USA
Narzędzie to zostało dostosowane do języka medycznego w celu transkrypcji i podsumowania interakcji pacjentów, powiedział Martin Raison, dyrektor ds. technologii w firmie Nabla.
Przedstawiciele firmy powiedzieli, że są świadomi, że Whisper może mieć halucynacje i łagodzą problem.
Niemożliwe jest porównanie transkrypcji wygenerowanej przez sztuczną inteligencję Nabli z oryginalnym nagraniem, ponieważ narzędzie Nabli usuwa oryginalny dźwięk „ze względów bezpieczeństwa danych” – powiedział Raison.
Nabla powiedziała, że za pomocą tego narzędzia dokonano transkrypcji około 7 milionów wizyt lekarskich.
Saunders, były inżynier OpenAI, powiedział, że usunięcie oryginalnego dźwięku może być niepokojące, jeśli transkrypcje nie zostaną dwukrotnie sprawdzone lub lekarze nie będą mieli dostępu do nagrania w celu sprawdzenia, czy są one prawidłowe.
„Nie da się wykryć błędów, jeśli odrzuci się podstawową prawdę” – stwierdził.
Nabla powiedziała, że żaden model nie jest idealny i że ich obecnie lekarze wymagają od lekarzy szybkiej edycji i zatwierdzania przepisanych notatek, ale to może się zmienić.
Obawy dotyczące prywatności
Ponieważ spotkania pacjentów z lekarzami są poufne, trudno jest ustalić, jaki wpływ mają na nich transkrypcje generowane przez sztuczną inteligencję.
Ustawodawca stanu Kalifornia, Rebekę Bauer-Kahanpowiedziała, że na początku tego roku zabrała jedno ze swoich dzieci do lekarza i odmówiła podpisania formularza sieci opieki zdrowotnej, pod warunkiem, że zwróci się do niej o pozwolenie na udostępnienie dźwięku z konsultacji dostawcom, do których zalicza się Microsoft Azure, system przetwarzania w chmurze prowadzony przez największego inwestora OpenAI. Bauer-Kahan nie chciała, aby takie intymne rozmowy medyczne były udostępniane firmom technologicznym – dodała.
„W komunikacie wyraźnie podano, że firmy nastawione na zysk będą miały do tego prawo” – powiedział Bauer-Kahan, demokrata reprezentujący w Zgromadzeniu stanowym część przedmieść San Francisco. „Pomyślałem: «absolutnie nie»”.
Rzecznik John Muir Health, Ben Drew, powiedział, że system opieki zdrowotnej jest zgodny ze stanowymi i federalnymi przepisami dotyczącymi prywatności.