Apple i Nvidia mogą mieć kłopoty. Ich źródłem szkolenie SI na bazie materiałów z YouTube

Szkolenie sztucznej inteligencji wymaga treści i materiałów. Wykorzystują je największe firmy technologiczne, w tym Apple oraz Nvidia, Salesforce i Anthrophic. Ale według raportu opublikowanego przez ProofNews, jeden ze zbiorów danych wykorzystywany przez te firmy do uczenia modeli sztucznej inteligencji zawierał napisy z filmów na YouTube. Dlaczego to źle?
Apple i Nvidia mogą mieć kłopoty. Ich źródłem szkolenie SI na bazie materiałów z YouTube

Stworzony przez EleutherAI zbiór danych zatytułowany “Napisy YouTube” został opublikowany w 2020 roku. Zawiera napisy do 173 536 filmów z YouTube pobranych z ponad 48 000 kanałów. Już samo w sobie jest to niezgodne z regulaminem użytkowania serwisu, ponieważ jego przepisy zabraniają dostępu do filmów “w sposób zautomatyzowany”.

Czy YouTube pójdzie na wojnę?

Wielkość zbioru “Napisy YouTube” to 5,7 GB, a znajduje się w nim 489 milionów słów z ponad 12 000 filmów. Te transkrypcje obejmują szeroką gamę twórców i kanałów, w tym te z setkami milionów subskrybentów, jak i te z ponad 100 000 subskrybentów. W publikacji ProofNews czytamy, że wśród twórców, jakich napisy zostały użyte do szkolenia SI, znaleźli się MrBeast (289 milionów subskrybentów, dwa filmy nagrane w ramach szkolenia), Marques Brownlee (19 milionów subskrybentów, siedem nakręconych filmów), Jacksepticeye (prawie 31 milionów subskrybentów, 377 nakręconych filmów) i PewDiePie ( 111 milionów subskrybentów, 337 nakręconych filmów). Ale co gorsze – część materiałów wykorzystywanych do szkolenia sztucznej inteligencji promowała także spiski, takie jak „teoria płaskiej Ziemi”.

Przedstawiciele EleutherAI nie wydali jeszcze żadnego oświadczenia w tej sprawie. Twórcy, do których dotarło ProofNews, nie mieli pojęcia, że ich klipy zostały użyte w taki sposób. Natomiast wiadomo, że ze zbioru korzystały m.in. Apple oraz Nvidia, a zapewne lista firm jest dłuższa.

Czytaj też: YouTube aktualizuje swoje narzędzie do usuwania chronionych utworów. Ma to ułatwić życie twórcom treści

Marques Brownlee, jeden z twórców, zauważył, że problem dotyczy wyłącznie tych kanałów, które korzystają z płatnej usługi generowania transkrypcji w YouTube. A to jeszcze gorzej, ponieważ oznacza, że EleutherAI nie tylko wykorzystało treści bez pozwolenia, ale również były to płatne treści. Na obronę firm, które korzystały ze zbioru “Napisy YouTube”, przemawia fakt, że nie pobrały ich same napisów, ale trenowały na gotowym zbiorze modele sztucznej inteligencji.

Teraz pozostaje nam czekać, co na to wszystko samo YouTube.