Meta przesłała specjalnie przygotowany, niepubliczny wariant swojego modelu AI
Według nowych informacji firma przesłała niepubliczny wariant swojego modelu AI Llama 4, który został specjalnie przygotowany do internetowego benchmarku, co mogło niesprawiedliwie podnieść jego pozycję w rankingu w stosunku do konkurentów.
Na początku ta sztuczna inteligencja została przesłana do LMArena, czyli popularna platforma, gdzie użytkownicy porównują modele AI w bezpośrednich starciach, głosując na lepszą odpowiedź, a ich wyniki głosowań tworzą ranking najlepszych AI. Według twórców strony Meta dostarczyła wersję Llama 4, która nie jest publicznie dostępna i wydaje się być specjalnie zaprojektowana, aby przypodobać się ludzkim głosującym, potencjalnie dając jej przewagę w rankingach nad publicznie dostępnymi konkurentami.
Wczesna analiza pokazuje, że styl i ton odpowiedzi modelu były ważnym czynnikiem – co widać w rankingu kontroli stylu – i prowadzimy głębszą analizę, aby dowiedzieć się więcej” – poinformowała w poniedziałek wieczorem platforma rankingowa chatbotów. „Meta powinna była jaśniej zaznaczyć, że Llama-4-Maverick-03-26-Experimental był dostosowanym modelem zoptymalizowanym pod kątem ludzkich preferencji” – dodała LMArena na platformie X
Ta kompilacja modelu zajmowała drugie miejsce w rankingu chatbotów, tuż za wersją Google Gemini-2.5-Pro-Exp-03-25. Aby poprzeć swoje twierdzenia, że wersja modelu przesłana do testów była specjalnie dostosowana, LMArena opublikowała pełną analizę. „Aby zapewnić pełną przejrzystość, udostępniamy ponad 2000 wyników bezpośrednich starć do publicznego wglądu. Obejmuje to pytania użytkowników, odpowiedzi modeli i preferencje użytkowników” – poinformował zespół.
Z tych wyników można zauważyć, że wersja Llama 4 Maverick, która rywalizowała z konkurentami na arenie, często generowała obszerne odpowiedzi, z dodawanymi emoji. Wersja publiczna, ta, którą można wdrożyć w aplikacjach, generowała znacznie bardziej zwięzłe odpowiedzi, zazwyczaj pozbawione emoji.
Problem pojawił się gdy internauci zaczęli korzystać z oficjalnego modelu i spotkali się z rozczarowującymi wynikami. Rozbieżność między obietnicami firmy Meta dotyczącymi benchmarków a publicznym odbiorem była na tyle duża, że szef działu GenAI w Meta, Ahmad Al-Dahle, zabrał głos.
Już słyszymy wiele świetnych wyników, jakie ludzie uzyskują dzięki tym modelom. Niemniej jednak słyszymy również doniesienia o mieszanej jakości na różnych usługach. Ponieważ udostępniliśmy modele, gdy tylko były gotowe, spodziewamy się, że dostrojenie wszystkich publicznych implementacji zajmie kilka dni – powiedział Al-Dahle.
Idąc dalej w tej aferze, na całą tę sytuację wypowiedziała się LMArena oświadczając:
Zaktualizowano zasady dotyczące rankingów, aby wzmocnić nasze zaangażowanie w uczciwe, powtarzalne oceny, aby w przyszłości nie dochodziło do takich nieporozumień. Interpretacja naszej polityki przez Metę nie odpowiadała naszym oczekiwaniom wobec dostawców modeli.