Zaprojektowany w ten sposób model osiąga lepsze wyniki niż inne metody uczenia maszynowego w zadaniach polegających na znalezieniu fragmentu danych (na przykład w formie nagrania) odpowiadających zapytaniu użytkownika podanemu w innej formie, choćby w języku mówionym.
Główne wyzwanie polega na tym, jak maszyna może wyrównać różne modalności? Dla nas, jako ludzi, jest to łatwe. Widzimy samochód, a następnie słyszymy dźwięk przejeżdżającego auta i wiemy, że są to te same rzeczy. Ale w przypadku uczenia maszynowego nie jest to takie proste. wyjaśnia autor badań, Alexander Liu
Co najważniejsze, model zaprojektowany przez Liu i jego współpracowników osiąga lepsze wyniki niż w przypadku innych metod uczenia maszynowego. W przyszłości takie podejscie powinno okazać się szczególnie przydatne w odniesieniu na przykład do robotów zajmujących się poznawaniem pojęć poprzez percepcję.
Sztuczna inteligencja może wykorzystywać tzw. multimodalne podejście do uczenia się
W obecnej formie narzędzie wykorzystuje surowe dane, choćby filmy i odpowiadające im podpisy, a następnie koduje je poprzez wyodrębnienie cech. W kolejnym kroku mapuje te punkty danych w siatce zwanej przestrzenią osadzania. Model grupuje podobne dane jako pojedyncze punkty w siatce, a każdy z nich reprezentowany jest przez pojedyncze słowo.
Jednym z ograniczeń jest to, by model używał maksymalnie 1000 słów do oznaczenia wektorów. Musi on więc zdecydować, które działania lub pojęcia chce zakodować w jednym wektorze, wybierając przy tym słowa najlepiej reprezentują dane. Proponowana metoda wykorzystuje wspólną przestrzeń osadzania, w której dwie modalności mogą być kodowane jednocześnie. Dzięki temu model jest w stanie nauczyć się relacji pomiędzy reprezentacjami pochodzącymi z dwóch modalności.
Czytaj też: Sztuczna inteligencja jest uprzedzona. W przypadku niektórych osób błędnie określa wiek
Jeśli jest film o świniach, model może przypisać słowo ‘świnia’ do jednego z 1000 wektorów. Następnie, jeśli model usłyszy, że ktoś wypowiada słowo ‘świnia’ w klipie audio, powinien nadal używać tego samego wektora, aby to zakodować. […] Podobnie jak w przypadku wyszukiwania w Google, wpisujesz jakiś tekst, a maszyna próbuje podpowiedzieć ci najbardziej istotne rzeczy, których szukasz. Tyle że robimy to w przestrzeni wektorowej. podsumowuje Liu