Okulary wzmocnione AI mogą odczytać mowę z ruchu ust

Stworzono okulary, które potrafią odczytać mowę z ruchu ust. EchoSpeech to technologia, która wykorzystuje czujniki akustyczne i sztuczną inteligencję do ciągłego rozpoznawania do 31 niewymawianych poleceń na podstawie ruchów warg i ust.
Okulary EchoSpeech /Fot. Ruidong Zhang

Okulary EchoSpeech /Fot. Ruidong Zhang

Może się wydawać, że taki gadżet przyda się tylko szpiegom i komentatorom sportowym, którzy chcą dowiedzieć się, o czym rozmawiają piłkarze w podczas meczów (o ile jeszcze nie zakrywają ust). Pozory jednak mylą. Opracowany przez Cornell’s Smart Computer Interfaces for Future Interactions (SciFi) Lab, ubieralny interfejs wymaga tylko kilku minut treningu, zanim będzie w stanie rozpoznać polecenia na podstawie tzw. cichej mowy.

Dla osób, które nie mogą wokalizować dźwięku, ta technologia cichej mowy mogłaby być doskonałym wejściem dla syntezatora głosu. Mogłaby przywrócić pacjentom ich głos! Ruidong Zhang z Uniwersytetu Cornella, twórca EchoSpeech

Okulary Jamesa Bonda

Obecnie EchoSpeech nadaje się do komunikacji z innymi za pomocą smartfona w miejscach, w których głośna rozmowa jest niewygodna lub niewskazana. Wystarczy wymienić np. restaurację lub bibliotekę. Co więcej, interfejs można również sparować z rysikiem i programem CAD, całkowicie eliminując potrzebę używania klawiatury oraz myszy.

Okulary EchoSpeech /Fot. Ruidong Zhang

Okulary EchoSpeech są wyposażone w parę mikrofonów i głośników mniejszych od gumka od ołówka. Wysyłają i odbierają fale dźwiękowe przez twarz i wykrywają ruchy ust. Dzięki zastosowaniu algorytmom AI, system analizuje profile echa w czasie rzeczywistym, z dokładnością rzędu ok. 95 proc.

Warto podkreślić, że większość istniejących technologii w zakresie rozpoznawania cichej mowy jest ograniczona do wybranego zestawu z góry określonych poleceń i wymaga, aby użytkownik stanął na wprost przed kamerą lub nosił ją ze sobą – co nie jest ani praktyczne, ani wykonalne. Istnieją również obawy dotyczące prywatności związane z kamerami noszonymi na ciele.

Czytaj też: Okulary Arges walczą ze skutkami zwyrodnienia plamki żółtej

EchoSpeech wykorzystuje technologię akustyczną, która eliminuje potrzebę noszenia kamer wideo. Ponieważ urządzenia audio są znacznie mniejsze od tych nagrywających wideo, są praktyczniejsze. Czas pracy na baterii także jest niezły i poprawia się wykładniczo – obecnie to ok. 10 godzin. Obecnie trwa badanie możliwości komercjalizacji technologii stojącej za EchoSpeech.