A mesterséges intelligencia szemüvege megtanította „olvasni az ajkakon” fényképezőgép használata nélkül

Исследователи из Корнельского университета разработали интерфейс EchoSpeech для распознавания тихой речи,

который использует акустическое восприятие и искусственный интеллект для непрерывного распознавания до 31 невокализованной команды на основе движений губ и рта. Обработка информации осуществляется локально на смартфоне, что обеспечивает конфиденциальность данных.

Очки EchoSpeech оснащены парой микрофонов и динамиков, размер которых меньше ластика на конце карандаша, и не используют камеру. Устройство отправляет и улавливает акустические волны, которые показывают изменения динамики лицевых мышц и рта. Алгоритм глубокого обучения анализирует эти эхо-профили в режиме реального времени с точностью около 95%.

Hogyan működik az EchoSpeech. Kép: Ruidong Zhang et al.

A fogadott adatokat Bluetooth-on keresztül továbbítják a következőrevalós időben az okostelefonon, feldolgozzák és helyben tárolják az eszközön. A fejlesztők arról számolnak be, hogy az EchoSpeech néhány percet vesz igénybe, hogy egy adott felhasználó számára betanuljon.

Azok számára, akik nem tudnak beszélni, ez a csendes beszéd technológia nagyszerű hangszintetizátor lehet. Visszaadhatja a hangjukat a betegeknek.

Ruidong Zhang, a fejlesztés társszerzője

A legtöbb csendes beszédfelismerő technológiaelőre meghatározott parancsok meghatározott készletére korlátozódnak, és megkövetelik, hogy a felhasználó és a beszélgetőpartner belenézzen vagy viselje a kamerát. Ez jelentősen megnehezíti az ilyen eszközök használatának lehetőségét. Ezenkívül a nagy adatfolyamok felhőben történő feldolgozást igényelnek, ami sérti a felhasználók adatait.

Jelenlegi formájában az EchoSpeech képesHasználja, hogy okostelefonján keresztül kommunikáljon másokkal olyan helyeken, ahol a beszéd kényelmetlen vagy nem megfelelő, például egy zajos étteremben vagy egy csendes könyvtárban. A néma beszéd interfész egy ceruzával és tervezőszoftverrel, például CAD-del is párosítható, így gyakorlatilag nincs szükség billentyűzetre és egérre – teszik hozzá a fejlesztők.

Olvass tovább:

A tudósok rájöttek a Földhöz hasonló bolygóról érkező furcsa rádiójelek természetére

Vörös glória lobbant fel Olaszország felett. Most megmagyarázták a természetét

Webb megtalálta a világegyetem legrégebbi fekete lyukát

Geek Tech Online

Minden a technológiáról és a modulokról

Az AI-szemüvegek megtanítottak „olvasni az ajkakon” kamera használata nélkül