Τα γυαλιά AI έμαθαν να «διαβάζουν τα χείλη» χωρίς να χρησιμοποιούν κάμερα

Ερευνητές στο Πανεπιστήμιο του Κορνέλ ανέπτυξαν μια διεπαφή EchoSpeech για την αναγνώριση της ήσυχης ομιλίας.

που χρησιμοποιεί ακουστική αντίληψη καιτεχνητή νοημοσύνη για συνεχή αναγνώριση έως και 31 μη φωνητικών εντολών με βάση τις κινήσεις των χειλιών και του στόματος. Η επεξεργασία πληροφοριών πραγματοποιείται τοπικά στο smartphone, γεγονός που διασφαλίζει την εμπιστευτικότητα των δεδομένων.

Τα γυαλιά EchoSpeech είναι εξοπλισμένα με ένα ζευγάρι μικρόφωνα καιηχεία που είναι μικρότερα από τη γόμα στην άκρη ενός μολυβιού και δεν χρησιμοποιούν κάμερα. Η συσκευή στέλνει και λαμβάνει ακουστικά κύματα που υποδεικνύουν αλλαγές στη δυναμική των μυών του προσώπου και του στόματος. Ένας αλγόριθμος βαθιάς μάθησης αναλύει αυτά τα προφίλ ηχούς σε πραγματικό χρόνο με ακρίβεια περίπου 95%. 

Πώς λειτουργεί το EchoSpeech. Εικόνα: Ruidong Zhang et al.

Τα ληφθέντα δεδομένα μεταδίδονται μέσω Bluetooth σεσε πραγματικό χρόνο στο smartphone, επεξεργάζονται και αποθηκεύονται τοπικά στη συσκευή. Οι προγραμματιστές αναφέρουν ότι το EchoSpeech χρειάζεται λίγα λεπτά για να εκπαιδευτεί για έναν συγκεκριμένο χρήστη.

Για άτομα που δεν μπορούν να μιλήσουν, αυτή η τεχνολογία βουβής ομιλίας μπορεί να είναι μια εξαιρετική συσκευή σύνθεσης φωνής. Μπορεί να δώσει στους ασθενείς τη φωνή τους πίσω.

Ruidong Zhang, συν-συγγραφέας της ανάπτυξης

Οι περισσότερες αθόρυβες τεχνολογίες αναγνώρισης ομιλίαςπεριορίζονται σε ένα επιλεγμένο σύνολο προκαθορισμένων εντολών και απαιτούν από τον χρήστη και το άτομο με το οποίο συνομιλούν να κοιτάξουν ή να φορέσουν την κάμερα. Αυτό περιπλέκει σημαντικά τη δυνατότητα χρήσης τέτοιων συσκευών. Επιπλέον, μια μεγάλη ροή δεδομένων απαιτεί επεξεργασία στο cloud, γεγονός που παραβιάζει το απόρρητο των χρηστών.

Στην τρέχουσα μορφή του, το EchoSpeech μπορείχρησιμοποιήστε το για να επικοινωνείτε με άλλους μέσω του smartphone σας σε μέρη όπου η ομιλία είναι άβολη ή ακατάλληλη, όπως σε ένα θορυβώδες εστιατόριο ή μια ήσυχη βιβλιοθήκη. Η διεπαφή αθόρυβης ομιλίας μπορεί επίσης να συνδυαστεί με γραφίδα και λογισμικό σχεδίασης όπως το CAD, εξαλείφοντας ουσιαστικά την ανάγκη για πληκτρολόγιο και ποντίκι, προσθέτουν οι προγραμματιστές.

Διαβάστε περισσότερα:

Οι επιστήμονες έχουν καταλάβει τη φύση των παράξενων ραδιοφωνικών σημάτων από έναν πλανήτη παρόμοιο με τη Γη

Ένα κόκκινο φωτοστέφανο φούντωσε πάνω από την Ιταλία. Τώρα έχει εξηγηθεί η φύση του

Ο Γουέμπ βρήκε την αρχαιότερη μαύρη τρύπα στο σύμπαν