Wir haben gelernt, die Gebärdensprache in Videoanrufen zu identifizieren

Forscher haben ein Echtzeit-Erkennungssystem für Gebärdensprache vorgestellt. Sie kann sagen, wann

der Gesprächspartner versucht etwas zu sagen oder einfach nurbewegt Körper, Kopf, Arme. Wissenschaftler stellen fest, dass diese Aufgabe für den Menschen einfach erscheinen mag, aber zuvor war ein solches System in keinem der Videoanrufdienste verfügbar – sie alle reagieren auf jedes Geräusch oder jede menschliche Geste.

Neue Entwicklungen von Google-Forschern sind dazu in der LageTun Sie dies mit großer Effizienz und geringer Latenz. Während die Forscher feststellen, dass die Erkennung der Gebärdensprache zu einer Verzögerung oder einer Verschlechterung der Videoqualität führt, kann dieses Problem gelöst werden, und das Modell selbst bleibt leicht und zuverlässig.

Das System führt das Video zunächst durch das Modell untergenannt PoseNet, das die Position des Körpers und der Gliedmaßen in jedem Frame bewertet. Vereinfachte visuelle Informationen werden an ein Modell gesendet, das darauf trainiert ist, Daten aus Videos von Personen in Gebärdensprache zu positionieren, und vergleicht das Bild damit, wie Personen normalerweise bestimmte Wörter anzeigen.

Das Modell identifiziert Wörter und Ausdrücke korrekt mit80% Genauigkeit und mit zusätzlicher Optimierung können 91,5% erreicht werden. In Anbetracht der Tatsache, dass sich die Erkennung eines "aktiven Sprechers" in den meisten Diensten verzögert, glauben die Forscher, dass dies sehr hohe Zahlen sind.

Siehe auch:

Es ist möglich, einen thermonuklearen Reaktor auf der Erde zu schaffen. Was werden die Konsequenzen sein?

Der Doomsday-Gletscher erwies sich als gefährlicher als Wissenschaftler dachten. Wir erzählen die Hauptsache

Am dritten Krankheitstag verlieren die meisten COVID-19-Patienten ihren Geruchssinn und leiden häufig an einer laufenden Nase