Die KI von Microsoft imitiert jede Stimme basierend auf einer dreisekündigen Aufnahme

Microsoft hat die künstliche Intelligenz VALL-E eingeführt. Es können Sprachaufzeichnungen basierend darauf erstellt werden

Drei-Sekunden-Probe. Die Studie ergab, dass ein auf vielen kurzen Auszügen trainiertes Modell eine englische Sprache erzeugte, die nicht von der Originalstimme zu unterscheiden war.

Forscher an der Cornell Universityverwendeten das VALL-E-Modell, um die Mechanismen der Spracherzeugung zu analysieren. In ihrer Arbeit, deren Preprint auf dem arXiv-Server veröffentlicht wird, untersuchen die Wissenschaftler ein neuronales Netz, das auf der Grundlage von 60.000 Stunden englischer Sprache trainiert wurde. Dies ist hundertmal mehr als bestehende Analoga.

Wie KI funktioniert. Bild: VALL-E

Die Analyse zeigte, dass das System genug hatein dreisekündiger Clip, um die Stimme des Gesprächspartners zu imitieren. Gleichzeitig ist Vall-E dem heutigen TTS-System in Bezug auf natürlich klingende Sprache und Stimmähnlichkeit weit überlegen. Darüber hinaus kann es die Emotionen des Sprechers und die akustische Umgebung (den Einfluss der akustischen Eigenschaften des Raums, in dem die Originalaufnahme gemacht wurde) bewahren.

Das entwickelte Erzeugungssystem ist noch geschlossenöffentlich zugänglich, aber die Forscher haben Beispiele von Proben und fertigen Sprachdateien auf der Website im Internet veröffentlicht. Proben von generierter Sprache variieren in der Qualität. Während einige natürlich klingen, klingen andere maschinell erzeugt. Die Autoren der Entwicklung merken an, dass die Weiterbildung in verschiedenen Stimmen, auch mit unterschiedlichen Akzenten, die Qualität des Systems verbessern wird.

Beispiel einer menschlichen Stimme. Audio: VALL-E

Generierte Aufnahme, die externes Rauschen bewahrt. Audio: VALL-E

Die Forscher weisen auch darauf hin, dass die MöglichkeitDie Generierung von Stimmen, die mit den Originalen identisch sind, schafft neue Sicherheitsherausforderungen, da sie von Betrügern ausgenutzt werden können. Sie glauben, dass, bevor das Modell der Öffentlichkeit zugänglich gemacht wird, ein System entwickelt werden muss, das KI-generierte Aufzeichnungen erkennt.

Weiter lesen:

Das Geheimnis der Dauerhaftigkeit von römischem Beton ist gelüftet: Er lässt sich restaurieren

Genetiker haben festgestellt, wie sich das Alter der Empfängnis beim Menschen über 250.000 Jahre verändert hat

Die Sonne eröffnete das Jahr mit einem Blitz der stärksten Klasse