AI Microsoft imită orice voce bazată pe o înregistrare de trei secunde

Microsoft a introdus inteligența artificială VALL-E. Poate genera înregistrări vocale pe baza

trei secunde eșantion. Studiul a constatat că un model antrenat pe mai multe fragmente scurte a generat vorbire în limba engleză care nu se distinge de vocea originală.

Cercetători de la Universitatea Cornella folosit modelul VALL-E pentru a analiza mecanismele de generare a vorbirii. În munca lor, a cărei preprintare este publicată pe serverul arXiv, oamenii de știință examinează o rețea neuronală antrenată pe baza a 60.000 de ore de vorbire engleză. Acesta este de sute de ori mai mult decât analogii existenți.

Cum funcționează AI. Imagine: VALL-E

Analiza a arătat că sistemul are suficientun clip de trei secunde pentru a imita vocea interlocutorului. În același timp, Vall-E este cu mult superior sistemului TTS de astăzi în ceea ce privește vorbirea cu sunet natural și similitudinea vocii. În plus, poate păstra emoțiile vorbitorului și mediul acustic (influența proprietăților acustice ale încăperii în care a fost realizată înregistrarea originală).

Sistemul de generare dezvoltat este încă închis ptacces public, dar cercetătorii au publicat exemple de mostre și fișiere vocale terminate pe site pe Internet. Mostrele de vorbire generată variază în calitate. În timp ce unele sună naturale, altele sună generate de mașini. Autorii dezvoltării notează că formarea suplimentară în voci diferite, inclusiv cu accente diferite, va îmbunătăți calitatea sistemului.

Eșantion de voce umană. Audio: VALL-E

Înregistrare generată care păstrează zgomotul extern. Audio: VALL-E

Cercetătorii observă, de asemenea, că posibilitateagenerarea de voci care sunt identice cu cele originale creează noi provocări de securitate, deoarece poate fi exploatată de fraudatori. Ei cred că înainte ca modelul să fie lansat pe scară largă publicului, trebuie dezvoltat un sistem care să recunoască înregistrările generate de AI.

Citeste mai mult:

Secretul durabilității betonului roman este dezvăluit: poate fi restaurat

Geneticienii au determinat modul în care vârsta concepției la om s-a schimbat în 250.000 de ani

Soarele a deschis anul cu un fulger din cea mai puternică clasă