Microsoft a introdus inteligența artificială VALL-E. Poate genera înregistrări vocale pe baza
Cercetători de la Universitatea Cornella folosit modelul VALL-E pentru a analiza mecanismele de generare a vorbirii. În munca lor, a cărei preprintare este publicată pe serverul arXiv, oamenii de știință examinează o rețea neuronală antrenată pe baza a 60.000 de ore de vorbire engleză. Acesta este de sute de ori mai mult decât analogii existenți.
Cum funcționează AI. Imagine: VALL-E
Analiza a arătat că sistemul are suficientun clip de trei secunde pentru a imita vocea interlocutorului. În același timp, Vall-E este cu mult superior sistemului TTS de astăzi în ceea ce privește vorbirea cu sunet natural și similitudinea vocii. În plus, poate păstra emoțiile vorbitorului și mediul acustic (influența proprietăților acustice ale încăperii în care a fost realizată înregistrarea originală).
Sistemul de generare dezvoltat este încă închis ptacces public, dar cercetătorii au publicat exemple de mostre și fișiere vocale terminate pe site pe Internet. Mostrele de vorbire generată variază în calitate. În timp ce unele sună naturale, altele sună generate de mașini. Autorii dezvoltării notează că formarea suplimentară în voci diferite, inclusiv cu accente diferite, va îmbunătăți calitatea sistemului.
Eșantion de voce umană. Audio: VALL-E
Înregistrare generată care păstrează zgomotul extern. Audio: VALL-E
Cercetătorii observă, de asemenea, că posibilitateagenerarea de voci care sunt identice cu cele originale creează noi provocări de securitate, deoarece poate fi exploatată de fraudatori. Ei cred că înainte ca modelul să fie lansat pe scară largă publicului, trebuie dezvoltat un sistem care să recunoască înregistrările generate de AI.
Citeste mai mult:
Secretul durabilității betonului roman este dezvăluit: poate fi restaurat
Geneticienii au determinat modul în care vârsta concepției la om s-a schimbat în 250.000 de ani
Soarele a deschis anul cu un fulger din cea mai puternică clasă