Microsofts AI etterligner enhver stemme basert på et 3-sekunders opptak

Microsoft introduserte kunstig intelligens VALL-E. Den kan generere stemmeopptak basert på

tre sekunders prøve. Studien fant at en modell trent på mange korte utdrag genererte engelsk tale som ikke kunne skilles fra den originale stemmen.

Forskere ved Cornell Universitybrukte ALL-E-modellen for å analysere mekanismene for talegenerering. I arbeidet sitt, hvis fortrykk er publisert på arXiv-serveren, undersøker forskerne et nevralt nettverk som er trent på grunnlag av 60 000 timer engelsk tale. Dette er hundrevis av ganger mer enn eksisterende analoger.

Hvordan AI fungerer. Bilde: VAL-E

Analysen viste at systemet har noket tre sekunders klipp for å imitere stemmen til samtalepartneren. Samtidig er Vall-E langt overlegen dagens TTS-system når det gjelder naturlig klingende tale og stemmelikhet. I tillegg kan det bevare følelsene til høyttaleren og det akustiske miljøet (påvirkningen av de akustiske egenskapene til rommet der originalopptaket ble gjort).

Det utviklede generasjonssystemet er fortsatt stengt foroffentlig tilgang, men forskerne har publisert eksempler på prøver og ferdige stemmefiler på nettstedet på Internett. Eksempler på generert tale varierer i kvalitet. Mens noen høres naturlig ut, høres andre maskingenerert ut. Forfatterne av utviklingen bemerker at videre opplæring i forskjellige stemmer, inkludert med forskjellige aksenter, vil forbedre kvaliteten på systemet.

Menneskelig stemmeprøve. Lyd: VAL-E

Generert opptak som bevarer ekstern støy. Lyd: VAL-E

Forskerne bemerker også at mulighetenå generere stemmer som er identiske med originalene skaper nye sikkerhetsutfordringer ettersom det kan utnyttes av svindlere. De mener at før modellen blir bredt utgitt for offentligheten, må det utvikles et system som vil gjenkjenne AI-genererte poster.

Les mer:

Hemmeligheten bak holdbarheten til romersk betong blir avslørt: den kan gjenopprettes

Genetikere har bestemt hvordan unnfangelsesalderen hos mennesker har endret seg over 250 000 år

Solen åpnet året med et glimt av kraftigste klasse

Geek Tech Online

Alt om teknologi og gadgets

Microsofts AI imiterer enhver stemme basert på et tre sekunders opptak