Microsoft har introducerat artificiell intelligensVALL-E.generera röstinspelningar baserat på
Forskare vid Cornell Universityanvände ALL-E-modellen för att analysera mekanismerna för talgenerering. I sitt arbete, vars förtryck publiceras på arXiv-servern, undersöker forskarna ett neuralt nätverk som tränats på basis av 60 000 timmar engelskt tal. Detta är hundratals gånger mer än befintliga analoger.
Hur AI fungerar. Bild: VAL-E
Analysen visade att systemet har tillräckligtett tre sekunder långt klipp för att imitera samtalspartnerns röst. Samtidigt är Vall-E vida överlägsen dagens TTS-system när det gäller naturligt klingande tal och röstlikhet. Dessutom kan den bevara talarens känslor och den akustiska miljön (påverkan av de akustiska egenskaperna i rummet där den ursprungliga inspelningen gjordes).
Det utvecklade generationssystemet är fortfarande stängt förallmänhetens tillgång, men forskarna har publicerat exempel på prover och färdiga röstfiler på sajten på Internet. Prover på genererat tal varierar i kvalitet. Medan vissa låter naturligt låter andra maskingenererade. Författarna till utvecklingen noterar att vidareutbildning i olika röster, inklusive med olika accenter, kommer att förbättra systemets kvalitet.
Mänskligt röstprov. Ljud: VAL-E
Genererad inspelning som bevarar externt brus. Ljud: VAL-E
Forskarna noterar också att möjlighetenatt generera röster som är identiska med originalen skapar nya säkerhetsutmaningar eftersom det kan utnyttjas av bedragare. De tror att innan modellen släpps allmänt till allmänheten måste ett system utvecklas som kommer att känna igen AI-genererade poster.
Läs mer:
Hemligheten med hållbarheten hos romersk betong avslöjas: den kan återställas
Genetiker har bestämt hur befruktningsåldern hos människor har förändrats under 250 000 år
Solen öppnade året med en blixt av mäktigaste klass