Microsoft AI atdarina jebkuru balsi, pamatojoties uz trīs sekunžu ierakstu

Microsoft ieviesa mākslīgo intelektu VALL-E. Tas var ģenerēt balss ierakstus, pamatojoties uz

trīs sekundes paraugs. Pētījumā atklājās, ka modelis, kas apmācīts uz vairākiem īsiem fragmentiem, ģenerēja runu angļu valodā, kas nebija atšķirama no sākotnējās balss.

Kornela universitātes pētniekiizmantoja VALL-E modeli, lai analizētu runas ģenerēšanas mehānismus. Savā darbā, kura priekšdruka ir publicēta arXiv serverī, zinātnieki pārbauda neironu tīklu, kas apmācīts, pamatojoties uz 60 000 stundu angļu runas. Tas ir simtiem reižu vairāk nekā esošie analogi.

Kā darbojas AI. Attēls: VALL-E

Analīze parādīja, ka sistēmai ir pietiekami daudztrīs sekunžu klips, lai atdarinātu sarunu biedra balsi. Tajā pašā laikā Vall-E ir daudz pārāka par mūsdienu TTS sistēmu dabiskās skaņas runas un balss līdzības ziņā. Turklāt tas var saglabāt runātāja emocijas un akustisko vidi (telpas, kurā tika veikts sākotnējais ieraksts, akustisko īpašību ietekmi).

Izstrādātā paaudzes sistēma joprojām ir slēgtapubliska piekļuve, taču pētnieki paraugu un gatavo balss failu piemērus ir publicējuši vietnē internetā. Ģenerētās runas paraugu kvalitāte atšķiras. Lai gan daži izklausās dabiski, citi izklausās mašīnas radīti. Izstrādes autori atzīmē, ka turpmāka apmācība dažādās balsīs, tostarp ar dažādiem akcentiem, uzlabos sistēmas kvalitāti.

Cilvēka balss paraugs. Audio: VALL-E

Ģenerēts ieraksts, kas saglabā ārējos trokšņus. Audio: VALL-E

Pētnieki arī atzīmē, ka iespējaģenerējot balsis, kas ir identiskas oriģināliem, tiek radīti jauni drošības izaicinājumi, jo to var izmantot krāpnieki. Viņi uzskata, ka pirms modeļa plašas izlaišanas sabiedrībai ir jāizstrādā sistēma, kas atpazīs mākslīgā intelekta radītos ierakstus.

Lasīt vairāk:

Tiek atklāts romiešu betona izturības noslēpums: to var atjaunot

Ģenētiķi ir noskaidrojuši, kā 250 000 gadu laikā ir mainījies cilvēku ieņemšanas vecums

Saule atklāja gadu ar visspēcīgākās klases uzplaiksnījumu