Microsoft představil umělou inteligenci VALL-E. Dokáže generovat hlasové nahrávky na základě
Vědci z Cornell Universitypoužil model VALL-E k analýze mechanismů generování řeči. Ve své práci, jejíž předtisk je zveřejněn na serveru arXiv, vědci zkoumají neuronovou síť natrénovanou na základě 60 000 hodin anglické řeči. To je stokrát více než u stávajících analogů.
Jak funguje AI. Obrázek: VALL-E
Analýza ukázala, že toho má systém dosttřísekundový klip k napodobení hlasu partnera. Vall-E zároveň daleko předčí dnešní systém TTS, pokud jde o přirozeně znějící řeč a podobnost hlasu. Navíc dokáže zachovat emoce mluvčího a akustické prostředí (vliv akustických vlastností místnosti, ve které byla originální nahrávka pořízena).
Vyvinutý generační systém je stále uzavřen propřístup veřejnosti, ale výzkumníci zveřejnili příklady vzorků a hotových hlasových souborů na webu na internetu. Ukázky generované řeči se liší kvalitou. Zatímco některé znějí přirozeně, jiné znějí strojově. Autoři vývoje poznamenávají, že další školení v různých hlasech, včetně s různými akcenty, zlepší kvalitu systému.
Ukázka lidského hlasu. Zvuk: VALL-E
Generovaný záznam, který zachovává vnější šum. Zvuk: VALL-E
Vědci také poznamenávají, že možnostgenerování hlasů, které jsou identické s originály, vytváří nové bezpečnostní výzvy, protože je mohou zneužít podvodníci. Domnívají se, že než bude model široce zveřejněn, je třeba vyvinout systém, který bude rozpoznávat záznamy generované AI.
Přečtěte si více:
Tajemství trvanlivosti římského betonu je odhaleno: lze jej obnovit
Genetici zjistili, jak se za 250 000 let změnil věk početí u lidí
Slunce otevřelo rok zábleskem nejvýkonnější třídy