AI se naučil obnovit píseň z hudebního videa

Vědci z MIT představili systém umělé inteligence (AI) Foley Music, který generuje hudbu na základě

video bez zvuku hudebníků hrajících na nástroje. Říká se, že model pracuje s různými hudebními nástroji a předčí několik stávajících systémů z hlediska rychlosti a kvality práce.

Vědci se domnívají, že model AIvytváří hudbu na základě lidských pohybů, může se stát základem pro několik aplikací - od automatického přidávání zvukových efektů k videím až po vytváření pohlcujících zážitků ve virtuální realitě. Vědci poznamenávají, že lidé mají také tuto dovednost - například když rozumějí řeči člověka rty.

Foley Music upozorňuje na klíčové bodytělo (25 bodů) a prsty (20 bodů) jako mezilehlé vizuální kotevní body, které používá k modelování pohybů těla a rukou. Systém poté převede tyto pohyby na noty, přičemž vezme v úvahu hlasitost. Může tedy hrát na akordeon, basovou kytaru, fagot, violoncello, kytaru, klavír, ukulelele a další nástroje.

V průběhu experimentů vědci vyškolili FoleyhoHudba do tří datových sad obsahujících tisíc hudebních videoklipů v 11 kategoriích. Mohli tedy sestavit soubor videí s různou složitostí - pokyny z webu AtinPiano, amatérská videa z kanálů YouTube, výňatky z koncertů a další údaje.

Vědci nahráli Foley Music 450video. Potom dali výslednou hudbu vědcům, kteří výsledek vyhodnotili. V některých případech poznamenali, že „hudba je jako obal od kvalitní kapely.“

Odborníci zjistili, že generovanou hudbu Foley Music je obtížné odlišit od skutečných nahrávek. Navíc může AI zlepšit kvalitu zvuku, sémantické zarovnání a načasování.

Viz také:

— Podívejte se na 3D mapu vesmíru: její sestavení trvalo 20 let a už vědce překvapila

— V Rusku je vidět kometa NEOWISE. Kde to vidět, kam se podívat a jak fotit

— Směrem k Zemi letí tři asteroidy a jeden z nich je potenciálně nebezpečný. Existuje nějaká hrozba?