ІІ навчився відновлювати пісню з музичного відео

Вчені з MIT представили систему штучного інтелекту (ІІ) Foley Music, яка генерує музику на основі

відео без звуку, де музики грають на інструментах. Вони кажуть, що модель працює з різними музичними інструментами та перевершує кілька існуючих систем за швидкістю та якістю роботи.

Дослідники вважають, що модель ІІ, якастворює музику на основі рухів людини, може стати основою для декількох додатків - від автоматичного додавання звукових ефектів в відео до створення імерсивні вражень у віртуальній реальності. Дослідники відзначають, що таким навиком володіють і люди - наприклад, коли розуміють мову людини по губах.

Foley Music звертає увагу на ключові точкитіла (25 точок) і пальці (20 точок) як проміжні візуальні опорні точки, які вона використовує для моделювання рухів тіла і рук. Після цього система переводить ці рухи в музичні ноти, враховуючи гучність. Так вона може відтворити акордеон, бас-гітару, фагот, віолончель, гітару, фортепіано, укулелеле і інші інструменти.

В ході експериментів дослідники навчили FoleyMusic трьом наборам даних, що містить тисячу відеокліпів з музичними виконаннями, що відносяться до 11 категоріям. Так вони змогли зібрати корпус відео різної складності - інструкції з сайту AtinPiano, аматорські відео з каналів на YouTube, уривки з концертів та інші дані.

Дослідники завантажили в систему Foley Music 450відео. Потім вони віддали отриману музику вченим, які оцінювали результат. У деяких випадках вони відзначали, що «музика схожа на кавер від якісної групи».

Експерти виявили, що згенерувала музику Foley Music важко відрізнити від реальних записів. Більш того, ІІ може поліпшити якість звуку, семантичне вирівнювання і тимчасову синхронізацію.

Читайте також:

— Погляньте на 3D-карту Всесвіту: її становили 20 років і вона вже здивувала вчених

- Комета NEOWISE видно в Росії. Де її побачити, куди дивитися та як зробити фото

— Три астероїди летять до Землі, і один з них потенційно небезпечний. Чи є загроза?