Розробники з Facebook AI та ще з 13 університетів створили найоб'ємніший датасет відеороликів, які знято
У зборі даних брали участь 855 добровольців із 74міст та 9 країн. Вони знімали ролики за допомогою камери та розумних окулярів. Під час зйомки учасники займалися повсякденними справами: готували їжу, вибирали продукти у магазині, спілкувалися з іншими людьми. Загальна довжина записів склала 3025 годин.
Для кожного окремого ролика є опис того,що у ньому відбувається. Також для частини відео є й інші докладні дані про звук, тривимірну модель приміщення, напрям погляду, а також стереоскопічні кадри, зняті стереокамерою, що носиться з однієї людини, і набір синхронізованих роликів, зроблених різними людьми в одному місці і в один час, наприклад, в час настільної гри.
Також на зібраних даних можна навчитися конкретним навичкам, для цього було створено спеціальні тематичні модулі:
- Для навчання епізодичної пам'яті, коли алгоритм повинен відповісти на питання про події, що відбулися, наприклад, у скільки в мене був учора прийом у лікаря.
- Пророцтво майбутніх дій, наприклад, не забути посолити страву або прибрати речі з пральної машинки.
- Розуміння того, що робить людина та як рухаються об'єкти у кадрі.
- Відстеження розмови та розуміння того, хто що сказав у розмові.
- Аналіз взаємодії між людьми, зокрема, розуміння, що на носія камери дивляться або до нього звертаються.
Автори планують до кінця листопада 2021 опублікувати датасет, його можна буде отримати після того, як користувач підпише ліцензійну угоду.
Читати далі
Хокінг мав рацію, але іноді помилявся: найсміливіші ідеї вченого
Астрономи з'ясували, що Земля і Сонячна система знаходяться в гігантському магнітному тунелі
Замерзлий мамонт і людина в «асфальті»: як природа зупиняє час