Величезні датасети не потрібні
Історія машинного навчання розпочалася на зорі XX століття. За цей час моделі пройшли
Яким би не було завдання моделі, її мета- передбачити результат за вхідними даними. Чим різноманітніший датасет (набір даних, які «годують» моделі), тим алгоритму простіше знайти закономірності, а отже, точніше результат на виході.
Для роботи моделі потрібно два основні компоненти:дані та алгоритм. Під даними мається на увазі вже розмічена інформація, де кожному прикладу вхідних даних (наприклад, фотографії вулиці, на яких є пішоходи), поставлений очікуваний результат роботи нейромережі (контури фігур пішоходів, які повинна виділити нейромережа).
Нині у світі машинного навчання домінуєпідхід, орієнтований на саму модель, тому ML-інженери витрачають багато часу на алгоритми - другий важливий компонент роботи моделі. Від вибору алгоритму залежить швидкість та точність роботи. Але, незважаючи на те, що цей підхід простіший і цікавіший для інженерів, не варто забувати про простий принцип garbage in, garbage out. Якщо зібрані дані не є репрезентативними, ніякі алгоритмічні хитрощі не допоможуть покращити якість роботи моделі. Тому фокус інженерів поступово зміщується на дані.
ML-інженери все частіше дивляться убікdata-centric AI, ідея якого зібрати менше даних, але якісніших. Це ефективніше: відпрацювання алгоритмів дає покращення роботи моделі на 0-10%, а робота з якістю даних - на 10-30%.
Все починається з даних.
В ідеальному світі компанія, яка використовуєтехнології машинного навчання дотримується культури збору даних. Але зі збору даних все лише починається. Далі йде трудомісткий та дорогий процес розмітки. Наслідуючи концепцію Data-driven AI, ML-інженери можуть досягти набагато більш високих результатів роботи моделі в порівнянні з розміткою даних «якнайдешевше». Ось основні засади цього підходу:
- Якісні гайдлайни за розміткою
Можна подумати:навіщо формалізувати кожен пункт процесу постановки та розв'язання задачі, коли її можна сформулювати однією пропозицією. Припустимо, йдеться про розмітку даних для автопілота, вона може звучати так: "Виділіть всіх пішоходів на фотографіях". Але анотатори швидко зустрінуть неоднозначні кейси — чи виділяти велосипедиста, людину на самокаті чи пасажира у відкритому кузові як пішохода? Кожен анотатор прийде до відповіді сам, але він буде різним і зруйнує однорідність даних. Тому потрібно заносити всі складні приклади до бази даних, куди анотатори, у разі складнощів, можуть звернутися. Але щоб такий документ з'явився — потрібний зворотний зв'язок від анотаторів.
- Зворотній зв'язок
База даних не може з'явитися з нізвідки.Для цього потрібні дві умови: культура поваги до зворотного зв'язку анотаторів та відповідальні за підтримку цієї бази в актуальному стані співробітники. Як правило, це найдосвідченіший з розмітників або сам дата-саєнтіст.
Ресурси потрібно підключати в міру утворення ядра команди, яке відчуває всю відповідальність та важливість процесу, допомагають новачкам включитися до нього.
База даних не може з'явитися з нізвідки
- Крос-перевірки
У компанії найчастіше працює більше одногоанотатора з різними рівнями кваліфікації. Тому той самий набір даних можна розмітити по-різному. Тож результати роботи треба періодично перевіряти. Це дасть розуміння, де фахівці стикаються зі складнощами, які варто занести до бази даних — це зменшить фактор людської помилки.
- Пропуск даних через дата-саєніста
Перш ніж віддати анотаторам дані для розмітки, корисно, щоб дата-саентист сам поринув у дані та розмітив перші кілька сотень прикладів. Це дозволить зрозуміти, наскільки завдання вирішуване для моделі.
Хоча поділ праці привабливий з точкизору вартості роботи, не слід чекати від анотаторів такого ж рівня роботи з даними, як від дата-саентистів — розмітники не можуть і не повинні виявляти проблем машинного навчання.
Якщо працювати доводиться зі специфічнимиданими, потрібні знання у галузі. Наприклад, якщо алгоритм повинен розпізнавати рентгенівські знімки з пухлиною, правильно навчити модель можна лише у випадку, якщо живі фахівці впевнені, що у кожному зазначеному фрагменті є новоутворення, а шлюб знімка.
- Прикордонні приклади важливі
Головний принцип ручної розмітки - вона повиннабути інтелектуальною. У процесі навчання нейромережа можна припустити, про які приклади в тренувальній вибірці вона швидше за все спіткнеться. Їх краще віддати на ручну розмітку, це підвищить якість роботи моделі більше мільйонів розмічених прикладів, тренуючись на яких модель і так не помилиться.
- Аугментація чи синтетика даних
Якщо даних мало або розмітка зібраних данихнадто дорога – можна розмножити їх. Наприклад, якщо дані текстові, одні й самі користувацькі звернення можна перефразувати. Якщо це зображення, можна змінювати яскравість, вирізати і перевертати частину картинок.
У збільшенні кількості даних є й іншийпідхід – синтезувати їх. Але такі дані не завжди можуть замінити реальні, особливо якщо нейромережа видає однотипні чи ідеалізовані дані. У цьому випадку можна використовувати синтетичні дані лише на певних етапах роботи моделі.
Від теорії до практики
- Соціальні мережі
Щоб убезпечити користувачів та захистити їх віднегативу, найбільші соцмережі інтегрують детектор токсичного контенту з урахуванням машинного навчання. У процесі роботи головною проблемою стає не підбір моделі, а збирання та аналіз даних. Проблема в тому, що токсичного контенту менше, ніж звичайного, тому команді потрібно зібрати базу такого контенту на платформі, що без алгоритму не можна зробити. Тому на збір даних йде до 90% часу дата-саентистів. Натомість підвищується якість роботи фінальної моделі.
- Онлайн-рітейл
При тренуванні моделі, яка перетворює рецепту список покупок на основі 2 млн прикладів модель передбачувано показувала якість у 97%. На масштабі модель працювала чудово, але у разі конкретного рітейлера, з нетиповими продуктами якість різко падала до неприйнятних 70%. Для вирішення цієї проблеми команда анотаторів сфокусувалася на тому, щоб нові дані не губилися на тлі відпрацьованого датасету. Моделі було достатньо дотренуватися на кілька тисяч прикладів і якість знову зросла до 97%.
ІІ допомагає і в рітейлі, причому не тільки підбираючи кращі товари
- Конвеєрне виробництво
Компанія, яка використовувала штучний інтелектдля виявлення дефектів деталей на конвеєрній стрічці отримала 90% точності роботи моделі після початкової роботи з даними. Але такі показники не дотягували вимог клієнта.
Намагаючись покращити роботу моделі, ML-інженери«полірували» роботу алгоритмів, не працюючи з даними, що покращило результат лише на 0,4%. Після повторного аналізу даних, очищення датасету від неякісно розмічених прикладів та дорозмітки новонабраних даних, результат підвищився на 8%.
- Рекомендаційна система
Рекомендаційна система додатків рецептівстабільно показувала низький показник кліків – 5%. Робота з алгоритмами не допомагала, а аналіз даних вказував на те, що клієнти, чиї дані використовували для тренування моделі, в основному були вегетаріанцями, а загальна маса користувачів переважно їли м'ясо. Система, заточена на вегетаріанців, погано вловлювала інтереси інших і була сильно схильна до впливу переваг користувачів-вегетаріанців. Балансування тренувальних даних покращило конверсію до 11%.
У минулому сфера штучного інтелекту вздебільшого фокусувалася на великих даних - навчання проводилося на великому датасеті. Незважаючи на те, що у створенні таких моделей все ще є прогрес, фокус поступово зміщується на малі дані та роботу з ними. Це розширює вхідний поріг в область ІІ - вже зараз складні рішення можна створити навіть з невеликою кількістю даних.
Читати далі:
Чорна діра у Галактиці підтвердила правоту Ейнштейна. Головне
Космос руйнує кістки та змінює їхню структуру: вчені не знають, як люди полетять на Марс
Астрономи знайшли планети, які відрізняються від Землі, але придатні для життя