Фільтрація контенту та постановка діагнозів: як ІІ вчать складним завданням без даних

Величезні датасети не потрібні

Історія машинного навчання розпочалася на зорі XX століття. За цей час моделі пройшли

шлях від простих алгоритмів, які вмілифільтрувати листи та знаходити шкідливі програми, до інтелектуального аналізу даних, здатних передбачити розвиток хвороби у пацієнтів та перемогти шахістів світового класу.

Яким би не було завдання моделі, її мета- передбачити результат за вхідними даними. Чим різноманітніший датасет (набір даних, які «годують» моделі), тим алгоритму простіше знайти закономірності, а отже, точніше результат на виході.

Для роботи моделі потрібно два основні компоненти:дані та алгоритм. Під даними мається на увазі вже розмічена інформація, де кожному прикладу вхідних даних (наприклад, фотографії вулиці, на яких є пішоходи), поставлений очікуваний результат роботи нейромережі (контури фігур пішоходів, які повинна виділити нейромережа).

Нині у світі машинного навчання домінуєпідхід, орієнтований на саму модель, тому ML-інженери витрачають багато часу на алгоритми - другий важливий компонент роботи моделі. Від вибору алгоритму залежить швидкість та точність роботи. Але, незважаючи на те, що цей підхід простіший і цікавіший для інженерів, не варто забувати про простий принцип garbage in, garbage out. Якщо зібрані дані не є репрезентативними, ніякі алгоритмічні хитрощі не допоможуть покращити якість роботи моделі. Тому фокус інженерів поступово зміщується на дані.

ML-інженери все частіше дивляться убікdata-centric AI, ідея якого зібрати менше даних, але якісніших. Це ефективніше: відпрацювання алгоритмів дає покращення роботи моделі на 0-10%, а робота з якістю даних - на 10-30%.

Все починається з даних.

В ідеальному світі компанія, яка використовуєтехнології машинного навчання дотримується культури збору даних. Але зі збору даних все лише починається. Далі йде трудомісткий та дорогий процес розмітки. Наслідуючи концепцію Data-driven AI, ML-інженери можуть досягти набагато більш високих результатів роботи моделі в порівнянні з розміткою даних «якнайдешевше». Ось основні засади цього підходу:

Якісні гайдлайни за розміткою

Можна подумати:навіщо формалізувати кожен пункт процесу постановки та розв'язання задачі, коли її можна сформулювати однією пропозицією. Припустимо, йдеться про розмітку даних для автопілота, вона може звучати так: "Виділіть всіх пішоходів на фотографіях". Але анотатори швидко зустрінуть неоднозначні кейси — чи виділяти велосипедиста, людину на самокаті чи пасажира у відкритому кузові як пішохода? Кожен анотатор прийде до відповіді сам, але він буде різним і зруйнує однорідність даних. Тому потрібно заносити всі складні приклади до бази даних, куди анотатори, у разі складнощів, можуть звернутися. Але щоб такий документ з'явився — потрібний зворотний зв'язок від анотаторів.

Зворотній зв'язок

База даних не може з'явитися з нізвідки.Для цього потрібні дві умови: культура поваги до зворотного зв'язку анотаторів та відповідальні за підтримку цієї бази в актуальному стані співробітники. Як правило, це найдосвідченіший з розмітників або сам дата-саєнтіст. 

Ресурси потрібно підключати в міру утворення ядра команди, яке відчуває всю відповідальність та важливість процесу, допомагають новачкам включитися до нього.

База даних не може з'явитися з нізвідки

Крос-перевірки

У компанії найчастіше працює більше одногоанотатора з різними рівнями кваліфікації. Тому той самий набір даних можна розмітити по-різному. Тож результати роботи треба періодично перевіряти. Це дасть розуміння, де фахівці стикаються зі складнощами, які варто занести до бази даних — це зменшить фактор людської помилки.

Пропуск даних через дата-саєніста

Перш ніж віддати анотаторам дані для розмітки, корисно, щоб дата-саентист сам поринув у дані та розмітив перші кілька сотень прикладів. Це дозволить зрозуміти, наскільки завдання вирішуване для моделі.

Хоча поділ праці привабливий з точкизору вартості роботи, не слід чекати від анотаторів такого ж рівня роботи з даними, як від дата-саентистів — розмітники не можуть і не повинні виявляти проблем машинного навчання.

Якщо працювати доводиться зі специфічнимиданими, потрібні знання у галузі. Наприклад, якщо алгоритм повинен розпізнавати рентгенівські знімки з пухлиною, правильно навчити модель можна лише у випадку, якщо живі фахівці впевнені, що у кожному зазначеному фрагменті є новоутворення, а шлюб знімка.

Прикордонні приклади важливі

Головний принцип ручної розмітки - вона повиннабути інтелектуальною. У процесі навчання нейромережа можна припустити, про які приклади в тренувальній вибірці вона швидше за все спіткнеться. Їх краще віддати на ручну розмітку, це підвищить якість роботи моделі більше мільйонів розмічених прикладів, тренуючись на яких модель і так не помилиться.

Аугментація чи синтетика даних

Якщо даних мало або розмітка зібраних данихнадто дорога – можна розмножити їх. Наприклад, якщо дані текстові, одні й самі користувацькі звернення можна перефразувати. Якщо це зображення, можна змінювати яскравість, вирізати і перевертати частину картинок.

У збільшенні кількості даних є й іншийпідхід – синтезувати їх. Але такі дані не завжди можуть замінити реальні, особливо якщо нейромережа видає однотипні чи ідеалізовані дані. У цьому випадку можна використовувати синтетичні дані лише на певних етапах роботи моделі.

Від теорії до практики

Соціальні мережі

Щоб убезпечити користувачів та захистити їх віднегативу, найбільші соцмережі інтегрують детектор токсичного контенту з урахуванням машинного навчання. У процесі роботи головною проблемою стає не підбір моделі, а збирання та аналіз даних. Проблема в тому, що токсичного контенту менше, ніж звичайного, тому команді потрібно зібрати базу такого контенту на платформі, що без алгоритму не можна зробити. Тому на збір даних йде до 90% часу дата-саентистів. Натомість підвищується якість роботи фінальної моделі.

Онлайн-рітейл

При тренуванні моделі, яка перетворює рецепту список покупок на основі 2 млн прикладів модель передбачувано показувала якість у 97%. На масштабі модель працювала чудово, але у разі конкретного рітейлера, з нетиповими продуктами якість різко падала до неприйнятних 70%. Для вирішення цієї проблеми команда анотаторів сфокусувалася на тому, щоб нові дані не губилися на тлі відпрацьованого датасету. Моделі було достатньо дотренуватися на кілька тисяч прикладів і якість знову зросла до 97%.

ІІ допомагає і в рітейлі, причому не тільки підбираючи кращі товари

Конвеєрне виробництво

Компанія, яка використовувала штучний інтелектдля виявлення дефектів деталей на конвеєрній стрічці отримала 90% точності роботи моделі після початкової роботи з даними. Але такі показники не дотягували вимог клієнта. 

Намагаючись покращити роботу моделі, ML-інженери«полірували» роботу алгоритмів, не працюючи з даними, що покращило результат лише на 0,4%. Після повторного аналізу даних, очищення датасету від неякісно розмічених прикладів та дорозмітки новонабраних даних, результат підвищився на 8%.

Рекомендаційна система

Рекомендаційна система додатків рецептівстабільно показувала низький показник кліків – 5%. Робота з алгоритмами не допомагала, а аналіз даних вказував на те, що клієнти, чиї дані використовували для тренування моделі, в основному були вегетаріанцями, а загальна маса користувачів переважно їли м'ясо. Система, заточена на вегетаріанців, погано вловлювала інтереси інших і була сильно схильна до впливу переваг користувачів-вегетаріанців. Балансування тренувальних даних покращило конверсію до 11%.

У минулому сфера штучного інтелекту вздебільшого фокусувалася на великих даних - навчання проводилося на великому датасеті. Незважаючи на те, що у створенні таких моделей все ще є прогрес, фокус поступово зміщується на малі дані та роботу з ними. Це розширює вхідний поріг в область ІІ - вже зараз складні рішення можна створити навіть з невеликою кількістю даних.

Читати далі:

Чорна діра у Галактиці підтвердила правоту Ейнштейна. Головне

Космос руйнує кістки та змінює їхню структуру: вчені не знають, як люди полетять на Марс

Астрономи знайшли планети, які відрізняються від Землі, але придатні для життя

Geek Tech онлайн

Everything about technology and gadgets

Фільтрація контенту та постановка діагнозів: як ІІ вчать складним завданням без даних

Величезні датасети не потрібні

Все починається з даних.

Від теорії до практики