Филтриране и диагностика на съдържание: Как AI се учи да изпълнява сложни задачи без данни

Не са необходими огромни набори от данни

Историята на машинното обучение започва в зората на 20 век. През това време моделите минаха

начин от прости алгоритми, които биха моглифилтриране на имейли и откриване на злонамерен софтуер до извличане на данни, което може да предскаже прогресията на заболяването при пациенти и да победи шахматисти от световна класа.

Каквато и да е целта на модела, неговата цел— предвидете резултата от входните данни. Колкото по-разнообразен е наборът от данни (наборът от данни, който „захранва“ моделите), толкова по-лесно е за алгоритъма да намери модели и следователно, толкова по-точен е изходният резултат.

Моделът се нуждае от два основни компонента, за да работи:данни и алгоритъм. Данни означава вече обозначена информация, където на всеки пример от входни данни (например снимки на улица с пешеходци) се присвоява очакваният резултат от невронната мрежа (контурите на фигурите на пешеходците, които невронната мрежа трябва да подчертае).

Светът на машинното обучение в момента е доминиран отподход, ориентиран към модела, поради което инженерите на ML отделят много време за алгоритми – вторият важен компонент на производителността на модела. Скоростта и точността на работата зависи от избора на алгоритъм. Но въпреки факта, че този подход е по-прост и по-интересен за инженерите, не забравяйте за простия принцип на боклука навътре, боклука навън. Ако събраните данни не са представителни, никакви алгоритмични трикове няма да помогнат за подобряване на качеството на модела. Поради това фокусът на инженерите постепенно се измества към данните. 

ML инженерите все повече гледат настраниdata-centric AI, чиято идея е да събира по-малко данни, но с по-добро качество. Това е по-ефективно: разработването на алгоритми подобрява производителността на модела с 0-10%, а работата с качеството на данните - с 10-30%.

Всичко започва с данни 

В един идеален свят, компания, която използватехнологията за машинно обучение зачита културата на събиране на данни. Но събирането на данни е само началото. След това идва трудоемкият и скъп процес на маркиране. Следвайки концепцията за AI, управляван от данни, инженерите на ML могат да постигнат много по-висока производителност на модела в сравнение с етикетирането на данни „колкото е възможно по-евтино“. Ето основните принципи на този подход:

Насоки за висококачествено маркиране

Може да си помислите:защо да се формализира всяка точка от процеса на поставяне и решаване на проблем, когато може да се формулира в едно изречение. Да кажем, че говорим за маркиране на данни за автопилота, може да звучи така: „изберете всички пешеходци на снимките“. Но анотаторите бързо ще се натъкнат на двусмислени случаи - дали да посочат като пешеходец велосипедист, човек на скутер или пътник в открита каросерия? Всеки анотатор ще излезе сам с отговор, но той ще бъде различен и ще наруши хомогенността на данните. Следователно е необходимо всички сложни примери да бъдат въведени в база данни, където анотаторите могат да се обърнат в случай на затруднения. Но за да се появи такъв документ, трябва обратна връзка от анотатори.

обратна връзка

База данни не може да се появи от нищото.Това изисква две условия: култура на уважение към обратната връзка на анотаторите и служители, отговорни за поддържането на тази база данни актуална. По правило това е най-опитният от маркерите или самият специалист по данни. 

Ресурсите трябва да бъдат свързани, тъй като се формира ядрото на екипа, което чувства цялата отговорност и важност на процеса, помагайки на новодошлите да се включат в него.

Базата данни не може да се появи от нищото

Кръстосано валидиране

В компанията често работят повече от единанотатор с различни нива на умения. Следователно един и същи набор от данни може да бъде етикетиран по различни начини. Така че резултатите от работата трябва периодично да се проверяват. Това ще даде разбиране за това къде специалистите срещат затруднения, които трябва да бъдат въведени в базата данни - това ще намали фактора човешка грешка.

Предаване на данни през специалист по данни

Преди да дадете на анотаторите данните за маркиране, е полезно специалистът по данни да се потопи в данните и да маркира първите няколкостотин примера. Това ще ви позволи да разберете как проблемът е разрешим за модела.

Въпреки че от гледна точка разделението на труда е привлекателноПо отношение на разходите за работа, не трябва да се очаква същото ниво на работа с данни от анотатори, както от специалисти по данни - маркерите не могат и не трябва да идентифицират проблеми с машинното обучение.

Ако трябва да работите със специфичниданни, имате нужда от познания в индустрията. Например, ако алгоритъмът трябва да разпознае рентгенови изображения с тумор, моделът може да бъде обучен правилно само ако живите специалисти са сигурни, че във всеки маркиран фрагмент има неоплазми и изображението е дефектно.

"Граничните" примери са важни

Основният принцип на ръчното маркиране е, че трябвабъди интелигентен. По време на процеса на обучение невронната мрежа може да отгатне на кои примери от набора за обучение е най-вероятно да се „спъне“. По-добре е да ги предадете за ръчно маркиране, това ще подобри качеството на работата на модела повече от милиони маркирани примери, обучението, върху което моделът няма да прави грешки.

Увеличаване или синтетика на данни

Ако има малко данни или маркиране на събраните даннитвърде скъпо - можете да ги размножите. Например, ако данните са текстови, същите потребителски повиквания могат да бъдат преформулирани. Ако това са изображения, можете да промените яркостта, да изрежете и обърнете някои от снимките.

В увеличаването на обема на данните има и другподходът е да ги синтезираме. Но такива данни не винаги могат да заменят реални данни, особено ако невронната мрежа произвежда същия тип или идеализирани данни. В този случай можете да използвате синтетични данни само на определени стъпки от модела.

От теория към практика

Социални мрежи

За защита на потребителите и защитата им ототрицателно, най-големите социални мрежи интегрират детектор за токсично съдържание, базиран на машинно обучение. В процеса на работа основният проблем не е изборът на модел, а събирането и анализирането на данни. Проблемът е, че има по-малко токсично съдържание от нормалното съдържание, така че екипът трябва да събере база данни с такова съдържание на платформата, което не може да се направи без алгоритъм. Следователно събирането на данни отнема до 90% от времето на специалистите по данни. Но качеството на крайния модел е подобрено.

Онлайн търговия на дребно

При обучение на модел, който обръща рецептатакъм списък за пазаруване, базиран на 2 милиона примера моделът предвидимо показа качество от 97%. В мащаб моделът работи отлично, но в случай на конкретен търговец на дребно, с нетипични продукти, качеството пада рязко до неприемливите 70%. За да реши този проблем, екипът за анотации се съсредоточи върху това да гарантира, че новите данни не се губят на фона на зрелия набор от данни. Беше достатъчно моделът да се обучи на няколко хиляди примера и качеството отново се повиши до 97%.

AI помага и в търговията на дребно, и то не само като избира предпочитани продукти

Конвейерно производство

Компания, която използва изкуствен интелектза откриване на дефекти в части на конвейерна лента, получена 90% точност на модела след първоначална работа с данните. Но такива показатели не отговарят на изискванията на клиента. 

В опит да подобрят производителността на модела, инженерите на ML„полира“ работата на алгоритмите, без да работи с данните, което подобрява резултата само с 0,4%. След повторен анализ на данните, почистване на набора от данни от лошо етикетирани примери и повторно етикетиране на новосъбраните данни, резултатът се увеличи с 8%.

препоръчителна система

Система за препоръчване на приложения за рецептипостоянно показват ниска честота на кликване от 5%. Работата с алгоритми не помогна и анализът на данните показа, че клиентите, чиито данни са използвани за обучение на модела, са предимно вегетарианци, а общата популация от потребители яде предимно месо. Система, насочена към вегетарианците, беше слаба в улавянето на интересите на другите и беше силно повлияна от предпочитанията на вегетарианците. Балансирането на данни за обучение подобри реализациите с до 11%.

В миналото областта на изкуствения интелект вфокусирани главно върху големи данни - обучението беше проведено върху обширен набор от данни. Въпреки че все още има напредък в създаването на такива модели, фокусът постепенно се измества към малките данни и работата с тях. Това разширява прага за влизане в областта на AI - сложни решения вече могат да бъдат създадени дори с малко количество данни.

Прочетете още:

Една черна дупка в галактиката доказа, че Айнщайн е прав. Основното нещо

Космосът разрушава костите и променя структурата им: учените не знаят как хората ще летят до Марс

Астрономите са открили планети, които са различни от Земята, но подходящи за живот

Geek Tech онлайн

Всичко за технологиите и приспособленията

Филтриране и диагностика на съдържание: Как AI се учи да изпълнява сложни задачи без данни

Не са необходими огромни набори от данни

Всичко започва с данни

От теория към практика

Не са необходими огромни набори от данни

Всичко започва с данни&nbsp;

От теория към практика

Всичко започва с данни