Огромни скупови података нису потребни
Историја машинског учења почела је у зору 20. века. За то време модели су прошли
Шта год да је намена модела, његова сврха—&нбсп;предвидите резултат из улазних података. Што је скуп података разноврснији (скуп података који „храни“ моделе), то је алгоритам лакше да пронађе обрасце, а самим тим и тачнији резултат.
Моделу су потребне две главне компоненте да би радио:податке и алгоритам. Под подацима се подразумева већ означена информација, где се сваком примеру улазних података (на пример, фотографијама улице са пешацима) приписује очекивани резултат неуронске мреже (контуре фигура пешака које неуронска мрежа треба да истакне).
Светом машинског учења тренутно доминирајуприступ усредсређен на модел, због чега инжењери МЛ-а троше много времена на алгоритме — другу важну компоненту перформанси модела. Од избора алгоритма зависи брзина и тачност рада. Али, упркос чињеници да је овај приступ једноставнији и занимљивији за инжењере, не заборавите на једноставан принцип смеће унутра, смеће ван. Ако прикупљени подаци нису репрезентативни, никакви алгоритамски трикови неће помоћи да се побољша квалитет модела. Стога се фокус инжењера постепено помера на податке.&нбсп;
МЛ инжењери све више гледају у странуАИ усмерена на податке, чија је идеја да прикупи мање података, али бољег квалитета. Ово је ефикасније: развој алгоритама побољшава перформансе модела за 0-10%, а рад са квалитетом података - за 10-30%.
Све почиње подацима&нбсп;
У идеалном свету, компанија која користитехнологија машинског учења поштује културу прикупљања података. Али прикупљање података је само почетак. Затим долази дуготрајан и скуп процес обележавања. Пратећи концепт вештачке интелигенције вођене подацима, инжењери МЛ могу постићи много веће перформансе модела у поређењу са означавањем података „што је јефтиније могуће“. Ево главних принципа овог приступа:
- Смернице за означавање високог квалитета
Можда мислите:зашто формализовати сваку тачку процеса постављања и решавања проблема када се може формулисати у једној реченици. Рецимо да говоримо о означавању података за аутопилот, могло би звучати овако: „изаберите све пешаке на фотографијама“. Али анотатори ће брзо наићи на двосмислене случајеве - да ли да као пешака издвоје бициклисту, особу на скутеру или путника у отвореном телу? Сваки анотатор ће сам доћи до одговора, али ће он бити другачији и уништити хомогеност података. Због тога је потребно све сложене примере унети у базу података, где се анотатори, у случају потешкоћа, могу обратити. Али да би се такав документ појавио, потребне су вам повратне информације од анотатора.
- Феедбацк
База података се не може појавити ниоткуда.За то су потребна два услова: култура поштовања повратних информација анотатора и запослени одговорни за ажурирање ове базе података. По правилу, ово је најискуснији маркер или сам научник података.&нбсп;
Ресурсе је потребно повезати како се формира језгро тима, који осећа сву одговорност и важност процеса, помажући новопридошлицама да се укључе у њега.
База података се не може појавити ниоткуда
- Унакрсна провера
Компанија често запошљава више од једноганотатор са различитим нивоима вештина. Стога се исти скуп података може означити на различите начине. Дакле, резултате рада треба периодично проверавати. Ово ће дати разумевање где стручњаци наилазе на потешкоће које треба унети у базу података - то ће смањити фактор људске грешке.
- Преношење података кроз научника података
Пре него што анотаторима дате податке за обележавање, корисно је да научник података зарони у податке и означи првих неколико стотина примера. Ово ће вам омогућити да разумете како се проблем може решити за модел.
Иако је подела рада привлачна са тачке гледиштаШто се тиче цене рада, не треба очекивати исти ниво рада са подацима од анотатора као од научника података – маркери не могу и не треба да идентификују проблеме машинског учења.
Ако морате да радите са конкретнимподатака, потребно вам је знање из индустрије. На пример, ако алгоритам мора да препозна рендгенске слике са тумором, модел се може правилно обучити само ако су живи специјалисти сигурни да у сваком означеном фрагменту постоје неоплазме, а слика је неисправна.
- „Погранични“ примери су важни
Главни принцип ручног обележавања је да морабити интелигентан. Током процеса обуке, неуронска мрежа може да погоди на које примере у сету за обуку ће највероватније „наићи“. Боље их је предати на ручно обележавање, то ће побољшати квалитет рада модела више од милиона означених примера, обука на којима модел неће правити грешке.
- Повећање или синтетика података&нбсп;
Ако има мало података или ознаку прикупљених податакапрескупо - можете их размножавати. На пример, ако су подаци текстуални, исти кориснички позиви се могу преформулисати. Ако су ово слике, можете променити осветљеност, исећи и окренути неке од слика.
У повећању количине података постоји још једанприступ је да их синтетише. Али такви подаци не могу увек да замене стварне податке, посебно ако неуронска мрежа производи исти тип или идеализоване податке. У овом случају можете користити синтетичке податке само у одређеним корацима модела.
Од теорије до праксе
- Друштвене мреже
За заштиту корисника и заштиту однегативно, највеће друштвене мреже интегришу детектор токсичног садржаја заснован на машинском учењу. У процесу рада главни проблем није избор модела, већ прикупљање и анализа података. Проблем је што има мање токсичног садржаја од нормалног садржаја, па тим треба да прикупи базу података таквог садржаја на платформи, што се не може урадити без алгоритма. Због тога прикупљање података одузима до 90% времена научника података. Али квалитет коначног модела је побољшан.
- Онлине малопродаја
Када обучавате модел који окреће рецептна листу за куповину засновану на 2 милиона примера&нбсп;модел је предвидљиво показао квалитет од 97%. У скали, модел је функционисао одлично, али у случају одређеног продавца, са нетипичним производима, квалитет је нагло пао на неприхватљивих 70%. Да би решио овај проблем, тим за напомене се фокусирао на то да се нови подаци не изгубе у позадини зрелог скупа података. Било је довољно обучити модел на неколико хиљада примерака и квалитет је поново порастао на 97%.
АИ такође помаже у малопродаји, и то не само одабиром жељених производа
- Производња транспортера
Компанија која је користила вештачку интелигенцијуза откривање недостатака у деловима на покретној траци, добијена 90% тачност модела након почетног рада са подацима. Али такви показатељи нису испуњавали захтеве клијента.&нбсп;
У покушају да побољшају перформансе модела, МЛ инжењери„исполирао” рад алгоритама без рада са подацима, што је побољшало резултат за само 0,4%. Након поновне анализе података, чишћења скупа података од лоше означених примера и поновног обележавања новосакупљених података, резултат се повећао за 8%.
- систем препорука
Систем препорука апликација за рецептедоследно је показивао ниску стопу учесталости кликова од 5%. Рад са алгоритмима није помогао, а анализа података је показала да су клијенти чији су подаци коришћени за обуку модела углавном вегетаријанци, а општа популација корисника углавном јела месо. Систем који је био усмерен ка вегетаријанцима био је лош у хватању интереса других и био је под великим утицајем преференција вегетаријанских корисника. Балансирање података за обуку побољшало је конверзије до 11%.
У прошлости је област вештачке интелигенције ууглавном фокусиран на велике податке – обука је спроведена на обимном скупу података. Иако још увек постоји напредак у креирању оваквих модела, фокус се постепено помера на мале податке и рад са њима. Ово проширује улазни праг у област вештачке интелигенције – сложена решења се већ могу креирати чак и са малом количином података.
Опширније:
Црна рупа у галаксији доказала је да је Ајнштајн у праву. Главна ствар
Свемир уништава кости и мења њихову структуру: научници не знају како ће људи летети на Марс
Астрономи су пронашли планете које се разликују од Земље, али погодне за живот