Satura filtrēšana un diagnostika: kā AI tiek mācīts veikt sarežģītus uzdevumus bez datiem

Lielas datu kopas nav vajadzīgas

Mašīnmācīšanās vēsture aizsākās 20. gadsimta rītausmā. Šajā laikā modeļi pagāja

no vienkāršiem algoritmiem, kas varētu būtfiltrējiet e-pastus un atklājiet ļaunprātīgu programmatūru, lai iegūtu datu ieguvi, kas var paredzēt slimības progresēšanu pacientiem un pārspēt pasaules līmeņa šaha spēlētājus.

Lai kāds būtu modeļa mērķis, tā mērķis— paredzēt rezultātu no ievades datiem. Jo daudzveidīgāka ir datu kopa (datu kopa, kas “baro” modeļus), jo vieglāk algoritmam ir atrast modeļus, un līdz ar to precīzāks ir izvades rezultāts.

Lai modelis darbotos, ir nepieciešami divi galvenie komponenti:dati un algoritms. Dati nozīmē jau iezīmētu informāciju, kur katram ievaddatu paraugam (piemēram, ielas fotogrāfijām ar gājējiem) tiek piešķirts sagaidāmais neironu tīkla rezultāts (gājēju figūru kontūras, kuras neironu tīklam vajadzētu izcelt).

Mašīnmācības pasaulē pašlaik dominēuz modeli orientēta pieeja, tāpēc ML inženieri daudz laika pavada algoritmiem, kas ir otra svarīga modeļa veiktspējas sastāvdaļa. Darba ātrums un precizitāte ir atkarīga no algoritma izvēles. Bet, neskatoties uz to, ka šī pieeja ir vienkāršāka un inženieriem interesantāka, neaizmirstiet par vienkāršo atkritumu iekšā, atkritumu ārā principu. Ja savāktie dati nav reprezentatīvi, nekādi algoritmiski triki nepalīdzēs uzlabot modeļa kvalitāti. Tāpēc inženieru uzmanība pamazām pāriet uz datiem. 

ML inženieri arvien vairāk skatās uz sāniemuz datiem orientēta AI, kuras ideja ir vākt mazāk datu, bet labākas kvalitātes. Tas ir efektīvāk: algoritmu izstrāde uzlabo modeļa veiktspēju par 0-10%, bet darbs ar datu kvalitāti - par 10-30%.

Viss sākas ar datiem 

Ideālā pasaulē uzņēmums, kas izmantomašīnmācīšanās tehnoloģija respektē datu vākšanas kultūru. Taču datu vākšana ir tikai sākums. Tad seko laikietilpīgais un dārgais marķēšanas process. Ievērojot datu vadītas AI koncepciju, ML inženieri var sasniegt daudz augstāku modeļa veiktspēju, salīdzinot ar datu marķēšanu “pēc iespējas lētāk”. Šeit ir šīs pieejas galvenie principi:

  • Augstas kvalitātes iezīmēšanas vadlīnijas

Jūs varētu domāt:kāpēc formalizēt katru problēmas izvirzīšanas un risināšanas procesa punktu, ja to var formulēt vienā teikumā. Pieņemsim, ka mēs runājam par autopilota datu iezīmēšanu, tas varētu izklausīties šādi: "atlasīt visus fotoattēlos esošos gājējus." Taču anotatori ātri vien sastapsies ar neviennozīmīgiem gadījumiem – vai kā gājēju izcelt velosipēdistu, cilvēku uz motorollera vai pasažieri vaļējā ķermenī? Katrs anotētājs atbildi izdomās pats, taču tā būs atšķirīga un iznīcinās datu viendabīgumu. Tāpēc ir nepieciešams visus sarežģītos piemērus ievadīt datu bāzē, kur anotatori, ja rodas grūtības, var vērsties. Bet, lai šāds dokuments parādītos, ir nepieciešamas atsauksmes no anotatoriem.

  • Atsauksmes

Datubāze nevar parādīties no nekurienes.Tam nepieciešami divi nosacījumi: kultūra, kurā tiek ievērotas anotatoru atsauksmes, un darbinieki, kas ir atbildīgi par šīs datu bāzes atjaunināšanu. Parasti tas ir vispieredzējušākais no marķieriem vai pats datu zinātnieks. 

Resursi ir jāsavieno, jo veidojas komandas kodols, kas izjūt visu procesa atbildību un nozīmi, palīdzot tajā iesaistīties jaunpienācējiem.

Datu bāze nevar parādīties no nekurienes

  • Savstarpēja validācija

Uzņēmums bieži nodarbina vairāk nekā vienuanotators ar dažādiem prasmju līmeņiem. Tāpēc vienu un to pašu datu kopu var marķēt dažādos veidos. Tātad darba rezultāti periodiski jāpārbauda. Tas ļaus saprast, kur speciālisti sastopas ar grūtībām, kuras būtu jāievada datu bāzē – tas samazinās cilvēcisko kļūdu faktoru.

  • Datu nodošana caur datu zinātnieku

Pirms sniegt anotatoriem atzīmējamos datus, ir lietderīgi, ja datu zinātnieks iedziļināties datos un atzīmē pirmos pāris simtus piemēru. Tas ļaus jums saprast, kā problēma ir atrisināma modelim.

Lai gan darba dalīšana ir pievilcīga no punktaRunājot par darba izmaksām, nevajadzētu sagaidīt tādu pašu darba līmeni ar datiem no anotatoriem kā no datu zinātniekiem - marķieri nevar un nedrīkst identificēt mašīnmācīšanās problēmas.

Ja jāstrādā ar konkrētiemdati, jums ir nepieciešamas nozares zināšanas. Piemēram, ja algoritmam jāatpazīst rentgena attēli ar audzēju, modeli var pareizi apmācīt tikai tad, ja dzīvi speciālisti ir pārliecināti, ka katrā iezīmētajā fragmentā ir jaunveidojumi un attēls ir bojāts.

  • "Robežu" piemēri ir svarīgi

Manuālās marķēšanas galvenais princips ir tāds, ka tam jābūtesi inteliģents. Apmācības procesā neironu tīkls var uzminēt, uz kuriem apmācības komplekta piemēriem tas visticamāk “uzklups”. Labāk tos nodot manuālai marķēšanai, tas uzlabos modeļa darba kvalitāti vairāk nekā miljoniem marķētu piemēru, apmācību, kurā modelis nepieļaus kļūdas.

  • Papildināšana vai datu sintētika 

Ja ir maz datu vai savākto datu atzīmespārāk dārgi - jūs varat tos pavairot. Piemēram, ja dati ir tekstuāli, tos pašus lietotāju zvanus var pārfrāzēt. Ja tie ir attēli, varat mainīt spilgtumu, izgriezt un apgriezt dažus attēlus.

Datu apjoma pieaugumā ir vēl vienspieeja ir to sintezēšana. Taču šādi dati ne vienmēr var aizstāt reālus datus, it īpaši, ja neironu tīkls rada tāda paša veida vai idealizētus datus. Šajā gadījumā sintētiskos datus varat izmantot tikai noteiktos modeļa posmos.

No teorijas uz praksi

  • Sociālie tīkli

Lai aizsargātu lietotājus un pasargātu tos nonegatīvi, lielākie sociālie tīkli integrē toksiska satura detektoru, kura pamatā ir mašīnmācīšanās. Darba procesā galvenā problēma ir nevis modeļa izvēle, bet gan datu vākšana un analīze. Problēma ir tāda, ka tajā ir mazāk toksiska satura nekā parastajā saturā, tāpēc komandai platformā ir jāsavāc šāda satura datu bāze, ko nevar izdarīt bez algoritma. Tāpēc datu vākšana aizņem līdz pat 90% no datu zinātnieku laika. Bet gala modeļa kvalitāte ir uzlabota.

  • Tiešsaistes mazumtirdzniecība

Apmācot modeli, kas pārvērš receptiuz iepirkumu sarakstu, kura pamatā ir 2 miljoni piemēru modelis paredzami uzrādīja 97% kvalitāti. Mērogā modelis darbojās lieliski, taču konkrēta mazumtirgotāja gadījumā ar netipiskiem produktiem kvalitāte strauji kritās līdz nepieņemamiem 70%. Lai atrisinātu šo problēmu, anotācijas komanda koncentrējās uz to, lai jauni dati netiktu zaudēti nobriedušās datu kopas fonā. Pietika apmācīt modeli uz pāris tūkstošiem piemēru un kvalitāte atkal pieauga līdz 97%.

AI palīdz mazumtirdzniecībā, un ne tikai izvēloties vēlamos produktus

  • Konveijera ražošana

Uzņēmums, kas izmantoja mākslīgo intelektudetaļu defektu noteikšanai uz konveijera lentes, iegūta modeļa 90% precizitāte pēc sākotnējā darba ar datiem. Taču šādi rādītāji neatbilda klienta prasībām. 

Mēģinot uzlabot modeļa veiktspēju, ML inženieriAlgoritmu darbu “noslīpējām” nestrādājot ar datiem, kas rezultātu uzlaboja tikai par 0,4%. Pēc datu atkārtotas analīzes, datu kopas attīrīšanas no slikti marķētiem piemēriem un no jauna apkopoto datu pārmarķēšanas rezultāts palielinājās par 8%.

  • ieteikuma sistēma

Recepšu lietotņu ieteikuma sistēmapastāvīgi uzrādīja zemu vidējo klikšķu skaitu — 5%. Darbs ar algoritmiem nepalīdzēja, un datu analīze liecināja, ka klienti, kuru dati tika izmantoti modeļa apmācīšanai, lielākoties bija veģetārieši, un kopējā lietotāju populācija pārsvarā ēda gaļu. Sistēma, kas orientēta uz veģetāriešiem, nespēja uztvert citu intereses, un to ļoti ietekmēja veģetāriešu lietotāju vēlmes. Apmācību datu līdzsvarošana uzlaboja reklāmguvumus līdz pat 11%.

Agrāk mākslīgā intelekta joma ingalvenokārt koncentrējās uz lielajiem datiem - tika veikta apmācība par plašu datu kopu. Lai gan šādu modeļu izveidē joprojām ir progress, fokuss pamazām pāriet uz maziem datiem un darbu ar tiem. Tas paplašina ienākšanas slieksni AI jomā – sarežģītus risinājumus jau var izveidot pat ar nelielu datu apjomu.

Lasīt vairāk:

Melnais caurums galaktikā pierādīja, ka Einšteinam ir taisnība. Galvenais

Kosmoss iznīcina kaulus un maina to struktūru: zinātnieki nezina, kā cilvēki lidos uz Marsu

Astronomi ir atraduši planētas, kas atšķiras no Zemes, bet piemērotas dzīvībai