Filtriranje sadržaja i dijagnoza: Kako se AI uči obavljati složene zadatke bez podataka

Nisu potrebni ogromni skupovi podataka

Povijest strojnog učenja započela je u osvit 20. stoljeća. Za to vrijeme modeli su prošli

put od jednostavnih algoritama koji bi moglifiltriranje e-pošte i otkrivanje zlonamjernog softvera, do rudarenja podataka koje može predvidjeti napredovanje bolesti kod pacijenata i pobijediti šahiste svjetske klase.

Bez obzira na namjenu modela, njegova namjena— predvidjeti rezultat na temelju ulaznih podataka. Što je skup podataka (skup podataka koji "hrani" modele) raznolikiji, to je algoritmu lakše pronaći uzorke, a time i točniji izlazni rezultat.

Za rad modela potrebne su dvije glavne komponente:podaci i algoritam. Pod podacima se podrazumijeva već označena informacija, pri čemu se svakom primjeru ulaznog podatka (npr. fotografije ulice s pješacima) dodjeljuje očekivani rezultat neuronske mreže (konture figura pješaka koje neuronska mreža treba istaknuti).

Svijetom strojnog učenja trenutno dominirajupristup usmjeren na model, zbog čega inženjeri ML-a troše mnogo vremena na algoritme — drugu važnu komponentu izvedbe modela. Brzina i točnost rada ovisi o izboru algoritma. No, unatoč činjenici da je ovaj pristup jednostavniji i zanimljiviji za inženjere, ne zaboravite na jednostavno načelo smeće unutra, smeće van. Ako prikupljeni podaci nisu reprezentativni, nikakvi algoritamski trikovi neće pomoći u poboljšanju kvalitete modela. Stoga se fokus inženjera postupno prebacuje na podatke. 

ML inženjeri sve više gledaju u stranudata-centric AI, čija je ideja prikupiti manje podataka, ali bolje kvalitete. Ovo je učinkovitije: razvoj algoritama poboljšava performanse modela za 0-10%, a rad s kvalitetom podataka - za 10-30%.

Sve počinje s podacima 

U idealnom svijetu, tvrtka koja koristitehnologija strojnog učenja poštuje kulturu prikupljanja podataka. Ali prikupljanje podataka samo je početak. Zatim slijedi dugotrajan i skup proces označavanja. Slijedeći koncept Data-driven AI, ML inženjeri mogu postići puno veću izvedbu modela u usporedbi s označavanjem podataka "što je moguće jeftinije". Evo glavnih principa ovog pristupa:

  • Smjernice za označavanje visoke kvalitete

Možda mislite:zašto formalizirati svaku točku procesa postavljanja i rješavanja problema kada se može formulirati u jednoj rečenici. Recimo da govorimo o označavanju podataka za autopilot, moglo bi zvučati ovako: "odaberite sve pješake na fotografijama." No komentatori će brzo naići na dvosmislene slučajeve – treba li kao pješaka izdvojiti biciklista, osobu na skuteru ili putnika u otvorenoj karoseriji? Svaki anotator će sam doći do odgovora, ali će on biti drugačiji i narušiti homogenost podataka. Stoga je sve složenije primjere potrebno unijeti u bazu podataka, gdje se anotatori mogu obratiti u slučaju poteškoća. Ali da bi se takav dokument pojavio, potrebne su vam povratne informacije od anotatora.

  • povratna veza

Baza podataka ne može se pojaviti niotkuda.To zahtijeva dva uvjeta: kulturu poštovanja povratnih informacija anotatora i zaposlenike koji su odgovorni za održavanje ove baze podataka ažurnom. U pravilu je to najiskusniji marker ili sam podatkovni znanstvenik. 

Resurse treba povezivati ​​jer se formira jezgra tima koja osjeća svu odgovornost i važnost procesa, pomaže pridošlicama da se uključe u njega.

Baza podataka ne može se pojaviti niotkuda

  • Unakrsna provjera valjanosti

Tvrtka često zapošljava više od jednoganotator s različitim razinama vještina. Stoga se isti skup podataka može označiti na različite načine. Stoga rezultate rada treba povremeno provjeravati. To će omogućiti razumijevanje gdje stručnjaci nailaze na poteškoće koje treba unijeti u bazu podataka - to će smanjiti faktor ljudske pogreške.

  • Prosljeđivanje podataka kroz podatkovnog znanstvenika

Prije nego što anotatorima date podatke za označavanje, korisno je da stručnjak za podatke zaroni u podatke i označi prvih nekoliko stotina primjera. To će vam omogućiti da shvatite kako je problem rješiv za model.

Iako je podjela rada s točke gledišta privlačnaŠto se tiče cijene rada, ne treba očekivati ​​istu razinu rada s podacima od anotatora kao od podatkovnih znanstvenika – markeri ne mogu i ne bi trebali identificirati probleme strojnog učenja.

Ako morate raditi sa specifičnimpodatke, potrebno vam je poznavanje industrije. Na primjer, ako algoritam mora prepoznati rendgenske slike s tumorom, model se može ispravno trenirati samo ako su živi stručnjaci sigurni da postoje neoplazme u svakom označenom fragmentu, a slika je neispravna.

  • Važni su "granični" primjeri

Glavno načelo ručnog označavanja je da morabiti inteligentan. Tijekom procesa obuke, neuronska mreža može pogoditi na koje će se primjere u setu za obuku najvjerojatnije "spotaknuti". Bolje ih je predati ručnom označavanju; to će poboljšati kvalitetu rada modela više nego milijuni označenih primjera, trenirajući na kojima model neće pogriješiti.

  • Povećanje ili sintetika podataka 

Ako ima malo podataka ili označavanje prikupljenih podatakapreskupo - možete ih razmnožiti. Na primjer, ako su podaci tekstualni, isti pozivi korisnika mogu se preformulirati. Ako su to slike, možete promijeniti svjetlinu, izrezati i okrenuti neke od slika.

U porastu količine podataka postoji još jedanpristup je sintetizirati ih. Ali takvi podaci ne mogu uvijek zamijeniti stvarne podatke, pogotovo ako neuronska mreža proizvodi isti tip ili idealizirane podatke. U ovom slučaju možete koristiti sintetičke podatke samo u određenim koracima modela.

Od teorije do prakse

  • Društvene mreže

Kako bismo zaštitili korisnike i zaštitili ih odnegativno, najveće društvene mreže integriraju detektor toksičnog sadržaja temeljen na strojnom učenju. U procesu rada glavni problem nije izbor modela, već prikupljanje i analiza podataka. Problem je što ima manje toksičnog sadržaja od normalnog sadržaja, pa tim treba prikupiti bazu podataka takvog sadržaja na platformi, što se ne može bez algoritma. Stoga prikupljanje podataka oduzima do 90% vremena podatkovnih znanstvenika. Ali kvaliteta konačnog modela je poboljšana.

  • Online maloprodaja

Kada trenirate model koji okreće receptpopisu za kupnju na temelju 2 milijuna primjera model je predvidljivo pokazao kvalitetu od 97%. U mjerilu, model je funkcionirao izvrsno, ali u slučaju specifičnog trgovca, s netipičnim proizvodima, kvaliteta je naglo pala na neprihvatljivih 70%. Kako bi riješio ovaj problem, tim za napomene usredotočio se na osiguravanje da se novi podaci ne izgube u pozadini zrelog skupa podataka. Dovoljno je bilo uvježbati model na nekoliko tisuća primjera i kvaliteta je ponovno porasla na 97%.

AI također pomaže u maloprodaji, i to ne samo odabirom preferiranih proizvoda

  • Proizvodnja pokretnom trakom

Tvrtka koja je koristila umjetnu inteligencijuza otkrivanje nedostataka u dijelovima na pokretnoj traci, dobivena 90% točnost modela nakon početnog rada s podacima. Ali takvi pokazatelji nisu zadovoljili zahtjeve naručitelja. 

U pokušaju poboljšanja performansi modela, inženjeri ML“ispolirao” rad algoritama bez rada s podacima, što je poboljšalo rezultat za samo 0,4%. Nakon ponovne analize podataka, čišćenja skupa podataka od loše označenih primjera i ponovnog označavanja novoprikupljenih podataka, rezultat se povećao za 8%.

  • sustav preporuka

Sustav za preporuku aplikacija za receptedosljedno pokazuju nisku stopu klikanja od 5%. Rad s algoritmima nije pomogao, a analiza podataka je pokazala da su klijenti čiji su podaci korišteni za treniranje modela većinom vegetarijanci, a opća populacija korisnika uglavnom jede meso. Sustav usmjeren prema vegetarijancima bio je loš u zahvaćanju interesa drugih i bio je pod velikim utjecajem preferencija korisnika vegetarijanaca. Balansiranje podataka za obuku poboljšalo je konverzije do 11%.

U prošlosti je područje umjetne inteligencije uuglavnom usmjeren na velike podatke - obuka je provedena na opsežnom skupu podataka. Iako još ima napretka u izradi ovakvih modela, fokus se postupno prebacuje na male podatke i rad s njima. Time se proširuje prag ulaska u područje umjetne inteligencije - složena rješenja već se mogu stvoriti čak i s malom količinom podataka.

Čitaj više:

Crna rupa u galaksiji dokazala je da je Einstein bio u pravu. Glavna stvar

Svemir uništava kosti i mijenja njihovu strukturu: znanstvenici ne znaju kako će ljudi letjeti na Mars

Astronomi su pronašli planete koji se razlikuju od Zemlje, ali pogodni za život