Innholdsfiltrering og diagnose: Hvordan AI læres til å utføre komplekse oppgaver uten data

Store datasett er ikke nødvendig

Historien om maskinlæring begynte ved begynnelsen av det 20. århundre. I løpet av denne tiden passerte modellene

vei fra enkle algoritmer som kunnefiltrer e-poster og oppdage skadevare, til datautvinning som kan forutsi sykdomsprogresjon hos pasienter og slå sjakkspillere i verdensklasse.

Uansett formålet med modellen, dens formål— forutsi resultatet fra inndataene. Jo mer mangfoldig datasettet (settet med data som "mater" modellene), jo lettere er det for algoritmen å finne mønstre, og derfor blir resultatet mer nøyaktig.

Modellen trenger to hovedkomponenter for å fungere:data og algoritme. Data betyr allerede merket informasjon, der hvert eksempel på inngangsdata (for eksempel fotografier av en gate med fotgjengere) blir tildelt det forventede resultatet av det nevrale nettverket (konturene av fotgjengerfigurene som det nevrale nettverket skal fremheve).

Verden av maskinlæring er for tiden dominert aven modellsentrisk tilnærming, som er grunnen til at ML-ingeniører bruker mye tid på algoritmer – den andre viktige komponenten i modellytelse. Hastigheten og nøyaktigheten av arbeidet avhenger av valget av algoritme. Men til tross for at denne tilnærmingen er enklere og mer interessant for ingeniører, ikke glem det enkle prinsippet om søppel inn, søppel ut. Hvis de innsamlede dataene ikke er representative, vil ingen mengde algoritmiske triks bidra til å forbedre kvaliteten på modellen. Derfor skifter fokuset til ingeniører gradvis til data. 

ML-ingeniører ser i økende grad til sidendatasentrisk AI, hvor ideen er å samle inn mindre data, men av bedre kvalitet. Dette er mer effektivt: Utviklingen av algoritmer forbedrer ytelsen til modellen med 0-10%, og arbeid med datakvalitet - med 10-30%.

Det hele starter med data 

I en ideell verden, et selskap som brukermaskinlæringsteknologi respekterer kulturen for datainnsamling. Men datainnsamling er bare begynnelsen. Så kommer den tidkrevende og kostbare merkeprosessen. Etter konseptet med datadrevet AI kan ML-ingeniører oppnå mye høyere modellytelse sammenlignet med å merke data "så billig som mulig". Her er hovedprinsippene for denne tilnærmingen:

  • Retningslinjer for oppmerking av høy kvalitet

Du tror kanskje:hvorfor formalisere hvert punkt i prosessen med å sette og løse et problem når det kan formuleres i én setning. La oss si at vi snakker om dataoppmerking for autopiloten, det kan høres slik ut: "velg alle fotgjengere på bildene." Men kommentatorer vil raskt komme over tvetydige saker – om man skal peke ut en syklist, en person på en scooter eller en passasjer i åpen kropp som fotgjenger? Hver annotator vil komme med et svar på egen hånd, men det vil være annerledes og ødelegge homogeniteten til dataene. Derfor er det nødvendig å legge inn alle komplekse eksempler i en database, der annotatorer, i tilfelle vanskeligheter, kan henvende seg. Men for at et slikt dokument skal vises, trenger du tilbakemelding fra kommentatorer.

  • tilbakemeldinger

En database kan ikke dukke opp fra ingensteds.Dette krever to betingelser: en kultur med respekt for annotators tilbakemeldinger og ansatte som er ansvarlige for å holde denne databasen oppdatert. Som regel er dette den mest erfarne av markørene eller en dataforsker selv. 

Ressurser må kobles sammen når kjernen i teamet dannes, som føler alt ansvaret og viktigheten av prosessen, og hjelper nykommere til å bli involvert i den.

Database kan ikke dukke opp fra ingensteds

  • Kryssvalidering

Bedriften sysselsetter ofte mer enn énannotator med forskjellige ferdighetsnivåer. Derfor kan det samme datasettet merkes på forskjellige måter. Så resultatene av arbeidet bør kontrolleres med jevne mellomrom. Dette vil gi en forståelse av hvor spesialister møter vanskeligheter som bør legges inn i databasen – dette vil redusere den menneskelige feilfaktoren.

  • Sende data gjennom en dataforsker

Før du gir annotatorene dataene som skal markeres, er det nyttig å få dataforskeren til å dykke ned i dataene og markere de første par hundre eksemplene. Dette vil tillate deg å forstå hvordan problemet kan løses for modellen.

Selv om arbeidsdelingen er attraktiv fra poengetNår det gjelder kostnadene ved arbeid, bør man ikke forvente samme nivå av arbeid med data fra annotatorer som fra dataforskere – markører kan og bør ikke identifisere maskinlæringsproblemer.

Hvis du må jobbe med spesifikkedata, trenger du bransjekunnskap. For eksempel, hvis algoritmen må gjenkjenne røntgenbilder med en svulst, kan modellen trenes riktig bare hvis levende spesialister er sikre på at det er neoplasmer i hvert markert fragment, og bildet er defekt.

  • «Grense»-eksempler er viktige

Hovedprinsippet for manuell merking er at det måvære intelligent. Under treningsprosessen kan det nevrale nettverket gjette hvilke eksempler i treningssettet det er mest sannsynlig å "snuble" over. Det er bedre å overlevere dem for manuell merking; dette vil forbedre kvaliteten på modellens arbeid mer enn millioner av merkede eksempler, trening som modellen ikke vil gjøre feil på.

  • Augmentering eller datasyntetikk 

Hvis det er lite data eller markering av innsamlede datafor dyrt - du kan forplante dem. For eksempel, hvis dataene er tekstbaserte, kan de samme brukeranropene omformuleres. Hvis dette er bilder, kan du endre lysstyrken, klippe og snu noen av bildene.

I økningen i datamengden er det en annentilnærmingen er å syntetisere dem. Men slike data kan ikke alltid erstatte ekte data, spesielt hvis det nevrale nettverket produserer samme type eller idealiserte data. I dette tilfellet kan du bare bruke syntetiske data i visse trinn i modellen.

Fra teori til praksis

  • Sosiale nettverk

For å beskytte brukere og beskytte dem motnegativt, de største sosiale nettverkene integrerer en giftig innholdsdetektor basert på maskinlæring. I prosessen med arbeidet er hovedproblemet ikke valg av modell, men innsamling og analyse av data. Problemet er at det er mindre giftig innhold enn normalt innhold, så teamet må samle en database med slikt innhold på plattformen, noe som ikke kan gjøres uten en algoritme. Derfor tar datainnsamling opptil 90 % av tiden for dataforskere. Men kvaliteten på den endelige modellen er forbedret.

  • Netthandel

Når du trener en modell som snur oppskriftentil en handleliste basert på 2 millioner eksempler modellen viste forutsigbart en kvalitet på 97 %. I skala fungerte modellen utmerket, men for en spesifikk forhandler, med atypiske produkter, falt kvaliteten kraftig til uakseptable 70 %. For å løse dette problemet, fokuserte annoteringsteamet på å sikre at nye data ikke gikk tapt i bakgrunnen av det modne datasettet. Det var nok å trene modellen på et par tusen eksempler og kvaliteten økte igjen til 97%.

AI hjelper i detaljhandelen, og ikke bare ved å velge foretrukne produkter

  • Produksjon av transportbånd

Et selskap som brukte kunstig intelligensfor å oppdage defekter i deler på et transportbånd, oppnådde 90% nøyaktighet av modellen etter innledende arbeid med dataene. Men slike indikatorer oppfylte ikke kundens krav. 

I et forsøk på å forbedre modellytelsen har ML-ingeniører"polerte" arbeidet til algoritmene uten å jobbe med dataene, noe som forbedret resultatet med bare 0,4%. Etter å ha analysert dataene på nytt, renset datasettet fra dårlig merkede eksempler og re-merking av de nylig innsamlede dataene, økte resultatet med 8 %.

  • anbefalingssystem

Oppskrift App-anbefalingssystemviste konsekvent en lav klikkfrekvens på 5 %. Arbeid med algoritmer hjalp ikke, og dataanalyse indikerte at klientene hvis data ble brukt til å trene modellen for det meste var vegetarianere, og den generelle befolkningen av brukere spiste for det meste kjøtt. Et system rettet mot vegetarianere var ikke flink til å fange andres interesser og var sterkt påvirket av preferansene til vegetarianere. Treningsdatabalansering forbedret konverteringer med opptil 11 %.

Tidligere har feltet kunstig intelligens ihovedsakelig fokusert på big data - opplæring ble gjennomført på et omfattende datasett. Selv om det fortsatt er fremgang med å lage slike modeller, flyttes fokuset gradvis til små data og arbeid med det. Dette utvider inngangsterskelen til AI-feltet - komplekse løsninger kan allerede lages selv med en liten mengde data.

Les mer:

Et svart hull i galaksen viste at Einstein hadde rett. Hovedtingen

Rommet ødelegger bein og endrer strukturen deres: forskere vet ikke hvordan folk vil fly til Mars

Astronomer har funnet planeter som er forskjellige fra jorden, men egnet for liv