Indholdsfiltrering og diagnose: Hvordan AI læres at udføre komplekse opgaver uden data

Store datasæt er ikke nødvendige

Maskinlæringens historie begyndte i begyndelsen af det 20. århundrede. I løbet af denne tid bestod modellerne

vej fra simple algoritmer, der kunnefiltrer e-mails og opdage malware, til data mining, der kan forudsige sygdomsprogression hos patienter og slå skakspillere i verdensklasse.

Uanset formålet med modellen, dens formål— forudsige resultatet fra inputdataene. Jo mere forskelligartet datasættet (sættet af data, der "føder" modellerne), jo lettere er det for algoritmen at finde mønstre, og derfor er outputresultatet mere nøjagtigt.

Modellen har brug for to hovedkomponenter for at fungere:data og algoritme. Data betyder allerede mærket information, hvor hvert eksempel på inputdata (for eksempel fotografier af en gade med fodgængere) er tildelt det forventede resultat af det neurale netværk (konturerne af fodgængernes figurer, som det neurale netværk skal fremhæve).

Maskinlæringens verden er i øjeblikket domineret afen model-centreret tilgang, hvilket er grunden til, at ML-ingeniører bruger meget tid på algoritmer – den anden vigtige komponent i modellens ydeevne. Hastigheden og nøjagtigheden af arbejdet afhænger af valget af algoritme. Men på trods af at denne tilgang er enklere og mere interessant for ingeniører, så glem ikke det enkle princip om skrald ind, skrald ud. Hvis de indsamlede data ikke er repræsentative, vil ingen mængde algoritmiske tricks hjælpe med at forbedre kvaliteten af modellen. Derfor flytter ingeniørernes fokus gradvist til data. 

ML-ingeniører kigger i stigende grad til sidendatacentreret AI, hvis idé er at indsamle mindre data, men af bedre kvalitet. Dette er mere effektivt: Udviklingen af algoritmer forbedrer modellens ydeevne med 0-10% og arbejde med datakvalitet - med 10-30%.

Det hele starter med data 

I en ideel verden, en virksomhed, der brugermaskinlæringsteknologi respekterer kulturen for dataindsamling. Men dataindsamling er kun begyndelsen. Så kommer den tidskrævende og dyre mærkningsproces. Efter konceptet med datadrevet AI kan ML-ingeniører opnå meget højere modelydelse sammenlignet med at mærke data "så billigt som muligt". Her er hovedprincipperne for denne tilgang:

Markeringsretningslinjer af høj kvalitet

Du tænker måske:hvorfor formalisere hvert punkt i processen med at opstille og løse et problem, når det kan formuleres i én sætning. Lad os sige, at vi taler om datamarkering for autopiloten, det kan lyde sådan: "vælg alle fodgængere på billederne." Men annotatorer vil hurtigt støde på tvetydige sager - om man skal udpege en cyklist, en person på en scooter eller en passager i åben krop som fodgænger? Hver annotator vil komme med et svar på egen hånd, men det vil være anderledes og ødelægge homogeniteten af dataene. Derfor er det nødvendigt at indtaste alle komplekse eksempler i en database, hvor annotatorer i tilfælde af vanskeligheder kan henvende sig. Men for at et sådant dokument skal vises, har du brug for feedback fra annotatorer.

tilbagemeldinger

En database kan ikke dukke op ud af ingenting.Dette kræver to betingelser: en kultur af respekt for annotatorers feedback og medarbejdere, der er ansvarlige for at holde denne database opdateret. Som regel er dette den mest erfarne af markørerne eller en dataforsker selv. 

Ressourcer skal forbindes, efterhånden som kernen i teamet dannes, som føler alt ansvaret og vigtigheden af processen, og hjælper nytilkomne med at blive involveret i den.

Database kan ikke dukke op ud af ingenting

Krydsvalidering

Virksomheden beskæftiger ofte mere end énannotator med forskellige færdighedsniveauer. Derfor kan det samme datasæt mærkes på forskellige måder. Så resultaterne af arbejdet bør kontrolleres med jævne mellemrum. Dette vil give en forståelse af, hvor specialister støder på vanskeligheder, som bør indtastes i databasen - dette vil reducere den menneskelige fejlfaktor.

At sende data gennem en dataforsker

Før du giver annotatorerne de data, der skal markeres, er det nyttigt at få dataforskeren til at dykke ned i dataene og markere de første par hundrede eksempler. Dette giver dig mulighed for at forstå, hvordan problemet kan løses for modellen.

Selvom arbejdsdelingen er attraktiv lige fra sagenMed hensyn til omkostningerne ved arbejde skal man ikke forvente det samme niveau af arbejde med data fra annotatorer som fra data scientists - markører kan og bør ikke identificere maskinlæringsproblemer.

Hvis du skal arbejde med specifikkedata, har du brug for branchekendskab. For eksempel, hvis algoritmen skal genkende røntgenbilleder med en tumor, kan modellen kun trænes korrekt, hvis nulevende specialister er sikre på, at der er neoplasmer i hvert markeret fragment, og billedet er defekt.

"Grænseeksempler" er vigtige

Hovedprincippet for manuel mærkning er, at det skalvære intelligent. Under træningsprocessen kan det neurale netværk gætte, hvilke eksempler i træningssættet, det er mest sandsynligt at "snuble" på. Det er bedre at udlevere dem til manuel mærkning; dette vil forbedre kvaliteten af modellens arbejde mere end millioner af markerede eksempler, træning som modellen ikke vil lave fejl på.

Augmentation eller datasyntetik

Hvis der er lidt data eller markering af indsamlede datafor dyrt - du kan formere dem. For eksempel, hvis dataene er tekstbaserede, kan de samme brugeropkald omformuleres. Hvis det er billeder, kan du ændre lysstyrken, klippe og vende nogle af billederne.

I stigningen i mængden af data er der en andentilgang er at syntetisere dem. Men sådanne data kan ikke altid erstatte rigtige data, især hvis det neurale netværk producerer samme type eller idealiserede data. I dette tilfælde kan du kun bruge syntetiske data i visse trin af modellen.

Fra teori til praksis

Sociale netværk

For at beskytte brugerne og beskytte dem modnegativt, de største sociale netværk integrerer en giftig indholdsdetektor baseret på maskinlæring. I arbejdsprocessen er hovedproblemet ikke valget af en model, men indsamlingen og analysen af data. Problemet er, at der er mindre giftigt indhold end normalt indhold, så teamet skal samle en database med sådant indhold på platformen, hvilket ikke kan lade sig gøre uden en algoritme. Derfor tager dataindsamling op til 90 % af dataforskernes tid. Men kvaliteten af den endelige model er forbedret.

Online detailhandel

Når man træner en model, der vender opskriftentil en indkøbsliste baseret på 2 millioner eksempler modellen viste forudsigeligt en kvalitet på 97 %. I skala fungerede modellen glimrende, men i tilfælde af en specifik forhandler, med atypiske produkter, faldt kvaliteten kraftigt til uacceptabelt 70%. For at løse dette problem fokuserede annotationsteamet på at sikre, at nye data ikke gik tabt i baggrunden af det modne datasæt. Det var nok at træne modellen på et par tusinde eksempler, og kvaliteten steg igen til 97%.

AI hjælper i detailhandlen og ikke kun ved at vælge foretrukne produkter

Transportbånd produktion

En virksomhed, der brugte kunstig intelligensat opdage defekter i dele på et transportbånd, opnået 90% nøjagtighed af modellen efter indledende arbejde med dataene. Men sådanne indikatorer opfyldte ikke kundens krav. 

I et forsøg på at forbedre modellens ydeevne har ML-ingeniører"polerede" algoritmernes arbejde uden at arbejde med dataene, hvilket forbedrede resultatet med kun 0,4%. Efter at have genanalyseret dataene, renset datasættet fra dårligt mærkede eksempler og genmærket de nyligt indsamlede data, steg resultatet med 8 %.

anbefaler system

Opskrift App-anbefalingssystemviste konsekvent en lav klikrate på 5 %. At arbejde med algoritmer hjalp ikke, og dataanalyse viste, at de klienter, hvis data blev brugt til at træne modellen, for det meste var vegetarer, og den generelle befolkning af brugere spiste for det meste kød. Et system rettet mod vegetarer var ikke godt til at fange andres interesser og var stærkt påvirket af vegetariske brugeres præferencer. Balancering af træningsdata forbedrede konverteringer med op til 11 %.

Tidligere har feltet kunstig intelligens ihovedsageligt fokuseret på big data - træning blev gennemført på et omfattende datasæt. Selvom der stadig er fremskridt med at skabe sådanne modeller, flytter fokus gradvist til små data og arbejdet med det. Dette udvider adgangstærsklen til AI-området - komplekse løsninger kan allerede oprettes selv med en lille mængde data.

Læs mere:

Et sort hul i galaksen viste, at Einstein havde ret. Det vigtigste

Rummet ødelægger knogler og ændrer deres struktur: Forskere ved ikke, hvordan folk vil flyve til Mars

Astronomer har fundet planeter, der er forskellige fra Jorden, men egnede til liv

Geek Tech Online

Alt om teknologi og gadgets

Indholdsfiltrering og diagnose: Hvordan AI læres at udføre komplekse opgaver uden data

Store datasæt er ikke nødvendige

Det hele starter med data

Fra teori til praksis

Store datasæt er ikke nødvendige

Det hele starter med data&nbsp;

Fra teori til praksis

Det hele starter med data