Innehållsfiltrering och diagnos: Hur AI lärs ut att utföra komplexa uppgifter utan data

Stora datamängder behövs inte

Maskininlärningens historia började i början av 1900-talet. Under denna tid passerade modellerna

långt från enkla algoritmer som kundefiltrera e-postmeddelanden och upptäcka skadlig programvara, till datautvinning som kan förutsäga sjukdomsprogression hos patienter och slå schackspelare i världsklass.

Oavsett syftet med modellen, dess syfte— förutsäg resultatet från indata. Ju mer varierande datamängden är (uppsättningen av data som "matar" modellerna), desto lättare är det för algoritmen att hitta mönster, och därför blir resultatet mer exakt.

Modellen behöver två huvudkomponenter för att fungera:data och algoritm. Data betyder redan märkt information, där varje exempel på indata (till exempel fotografier av en gata med fotgängare) tilldelas det förväntade resultatet av det neurala nätverket (konturerna av fotgängares figurer som det neurala nätverket ska markera).

Världen av maskininlärning domineras för närvarande avett modellcentrerat tillvägagångssätt, vilket är anledningen till att ML-ingenjörer spenderar mycket tid på algoritmer – den andra viktiga komponenten i modellprestanda. Arbetets hastighet och noggrannhet beror på valet av algoritm. Men trots det faktum att detta tillvägagångssätt är enklare och mer intressant för ingenjörer, glöm inte den enkla principen om skräp in, skräp ut. Om den insamlade informationen inte är representativ kommer ingen mängd algoritmiska trick att bidra till att förbättra modellens kvalitet. Därför skiftar ingenjörernas fokus gradvis till data. 

ML-ingenjörer tittar alltmer åt sidandatacentrerad AI, vars idé är att samla in mindre data, men av bättre kvalitet. Detta är mer effektivt: utvecklingen av algoritmer förbättrar modellens prestanda med 0-10% och arbetet med datakvalitet - med 10-30%.

Allt börjar med data 

I en idealisk värld, ett företag som användermaskininlärningsteknik respekterar kulturen för datainsamling. Men datainsamling är bara början. Sedan kommer den tidskrävande och dyra märkningsprocessen. Enligt konceptet med datadriven AI kan ML-ingenjörer uppnå mycket högre modellprestanda jämfört med att märka data "så billigt som möjligt". Här är huvudprinciperna för detta tillvägagångssätt:

Riktlinjer för uppmärkning av hög kvalitet

Du kanske tror:varför formalisera varje punkt i processen att ställa och lösa ett problem när det kan formuleras i en mening. Låt oss säga att vi pratar om datauppmärkning för autopiloten, det kan låta så här: "välj alla fotgängare på bilderna." Men annotatorer kommer snabbt att stöta på tvetydiga fall - om man ska peka ut en cyklist, en person på en skoter eller en passagerare i en öppen kropp som fotgängare? Varje kommentator kommer att komma med ett svar på egen hand, men det kommer att vara annorlunda och förstöra homogeniteten i data. Därför är det nödvändigt att lägga in alla komplexa exempel i en databas, dit annotatorer, i händelse av svårigheter, kan vända sig. Men för att ett sådant dokument ska visas behöver du feedback från annotatorer.

återkoppling

En databas kan inte dyka upp från ingenstans.Detta kräver två villkor: en kultur av respekt för annotators feedback och anställda som är ansvariga för att hålla denna databas uppdaterad. Som regel är detta den mest erfarna av markörerna eller en datavetare själv. 

Resurser måste kopplas ihop när kärnan i teamet bildas, som känner allt ansvar och vikt av processen, vilket hjälper nyanlända att engagera sig i den.

Databasen kan inte dyka upp från ingenstans

Korsvalidering

Företaget sysselsätter ofta fler än enannotator med olika färdighetsnivåer. Därför kan samma datamängd märkas på olika sätt. Så resultatet av arbetet bör kontrolleras med jämna mellanrum. Detta kommer att ge en förståelse för var specialister stöter på svårigheter som bör läggas in i databasen - detta kommer att minska den mänskliga felfaktorn.

Att skicka data genom en dataforskare

Innan du ger annotatorerna data att markera är det bra att låta dataforskaren dyka ner i data och markera de första hundra exemplen. Detta gör att du kan förstå hur problemet är lösbart för modellen.

Även om arbetsfördelningen är attraktiv från börjanNär det gäller kostnaden för arbetet bör man inte förvänta sig samma nivå av arbete med data från annotatorer som från datavetare – markörer kan och bör inte identifiera problem med maskininlärning.

Om du måste arbeta med specifikadata behöver du branschkunskap. Till exempel, om algoritmen måste känna igen röntgenbilder med en tumör, kan modellen tränas korrekt endast om levande specialister är säkra på att det finns neoplasmer i varje markerat fragment, och bilden är defekt.

"Gränsexempel" är viktiga

Huvudprincipen för manuell märkning är att den måstevara intelligent. Under träningsprocessen kan det neurala nätverket gissa vilka exempel i träningsuppsättningen det är mest troligt att "snubbla" på. Det är bättre att lämna över dem för manuell märkning; detta kommer att förbättra kvaliteten på modellens arbete mer än miljontals markerade exempel, utbildning där modellen inte kommer att göra misstag.

Augmentation eller datasyntetik

Om det finns lite data eller uppmärkning av insamlad dataför dyrt - du kan föröka dem. Till exempel, om uppgifterna är textbaserade, kan samma användaranrop omformuleras. Om det här är bilder kan du ändra ljusstyrkan, klippa och vända några av bilderna.

I ökningen av mängden data finns en annantillvägagångssätt är att syntetisera dem. Men sådana data kan inte alltid ersätta riktiga data, särskilt om det neurala nätverket producerar samma typ av eller idealiserade data. I det här fallet kan du endast använda syntetiska data i vissa steg i modellen.

Från teori till praktik

Sociala nätverk

För att skydda användare och skydda dem frånnegativt, de största sociala nätverken integrerar en detektor för giftigt innehåll baserad på maskininlärning. Under arbetets gång är huvudproblemet inte valet av en modell, utan insamlingen och analysen av data. Problemet är att det finns mindre giftigt innehåll än normalt innehåll, så teamet behöver samla in en databas med sådant innehåll på plattformen, vilket inte kan göras utan en algoritm. Därför tar datainsamling upp till 90 % av tiden för dataforskare. Men kvaliteten på den slutliga modellen förbättras.

Online detaljhandel

När man tränar en modell som vänder receptettill en inköpslista baserad på 2 miljoner exempel modellen visade förutsägbart en kvalitet på 97 %. I skala fungerade modellen utmärkt, men i fallet med en specifik återförsäljare, med atypiska produkter, sjönk kvaliteten kraftigt till oacceptabla 70%. För att lösa detta problem fokuserade annoteringsteamet på att säkerställa att ny data inte gick förlorad i bakgrunden av den mogna datamängden. Det räckte med att träna modellen på ett par tusen exemplar och kvaliteten ökade återigen till 97%.

AI hjälper också till i detaljhandeln, och inte bara genom att välja föredragna produkter

Tillverkning av transportband

Ett företag som använde artificiell intelligensför att upptäcka defekter i delar på ett transportband, erhöll 90% noggrannhet av modellen efter initialt arbete med data. Men sådana indikatorer uppfyllde inte kundens krav. 

I ett försök att förbättra modellens prestanda har ML ingenjörer"polerade" algoritmernas arbete utan att arbeta med data, vilket förbättrade resultatet med endast 0,4%. Efter att ha analyserat datan på nytt, rensat datasetet från dåligt märkta exempel och ommärkt nyinsamlad data, ökade resultatet med 8 %.

rekommenderat system

Recept App Rekommenderar Systemvisade konsekvent en låg klickfrekvens på 5 %. Att arbeta med algoritmer hjälpte inte, och dataanalys visade att de klienter vars data användes för att träna modellen mestadels var vegetarianer, och den allmänna befolkningen av användare åt kött. Ett system inriktat på vegetarianer var dåligt på att fånga andras intressen och påverkades i hög grad av vegetariska användares preferenser. Balansering av träningsdata förbättrade konverteringarna med upp till 11 %.

Tidigare har området artificiell intelligens inomhuvudsakligen inriktad på big data - utbildning genomfördes på ett omfattande dataset. Även om det fortfarande finns framsteg med att skapa sådana modeller, flyttas fokus gradvis över till små data och att arbeta med den. Detta utökar ingångströskeln till området AI - komplexa lösningar kan redan skapas även med en liten mängd data.

Läs mer:

Ett svart hål i galaxen visade att Einstein hade rätt. Huvudsaken

Rymden förstör ben och ändrar deras struktur: forskare vet inte hur människor kommer att flyga till Mars

Astronomer har hittat planeter som skiljer sig från jorden, men som är lämpliga för liv

Geek Tech Online

Allt om teknik och prylar

Innehållsfiltrering och diagnos: Hur AI lärs ut att utföra komplexa uppgifter utan data

Stora datamängder behövs inte

Allt börjar med data

Från teori till praktik

Stora datamängder behövs inte

Allt börjar med data&nbsp;

Från teori till praktik

Allt börjar med data