Filtrarea și diagnosticarea conținutului: Cum se învață AI să facă sarcini complexe fără date

Nu sunt necesare seturi uriașe de date

Istoria învățării automate a început la începutul secolului 20.

Calea de la algoritmi simpli care ar putea filtra e-mailurile și găsi malware la extragerea datelor care ar putea prezice dezvoltarea bolii la pacienți și ar putea învinge jucătorii de șah de clasă mondială.

Oricare ar fi scopul modelului, scopul său este de a prezice rezultatulCu cât setul de date este mai divers(set dedate care "alimentează" modelele), cu atât este mai ușor pentru algoritm să găsească modele și, prin urmare, cu atât rezultatul este mai precispe drum.

Modelul are nevoie de două componente principale pentru a funcționa:date și algoritm. Date înseamnă informații deja etichetate, unde fiecărui exemplu de date de intrare (de exemplu, fotografii ale unei străzi cu pietoni) i se atribuie rezultatul așteptat al rețelei neuronale (contururile figurilor pietonilor pe care rețeaua neuronală ar trebui să le evidențieze).

În acest moment, lumea învățării automate este dominată de o abordare centrată pe model, astfel încât inginerii ML cheltuiescO mulțime de timp petrecut pe algoritmi este a doua componentă importantă a funcționării modelului.Alegerea algoritmului depinde de viteza și precizia lucrării.Abordarea este mai simplă și mai interesantă pentru ingineri, nu uitați de principiul simplu al gunoiului în, gunoi afară.Dacă datele colectate nu sunt reprezentative, nicio șmecherie algoritmică nu va ajutaPrin urmare, accentul inginerilor se mută treptat la date.

Inginerii ML privesc din ce în ce mai mult în lateralAI centrat pe date, ideea căruia este să colecteze mai puține date, dar de o calitate mai bună. Acest lucru este mai eficient: dezvoltarea algoritmilor îmbunătățește performanța modelului cu 0-10% și lucrul cu calitatea datelor - cu 10-30%.

Totul începe cu datele

Într-o lume ideală, o companie care foloseștetehnologia de învățare automată respectă cultura colectării datelor. Dar colectarea datelor este doar începutul. Apoi urmează procesul de marcare, consumator de timp și costisitor. Urmând conceptul de IA bazată pe date, inginerii ML pot obține performanțe mult mai mari ale modelului în comparație cu etichetarea datelor „cât mai ieftin posibil”. Iată principalele principii ale acestei abordări:

Instrucțiuni de marcare de înaltă calitate

Ai putea crede:de ce să se formalizeze fiecare punct al procesului de stabilire şi rezolvare a unei probleme când aceasta poate fi formulată într-o singură propoziţie. Să presupunem că vorbim despre marcarea datelor pentru pilotul automat, ar putea suna așa: „selectați toți pietonii din fotografii”. Dar adnotatorii vor întâlni rapid cazuri ambigue - dacă să desemneze un biciclist, o persoană pe scuter sau un pasager într-un corp deschis ca pieton? Fiecare adnotator va veni cu un răspuns singur, dar acesta va fi diferit și va distruge omogenitatea datelor. Prin urmare, este necesar să introduceți toate exemplele complexe într-o bază de date, unde adnotatorii, în caz de dificultăți, se pot întoarce. Dar pentru ca un astfel de document să apară, aveți nevoie de feedback de la adnotatori.

feedback-ul

O bază de date nu poate apărea de nicăieri, aveți nevoie de două lucruri: o cultură a respectului pentru feedback-ul adnotatorilor și persoanele responsabile pentru menținerea acestuia actualizat.De regulă, acesta este cel mai experimentat dintre specialiștii în marcare sau omul de știință însuși.

Resursele trebuie conectate pe măsură ce se formează nucleul echipei, care simte toată responsabilitatea și importanța procesului, ajutându-i pe noii veniți să se implice în el.

Baza de date nu poate apărea de nicăieri

Validare încrucișată

Compania angajează adesea mai mult de unuladnotator cu diferite niveluri de calificare. Prin urmare, același set de date poate fi etichetat în moduri diferite. Deci rezultatele lucrării ar trebui verificate periodic. Acest lucru va oferi o înțelegere a locurilor în care specialiștii întâmpină dificultăți care ar trebui introduse în baza de date - acest lucru va reduce factorul de eroare umană.

Trecerea datelor printr-un cercetător de date

Înainte de a le oferi adnotatorilor datele pentru a marca, este util ca cercetătorul să se scufunde în date și să marcheze primele două sute de exemple. Acest lucru vă va permite să înțelegeți cum se poate rezolva problema pentru model.

Deși diviziunea muncii este atractivă din punct de vedereÎn ceea ce privește costul muncii, nu ar trebui să ne așteptăm la același nivel de lucru cu datele de la adnotatori ca de la oamenii de știință de date - markerii nu pot și nu ar trebui să identifice problemele de învățare automată.

Dacă trebuie să lucrați cu anumitedate, aveți nevoie de cunoștințe din domeniu. De exemplu, dacă algoritmul trebuie să recunoască imagini cu raze X cu o tumoare, modelul poate fi antrenat corect numai dacă specialiștii în viață sunt siguri că există neoplasme în fiecare fragment marcat, iar imaginea este defectă.

Exemplele „de frontieră” sunt importante

Principiul principal al marcării manuale este că ar trebui să fie intelligent.In procesul de antrenament, rețeaua neuronală poate fi ghicită ce exemple din eșantionul de antrenament este cel mai probabil să se "poticnească".Este mai bine să le oferiți pentru marcarea manuală, ceea ce va îmbunătăți calitatea muncii modelului mai mult decât milioane de exemple marcate, instruire pe care modelul nu va face oricum o greșeală.

Augmentarea datelor sau sintetice

Dacă există puține date sau marcare a datelor colectateprea scumpe - le puteți propaga. De exemplu, dacă datele sunt textuale, aceleași apeluri ale utilizatorului pot fi reformulate. Dacă acestea sunt imagini, puteți modifica luminozitatea, puteți tăia și răsturna unele dintre imagini.

În creșterea cantității de date, mai există și altaabordarea este de a le sintetiza. Dar astfel de date nu pot înlocui întotdeauna datele reale, mai ales dacă rețeaua neuronală produce același tip sau date idealizate. În acest caz, puteți utiliza date sintetice numai la anumiți pași ai modelului.

De la teorie la practică

Retele sociale

Pentru a proteja utilizatorii și a-i proteja denegativ, cele mai mari rețele sociale integrează un detector de conținut toxic bazat pe învățarea automată. În procesul de lucru, principala problemă nu este selecția unui model, ci colectarea și analiza datelor. Problema este că există mai puțin conținut toxic decât conținutul normal, așa că echipa trebuie să colecteze o bază de date cu astfel de conținut pe platformă, ceea ce nu se poate face fără un algoritm. Prin urmare, colectarea datelor durează până la 90% din timpul oamenilor de știință. Dar calitatea modelului final este îmbunătățită.

Retail online

Când modelul a fost instruit, care transformă o rețetă într-o listă de cumpărături bazată pe 2 milioane de exemple , modelul a arătat în mod previzibil o calitate de 97%.La scară, modelul a funcționat perfect, dar în cazul unui anumit retailer, cu produse atipice, calitatea a scăzut dramatic la un inacceptabil 70%.Pentru a rezolva această problemă, echipa de adnotare s-a concentrat pe asigurarea faptului că datele noi nu au fost pierdute pe fundalul setului de date epuizat.A fost suficient ca modelul să se antreneze pentru câteva mii de exemple, iar calitatea a crescut din nou la 97%.

AI ajută în comerțul cu amănuntul și nu numai prin selectarea produselor preferate

Productie transportoare

O companie care a folosit inteligența artificialăpentru a detecta defectele pieselor pe o bandă transportoare, a obținut o precizie de 90% a modelului după lucrul inițial cu datele. Dar astfel de indicatori nu au îndeplinit cerințele clientului. 

În încercarea de a îmbunătăți performanța modelului, inginerii ML„a șlefuit” munca algoritmilor fără a lucra cu datele, ceea ce a îmbunătățit rezultatul cu doar 0,4%. După reanalizarea datelor, curățarea setului de date din exemplele prost etichetate și reetichetarea datelor nou colectate, rezultatul a crescut cu 8%.

sistem de recomandare

Sistemul de recomandare a aplicației de rețetăa arătat în mod constant o rată de clic scăzută de 5%. Lucrul cu algoritmi nu a ajutat, iar analiza datelor a indicat că clienții ale căror date au fost folosite pentru a antrena modelul au fost în mare parte vegetarieni, iar populația generală de utilizatori a consumat mai ales carne. Un sistem orientat către vegetarieni nu era bun la captarea intereselor celorlalți și era foarte influențat de preferințele consumatorilor vegetarieni. Echilibrarea datelor de antrenament a îmbunătățit conversiile cu până la 11%.

În trecut, domeniul inteligenței artificiale înconcentrat în principal pe big data - instruirea a fost efectuată pe un set extins de date. Deși există încă progrese în crearea unor astfel de modele, accentul se mută treptat către datele mici și lucrul cu acestea. Acest lucru extinde pragul de intrare în domeniul AI - soluții complexe pot fi deja create chiar și cu o cantitate mică de date.

Citeste mai mult:

O gaură neagră în galaxie i-a dat dreptate lui Einstein. Lucrul principal

Spațiul distruge oasele și le schimbă structura: oamenii de știință nu știu cum vor zbura oamenii pe Marte

Astronomii au descoperit planete care sunt diferite de Pământ, dar potrivite pentru viață

Geek Tech Online

Totul despre tehnologie și gadgeturi

Filtrarea și diagnosticarea conținutului: Cum se învață AI să facă sarcini complexe fără date

Nu sunt necesare seturi uriașe de date

Totul începe cu datele

De la teorie la practică