Nereikia didelių duomenų rinkinių
Mašininio mokymosi istorija prasidėjo XX amžiaus aušroje. Per tą laiką modeliai praėjo
Kad ir koks būtų modelio tikslas, jo paskirtis— numatyti rezultatą pagal įvesties duomenis. Kuo įvairesnis duomenų rinkinys (duomenų rinkinys, „maitinantis“ modelius), tuo algoritmui lengviau rasti šablonus, taigi, tuo tikslesnis išvesties rezultatas.
Kad modelis veiktų, reikia dviejų pagrindinių komponentų:duomenis ir algoritmą. Duomenys reiškia jau pažymėtą informaciją, kur kiekvienam įvesties duomenų pavyzdžiui (pavyzdžiui, gatvės su pėsčiaisiais nuotraukos) priskiriamas laukiamas neuroninio tinklo rezultatas (pėsčiųjų figūrų kontūrai, kuriuos neuroninis tinklas turėtų išryškinti).
Mašininio mokymosi pasaulyje šiuo metu dominuojaį modelį orientuotas požiūris, todėl ML inžinieriai daug laiko skiria algoritmams – antram svarbiam modelio veikimo komponentui. Darbo greitis ir tikslumas priklauso nuo algoritmo pasirinkimo. Tačiau, nepaisant to, kad šis metodas yra paprastesnis ir inžinieriams įdomesnis, nepamirškite paprasto principo „šiukšles įvesti, išvežti šiukšles“. Jei surinkti duomenys nėra reprezentatyvūs, jokie algoritminiai triukai nepadės pagerinti modelio kokybės. Todėl inžinierių dėmesys pamažu krypsta į duomenis.
ML inžinieriai vis dažniau žiūri į šonąį duomenis orientuotas AI, kurio idėja yra rinkti mažiau duomenų, bet geresnės kokybės. Taip efektyviau: algoritmų kūrimas pagerina modelio veikimą 0-10%, o darbas su duomenų kokybe - 10-30%.
Viskas prasideda nuo duomenų
Idealiame pasaulyje įmonė, kuri naudojasimašininio mokymosi technologija gerbia duomenų rinkimo kultūrą. Tačiau duomenų rinkimas yra tik pradžia. Tada ateina daug laiko reikalaujantis ir brangus žymėjimo procesas. Vadovaudamiesi duomenimis pagrįsto AI koncepcija, ML inžinieriai gali pasiekti daug didesnį modelio našumą, palyginti su duomenų ženklinimu „kuo pigiau“. Štai pagrindiniai šio požiūrio principai:
- Aukštos kokybės žymėjimo gairės
Galite pagalvoti:kam formalizuoti kiekvieną problemos nustatymo ir sprendimo proceso tašką, kai jį galima suformuluoti vienu sakiniu. Tarkime, kad kalbame apie duomenų žymėjimą autopilotui, tai gali skambėti taip: „pasirinkti visus pėsčiuosius nuotraukose“. Tačiau anotatoriai greitai susidurs su dviprasmiškais atvejais – ar kaip pėsčiąjį išskirti dviratininką, paspirtuką važiuojantį žmogų, ar atviru kūnu sėdintį keleivį? Kiekvienas anotatorius sugalvos savo atsakymą, tačiau jis bus skirtingas ir sunaikins duomenų homogeniškumą. Todėl visus sudėtingus pavyzdžius būtina suvesti į duomenų bazę, kurioje, iškilus sunkumams, galėtų kreiptis anotatoriai. Tačiau norint, kad toks dokumentas atsirastų, reikia atsiliepimų iš anotatorių.
- Atsiliepimai
Duomenų bazė negali atsirasti iš niekur.Tam reikia dviejų sąlygų: pagarbos anotatorių atsiliepimams kultūros ir darbuotojų, atsakingų už šios duomenų bazės atnaujinimą. Paprastai tai yra labiausiai patyręs žymeklis arba pats duomenų mokslininkas.
Išteklius reikia jungti, nes formuojasi komandos branduolys, kuris jaučia visą proceso atsakomybę ir svarbą, padeda į jį įsitraukti naujokams.
Duomenų bazė negali atsirasti iš niekur
- Kryžminis patvirtinimas
Įmonėje dažnai dirba daugiau nei vienasskirtingų įgūdžių lygio anotatorius. Todėl tą patį duomenų rinkinį galima žymėti skirtingais būdais. Taigi darbo rezultatai turėtų būti periodiškai tikrinami. Tai leis suprasti, kur specialistai susiduria su sunkumais, kuriuos reikėtų įvesti į duomenų bazę – tai sumažins žmogiškųjų klaidų faktorių.
- Duomenų perdavimas per duomenų mokslininką
Prieš suteikiant anotatoriams pažymėti duomenis, duomenų mokslininkui naudinga pasinerti į duomenis ir pažymėti pirmuosius porą šimtų pavyzdžių. Tai leis jums suprasti, kaip modelio problemą galima išspręsti.
Nors darbo pasidalijimas patrauklus iš esmėsKalbant apie darbo kainą, nereikėtų tikėtis tokio pat lygio darbo su duomenimis iš anotatorių kaip iš duomenų mokslininkų – žymekliai negali ir neturėtų nustatyti mašininio mokymosi problemų.
Jei tenka dirbti su konkrečiaisduomenų, jums reikia pramonės žinių. Pavyzdžiui, jei algoritmas turi atpažinti rentgeno vaizdus su naviku, modelis gali būti teisingai apmokytas tik tada, kai gyvi specialistai įsitikina, kad kiekviename pažymėtame fragmente yra navikų, o vaizdas yra brokuotas.
- „Pasienio“ pavyzdžiai yra svarbūs
Pagrindinis rankinio žymėjimo principas yra tas, kad jis turibūk protingas. Mokymo proceso metu neuroninis tinklas gali atspėti, už kuriuos mokymo rinkinio pavyzdžius jis greičiausiai „užklups“. Geriau juos atiduoti rankiniam žymėjimui – tai pagerins modelio darbo kokybę daugiau nei milijonai pažymėtų pavyzdžių, mokymų, kurių metu modelis nepadarys klaidų.
- Papildymas arba duomenų sintetika
Jei yra mažai duomenų arba surinktų duomenų žymėjimasper brangu – galite juos dauginti. Pavyzdžiui, jei duomenys yra tekstiniai, tie patys vartotojo skambučiai gali būti perfrazuoti. Jei tai vaizdai, galite keisti ryškumą, iškirpti ir apversti kai kurias nuotraukas.
Duomenų kiekio padidėjime yra ir kitametodas yra juos sintetinti. Tačiau tokie duomenys ne visada gali pakeisti tikrus duomenis, ypač jei neuroninis tinklas gamina to paties tipo arba idealizuotus duomenis. Tokiu atveju sintetinius duomenis galite naudoti tik tam tikruose modelio žingsniuose.
Nuo teorijos iki praktikos
- Socialinė žiniasklaida
Norėdami apsaugoti vartotojus ir apsaugoti juos nuoneigiama, didžiausi socialiniai tinklai integruoja toksiško turinio detektorių, pagrįstą mašininiu mokymusi. Darbo procese pagrindinė problema yra ne modelio parinkimas, o duomenų rinkimas ir analizė. Bėda ta, kad toksinio turinio yra mažiau nei įprastame turinyje, todėl komandai platformoje reikia surinkti tokio turinio duomenų bazę, o tai neįmanoma padaryti be algoritmo. Todėl duomenų rinkimas užima iki 90% duomenų mokslininkų laiko. Tačiau galutinio modelio kokybė pagerėjo.
- Mažmeninė prekyba internetu
Treniruojant modelį, kuris paverčia receptąį pirkinių sąrašą, pagrįstą 2 milijonais pavyzdžių modelis, kaip nuspėjama, parodė 97 % kokybę. Pagal mastą modelis veikė puikiai, tačiau konkretaus mažmenininko atveju su netipiniais produktais kokybė smarkiai nukrito iki nepriimtino 70%. Siekdama išspręsti šią problemą, komentarų komanda sutelkė dėmesį į tai, kad brandaus duomenų rinkinio fone nebūtų prarasti nauji duomenys. Užteko apmokyti modelį ant poros tūkstančių pavyzdžių ir kokybė vėl pakilo iki 97%.
AI padeda mažmeninėje prekyboje, o ne tik pasirenkant pageidaujamus produktus
- Konvejerio gamyba
Kompanija, kuri naudojo dirbtinį intelektąkonvejerio juostos dalių defektams aptikti, po pirminio darbo su duomenimis gautas 90% modelio tikslumas. Tačiau tokie rodikliai neatitiko kliento reikalavimų.
Siekdami pagerinti modelio veikimą, ML inžinieriaiAlgoritmų darbą „šlifavome“ nedirbdami su duomenimis, kas pagerino rezultatą tik 0,4 proc. Pakartotinai išanalizavus duomenis, išvalius duomenų rinkinį nuo blogai pažymėtų pavyzdžių ir peržymėjus naujai surinktus duomenis, rezultatas išaugo 8 proc.
- rekomendacijų sistema
Receptų programėlių rekomendacijų sistemanuolat rodė žemą 5 % paspaudimų rodiklį. Darbas su algoritmais nepadėjo, o duomenų analizė parodė, kad klientai, kurių duomenys buvo naudojami rengiant modelį, buvo daugiausia vegetarai, o bendra vartotojų populiacija daugiausia valgė mėsą. Sistema, orientuota į vegetarus, nebuvo tinkama patraukti kitų interesus ir jai didelę įtaką darė vegetarų vartotojų pageidavimai. Treniruočių duomenų balansavimas pagerino konversijas iki 11%.
Anksčiau dirbtinio intelekto srityjedaugiausia dėmesio buvo skirta dideliems duomenims – mokymai buvo atlikti naudojant platų duomenų rinkinį. Nors tokių modelių kūrimo pažanga vis dar vyksta, dėmesys po truputį krypsta į smulkius duomenis ir darbą su jais. Tai išplečia įėjimo į AI sritį slenkstį – sudėtingus sprendimus jau galima sukurti net ir turint nedidelį duomenų kiekį.
Skaityti daugiau:
Juodoji skylė galaktikoje įrodė, kad Einšteinas teisus. Pagrindinis dalykas
Kosmosas ardo kaulus ir keičia jų struktūrą: mokslininkai nežino, kaip žmonės skris į Marsą
Astronomai rado planetų, kurios skiriasi nuo Žemės, bet tinka gyvybei