Suuria tietokokonaisuuksia ei tarvita
Koneoppimisen historia alkoi 20. vuosisadan aamulla.
Olipa mallin tarkoitus mikä tahansa, sen tarkoitus on ennustaa lopputulostaMitä monipuolisempi aineisto (joukkodata, joka "syöttää" malleja), sitä helpompi algoritmin on löytää kuvioita ja sitä tarkempi tulosmatkalla ulos.
Malli tarvitsee toimiakseen kaksi pääkomponenttia:data ja algoritmi. Data tarkoittaa jo merkittyä tietoa, jossa jokaiselle syöttötiedon esimerkille (esimerkiksi valokuvat kadusta jalankulkijoiden kanssa) on osoitettu hermoverkon odotettu tulos (jalankulkijoiden kuvioiden ääriviivat, jotka hermoverkon tulisi korostaa).
Tällä hetkellä koneoppimisen maailmaa hallitsee mallikeskeinen lähestymistapa, joten ML-insinöörit kuluttavatAlgoritmeihin käytetty aika on toinen tärkeä osa mallin toimintaa.Algoritmin valinta riippuu työn nopeudesta ja tarkkuudesta.Lähestymistapa on yksinkertaisempi ja mielenkiintoisempi insinööreille, älä unohda yksinkertaista periaatetta, jonka mukaan roskat sisään, roskat ulos.Jos kerätyt tiedot eivät ole edustavia, mikään määrä algoritmista temppuilua ei autaSiksi insinöörien painopiste siirtyy vähitellen tietoihin.
ML-insinöörit katsovat yhä enemmän sivuundatakeskeinen tekoäly, jonka ideana on kerätä vähemmän dataa, mutta laadukkaampaa. Tämä on tehokkaampaa: algoritmien kehittäminen parantaa mallin suorituskykyä 0-10% ja työskentely tietojen laadulla - 10-30%.
Kaikki alkaa datasta
Ihanteellisessa maailmassa yritys, joka käyttääkoneoppimisteknologia kunnioittaa tiedonkeruukulttuuria. Tiedonkeruu on kuitenkin vasta alkua. Sitten tulee aikaa vievä ja kallis merkintäprosessi. Tietopohjaisen tekoälyn konseptia noudattaen ML-insinöörit voivat saavuttaa paljon paremman mallin suorituskyvyn verrattuna tietojen merkitsemiseen "mahdollisimman halvalla". Tässä ovat tämän lähestymistavan pääperiaatteet:
- Laadukkaat merkintäohjeet
Saatat ajatella:miksi formalisoida ongelman asettamis- ja ratkaisuprosessin jokainen kohta, kun se voidaan muotoilla yhdellä lauseella. Oletetaan, että puhumme automaattiohjauksen datamerkinnöistä, se saattaa kuulostaa tältä: "valitse kaikki kuvissa olevat jalankulkijat." Mutta kommentaattorit törmäävät nopeasti moniselitteisiin tapauksiin - valitaanko pyöräilijä, skootterilla ajava henkilö tai matkustaja avoimessa ruumiissa jalankulkijaksi? Jokainen kirjoittaja keksii vastauksen itse, mutta se on erilainen ja tuhoaa tiedon homogeenisuuden. Siksi on välttämätöntä syöttää kaikki monimutkaiset esimerkit tietokantaan, johon annotaattorit voivat kääntyä vaikeuksien sattuessa. Mutta jotta tällainen asiakirja ilmestyisi, tarvitset palautetta kommentoijilta.
- palaute
Tietokanta ei voi syntyä tyhjästä, tarvitset kaksi asiaa: kommentaattoreiden palautteen kunnioittamisen kulttuurin ja ihmiset, jotka ovat vastuussa sen pitämisestä ajan tasalla.Yleensä tämä on kokenein merkintäasiantuntijoista tai itse datatieteilijästä.
Resursseja on yhdistettävä sitä mukaa, kun muodostuu tiimin ydin, joka tuntee prosessin kaiken vastuun ja tärkeyden ja auttaa uusia tulokkaita pääsemään siihen mukaan.
Tietokanta ei voi ilmestyä tyhjästä
- Ristiinvalidointi
Yritys työllistää usein useamman kuin yhdenannotaattori eri taitotasoilla. Siksi sama tietojoukko voidaan merkitä eri tavoilla. Joten työn tulokset on tarkistettava säännöllisesti. Tämä antaa käsityksen siitä, missä asiantuntijat kohtaavat vaikeuksia, jotka tulisi syöttää tietokantaan - tämä vähentää inhimillistä virhetekijää.
- Tietojen välittäminen datatieteilijän kautta
Ennen kuin annotaattoreille annetaan merkintätiedot, on hyödyllistä pyytää datatieteilijää sukeltamaan tietoihin ja merkitsemään ensimmäiset parisataa esimerkkiä. Tämän avulla voit ymmärtää, kuinka ongelma voidaan ratkaista mallille.
Vaikka työnjako onkin houkuttelevaaTyön kustannuksella ei pitäisi odottaa samaa työtasoa annotaattoreiden tietojen kanssa kuin datatutkijoilta - merkit eivät voi eikä saa tunnistaa koneoppimisongelmia.
Jos sinun on työskenneltävä tiettyjentietoja, tarvitset alan tietämystä. Jos algoritmin on esimerkiksi tunnistettava röntgenkuvat kasvaimella, malli voidaan kouluttaa oikein vain, jos elävät asiantuntijat ovat varmoja, että jokaisessa merkityssä fragmentissa on kasvaimia ja kuva on viallinen.
- "Raja"-esimerkit ovat tärkeitä
Manuaalisen merkinnän pääperiaate on, että sen pitäisi olla intelligent.In koulutusprosessin aikana, hermoverkko voidaan arvata, mitkä esimerkit koulutusnäytteessä todennäköisimmin "kompastuvat".On parempi antaa heille manuaalinen merkintä, mikä parantaa mallin työn laatua yli miljoonia merkittyjä esimerkkejä, koulutusta, johon malli ei kuitenkaan tee virhettä.
- Tietojen lisääminen tai synteettiset materiaalit
Jos dataa tai kerättyjen tietojen merkintää on vähänliian kalliita - voit levittää niitä. Jos data on esimerkiksi tekstimuotoista, samat käyttäjäpuhelut voidaan muotoilla uudelleen. Jos nämä ovat kuvia, voit muuttaa kirkkautta, leikata ja kääntää joitain kuvia.
Tietojen määrän kasvussa on toinenlähestymistapa on syntetisoida ne. Mutta tällainen data ei aina voi korvata todellista dataa, varsinkin jos hermoverkko tuottaa samantyyppistä tai idealisoitua dataa. Tässä tapauksessa voit käyttää synteettistä dataa vain tietyissä mallin vaiheissa.
Teoriasta käytäntöön
- Sosiaaliset verkostot
Käyttäjien suojelemiseksi ja suojaamiseksinegatiivinen, suurimmat sosiaaliset verkostot integroivat koneoppimiseen perustuvan myrkyllisen sisällön tunnistimen. Työprosessissa suurin ongelma ei ole mallin valinta, vaan tiedon kerääminen ja analysointi. Ongelmana on, että myrkyllistä sisältöä on vähemmän kuin normaalia sisältöä, joten tiimin on kerättävä alustalle tietokanta tällaisesta sisällöstä, mikä ei onnistu ilman algoritmia. Siksi tiedonkeruu vie jopa 90 % datatieteilijöiden ajasta. Mutta lopullisen mallin laatu on parantunut.
- Verkkokauppa
Kun malli koulutettiin, joka muuttaa reseptin ostoslistaksi, joka perustuu 2 miljoonaan esimerkkiin , malli osoitti ennustettavasti 97%: n laatua.Mittakaavassa malli toimi täydellisesti, mutta tietyn jälleenmyyjän tapauksessa, epätyypillisillä tuotteilla, laatu laski dramaattisesti 70%: iin, jota ei voida hyväksyä.Tämän ongelman ratkaisemiseksi merkintätiimi keskittyi varmistamaan, että uusia tietoja ei menetetty loppuun käytetyn tietojoukon taustalla.Riittää, että malli kouluttaa pari tuhatta esimerkkiä, ja laatu nousi jälleen 97 prosenttiin.
Tekoäly auttaa vähittäiskaupassa, ei vain valitsemalla haluamasi tuotteet
- Kuljettimen tuotanto
Yritys, joka käytti tekoälyä kuljetinhihnan osien vikojen havaitsemiseen, saavutti mallin 90%: n tarkkuuden alun perin tietojen käsittelyn jälkeen.Tällaiset indikaattorit eivät kuitenkaan saavuttaneet asiakkaan vaatimuksia.
ML-insinöörit yrittävät parantaa mallin suorituskykyä"Hiilloimme" algoritmien työtä ilman dataa, mikä paransi tulosta vain 0,4 %. Kun tiedot analysoitiin uudelleen, tietojoukko puhdistettiin huonosti merkityistä esimerkeistä ja merkittiin uudelleen uudet kerätyt tiedot, tulos parani 8 %.
- suosittelijajärjestelmä
Reseptisovellussuositusjärjestelmäosoitti jatkuvasti alhaista 5 prosentin napsautussuhdetta. Algoritmeilla työskentely ei auttanut, ja data-analyysi osoitti, että asiakkaat, joiden tietoja käytettiin mallin kouluttamiseen, olivat enimmäkseen kasvissyöjiä ja suurin osa käyttäjistä söi lihaa. Kasvissyöjille suunnattu järjestelmä ei kyennyt tavoittamaan muiden etuja, ja kasvissyöjien mieltymykset vaikuttivat siihen suuresti. Harjoitteludatan tasapainotus paransi tuloksia jopa 11 %.
Aiemmin tekoälyn ala keskittyi pääasiassa big dataan, ja koulutusta suoritettiin laajalla tietojoukolla.Vaikka tällaisten mallien luomisessa on vielä edistytty, painopiste siirtyy vähitellen pieniin tietoihin ja niiden kanssa työskentelyyn.Tämä laajentaa kynnystä päästä tekoälyn alalle – jo nyt monimutkaisia ratkaisuja voidaan luoda pienelläkin datamäärällä.
Lue lisää:
Musta aukko galaksissa osoitti Einsteinin olevan oikeassa. Pääasia
Avaruus tuhoaa luita ja muuttaa niiden rakennetta: tiedemiehet eivät tiedä, kuinka ihmiset lentävät Marsiin
Tähtitieteilijät ovat löytäneet planeettoja, jotka eroavat Maasta, mutta sopivat elämään