Nie sú potrebné veľké súbory údajov
História strojového učenia sa začala na začiatku 20. storočia. Počas tejto doby modely prešli
Bez ohľadu na účel modelu, jeho účel— predpovedajte výsledok zo vstupných údajov. Čím rôznorodejší je súbor údajov (súbor údajov, ktoré „napájajú“ modely), tým ľahšie je pre algoritmus nájsť vzory, a preto je výstupný výsledok presnejší.
Na fungovanie modelu sú potrebné dve hlavné zložky:dáta a algoritmus. Dátami sa rozumejú už označené informácie, kde ku každému príkladu vstupných údajov (napríklad fotografie ulice s chodcami) je priradený očakávaný výsledok neurónovej siete (obrysy postáv chodcov, ktoré má neurónová sieť zvýrazniť).
Svetu strojového učenia v súčasnosti dominujeprístup zameraný na model, čo je dôvod, prečo inžinieri ML trávia veľa času algoritmami – druhou dôležitou súčasťou výkonu modelu. Rýchlosť a presnosť práce závisí od výberu algoritmu. Ale napriek tomu, že tento prístup je pre inžinierov jednoduchší a zaujímavejší, nezabudnite na jednoduchý princíp odpadky dovnútra, odpadky von. Ak zhromaždené údaje nie sú reprezentatívne, žiadne množstvo algoritmických trikov nepomôže zlepšiť kvalitu modelu. Ťažisko inžinierov sa preto postupne presúva na dáta.
Inžinieri ML sa čoraz viac pozerajú na stranudata-centric AI, ktorej myšlienkou je zbierať menej údajov, ale kvalitnejšie. Je to efektívnejšie: vývoj algoritmov zlepšuje výkon modelu o 0-10% a prácu s kvalitou údajov - o 10-30%.
Všetko to začína údajmi
V ideálnom svete spoločnosť, ktorá používaTechnológia strojového učenia rešpektuje kultúru zberu údajov. Ale zber údajov je len začiatok. Potom prichádza časovo náročný a nákladný proces označovania. Podľa konceptu umelej inteligencie založenej na údajoch môžu inžinieri ML dosiahnuť oveľa vyšší výkon modelu v porovnaní s označovaním údajov „čo najlacnejšie“. Tu sú hlavné princípy tohto prístupu:
- Pokyny na označovanie vysokej kvality
Môžeš si myslieť:načo formalizovať každý bod procesu nastolenia a riešenia problému, keď sa dá sformulovať jednou vetou. Povedzme, že hovoríme o označení údajov pre autopilota, mohlo by to znieť takto: „vyberte všetkých chodcov na fotkách“. No anotátori rýchlo natrafia na nejednoznačné prípady – či už ako chodca vyčleniť cyklistu, človeka na kolobežke alebo pasažiera v otvorenom tele? Každý anotátor príde s odpoveďou sám, ale bude iná a ničí homogenitu dát. Preto je potrebné všetky zložité príklady zadávať do databázy, kam sa môžu anotátori v prípade ťažkostí obrátiť. Aby sa však takýto dokument objavil, potrebujete spätnú väzbu od anotátorov.
- spätná väzba
Databáza sa nemôže objaviť z ničoho nič.Vyžaduje si to dve podmienky: kultúru rešpektovania spätnej väzby anotátorov a zamestnancov zodpovedných za udržiavanie tejto databázy v aktuálnom stave. Spravidla ide o najskúsenejšieho z markerov alebo samotného dátového vedca.
Pri formovaní jadra tímu, ktorý pociťuje všetku zodpovednosť a dôležitosť procesu, je potrebné prepojiť zdroje a pomôcť nováčikom zapojiť sa do neho.
Databáza sa nemôže objaviť z ničoho nič
- Krížová validácia
Spoločnosť často zamestnáva viac ako jednéhoanotátor s rôznymi úrovňami zručností. Preto ten istý súbor údajov môže byť označený rôznymi spôsobmi. Výsledky práce by sa preto mali pravidelne kontrolovať. To umožní pochopiť, kde sa špecialisti stretávajú s ťažkosťami, ktoré by mali byť vložené do databázy – zníži sa tým faktor ľudskej chyby.
- Odovzdávanie údajov cez dátového vedca
Predtým, ako poskytnete anotátorom údaje na označenie, je užitočné, aby sa dátový vedec ponoril do údajov a označil prvých niekoľko stoviek príkladov. To vám umožní pochopiť, ako je problém pre model riešiteľný.
Hoci deľba práce je atraktívna už od boduČo sa týka nákladov na prácu, od anotátorov netreba očakávať rovnakú úroveň práce s dátami ako od dátových vedcov – markery nedokážu a ani by nemali identifikovať problémy strojového učenia.
Ak musíte pracovať s konkrétnymiúdaje, potrebujete znalosti odvetvia. Napríklad, ak algoritmus musí rozpoznať röntgenové snímky s nádorom, model možno správne natrénovať iba vtedy, ak sú si žijúci špecialisti istí, že v každom označenom fragmente sú novotvary a obraz je chybný.
- Dôležité sú príklady „hranice“.
Hlavnou zásadou ručného značenia je, že musíbyť inteligentný. Počas tréningového procesu dokáže neurónová sieť odhadnúť, o ktoré príklady v tréningovej sade s najväčšou pravdepodobnosťou „narazí“. Je lepšie ich odovzdať na ručné značenie, skvalitní to prácu modelu viac ako milióny označených príkladov, tréning, na ktorom model neurobí chyby.
- Augmentácia alebo dátová syntetika
Ak existuje málo údajov alebo značiek zozbieraných údajovpríliš drahé - môžete ich rozmnožiť. Napríklad, ak sú údaje textové, môžu byť rovnaké volania používateľov preformulované. Ak ide o obrázky, môžete zmeniť jas, vystrihnúť a prevrátiť niektoré obrázky.
V náraste množstva dát je tu ďalšíprístupom je ich syntetizovať. Takéto údaje však nemôžu vždy nahradiť skutočné údaje, najmä ak neurónová sieť produkuje rovnaký typ alebo idealizované údaje. V tomto prípade môžete použiť syntetické údaje iba v určitých krokoch modelu.
Od teórie k praxi
- Sociálne siete
Chrániť používateľov a chrániť ich prednegatívne, najväčšie sociálne siete integrujú detektor toxického obsahu na základe strojového učenia. V procese práce nie je hlavným problémom výber modelu, ale zber a analýza údajov. Problém je v tom, že je tam menej toxického obsahu ako normálneho obsahu, takže tím potrebuje na platforme zhromaždiť databázu takéhoto obsahu, čo sa nedá urobiť bez algoritmu. Zber údajov preto zaberá až 90 % času vedcov údajov. Ale kvalita konečného modelu sa zlepšila.
- Online maloobchod
Pri výcviku modelu, ktorý otáča receptna nákupný zoznam založený na 2 miliónoch príkladov model predvídateľne vykazoval kvalitu 97 %. V mierke model fungoval výborne, no v prípade konkrétneho predajcu pri atypických výrobkoch kvalita prudko klesla na neprijateľných 70 %. Na vyriešenie tohto problému sa anotačný tím zameral na zabezpečenie toho, aby sa nové údaje nestratili na pozadí zrelého súboru údajov. Stačilo natrénovať model na pár tisícoch príkladov a kvalita opäť stúpla na 97%.
AI pomáha aj v maloobchode, a to nielen výberom preferovaných produktov
- Výroba dopravníkov
Spoločnosť, ktorá využívala umelú inteligenciuna detekciu defektov dielov na dopravnom páse, získaná 90% presnosť modelu po prvotnej práci s dátami. Takéto ukazovatele však nespĺňali požiadavky klienta.
V snahe zlepšiť výkon modelu inžinieri ML„vyleštili“ prácu algoritmov bez práce s dátami, čo zlepšilo výsledok len o 0,4 %. Po opätovnej analýze údajov, vyčistení súboru údajov od nedostatočne označených príkladov a opätovnom označení novo zhromaždených údajov sa výsledok zvýšil o 8 %.
- odporúčací systém
Systém odporúčaní aplikácií receptovtrvalo vykazovali nízku mieru prekliknutia 5 %. Práca s algoritmami nepomohla a analýza údajov ukázala, že klienti, ktorých údaje boli použité na trénovanie modelu, boli väčšinou vegetariáni a všeobecná populácia používateľov väčšinou jedla mäso. Systém zameraný na vegetariánov nedokázal zachytiť záujmy ostatných a bol veľmi ovplyvnený preferenciami vegetariánskych užívateľov. Tréningové vyvažovanie dát zlepšilo konverzie až o 11 %.
V minulosti bola oblasť umelej inteligencie vzameraný hlavne na veľké dáta – školenie prebiehalo na rozsiahlom súbore údajov. Aj keď vo vytváraní takýchto modelov stále dochádza k pokroku, pozornosť sa postupne presúva na malé dáta a prácu s nimi. To rozširuje vstupný prah do oblasti AI – komplexné riešenia je možné vytvárať už aj s malým množstvom dát.
Čítaj viac:
Čierna diera v galaxii dala Einsteinovi za pravdu. Hlavná vec
Vesmír ničí kosti a mení ich štruktúru: vedci nevedia, ako ľudia poletia na Mars
Astronómovia našli planéty, ktoré sú odlišné od Zeme, no vhodné pre život