Tartalomszűrés és -diagnosztika: Hogyan tanítják meg az AI-t összetett feladatok adat nélküli elvégzésére

Nincs szükség hatalmas adatkészletekre

A gépi tanulás története a 20. század hajnalán kezdődött. Ez idő alatt a modellek elhaladtak

az egyszerű algoritmusoktól, amelyekre képesszűrheti az e-maileket és észlelheti a rosszindulatú programokat, olyan adatbányászathoz, amely előre jelezheti a betegek betegségének előrehaladását, és megveri a világszínvonalú sakkozókat.

Bármi legyen is a modell célja, a célja— jósolja meg az eredményt a bemeneti adatokból. Minél változatosabb az adathalmaz (a modelleket „tápláló” adathalmaz), annál könnyebben találja meg az algoritmus a mintákat, így annál pontosabb a kimeneti eredmény.

A modell működéséhez két fő összetevőre van szükség:adatok és algoritmusok. Az adat már felcímkézett információt jelent, ahol minden bemeneti adatpéldához (például gyalogos utcák fényképeihez) hozzá van rendelve a neurális hálózat várható eredménye (a gyalogos alakzatok körvonalai, amelyeket a neurális hálózatnak ki kell emelnie).

A gépi tanulás világát jelenleg az uraljamodellközpontú megközelítés, ezért az ML mérnökök sok időt töltenek az algoritmusokkal – ez a modell teljesítményének második fontos összetevője. A munka sebessége és pontossága az algoritmus megválasztásától függ. De annak ellenére, hogy ez a megközelítés egyszerűbb és érdekesebb a mérnökök számára, ne feledkezzünk meg a szemét be, szemét kiszállítás egyszerű elvéről. Ha az összegyűjtött adatok nem reprezentatívak, semmilyen algoritmikus trükk nem segít a modell minőségének javításában. Ezért a mérnökök figyelme fokozatosan az adatokra helyeződik. 

Az ML mérnökei egyre inkább oldalra néznekadatközpontú mesterséges intelligencia, amelynek az az ötlete, hogy kevesebb, de jobb minőségű adatot gyűjtsön. Ez hatékonyabb: az algoritmusok fejlesztése 0-10%-kal javítja a modell teljesítményét, az adatminőséggel végzett munka pedig 10-30%-kal.

Minden az adatokkal kezdődik 

Egy ideális világban egy cég, amely használA gépi tanulási technológia tiszteletben tartja az adatgyűjtés kultúráját. Az adatgyűjtés azonban csak a kezdet. Ezután következik az időigényes és költséges jelölési folyamat. Az adatvezérelt AI koncepcióját követve az ML mérnökei sokkal nagyobb modellteljesítményt érhetnek el, mint az adatok „lehetőleg olcsóbban” címkézésével. Íme ennek a megközelítésnek a fő elvei:

  • Kiváló minőségű jelölési irányelvek

Gondolhatod:miért kell formalizálni a problémafelállítás és -megoldás folyamatának minden egyes pontját, ha az egy mondatban is megfogalmazható. Tegyük fel, hogy az automata pilóta adatjelöléséről beszélünk, ez így hangozhat: "jelölje ki az összes gyalogost a fotókon." De az annotátorok hamar találkoznak kétértelmű esetekkel – hogy egy kerékpárost, egy robogót vagy egy nyitott testű utast emeljenek ki gyalogosként? Minden jegyző saját maga talál ki választ, de az eltérő lesz, és tönkreteszi az adatok homogenitását. Ezért minden összetett példát be kell vinni egy adatbázisba, ahol az annotátorok, nehézségek esetén, fordulhatnak. De ahhoz, hogy egy ilyen dokumentum megjelenjen, visszajelzésre van szüksége az annotátoroktól.

  • visszacsatolás

Egy adatbázis nem jelenhet meg a semmiből.Ehhez két feltétel szükséges: az annotátorok visszajelzései iránti tisztelet kultúrája és az adatbázis naprakészen tartásáért felelős alkalmazottak. Általában ez a legtapasztaltabb marker vagy maga egy adattudós. 

Az erőforrásokat össze kell kapcsolni, ahogy kialakul a csapat magja, amely átérzi a folyamat minden felelősségét és fontosságát, segítve az újonnan érkezőket abban, hogy bekapcsolódjanak ebbe.

Az adatbázis nem jelenhet meg a semmiből

  • Keresztellenőrzés

A cég gyakran egynél többet foglalkoztatannotátor különböző képzettségi szintekkel. Ezért ugyanaz az adathalmaz különböző módon címkézhető. Tehát a munka eredményét rendszeresen ellenőrizni kell. Ez megértheti, hogy a szakemberek hol találkoznak olyan nehézségekkel, amelyeket be kell vinni az adatbázisba – ez csökkenti az emberi hibatényezőt.

  • Adatok továbbítása adattudóson keresztül

Mielőtt megadná a jegyzőknek a megjelölendő adatokat, hasznos, ha az adatkutató belemerül az adatokba, és megjelöli az első pár száz példát. Ez lehetővé teszi, hogy megértse, hogyan oldható meg a probléma a modell esetében.

Bár a munkamegosztás a lényegtől vonzóAmi a munka költségeit illeti, nem szabad olyan szintű munkát várni az annotátoroktól, mint az adatkutatóktól – a markerek nem tudják, és nem is szabad azonosítani a gépi tanulási problémákat.

Ha konkrétadatok, iparági tudásra van szükség. Például, ha az algoritmusnak fel kell ismernie a daganatos röntgenfelvételeket, a modell csak akkor tanítható helyesen, ha az élő szakemberek biztosak abban, hogy minden megjelölt töredékben daganatok vannak, és a kép hibás.

  • A "határ" példák fontosak

A kézi jelölés fő elve az, hogy kelllegyen intelligens. A betanítási folyamat során a neurális hálózat kitalálhatja, hogy a betanítási halmaz mely példáiban „botlik” a legnagyobb valószínűséggel. Jobb, ha kézi jelölésre adjuk át a modell munkájának minőségét, mint több millió megjelölt példa, amelyen a modell nem hibázik.

  • Bővítés vagy adatszintetika 

Ha kevés az adat vagy az összegyűjtött adatok jelölésetúl drága – szaporíthatja őket. Például, ha az adatok szövegesek, ugyanazok a felhasználói hívások átfogalmazhatók. Ha ezek képek, módosíthatja a fényerőt, kivághatja és megfordíthatja néhány képet.

Az adatmennyiség növekedésében van egy másikmegközelítésük ezek szintetizálása. De az ilyen adatok nem mindig helyettesíthetik a valós adatokat, különösen akkor, ha a neurális hálózat ugyanolyan típusú vagy idealizált adatokat állít elő. Ebben az esetben szintetikus adatokat csak a modell bizonyos lépéseiben használhat.

Elmélettől gyakorlatig

  • Közösségi hálózatok

A felhasználók védelme érdekében, és megvédjük őket azoktólnegatív, a legnagyobb közösségi hálózatok gépi tanuláson alapuló mérgező tartalom-detektort integrálnak. A munka során a fő probléma nem a modell kiválasztása, hanem az adatok gyűjtése és elemzése. A probléma az, hogy kevesebb a mérgező tartalom, mint a normál tartalom, ezért a csapatnak adatbázist kell gyűjtenie az ilyen tartalmakról a platformon, ami algoritmus nélkül nem megy. Ezért az adatgyűjtés az adatkutatók idejének akár 90%-át is igénybe veszi. De a végső modell minősége javult.

  • Online kiskereskedelem

A receptet forgató modell képzésekora 2 millió példán alapuló bevásárlólistára a modell előre láthatóan 97%-os minőséget mutatott. Méretben a modell remekül működött, de egy adott kiskereskedő esetében atipikus termékek esetén a minőség meredeken, elfogadhatatlan 70%-ra esett vissza. A probléma megoldása érdekében az annotációs csapat arra összpontosított, hogy az új adatok ne vesszenek el az érett adatkészlet hátterében. Elég volt néhány ezer példán betanítani a modellt, és a minőség ismét 97%-ra emelkedett.

A mesterséges intelligencia a kiskereskedelemben is segít, és nem csak a preferált termékek kiválasztásával

  • Szállítószalagos gyártás

Mesterséges intelligenciát használó céga szállítószalagon lévő alkatrészek hibáinak kimutatására, az adatokkal végzett kezdeti munka után a modell 90%-os pontosságát kapta. Az ilyen mutatók azonban nem feleltek meg az ügyfél követelményeinek. 

A modell teljesítményének javítása érdekében az ML mérnökeiAz adatokkal való munka nélkül „csiszolták” az algoritmusok munkáját, ami mindössze 0,4%-kal javította az eredményt. Az adatok újraelemzése, az adathalmaz rosszul címkézett példáktól való megtisztítása és az újonnan gyűjtött adatok újracímkézése után az eredmény 8%-kal nőtt.

  • ajánló rendszer

Receptalkalmazás-ajánló rendszerfolyamatosan alacsony, 5%-os átkattintási arányt mutatott. Az algoritmusokkal való munka nem segített, az adatelemzés pedig azt mutatta, hogy a modell betanítására felhasznált kliensek többsége vegetáriánus volt, és a felhasználók többsége húst evett. A vegetáriánusok felé irányuló rendszer nem tudta megragadni mások érdekeit, és nagymértékben befolyásolta a vegetáriánus felhasználók preferenciái. Az edzésadatok kiegyensúlyozása akár 11%-kal javította a konverziókat.

A múltban a mesterséges intelligencia területén benfőként a big data-ra összpontosított – a képzést egy kiterjedt adatkészleten végezték. Bár még mindig van előrelépés az ilyen modellek létrehozásában, a hangsúly fokozatosan áthelyeződik a kisméretű adatokra és a velük való munkára. Ez kiterjeszti a belépési küszöböt az AI területére – már kis adatmennyiséggel is létrehozhatók komplex megoldások.

Olvass tovább:

Egy fekete lyuk a galaxisban bebizonyította, hogy Einsteinnek igaza volt. A fő dolog

Az űr elpusztítja a csontokat és megváltoztatja szerkezetüket: a tudósok nem tudják, hogyan repülnek majd az emberek a Marsra

A csillagászok olyan bolygókat találtak, amelyek különböznek a Földtől, de alkalmasak az életre