Inhoudsfiltering en diagnose: hoe AI wordt geleerd om complexe taken uit te voeren zonder gegevens

Enorme datasets zijn niet nodig

De geschiedenis van machinaal leren begon aan het begin van de 20e eeuw. Gedurende deze tijd passeerden de modellen

weg van eenvoudige algoritmen die dat wel zouden kunnene-mails filteren en malware detecteren, tot datamining die de ziekteprogressie bij patiënten kan voorspellen en schakers van wereldklasse kan verslaan.

Wat het doel van het model ook is, het doel ervan— voorspel het resultaat op basis van de invoergegevens. Hoe diverser de dataset (de set gegevens die de modellen ‘voedt’), hoe gemakkelijker het algoritme patronen kan vinden, en dus hoe nauwkeuriger het uitvoerresultaat.

Het model heeft twee hoofdcomponenten nodig om te werken:gegevens en algoritme. Gegevens betekent reeds gelabelde informatie, waarbij aan elk voorbeeld van invoergegevens (bijvoorbeeld foto's van een straat met voetgangers) het verwachte resultaat van het neurale netwerk wordt toegewezen (de contouren van de figuren van voetgangers die het neurale netwerk zou moeten markeren).

De wereld van machine learning wordt momenteel gedomineerd dooreen modelgerichte benadering, en daarom besteden ML-ingenieurs veel tijd aan algoritmen – het tweede belangrijke onderdeel van de modelprestaties. De snelheid en nauwkeurigheid van het werk hangt af van de keuze van het algoritme. Maar ondanks het feit dat deze aanpak eenvoudiger en interessanter is voor ingenieurs, mogen we het simpele principe van garbage in, garbage out niet vergeten. Als de verzamelde gegevens niet representatief zijn, zal geen enkele hoeveelheid algoritmische trucs de kwaliteit van het model helpen verbeteren. Daarom verschuift de focus van ingenieurs geleidelijk naar data.

ML-ingenieurs kijken steeds vaker naar de zijkantdata-centric AI, waarvan het idee is om minder data te verzamelen, maar van betere kwaliteit. Dit is efficiënter: de ontwikkeling van algoritmen verbetert de prestaties van het model met 0-10%, en werken met datakwaliteit - met 10-30%.

Het begint allemaal met gegevens

In een ideale wereld, een bedrijf dat gebruik maakt vanmachine learning-technologie respecteert de cultuur van gegevensverzameling. Maar het verzamelen van gegevens is nog maar het begin. Dan komt het tijdrovende en dure markeerproces. Door het concept van datagestuurde AI te volgen, kunnen ML-ingenieurs veel hogere modelprestaties bereiken in vergelijking met het labelen van gegevens "zo goedkoop mogelijk". Dit zijn de belangrijkste principes van deze aanpak:

Richtlijnen voor markeringen van hoge kwaliteit

Je zou denken:waarom zou je elk punt van het proces van het stellen en oplossen van een probleem formaliseren als het in één zin kan worden geformuleerd? Laten we zeggen dat we het hebben over gegevensopmaak voor de stuurautomaat, het klinkt misschien als volgt: "selecteer alle voetgangers op de foto's." Maar annotators zullen snel dubbelzinnige gevallen tegenkomen - of ze nu een fietser, een persoon op een scooter of een passagier in een open lichaam als voetganger willen onderscheiden? Elke annotator komt zelf met een antwoord, maar het zal anders zijn en de homogeniteit van de gegevens vernietigen. Daarom is het noodzakelijk om alle complexe voorbeelden in een database in te voeren, waar annotators, in geval van moeilijkheden, terecht kunnen. Maar om zo'n document te laten verschijnen, heb je feedback van annotators nodig.

terugkoppeling

Een database kan niet uit het niets ontstaan.Dit vereist twee voorwaarden: een cultuur van respect voor de feedback van annotators en medewerkers die verantwoordelijk zijn voor het up-to-date houden van deze database. In de regel is dit de meest ervaren van de markers of een datawetenschapper zelf.

Middelen moeten met elkaar worden verbonden als de kern van het team wordt gevormd, dat alle verantwoordelijkheid en het belang van het proces voelt en nieuwkomers helpt om erbij betrokken te raken.

Database kan niet uit het niets verschijnen

Kruisvalidatie

Het bedrijf heeft vaak meer dan éénannotator met verschillende vaardigheidsniveaus. Daarom kan dezelfde dataset op verschillende manieren worden gelabeld. De resultaten van het werk moeten dus periodiek worden gecontroleerd. Dit geeft inzicht in waar specialisten problemen tegenkomen die in de database moeten worden ingevoerd - dit zal de factor menselijke fouten verminderen.

Gegevens doorgeven via een datawetenschapper

Voordat de annotators de gegevens ter markering geven, is het handig om de gegevenswetenschapper in de gegevens te laten duiken en de eerste paar honderd voorbeelden te markeren. Dit zal u toelaten om te begrijpen hoe het probleem oplosbaar is voor het model.

Hoewel de taakverdeling vanaf het punt aantrekkelijk isWat de kosten van werk betreft, moet men niet hetzelfde werkniveau verwachten met gegevens van annotators als van datawetenschappers - markers kunnen en mogen geen machine learning-problemen identificeren.

Als je moet werken met specifiekedata, hebt u branchekennis nodig. Als het algoritme bijvoorbeeld röntgenfoto's met een tumor moet herkennen, kan het model alleen correct worden getraind als levende specialisten zeker weten dat er neoplasmata zijn in elk gemarkeerd fragment en het beeld defect is.

"Border"-voorbeelden zijn belangrijk

Het belangrijkste principe van handmatig markeren is dat dit moetwees intelligent. Tijdens het trainingsproces kan het neurale netwerk raden welke voorbeelden in de trainingsset het waarschijnlijk zal tegenkomen. Het is beter om ze over te dragen voor handmatige markering; dit zal de kwaliteit van het werk van het model meer verbeteren dan miljoenen gemarkeerde voorbeelden, training waarbij het model geen fouten zal maken.

Augmentatie of datasynthese

Als er weinig gegevens of opmaak van verzamelde gegevens zijnte duur - je kunt ze verspreiden. Als de gegevens bijvoorbeeld tekstueel zijn, kunnen dezelfde gebruikersoproepen opnieuw worden geformuleerd. Als dit afbeeldingen zijn, kunt u de helderheid wijzigen, enkele afbeeldingen knippen en omdraaien.

In de toename van de hoeveelheid gegevens is er nog een:benadering is om ze te synthetiseren. Maar dergelijke gegevens kunnen niet altijd echte gegevens vervangen, vooral als het neurale netwerk hetzelfde type of geïdealiseerde gegevens produceert. In dit geval kunt u alleen synthetische gegevens gebruiken in bepaalde stappen van het model.

Van theorie naar praktijk

Sociale netwerken

Om gebruikers te beschermen en hen te beschermen tegen:negatief, de grootste sociale netwerken integreren een detector voor giftige inhoud op basis van machine learning. Tijdens het werk is het grootste probleem niet de selectie van een model, maar het verzamelen en analyseren van gegevens. Het probleem is dat er minder giftige inhoud is dan normale inhoud, dus het team moet een database met dergelijke inhoud op het platform verzamelen, wat niet kan zonder een algoritme. Daarom neemt het verzamelen van gegevens tot 90% van de tijd van datawetenschappers in beslag. Maar de kwaliteit van het uiteindelijke model is verbeterd.

Online detailhandel

Bij het trainen van een model dat het recept draaittot een boodschappenlijstje gebaseerd op 2 miljoen voorbeelden het model toonde voorspelbaar een kwaliteit van 97%. Op schaal werkte het model uitstekend, maar in het geval van een specifieke retailer, met atypische producten, daalde de kwaliteit scherp tot een onaanvaardbare 70%. Om dit probleem op te lossen, concentreerde het annotatieteam zich erop ervoor te zorgen dat nieuwe gegevens niet verloren gingen op de achtergrond van de volwassen dataset. Het was voldoende om het model op een paar duizend voorbeelden te trainen en de kwaliteit steeg opnieuw tot 97%.

AI helpt in de detailhandel, en niet alleen door voorkeursproducten te selecteren

Transportband productie

Een bedrijf dat kunstmatige intelligentie gebruikteom defecten in onderdelen op een transportband op te sporen, verkregen 90% nauwkeurigheid van het model na aanvankelijk werken met de gegevens. Maar dergelijke indicatoren voldeden niet aan de eisen van de klant.

In een poging om de modelprestaties te verbeteren, hebben ML-ingenieurs“gepolijst” het werk van de algoritmen zonder met de gegevens te werken, wat het resultaat met slechts 0,4% verbeterde. Na het opnieuw analyseren van de gegevens, het opschonen van de dataset van slecht gelabelde voorbeelden en het opnieuw labelen van de nieuw verzamelde gegevens, steeg het resultaat met 8%.

aanbevelingssysteem:

Recept App Aanbevelingssysteemvertoonde consequent een lage klikfrequentie van 5%. Werken met algoritmen hielp niet, en data-analyse gaf aan dat de klanten wiens gegevens werden gebruikt om het model te trainen voornamelijk vegetariërs waren en dat de algemene populatie van gebruikers voornamelijk vlees at. Een systeem gericht op vegetariërs was niet goed in het behartigen van de belangen van anderen en werd sterk beïnvloed door de voorkeuren van vegetarische gebruikers. Het balanceren van trainingsgegevens verbeterde conversies tot wel 11%.

In het verleden was het gebied van kunstmatige intelligentie invooral gericht op big data - er werd getraind op een uitgebreide dataset. Hoewel er nog steeds vooruitgang wordt geboekt bij het maken van dergelijke modellen, verschuift de focus geleidelijk naar kleine data en het werken ermee. Dit vergroot de instapdrempel op het gebied van AI: zelfs met een kleine hoeveelheid data kunnen al complexe oplossingen worden gecreëerd.

Lees verder:

Een zwart gat in de melkweg bewees Einstein gelijk. Het belangrijkste

Ruimte vernietigt botten en verandert hun structuur: wetenschappers weten niet hoe mensen naar Mars zullen vliegen

Astronomen hebben planeten gevonden die verschillen van de aarde, maar geschikt zijn voor leven

Geek Tech Online

Alles over technologie en gadgets

Inhoudsfiltering en diagnose: hoe AI wordt geleerd om complexe taken uit te voeren zonder gegevens

Enorme datasets zijn niet nodig

Het begint allemaal met gegevens

Van theorie naar praktijk