Filtraggio e diagnosi dei contenuti: come viene insegnato all'IA a svolgere attività complesse senza dati

Non sono necessari enormi set di dati

La storia dell’apprendimento automatico inizia agli albori del XX secolo. Durante questo periodo i modelli passarono

lontano da semplici algoritmi che potrebberofiltrare le e-mail e rilevare malware, fino al data mining in grado di prevedere la progressione della malattia nei pazienti e battere giocatori di scacchi di livello mondiale.

Qualunque sia lo scopo del modello, il suo scopo— prevedere il risultato dai dati di input. Quanto più diversificato è il set di dati (l’insieme di dati che “alimenta” i modelli), tanto più facile è per l’algoritmo trovare modelli e, quindi, più accurato è il risultato di output.

Il modello ha bisogno di due componenti principali per funzionare:dati e algoritmo. Per dati si intendono informazioni già etichettate, in cui a ciascun esempio di dati di input (ad esempio fotografie di una strada con pedoni) viene assegnato il risultato atteso della rete neurale (i contorni delle figure di pedoni che la rete neurale dovrebbe evidenziare).

Il mondo del machine learning è attualmente dominato daun approccio incentrato sul modello, motivo per cui gli ingegneri ML dedicano molto tempo agli algoritmi, il secondo componente importante delle prestazioni del modello. La velocità e la precisione del lavoro dipendono dalla scelta dell'algoritmo. Ma, nonostante questo approccio sia più semplice e più interessante per gli ingegneri, non dimenticare il semplice principio di spazzatura dentro, spazzatura fuori. Se i dati raccolti non sono rappresentativi, nessun trucco algoritmico aiuterà a migliorare la qualità del modello. Pertanto, l'attenzione degli ingegneri si sta gradualmente spostando sui dati.

Gli ingegneri ML guardano sempre più da parteAI data-centric, la cui idea è quella di raccogliere meno dati, ma di migliore qualità. Questo è più efficiente: lo sviluppo di algoritmi migliora le prestazioni del modello dello 0-10% e lavora con la qualità dei dati del 10-30%.

Tutto inizia con i dati 

In un mondo ideale, un'azienda che utilizzala tecnologia di apprendimento automatico rispetta la cultura della raccolta dei dati. Ma la raccolta dei dati è solo l'inizio. Poi arriva il lungo e costoso processo di marcatura. Seguendo il concetto di IA basata sui dati, gli ingegneri ML possono ottenere prestazioni del modello molto più elevate rispetto all'etichettatura dei dati "nel modo più economico possibile". Ecco i principi fondamentali di questo approccio:

Linee guida per il markup di alta qualità

Potresti pensare:perché formalizzare ogni punto del processo di impostazione e risoluzione di un problema quando può essere formulato in una frase. Diciamo che stiamo parlando di markup dei dati per il pilota automatico, potrebbe suonare così: "seleziona tutti i pedoni nelle foto". Ma gli annotatori si imbatteranno rapidamente in casi ambigui: se individuare un ciclista, una persona su uno scooter o un passeggero in un corpo aperto come un pedone? Ogni annotatore fornirà una risposta da solo, ma sarà diversa e distruggerà l'omogeneità dei dati. Pertanto, è necessario inserire tutti gli esempi complessi in un database, dove gli annotatori, in caso di difficoltà, possono rivolgersi. Ma affinché un tale documento appaia, è necessario il feedback degli annotatori.

feedback

Un database non può apparire dal nulla.Ciò richiede due condizioni: una cultura del rispetto per il feedback degli annotatori e dipendenti responsabili di mantenere aggiornato questo database. Di norma, questo è il marcatore più esperto o lo stesso data scientist. 

Le risorse devono essere collegate man mano che si forma il nucleo del team, che sente tutta la responsabilità e l'importanza del processo, aiutando i nuovi arrivati a essere coinvolti in esso.

Il database non può apparire dal nulla

Convalida incrociata

L'azienda spesso ne impiega più di unoannotatore con diversi livelli di abilità. Pertanto, lo stesso set di dati può essere etichettato in modi diversi. Quindi i risultati del lavoro dovrebbero essere controllati periodicamente. Ciò consentirà di comprendere dove gli specialisti incontrano difficoltà che dovrebbero essere inserite nel database: ciò ridurrà il fattore di errore umano.

Passare i dati attraverso un data scientist

Prima di fornire agli annotatori i dati da contrassegnare, è utile che il data scientist si tuffi nei dati e annoti i primi duecento esempi. Questo ti permetterà di capire come il problema è risolvibile per il modello.

Anche se la divisione del lavoro è attraente fin dal puntoIn termini di costo del lavoro, non ci si dovrebbe aspettare lo stesso livello di lavoro con i dati degli annotatori come dai data scientist: i marcatori non possono e non devono identificare i problemi di apprendimento automatico.

Se devi lavorare con uno specificodati, è necessaria una conoscenza del settore. Ad esempio, se l'algoritmo deve riconoscere le immagini radiografiche con un tumore, il modello può essere addestrato correttamente solo se gli specialisti viventi sono sicuri che ci siano neoplasie in ogni frammento marcato e l'immagine è difettosa.

Gli esempi di "confine" sono importanti

Il principio fondamentale della marcatura manuale è che deveessere intelligente. Durante il processo di addestramento, la rete neurale può indovinare in quali esempi del set di addestramento è più probabile che “inciampi”. È meglio consegnarli per la marcatura manuale; questo migliorerà la qualità del lavoro del modello più di milioni di esempi marcati, formazione su cui il modello non commetterà errori.

L'aumento o la sintesi dei dati

Se ci sono pochi dati o markup dei dati raccoltitroppo costoso: puoi propagarli. Ad esempio, se i dati sono testuali, le stesse chiamate utente possono essere riformulate. Se si tratta di immagini, è possibile modificare la luminosità, tagliare e capovolgere alcune immagini.

Nell'aumento della quantità di dati, ce n'è un altroapproccio è quello di sintetizzarli. Ma tali dati non possono sempre sostituire i dati reali, soprattutto se la rete neurale produce lo stesso tipo o dati idealizzati. In questo caso, è possibile utilizzare i dati sintetici solo in determinati passaggi del modello.

Dalla teoria alla pratica

Social networks

Per proteggere gli utenti e proteggerli danegativo, i più grandi social network stanno integrando un rilevatore di contenuti tossici basato sull'apprendimento automatico. Nel processo di lavoro, il problema principale non è la selezione di un modello, ma la raccolta e l'analisi dei dati. Il problema è che ci sono contenuti meno tossici rispetto ai contenuti normali, quindi il team ha bisogno di raccogliere un database di tali contenuti sulla piattaforma, cosa che non può essere fatta senza un algoritmo. Pertanto, la raccolta dei dati richiede fino al 90% del tempo dei data scientist. Ma la qualità del modello finale è migliorata.

Vendita al dettaglio in linea

Quando si addestra un modello che trasforma la ricettarispetto a una lista della spesa basata su 2 milioni di esempi, il modello ha prevedibilmente mostrato una qualità del 97%. Su larga scala, il modello ha funzionato alla grande, ma nel caso di un rivenditore specifico, con prodotti atipici, la qualità è scesa drasticamente fino a un inaccettabile 70%. Per risolvere questo problema, il team di annotazione si è concentrato sul garantire che i nuovi dati non andassero persi sullo sfondo del set di dati maturo. È stato sufficiente addestrare il modello su un paio di migliaia di esempi e la qualità è nuovamente aumentata al 97%.

L'intelligenza artificiale aiuta nella vendita al dettaglio e non solo selezionando i prodotti preferiti

Produzione di nastri trasportatori

Un’azienda che utilizzava l’intelligenza artificialeper rilevare difetti nelle parti su un nastro trasportatore, ha ottenuto una precisione del 90% del modello dopo il lavoro iniziale con i dati. Ma tali indicatori non soddisfacevano i requisiti del cliente. 

Nel tentativo di migliorare le prestazioni del modello, gli ingegneri MLAbbiamo “lucidato” il lavoro degli algoritmi senza lavorare con i dati, il che ha migliorato il risultato solo dello 0,4%. Dopo aver rianalizzato i dati, ripulito il set di dati da esempi mal etichettati e rietichettato i dati appena raccolti, il risultato è aumentato dell'8%.

sistema di raccomandazione

Sistema di raccomandazione di app per ricetteha mostrato costantemente una bassa percentuale di clic del 5%. Il lavoro con gli algoritmi non ha aiutato e l'analisi dei dati ha indicato che i clienti i cui dati sono stati utilizzati per addestrare il modello erano per lo più vegetariani e la popolazione generale degli utenti mangiava principalmente carne. Un sistema orientato ai vegetariani era scarso nel catturare gli interessi degli altri ed era fortemente influenzato dalle preferenze dei consumatori vegetariani. Il bilanciamento dei dati di allenamento ha migliorato le conversioni fino all'11%.

In passato, il campo dell’intelligenza artificiale infocalizzato principalmente sui big data: la formazione è stata effettuata su un ampio set di dati. Sebbene ci siano ancora progressi nella creazione di tali modelli, l’attenzione si sta gradualmente spostando sui piccoli dati e sul lavoro con essi. Ciò amplia la soglia di ingresso nel campo dell’intelligenza artificiale: già con una piccola quantità di dati è possibile creare soluzioni complesse.

Leggi di più:

Un buco nero nella galassia ha dato ragione a Einstein. La stessa cosa

Lo spazio distrugge le ossa e cambia la loro struttura: gli scienziati non sanno come le persone voleranno su Marte

Gli astronomi hanno trovato pianeti diversi dalla Terra, ma adatti alla vita

Tecnologia geek in linea

Tutto sulla tecnologia e sui gadget

Filtraggio e diagnosi dei contenuti: come viene insegnato all'IA a svolgere attività complesse senza dati

Non sono necessari enormi set di dati

Tutto inizia con i dati

Dalla teoria alla pratica

Non sono necessari enormi set di dati

Tutto inizia con i dati&nbsp;

Dalla teoria alla pratica

Tutto inizia con i dati