Non sono necessari enormi set di dati
La storia dell’apprendimento automatico inizia agli albori del XX secolo. Durante questo periodo i modelli passarono
Qualunque sia lo scopo del modello, il suo scopo— prevedere il risultato dai dati di input. Quanto più diversificato è il set di dati (l’insieme di dati che “alimenta” i modelli), tanto più facile è per l’algoritmo trovare modelli e, quindi, più accurato è il risultato di output.
Il modello ha bisogno di due componenti principali per funzionare:dati e algoritmo. Per dati si intendono informazioni già etichettate, in cui a ciascun esempio di dati di input (ad esempio fotografie di una strada con pedoni) viene assegnato il risultato atteso della rete neurale (i contorni delle figure di pedoni che la rete neurale dovrebbe evidenziare).
Il mondo del machine learning è attualmente dominato daun approccio incentrato sul modello, motivo per cui gli ingegneri ML dedicano molto tempo agli algoritmi, il secondo componente importante delle prestazioni del modello. La velocità e la precisione del lavoro dipendono dalla scelta dell'algoritmo. Ma, nonostante questo approccio sia più semplice e più interessante per gli ingegneri, non dimenticare il semplice principio di spazzatura dentro, spazzatura fuori. Se i dati raccolti non sono rappresentativi, nessun trucco algoritmico aiuterà a migliorare la qualità del modello. Pertanto, l'attenzione degli ingegneri si sta gradualmente spostando sui dati.
Gli ingegneri ML guardano sempre più da parteAI data-centric, la cui idea è quella di raccogliere meno dati, ma di migliore qualità. Questo è più efficiente: lo sviluppo di algoritmi migliora le prestazioni del modello dello 0-10% e lavora con la qualità dei dati del 10-30%.
Tutto inizia con i dati
In un mondo ideale, un'azienda che utilizzala tecnologia di apprendimento automatico rispetta la cultura della raccolta dei dati. Ma la raccolta dei dati è solo l'inizio. Poi arriva il lungo e costoso processo di marcatura. Seguendo il concetto di IA basata sui dati, gli ingegneri ML possono ottenere prestazioni del modello molto più elevate rispetto all'etichettatura dei dati "nel modo più economico possibile". Ecco i principi fondamentali di questo approccio:
- Linee guida per il markup di alta qualità
Potresti pensare:perché formalizzare ogni punto del processo di impostazione e risoluzione di un problema quando può essere formulato in una frase. Diciamo che stiamo parlando di markup dei dati per il pilota automatico, potrebbe suonare così: "seleziona tutti i pedoni nelle foto". Ma gli annotatori si imbatteranno rapidamente in casi ambigui: se individuare un ciclista, una persona su uno scooter o un passeggero in un corpo aperto come un pedone? Ogni annotatore fornirà una risposta da solo, ma sarà diversa e distruggerà l'omogeneità dei dati. Pertanto, è necessario inserire tutti gli esempi complessi in un database, dove gli annotatori, in caso di difficoltà, possono rivolgersi. Ma affinché un tale documento appaia, è necessario il feedback degli annotatori.
- feedback
Un database non può apparire dal nulla.Ciò richiede due condizioni: una cultura del rispetto per il feedback degli annotatori e dipendenti responsabili di mantenere aggiornato questo database. Di norma, questo è il marcatore più esperto o lo stesso data scientist.
Le risorse devono essere collegate man mano che si forma il nucleo del team, che sente tutta la responsabilità e l'importanza del processo, aiutando i nuovi arrivati a essere coinvolti in esso.
Il database non può apparire dal nulla
- Convalida incrociata
L'azienda spesso ne impiega più di unoannotatore con diversi livelli di abilità. Pertanto, lo stesso set di dati può essere etichettato in modi diversi. Quindi i risultati del lavoro dovrebbero essere controllati periodicamente. Ciò consentirà di comprendere dove gli specialisti incontrano difficoltà che dovrebbero essere inserite nel database: ciò ridurrà il fattore di errore umano.
- Passare i dati attraverso un data scientist
Prima di fornire agli annotatori i dati da contrassegnare, è utile che il data scientist si tuffi nei dati e annoti i primi duecento esempi. Questo ti permetterà di capire come il problema è risolvibile per il modello.
Anche se la divisione del lavoro è attraente fin dal puntoIn termini di costo del lavoro, non ci si dovrebbe aspettare lo stesso livello di lavoro con i dati degli annotatori come dai data scientist: i marcatori non possono e non devono identificare i problemi di apprendimento automatico.
Se devi lavorare con uno specificodati, è necessaria una conoscenza del settore. Ad esempio, se l'algoritmo deve riconoscere le immagini radiografiche con un tumore, il modello può essere addestrato correttamente solo se gli specialisti viventi sono sicuri che ci siano neoplasie in ogni frammento marcato e l'immagine è difettosa.
- Gli esempi di "confine" sono importanti
Il principio fondamentale della marcatura manuale è che deveessere intelligente. Durante il processo di addestramento, la rete neurale può indovinare in quali esempi del set di addestramento è più probabile che “inciampi”. È meglio consegnarli per la marcatura manuale; questo migliorerà la qualità del lavoro del modello più di milioni di esempi marcati, formazione su cui il modello non commetterà errori.
- L'aumento o la sintesi dei dati
Se ci sono pochi dati o markup dei dati raccoltitroppo costoso: puoi propagarli. Ad esempio, se i dati sono testuali, le stesse chiamate utente possono essere riformulate. Se si tratta di immagini, è possibile modificare la luminosità, tagliare e capovolgere alcune immagini.
Nell'aumento della quantità di dati, ce n'è un altroapproccio è quello di sintetizzarli. Ma tali dati non possono sempre sostituire i dati reali, soprattutto se la rete neurale produce lo stesso tipo o dati idealizzati. In questo caso, è possibile utilizzare i dati sintetici solo in determinati passaggi del modello.
Dalla teoria alla pratica
- Social networks
Per proteggere gli utenti e proteggerli danegativo, i più grandi social network stanno integrando un rilevatore di contenuti tossici basato sull'apprendimento automatico. Nel processo di lavoro, il problema principale non è la selezione di un modello, ma la raccolta e l'analisi dei dati. Il problema è che ci sono contenuti meno tossici rispetto ai contenuti normali, quindi il team ha bisogno di raccogliere un database di tali contenuti sulla piattaforma, cosa che non può essere fatta senza un algoritmo. Pertanto, la raccolta dei dati richiede fino al 90% del tempo dei data scientist. Ma la qualità del modello finale è migliorata.
- Vendita al dettaglio in linea
Quando si addestra un modello che trasforma la ricettarispetto a una lista della spesa basata su 2 milioni di esempi, il modello ha prevedibilmente mostrato una qualità del 97%. Su larga scala, il modello ha funzionato alla grande, ma nel caso di un rivenditore specifico, con prodotti atipici, la qualità è scesa drasticamente fino a un inaccettabile 70%. Per risolvere questo problema, il team di annotazione si è concentrato sul garantire che i nuovi dati non andassero persi sullo sfondo del set di dati maturo. È stato sufficiente addestrare il modello su un paio di migliaia di esempi e la qualità è nuovamente aumentata al 97%.
L'intelligenza artificiale aiuta nella vendita al dettaglio e non solo selezionando i prodotti preferiti
- Produzione di nastri trasportatori
Un’azienda che utilizzava l’intelligenza artificialeper rilevare difetti nelle parti su un nastro trasportatore, ha ottenuto una precisione del 90% del modello dopo il lavoro iniziale con i dati. Ma tali indicatori non soddisfacevano i requisiti del cliente.
Nel tentativo di migliorare le prestazioni del modello, gli ingegneri MLAbbiamo “lucidato” il lavoro degli algoritmi senza lavorare con i dati, il che ha migliorato il risultato solo dello 0,4%. Dopo aver rianalizzato i dati, ripulito il set di dati da esempi mal etichettati e rietichettato i dati appena raccolti, il risultato è aumentato dell'8%.
- sistema di raccomandazione
Sistema di raccomandazione di app per ricetteha mostrato costantemente una bassa percentuale di clic del 5%. Il lavoro con gli algoritmi non ha aiutato e l'analisi dei dati ha indicato che i clienti i cui dati sono stati utilizzati per addestrare il modello erano per lo più vegetariani e la popolazione generale degli utenti mangiava principalmente carne. Un sistema orientato ai vegetariani era scarso nel catturare gli interessi degli altri ed era fortemente influenzato dalle preferenze dei consumatori vegetariani. Il bilanciamento dei dati di allenamento ha migliorato le conversioni fino all'11%.
In passato, il campo dell’intelligenza artificiale infocalizzato principalmente sui big data: la formazione è stata effettuata su un ampio set di dati. Sebbene ci siano ancora progressi nella creazione di tali modelli, l’attenzione si sta gradualmente spostando sui piccoli dati e sul lavoro con essi. Ciò amplia la soglia di ingresso nel campo dell’intelligenza artificiale: già con una piccola quantità di dati è possibile creare soluzioni complesse.
Leggi di più:
Un buco nero nella galassia ha dato ragione a Einstein. La stessa cosa
Lo spazio distrugge le ossa e cambia la loro struttura: gli scienziati non sanno come le persone voleranno su Marte
Gli astronomi hanno trovato pianeti diversi dalla Terra, ma adatti alla vita