Filtrage de contenu et diagnostic : comment l'IA apprend à effectuer des tâches complexes sans données

D'énormes ensembles de données ne sont pas nécessaires

L’histoire de l’apprentissage automatique commence à l’aube du 20e siècle. Pendant ce temps les modèles passaient

loin d'algorithmes simples qui pourraientfiltrer les e-mails et détecter les logiciels malveillants, jusqu'à l'exploration de données qui peut prédire la progression de la maladie chez les patients et battre des joueurs d'échecs de classe mondiale.

Quelle que soit la finalité du modèle, sa finalité— prédire le résultat à partir des données d'entrée. Plus l’ensemble de données (l’ensemble de données qui « alimente » les modèles) est diversifié, plus il est facile pour l’algorithme de trouver des modèles et, par conséquent, plus le résultat de sortie est précis.

Le modèle a besoin de deux composants principaux pour fonctionner :données et algorithme. Par données, on entend des informations déjà étiquetées, où à chaque exemple de données d'entrée (par exemple, des photographies d'une rue avec des piétons) est affecté le résultat attendu du réseau de neurones (les contours des figures de piétons que le réseau de neurones doit mettre en évidence).

Le monde de l'apprentissage automatique est actuellement dominé parune approche centrée sur le modèle, c'est pourquoi les ingénieurs ML consacrent beaucoup de temps aux algorithmes, le deuxième élément important de la performance du modèle. La rapidité et la précision du travail dépendent du choix de l'algorithme. Mais, malgré le fait que cette approche soit plus simple et plus intéressante pour les ingénieurs, n'oubliez pas le principe simple du garbage in, garbage out. Si les données collectées ne sont pas représentatives, aucune astuce algorithmique ne contribuera à améliorer la qualité du modèle. Par conséquent, l'attention des ingénieurs se déplace progressivement vers les données.

Les ingénieurs ML se tournent de plus en plus vers l'extérieurune IA centrée sur les données, dont l'idée est de collecter moins de données, mais de meilleure qualité. C'est plus efficace: le développement d'algorithmes améliore les performances du modèle de 0 à 10% et fonctionne avec la qualité des données - de 10 à 30%.

Tout commence par les données

Dans un monde idéal, une entreprise qui utilisela technologie d'apprentissage automatique respecte la culture de la collecte de données. Mais la collecte de données n'est que le début. Vient ensuite le processus de marquage long et coûteux. En suivant le concept d'IA basée sur les données, les ingénieurs ML peuvent obtenir des performances de modèle beaucoup plus élevées par rapport à l'étiquetage des données "le moins cher possible". Voici les grands principes de cette approche :

Directives de balisage de haute qualité

Tu pourrais penser:pourquoi formaliser chaque point du processus de pose et de résolution d'un problème quand il peut être formulé en une phrase. Disons que nous parlons de balisage de données pour le pilote automatique, cela pourrait ressembler à ceci : "sélectionner tous les piétons sur les photos". Mais les annotateurs tomberont rapidement sur des cas ambigus - que ce soit pour isoler un cycliste, une personne sur un scooter, ou un passager dans un corps ouvert comme un piéton ? Chaque annotateur apportera sa propre réponse, mais elle sera différente et détruira l'homogénéité des données. Par conséquent, il est nécessaire d'entrer tous les exemples complexes dans une base de données, où les annotateurs, en cas de difficultés, peuvent se tourner. Mais pour qu'un tel document apparaisse, vous avez besoin des commentaires des annotateurs.

Commentaires

Une base de données ne peut pas apparaître de nulle part.Cela nécessite deux conditions : une culture de respect des retours des annotateurs et des collaborateurs chargés de maintenir cette base de données à jour. En règle générale, il s'agit du marqueur le plus expérimenté ou d'un data scientist lui-même.

Les ressources doivent être connectées au fur et à mesure que se forme le noyau de l'équipe, qui ressent toute la responsabilité et l'importance du processus, aidant les nouveaux arrivants à s'y impliquer.

La base de données ne peut pas apparaître de nulle part

Validation croisée

L'entreprise emploie souvent plus d'unannotateur avec différents niveaux de compétence. Par conséquent, le même ensemble de données peut être étiqueté de différentes manières. Les résultats des travaux doivent donc être vérifiés périodiquement. Cela permettra de comprendre où les spécialistes rencontrent des difficultés qui doivent être saisies dans la base de données - cela réduira le facteur d'erreur humaine.

Transmettre des données à un data scientist

Avant de donner aux annotateurs les données à annoter, il est utile que le data scientist plonge dans les données et annote les deux premières centaines d'exemples. Cela vous permettra de comprendre comment le problème est résoluble pour le modèle.

Bien que la division du travail soit attrayante du point de vueEn termes de coût du travail, il ne faut pas s'attendre au même niveau de travail avec les données des annotateurs que des data scientists - les marqueurs ne peuvent pas et ne doivent pas identifier les problèmes d'apprentissage automatique.

Si vous devez travailler avec desdonnées, vous avez besoin de connaissances de l'industrie. Par exemple, si l'algorithme doit reconnaître les images radiographiques avec une tumeur, le modèle ne peut être formé correctement que si des spécialistes vivants sont sûrs qu'il y a des néoplasmes dans chaque fragment marqué et que l'image est défectueuse.

Les exemples "frontaliers" sont importants

Le principe principal du marquage manuel est qu'il doitêtre intelligent. Au cours du processus de formation, le réseau neuronal peut deviner sur quels exemples de l’ensemble de formation il est le plus susceptible de « tomber ». Il est préférable de les confier au marquage manuel, cela améliorera davantage la qualité du travail du modèle que des millions d'exemples marqués, une formation sur laquelle le modèle ne fera pas d'erreurs.

Augmentation ou synthèse de données

S'il y a peu de données ou de balisage des données collectéestrop cher - vous pouvez les propager. Par exemple, si les données sont textuelles, les mêmes appels d'utilisateurs peuvent être reformulés. S'il s'agit d'images, vous pouvez modifier la luminosité, couper et retourner certaines images.

Dans l'augmentation de la quantité de données, il y a un autreapproche consiste à les synthétiser. Mais de telles données ne peuvent pas toujours remplacer les données réelles, surtout si le réseau de neurones produit le même type ou des données idéalisées. Dans ce cas, vous ne pouvez utiliser des données synthétiques qu'à certaines étapes du modèle.

De la théorie à la pratique

Réseaux sociaux

Pour protéger les utilisateurs et les protéger contrenégatif, les plus grands réseaux sociaux intègrent un détecteur de contenu toxique basé sur le machine learning. Dans le processus de travail, le problème principal n'est pas la sélection d'un modèle, mais la collecte et l'analyse des données. Le problème est qu'il y a moins de contenu toxique que le contenu normal, donc l'équipe doit collecter une base de données de ce contenu sur la plateforme, ce qui ne peut se faire sans algorithme. Par conséquent, la collecte de données prend jusqu'à 90 % du temps des data scientists. Mais la qualité du modèle final est améliorée.

Vente au détail en ligne

Lors de la formation d'un modèle qui transforme la recetteà une liste de courses basée sur 2 millions d'exemples, le modèle a montré, comme on pouvait s'y attendre, une qualité de 97 %. À grande échelle, le modèle a très bien fonctionné, mais dans le cas d'un détaillant spécifique, avec des produits atypiques, la qualité a fortement chuté jusqu'à un niveau inacceptable de 70 %. Pour résoudre ce problème, l’équipe d’annotation s’est attachée à garantir que les nouvelles données ne soient pas perdues en arrière-plan de l’ensemble de données mature. Il suffisait d'entraîner le modèle sur quelques milliers d'exemples et la qualité augmentait à nouveau jusqu'à 97 %.

L'IA aide dans le commerce de détail, et pas seulement en sélectionnant les produits préférés

Fabrication de convoyeurs

Une entreprise qui a utilisé l'intelligence artificiellepour détecter les défauts des pièces sur une bande transporteuse, j'ai obtenu une précision de 90 % du modèle après un premier travail avec les données. Mais ces indicateurs ne répondaient pas aux exigences du client.

Dans le but d'améliorer les performances du modèle, les ingénieurs MLNous avons « peaufiné » le travail des algorithmes sans travailler avec les données, ce qui n'a amélioré le résultat que de 0,4 %. Après avoir réanalysé les données, nettoyé l'ensemble de données des exemples mal étiquetés et réétiqueté les données nouvellement collectées, le résultat a augmenté de 8 %.

système de recommandation

Système de recommandation d'applications de recettesa constamment affiché un faible taux de clics de 5 %. Travailler avec des algorithmes n'a pas aidé et l'analyse des données a indiqué que les clients dont les données ont été utilisées pour former le modèle étaient pour la plupart des végétariens et que la population générale des utilisateurs mangeait principalement de la viande. Un système orienté vers les végétariens ne réussissait pas à capter les intérêts des autres et était fortement influencé par les préférences des utilisateurs végétariens. L'équilibrage des données d'entraînement a amélioré les conversions jusqu'à 11 %.

Dans le passé, le domaine de l'intelligence artificielle dansprincipalement axé sur le big data - la formation a été réalisée sur un vaste ensemble de données. Bien que des progrès soient encore réalisés dans la création de tels modèles, l’accent se déplace progressivement vers les petites données et leur utilisation. Cela élargit le seuil d'entrée dans le domaine de l'IA : des solutions complexes peuvent déjà être créées même avec une petite quantité de données.

Lire la suite:

Un trou noir dans la galaxie a donné raison à Einstein. La chose principale

L'espace détruit les os et modifie leur structure: les scientifiques ne savent pas comment les gens voleront vers Mars

Les astronomes ont découvert des planètes différentes de la Terre, mais propices à la vie

Geek Tech en ligne

Tout sur la technologie et les gadgets

Filtrage et diagnostic de contenu : comment l'IA apprend à effectuer des tâches complexes sans données

D'énormes ensembles de données ne sont pas nécessaires

Tout commence par les données

De la théorie à la pratique