Chasseurs d'anomalies : comment le CERN recherche des particules rares à l'aide des algorithmes Yandex

Andreï Ustioujanine— Chef du Laboratoire de recherche et d'enseignement sur les méthodes d'analyse du Big Data à l'École supérieure d'économie de l'Université nationale de recherche.

Chef de projets communs entre Yandex et le CERN. Participe au développement des services EventIndex et EventFilter, que Yandex fournit pour l'expérience LHCb depuis 2011.

Diplômé de l'Institut de physique et de technologie de Moscou en 2000, candidat en sciences physiques et mathématiques. L'un des juges de la finale internationale de la Microsoft Imagine Cup, avant cela, il était un mentor de l'équipe MIPT qui a remporté la coupe en 2005.

Comment rechercher des anomalies dans les données du Large Hadron Collider

Que sont les anomalies de données ?

— Si nous parlons de données obtenues à l'aideGrand collisionneur de hadrons (LHC), il peut s'agir de découvertes qui ne correspondent pas aux idées standard sur la façon dont les désintégrations de particules s'y produisent après des collisions de protons. Ces découvertes seront des anomalies. 

Par exemple, si nous parlons de cotations d'actifsen bourse, il peut y avoir des anomalies dues au fait qu'un certain fonds spéculatif a décidé de pomper un actif ou que Wall Street Bets a décidé de gagner de l'argent supplémentaire et de créer son propre fonds spéculatif distribué. Autrement dit, la physique est complètement différente et la manifestation de cette physique dans les données n'est pas non plus similaire aux autres cas.

Par conséquent, si nous parlons d'anomalies, nous devons d'abord comprendre de quelles données et de quelle physique nous parlons.

— Alors clarifions en mettant l'accent sur les collisionneurs.

- Ici c'est un peu plus simple, même si ça se pose aussifourchette. Le fait est qu'il existe des données sur le type de processus qui se produisent avec les particules à l'intérieur du détecteur. Et il existe des données sur le fonctionnement de ce collisionneur. Les personnes qui s'intéressent principalement à la découverte de nouvelles particules ou lois s'intéressent principalement au premier type de données. Mais le fait est que tout ce qui se passe en physique passe par une chaîne assez longue de collecte et de traitement de ces informations. Et si l'un des nœuds de cette chaîne commence à ne pas se comporter aussi bien que nous l'imaginions, c'est-à-dire qu'il dépasse certaines limites de l'admissible, cela introduit une distorsion dans les mesures. On peut voir des anomalies à l'endroit où elles, en général, n'étaient pas en physique.

Les découvertes qui ne correspondent pas aux idées standard sur la façon dont les désintégrations de particules se produisent là-bas, survenant après la collision de protons, seront des anomalies

Pour éviter de tels événements désagréables, les gensils écrivent des systèmes spéciaux de contrôle de la qualité des données qui surveillent toutes les données des instruments de mesure et tentent d'exclure de la considération les périodes pendant lesquelles on soupçonne que quelque chose ne va pas.

Un des exemples dont les gens aiment parlerphysiciens du LHC, c'est que dès les premiers stades de l'exploitation du collisionneur, ils ont remarqué des anomalies qui ne correspondaient pas aux concepts physiques. Il n’existait pas encore le LHC, mais sa version précédente. En conséquence, les physiciens ont constaté que la corrélation est très sérieuse avec les horaires des trains sur la voie ferrée située à proximité. Et si vous effectuez les ajustements associés à ces fluctuations, vous obtenez une image non physique du monde.

Il est nécessaire de prendre en compte les facteurs externes et de pouvoircomprendre lesquels d’entre eux doivent être compensés correctement. La solution la plus simple : rejetons les données qui ne correspondent pas à l’image habituelle du monde. Des histoires plus complexes consistent à essayer de ramener ces anomalies, en utilisant des principes compréhensibles et physiques, à des données normales et à en tirer profit.

Jeter des données est un gaspillage de fonds budgétaires. Chaque kilo-octet-mégaoctet a un certain prix.

Andrey Ustyuzhanin, responsable du laboratoire de recherche et d'enseignement pour les méthodes d'analyse de données volumineuses à l'École supérieure d'économie de l'Université nationale de recherche

- Et, en conséquence, comment l'anomalie peut-elle être détectée dans ces données à l'aide d'un système d'apprentissage automatique ?

— Il existe deux groupes de tels algorithmes, quitravailler avec des anomalies. Le premier groupe de méthodes de classification à classe unique comprend des algorithmes qui utilisent des informations uniquement sur les événements marqués comme bons. C'est-à-dire qu'ils essaient de construire une coque convexe qui enferme tout ce que nous pensons être juste. La logique est la suivante : tout ce qui va au-delà de cette coquille, nous considérerons les anomalies. Autrement dit, 99% des données sont couvertes par un tel shell, et tout le reste ressemble à quelque chose de suspect.

Un autre groupe d'algorithmes s'appuie sur desmarquant ce que nous considérons comme faux. Essentiellement, il existe un ensemble d’événements connus pour avoir des résultats indésirables. Et puis la recherche d’anomalies se résume à un problème de classification en deux classes. Il s'agit d'un classificateur classique qui peut être construit sur les principes des réseaux de neurones ou des arbres de décision.

La nuance est que généralement dans les tâchesanomalies, l'échantillon n'est pas équilibré. C'est-à-dire que le nombre d'exemples positifs dépasse largement le nombre d'exemples négatifs. Dans de telles conditions, les algorithmes de classification standard peuvent ne pas fonctionner aussi bien que nous le souhaiterions. La fonction de perte par défaut traite de la même manière les instances qui se qualifient correctement et peut ignorer le fait que parmi 10 000 résultats corrects, il y en a une centaine qui se qualifient de manière incorrecte. Cette centaine ne représente que les exemples négatifs les plus intéressants. Il est clair que cela peut être combattu, par exemple, en attribuant plus de poids aux exemples négatifs et en prenant en compte les erreurs de classement avec beaucoup plus de poids.

Fonction de perte- une fonction qui, dans la théorie des décisions statistiques, caractérise les pertes dues à une prise de décision incorrecte basée sur des données observées.

Contribution de notre laboratoire à la résolution du problèmeLa détection d'anomalies consiste à proposer des méthodes combinant les caractéristiques de la première et de la deuxième approches. C'est-à-dire la tâche de travailler avec une classification à une et deux classes. Une telle combinaison devient possible si nous construisons des modèles génératifs d'exemples anormaux.

Utiliser des approches telles que générativedes réseaux contradictoires ou des flux de normalisation, nous pouvons apprendre à récupérer les exemples étiquetés comme négatifs et générer un échantillon supplémentaire qui permettra au classificateur régulier de travailler plus efficacement avec l'échantillon synthétique augmenté. Cette approche fonctionne bien pour les données tabulaires et les images. Il y avait un article à ce sujet l'année dernière, qui décrit comment un tel système est construit et donne des exemples pratiques de son utilisation.

— Vous avez parlé de travailler avec des images. Comment ça marche dans ce cas ?

— Il y a des exemples dans lesquels nous avons montré le travailcet algorithme. Ils ont simplement choisi l'une des classes d'images : par exemple, les nombres manuscrits. Et ils ont dit que zéro était une sorte d'anomalie. Et ils ont demandé que le réseau neuronal, qui décide que les zéros ne sont pas comme tout le reste, soit classé dans la classe négative. Naturellement, il peut s'agir non seulement de zéros, mais aussi, par exemple, de nombres dans lesquels se trouvent des cycles fermés - 068 - ou de nombres avec des intersections horizontales. Ou simplement des images pivotées selon un certain angle par rapport au reste de l'échantillon.

« Nous pouvons simuler la physique sous certaines conditionsparamètres externes avec une bonne précision et dire quelles caractéristiques observables décriront les événements de signal corrects, par exemple, la désintégration du boson de Higgs "

Il existe un ensemble de données appelé omniglot -lettres écrites dans des polices différentes. Il existe un grand nombre de polices: de Futurama, gothique, manuscrite à partir d'alphabets impopulaires - sanskrit ou hébreu. On peut dire que les lettres en sanskrit sont une anomalie, les lettres écrites dans une certaine écriture le sont aussi.

On demande au système d'apprendre à tout distinguerle reste de ces symboles anormaux. L'essentiel est qu'ils soient beaucoup plus petits que tout le reste. C'est la difficulté de travailler avec eux pour les algorithmes d'apprentissage automatique conventionnels.

Symbiose de la physique et de l'informatique : comment l'apprentissage automatique est utilisé dans la recherche sur le LHC

— Quelles tâches du LHC sont résolues à l'aide de l'apprentissage automatique ?

— Une grande tâche sur laquelle nous travaillons estest d'accélérer les processus informatiques qui simulent les collisions physiques et la désintégration des particules. Le fait est que la décision quant à savoir si des événements donnés sont similaires ou non à certaines désintégrations physiques est prise après avoir analysé un assez grand nombre de désintégrations simulées. Nous pouvons simuler la physique avec certains paramètres externes avec une bonne précision et déterminer quelles caractéristiques observables décriront les événements de signal corrects, par exemple la désintégration du boson de Higgs.

Mais il y a certaines mises en garde :Nous ne connaissons pas toujours les paramètres sous lesquels ces désintégrations doivent être générées. En règle générale, il existe une certaine idée à ce sujet. Et le défi pour trouver la bonne physique est de distinguer les événements de signal des événements de fond, qui peuvent être associés soit au fonctionnement incorrect des algorithmes de récupération, soit à la physique d'autres processus très similaires à ce que nous essayons de trouver. Les algorithmes d'apprentissage automatique font du bon travail dans ce domaine, mais c'est une histoire bien connue.

Mais pour entraîner de tels algorithmes, il fautun échantillon statistique assez important d'événements simulés, et le calcul de ces données synthétiques nécessite certaines ressources. Car la simulation d'un événement prend environ une minute voire dix minutes de temps de calcul des centres informatiques modernes. Étant donné que le nombre d'événements réels avec lesquels les physiciens travailleront augmentera de plusieurs ordres de grandeur dans les années à venir, le nombre d'événements synthétisés devrait également augmenter. Désormais, les ressources informatiques suffisent à peine à couvrir les besoins des chercheurs. Car pour simuler un événement, il faut calculer l'interaction des microparticules avec la structure du détecteur et simuler la réponse que l'on verra sur les capteurs de ce détecteur avec une très grande précision.

L'idée de l'accélération est d'entraîner le réseau neuronalsur des événements simulés à l'aide d'un package certifié - GMT 4, qui simule tout ce qui se passe à l'intérieur des détecteurs du collisionneur. Ce neurone apprendra à comparer les entrées, les paramètres des particules que nous voulons simuler et les sorties - ces caractéristiques observables produites par le détecteur. Aujourd'hui, les réseaux de neurones s'acquittent déjà assez bien de la tâche d'interpolation des données. Et plusieurs projets de notre laboratoire visent précisément cela. C'est-à-dire restaurer les caractéristiques des désintégrations à partir de l'échantillon synthétique disponible, c'est-à-dire réaliser de tels synthétiques de second ordre. Mais il y a une nuance : l’avantage des réseaux de neurones est qu’on peut les affiner à l’aide de données réelles. Autrement dit, rendez ce paramètre plus précis pour une dégradation physique spécifique.

Les personnes qui sont engagées dans des activités physiques à part entièresimulation, ils consacrent leur temps et leurs efforts à cela, mais avec les neurones, cela s'avère un peu moins laborieux. Et à partir des résultats que nous avons obtenus pour l'expérience LHTV au CERN et le projet d'expérience Dubna MPD à l'accélérateur Nica, il est devenu clair que les réseaux de neurones peuvent atteindre une très grande précision en couvrant l'espace des phases des événements simulés. Ils accélèrent considérablement le processus de calcul : des commandes et même des centaines plus rapides qu'une simulation honnête.

— Comment le réseau neuronal lui-même apprend-il ?

— Il n'y a aucune différence dans le processus d'apprentissage.Mais il y a une particularité : pour un réseau de neurones, en plus de l'échantillon d'apprentissage, il est nécessaire de formuler des critères de qualité, c'est-à-dire de définir une fonction de perte qui correspondrait le mieux à la tâche que ce réseau devrait bien faire face. De plus, la qualité du travail d'un tel réseau neuronal n'est pas évaluée par les chercheurs : elle peut être évaluée de manière adéquate en termes d'étapes de calcul qui se produisent à un stade ultérieur du traitement des données.

Pour déterminer si une simulation est bonne ou non, on peutseulement après avoir passé les événements à travers la chaîne de leur analyse, de leur reconstruction, et nous comprenons que les mêmes caractéristiques que nous avons initialement mises en eux sont restaurées à partir d'eux. Cela signifie que, par exemple, l'utilisation d'une simple métrique d'erreur quadratique moyenne MSE n'est pas suffisante.

Erreur quadratique moyenne MSE- mesure la différence quadratique moyenne entre les valeurs estimées et la valeur réelle.

Le comportement du réseau neuronal doit être évalué plus en détail, enfonctionnalités sur des plages de paramètres qui n’étaient peut-être pas présentes dans l’ensemble d’apprentissage. Construire de tels modèles qui se comportent bien au-delà des valeurs des paramètres connues au stade de la formation est une tâche théorique vaste.

Les réseaux de neurones sont bons là où ilssavait quelque chose au stade de la formation. En dehors d’eux, ils peuvent distribuer ce qu’ils veulent. Dans notre cas, cela est particulièrement sensible, car l'exactitude de l'interprétation physique de la réalité qui nous entoure en dépend.

"Si une particule de matière noire se désintègre en particules avec lesquelles nous savons interagir, on peut supposer que cette particule de matière noire l'était vraiment"

- C'est-à-dire que le réseau de neurones recherche des événements rares pouvant se produire au niveau du collisionneur ?

— Basé sur le fonctionnement des modèles génératifs, c'est-à-direPremièrement, nous parlons de la synthèse de tout ce qui peut arriver. Nous le faisons avec des modèles miniatures. Et à la sortie de tels réseaux, on peut construire un modèle qui va chercher ce dont on a besoin : ce qu'on a réussi à générer sur un réseau de neurones génératif.

Comment rechercher de la matière noire et pourquoi les réseaux de neurones sont nécessaires pour cela

— Un principe de recherche similaire peut-il être appliqué à la matière noire ?

- Le fait est que la matière noire peut être recherchéedifférentes façons. Une façon consiste à construire un détecteur approprié qui peut assez bien isoler des effets de la matière ordinaire. C'est-à-dire bloquer le signal provenant de particules connues des physiciens. C'est juste une méthode d'élimination : si le détecteur voit autre chose que du bruit, alors il voit quelque chose que nous n'avons jamais vu auparavant. Une possibilité serait qu'il s'agisse de particules de matière noire.

Si, par exemple, une particule de matière noirese désintègre en particules avec lesquelles nous savons interagir, et il est clair que des traces de désintégration ne pouvaient apparaître que de lui, alors nous pouvons supposer que cette particule de matière noire l'était réellement.

De telles expériences sont discutées et planifiées.L'un d'eux s'appelle SHiP (Recherche de Particules Cachées). Et, soit dit en passant, pour une telle expérience, les approches dont j'ai parlé sont également applicables. Cela nécessite de la simulation et des algorithmes pour reconnaître les approches rares. Mais comme la luminosité de cette expérience est beaucoup plus faible (la luminosité est le nombre de particules qu'il est prévu de détecter par unité de temps), la nécessité de simuler un grand nombre d'événements similaires n'est pas aussi aiguë que dans le cas du collisionneur de hadrons. détecteurs. Or, par exemple, la tâche associée à l'évaluation de la qualité du système de protection contre les particules connues de la physique nécessite la simulation d'un assez grand nombre d'événements. Ceci est nécessaire pour s'assurer que la protection fonctionne bien avec le nombre énorme de particules entrantes de différents types.

Bateauest une expérience visant à trouver des objets cachésparticules, y compris des particules de matière noire, dans un flux de particules provenant de l'accélérateur SPS filtré par des champs magnétiques, une couche de béton et de métal de cinq mètres.

Il existe d'autres moyens de rechercher la matière noire,liés aux observations de phénomènes spatiaux. En particulier, une approche consiste à construire des éléments sensibles qui reconnaissent la direction de particules interagissant très faiblement en fonction de l'angle d'incidence de cette particule. La logique de l'expérience est qu'il est possible de placer les éléments sensibles de manière à ce qu'ils soient orientés le long du vecteur de mouvement du système solaire, c'est-à-dire vers la constellation du Cygne. Nous pourrons alors distinguer les particules qui se déplacent dans le système de coordonnées terrestre des particules qui se déplacent différemment. Comme l'éther immobile, qui se répartit dans l'espace selon ses propres lois, sans aucun rapport avec l'orientation et la direction du mouvement des planètes. C'est juste qu'au lieu de l'éther, on suppose qu'il existe des particules de matière noire. Ils peuvent interagir faiblement avec les capteurs de notre expérience. Et en analysant leurs lectures, il est possible de dériver des modèles de distributions angulaires des particules en interaction. Si nous constatons qu’il existe une composante sérieuse qui ne dépend pas de la position de la Terre dans l’espace, cela indiquera l’existence de particules jusqu’alors inconnues. Et peut-être que celles-ci seront des candidates pour les particules de matière noire.

Dans une telle expérience, la simulation est très importante,car pour construire un algorithme de reconnaissance des événements de signal, il faut imaginer à quoi ressemble le signal qui nous intéresse. Ainsi, les tâches associées à la simulation rapide et à la recherche d'anomalies y sont pertinentes et applicables.

Ils parlent des langues différentes, mais les objectifs sont communs

Parlons du travail au CERN. Qu'est-ce que cela fait pour un informaticien de travailler avec des physiciens ? Quelles sont les caractéristiques associées au fait de travailler dans un espace aussi interscientifique que le LHC ?

- Bonne question.En effet, les gens parlent des langues différentes : on arrive au point que les mêmes concepts sont représentés graphiquement de différentes manières. Par exemple, les courbes ROC, auxquelles les spécialistes de l'apprentissage automatique sont habitués, sont généralement tracées en physique avec une rotation de 90 degrés. Et les coordonnées ne sont pas appelées taux de vrais positifs et taux de faux négatifs, mais efficacité du signal et rejet de l'arrière-plan. De plus, si l'efficacité du signal est toujours de précision, alors le rejet d'arrière-plan est égal à un moins le taux de vrai négatif.

Courbe ROC (de la caractéristique de fonctionnement du récepteur anglais, caractéristique de fonctionnement du récepteur)— un graphique qui permet d'évaluer la qualité du binaireclassements. Affiche la relation entre les parts d'objets du nombre total de porteurs d'attribut, correctement classés comme portant l'attribut, et les parts d'objets du nombre total d'objets ne portant pas l'attribut, incorrectement classés comme portant l'attribut.

Il est clair que de telles choses peuvent existerfont surface et sont relativement faciles à s'habituer, mais les principaux défis résident dans la compréhension de certaines des hypothèses de base que les chercheurs émettent lorsqu'ils rédigent leurs articles. Et, en règle générale, ils vont au-delà de ce qu’ils écrivent. C'est-à-dire qu'il s'agit d'une connaissance secrète qui est transmise au cours de la formation d'une personne aux études supérieures, au cours du travail sur ses projets de recherche, elle se forme dans son esprit.

Pour les gens d'un autre domaine scientifique, c'est commeenvironnement culturel différent. Pour eux, ces hypothèses ne sont peut-être pas si évidentes. Du fait que le lexique s'avère assez étendu et différent, la construction d'un dialogue peut être retardée voire improductive. Par conséquent, ici, comme recommandations, on peut probablement conseiller soit de demander aux gens d'aller au-delà de ce à quoi ils sont habitués et de formuler le problème dans les termes les plus abstraits de la physique. Nous le faisons en partie lorsque nous organisons des compétitions dans le cadre de notre Olympiade IDAL. Dans le processus de dialogue, nous trouvons un cadre qui ne nécessiterait pas une immersion profonde en physique, mais qui serait en même temps intéressant pour les spécialistes de l'apprentissage automatique.

Cette année, nous avons eu un projet commun avecun laboratoire italien qui recherche la matière noire. Ils ont fourni des données synthétiques aux Jeux olympiques pour trouver cette matière noire. Il n'y a vraiment pas de matière noire là-bas, car les désintégrations de la physique connue ont été simulées : des collisions d'électrons et d'ions hélium. Mais les collisions de particules de matière noire pourraient être très similaires à certaines de ces collisions. Ils sont très difficiles à simuler et encore plus difficiles à interpréter. Par conséquent, surtout pour les personnes qui ne sont pas des spécialistes dans ce domaine, nous avons décidé de ne pas extraire ces données et de nous limiter uniquement à celles qui sont similaires. Les algorithmes que nous verrons fonctionnent sur des données approximatives, mais peuvent également être appliqués à des données réelles.

Andrey Ustyuzhanin. Photo issue des archives de l'orateur

Pour résumer, une façon est de s'entendre sur des termes clairs pour tout le monde, et l'autre est de passer du temps et des efforts, d'assister à des écoles d'été, de participer à des projets de recherche pratiques.

Livres sur l'apprentissage automatique et les expériences physiques recommandés par Andrey Ustyuzhanin :

  • Deepak Kar,Physique expérimentale des particules : comprendre les mesures et les recherches au grand collisionneur de hadrons.
  • Ilya Narsky,Techniques d'analyse statistique en physique des particules : ajustements, estimation de la densité et apprentissage supervisé. 
  • Giuseppe Carléo,Apprentissage automatique et sciences physiques. 

- Existe-t-il des contradictions entre les valeurs des physiciens et des informaticiens : par exemple, la nature des interactions est-elle plus importante pour quelqu'un, ou au contraire la précision ?

— Si nous parlons spécifiquement de précision, probablementil n'y a aucune ambiguïté. Mais cela est plus probablement dû au fait que les informaticiens ne comprennent pas la nature des données. C'est juste que si nous mesurions les données avec une précision au millimètre près, alors cela n'a aucun sens de calculer la surface avec une précision au micron carré. Dans le cas de réseaux de neurones complexes, nous sommes confrontés au fait qu'ils produisent des informations précises jusqu'au dernier signe de la mantisse, mais ces signes n'ont pas plus de sens que dans la précision qui était à l'entrée.

Eh bien, peut-être un souhait général pour les gensqui se préoccupent d'évaluer la précision des modèles est de donner non seulement des caractéristiques absolues, mais aussi les limites des plages acceptables ou la dispersion dans laquelle ces valeurs ont été obtenues. En fait, une bonne recommandation non seulement pour ceux qui interagissent avec des physiciens ou des biologistes. C'est, en principe, la bonne manière de maintenir une présentation des résultats obtenus.

Et si nous parlons de combien ils peuvent êtredes attentes différentes d’un côté et de l’autre, alors ce sont toutes des questions de travail, en fait. S’il y a un intérêt des deux côtés, les problèmes peuvent être résolus simplement et efficacement. Autrement dit, l'apprentissage automatique est désormais demandé par les physiciens au sens large, car il fournit des outils plus précis pour travailler avec leurs données. Et cela fonctionne dans le sens inverse, car pour les spécialistes du machine learning, il peut être bien plus intéressant de voir comment leurs algorithmes aident à la découverte de nouvelles particules, par exemple, comme c'est le cas dans notre laboratoire. Nous avons travaillé pendant longtemps pour créer un algorithme qui déterminerait le type de particule. Et récemment, il y a eu des nouvelles concernant la découverte de nouveaux tétraquarks, et nos algorithmes ont directement participé à leur découverte.

Par conséquent, pour les personnes de l'informatique, conditionnellement de la science des données,En informatique, ressentir l’utilité des algorithmes qu’ils développent est très important. Ainsi, dans notre faculté, par exemple, il existe un Laboratoire international de bioinformatique.

De telles interactions deviennent de plus en plusde plus en plus normale. Je ne sais pas s’ils peuvent déjà être considérés comme mainstream ou s’il faut encore attendre, mais d’une manière ou d’une autre cette histoire est inévitable. Même si l'on regarde les ateliers organisés dans le cadre des grandes conférences actuelles sur l'intelligence artificielle, l'atelier sur l'utilisation de l'IA en sciences physiques occupe une place prépondérante en termes de nombre de personnes intéressées.

Lire la suite:

Un satellite américain a "vu" un message inhabituel de la Terre

Vidéo publiée de la fusée, qui a été lancée à partir d'un accélérateur expérimental

Le monstre au centre de notre Galaxie : regardez la photo d'un trou noir dans la Voie lactée