Cazadores de anomalías: cómo el CERN busca partículas raras utilizando algoritmos de Yandex

Andrei Ustyuzhanin— Jefe del Laboratorio de Investigación y Educación sobre Métodos de Análisis de Big Data de la Escuela Superior de Economía de la Universidad Nacional de Investigación.

Responsable de proyectos conjuntos entre Yandex y CERN. Participa en el desarrollo de los servicios EventIndex y EventFilter, que Yandex proporciona para el experimento LHCb desde 2011.

Graduado del Instituto de Física y Tecnología de Moscú en 2000, candidato de ciencias físicas y matemáticas. Uno de los jueces de la final internacional de Microsoft Imagine Cup, antes de eso fue mentor del equipo MIPT que ganó la copa en 2005.

Cómo buscar anomalías en los datos del Gran Colisionador de Hadrones

¿Qué son las anomalías de datos?

— Si hablamos de datos obtenidos medianteGran Colisionador de Hadrones (LHC), estos pueden ser descubrimientos que no encajan en las ideas estándar sobre cómo se produce allí la desintegración de partículas después de las colisiones de protones. Estos descubrimientos serán anomalías.

Por ejemplo, si estamos hablando de cotizaciones de activosen la bolsa de valores, entonces las anomalías pueden deberse al hecho de que cierto fondo de cobertura decidió bombear un activo o Wall Street Bets decidió ganar dinero extra y establecer su propio fondo de cobertura distribuido. Es decir, la física es completamente diferente, y la manifestación de esta física en los datos tampoco es similar a otros casos.

Por lo tanto, si hablamos de anomalías, primero debemos entender de qué datos y de qué física estamos hablando.

— Entonces aclaremos centrándonos en los colisionadores.

- Aquí es un poco más fácil, aunque también surgetenedor. El hecho es que hay datos sobre qué tipo de procesos ocurren con partículas dentro del detector. Y hay datos sobre cómo funciona este colisionador. Las personas que están principalmente interesadas en descubrir nuevas partículas o leyes están principalmente interesadas en el primer tipo de datos. Pero el hecho es que todo lo que sucede en la física pasa por una cadena bastante larga de recopilación y procesamiento de esta información. Y si alguno de los nodos de esta cadena empieza a comportarse no tan bien como imaginábamos, es decir, se sale de ciertos límites de lo permisible, esto introduce una distorsión en las medidas. Podemos ver anomalías en el lugar donde, en general, no estaban en la física.

Los descubrimientos que no se ajusten a las ideas estándar sobre cómo se producen allí las desintegraciones de partículas, surgidas tras la colisión de protones, serán anomalías.

Para evitar acontecimientos tan desagradables, la genteescriben sistemas especiales de control de calidad de datos que monitorean todos los datos en los instrumentos de medición y tratan de excluir de la consideración aquellos períodos de tiempo en los que existe la sospecha de que algo va mal.

Uno de los ejemplos de los que a la gente le gusta hablarfísicos del LHC, fue que en las primeras etapas de funcionamiento del colisionador notaron anomalías que no encajaban en los conceptos físicos. Todavía no existía el LHC, pero sí su versión anterior. Como resultado, los físicos descubrieron que la correlación es muy seria con el horario de los trenes en la vía férrea que se encuentra cerca. Y si realiza ajustes asociados con estas fluctuaciones, obtendrá una imagen no física del mundo.

Es necesario tener en cuenta los factores externos y podercomprender cuáles de ellos deben ser compensados correctamente. La solución más sencilla: descartemos los datos que no encajan en la imagen habitual del mundo. Las historias más complejas intentan devolver estas anomalías, utilizando principios físicos y comprensibles, a datos normales y tratar de beneficiarse de ellas.

Tirar datos es una pérdida de fondos presupuestarios. Cada kilobyte-megabyte tiene un precio determinado.

Andrey Ustyuzhanin, Jefe del Laboratorio de Investigación y Educación para Métodos de Análisis de Big Data en la Escuela Superior de Economía de la Universidad Nacional de Investigación

- Y, en consecuencia, ¿cómo se puede detectar la anomalía en estos datos mediante un sistema de aprendizaje automático?

— Hay dos grupos de tales algoritmos, quetrabajar con anomalías. El primer grupo de métodos de clasificación de una clase incluye algoritmos que usan información solo sobre aquellos eventos que están marcados como buenos. Es decir, están tratando de construir un casco convexo que encierra todo lo que creemos que es correcto. La lógica es esta: todo lo que vaya más allá de este caparazón, lo consideraremos anomalías. Es decir, por ejemplo, el 99% de los datos están cubiertos por un caparazón de este tipo, y todo lo demás parece algo sospechoso.

Otro grupo de algoritmos se basa en parcialmarcando lo que consideramos incorrecto. Esencialmente, hay una serie de eventos que se sabe que tienen resultados indeseables. Y luego la búsqueda de anomalías se reduce a un problema de clasificación en dos clases. Este es un clasificador regular que se puede construir sobre los principios de redes neuronales o árboles de decisión.

El matiz es que por lo general en las tareasanomalías, la muestra no está balanceada. Es decir, la cantidad de ejemplos positivos supera significativamente la cantidad de negativos. En tales condiciones, es posible que los algoritmos de clasificación estándar no funcionen tan bien como nos gustaría. La función de pérdida predeterminada trata las instancias que califican correctamente por igual y puede pasar por alto el hecho de que entre 10,000 resultados correctos hay cien que califican incorrectamente. Esta centena solo representa aquellos ejemplos negativos que son más interesantes. Está claro que esto se puede combatir, por ejemplo, dando más peso a los ejemplos negativos, y teniendo en cuenta los errores con su clasificación con mucho más peso.

Función de pérdida- una función que, en la teoría de las decisiones estadísticas, caracteriza las pérdidas debidas a una toma de decisiones incorrecta basada en datos observados.

Contribución de nuestro laboratorio a la solución del problema.La detección de anomalías consiste en proponer métodos que combinen las características del primer y segundo enfoque. Es decir, la tarea de trabajar con clasificación de una y dos clases. Esta combinación es posible si construimos modelos generativos de ejemplos anómalos.

Usando enfoques como el generativoredes antagónicas o flujos de normalización, podemos aprender a recuperar aquellos ejemplos que están etiquetados como negativos y generar una muestra adicional que permitirá que el clasificador regular trabaje con la muestra sintética aumentada de manera más eficiente. Este enfoque funciona bien tanto para datos tabulares como para imágenes. Hubo un artículo sobre esto el año pasado, que describe cómo se construye un sistema de este tipo y brinda ejemplos prácticos de su uso.

— Mencionaste trabajar con imágenes. ¿Cómo funciona en este caso?

— Hay ejemplos en los que mostramos el trabajo.este algoritmo. Simplemente eligieron una de las clases de imágenes: por ejemplo, números escritos a mano. Y dijeron que el cero es una especie de anomalía. Y pidieron que la red neuronal, que decide que los ceros no son como todo lo demás, fuera asignada a la clase negativa. Naturalmente, estos pueden ser no sólo ceros, sino también, por ejemplo, números dentro de los cuales hay ciclos cerrados (068) o números con intersecciones horizontales. O simplemente imágenes rotadas en algún ángulo con respecto al resto de la muestra.

“Podemos simular la física bajo ciertasparámetros externos con buena precisión y decir qué características observables describirán los eventos de señal correctos, por ejemplo, el decaimiento del bosón de Higgs "

Hay un conjunto de datos llamado omniglot -letras escritas en diferentes fuentes. Hay una gran cantidad de fuentes: de Futurama, góticas, manuscritas de alfabetos impopulares: sánscrito o hebreo. Podemos decir que las letras en sánscrito son una anomalía, las letras escritas con cierta caligrafía también lo son.

Le pedimos al sistema que aprenda a distinguirlo todoel resto de estos símbolos anómalos. Lo principal es que son mucho más pequeños que todo lo demás. Esta es la dificultad de trabajar con ellos para los algoritmos de aprendizaje automático convencionales.

Simbiosis de la física y la TI: cómo se utiliza el aprendizaje automático en la investigación del LHC

— ¿Qué tareas del LHC se resuelven con la ayuda del aprendizaje automático?

— Una gran tarea en la que estamos trabajando eses acelerar procesos computacionales que simulan colisiones físicas y desintegraciones de partículas. El hecho es que la decisión sobre si determinados eventos son similares a ciertas desintegraciones físicas o no se toma después de analizar un número bastante grande de desintegraciones simuladas. Podemos simular la física en ciertos parámetros externos con buena precisión y decir qué características observables describirán los eventos de señal correctos, por ejemplo, la desintegración del bosón de Higgs.

Pero hay ciertas advertencias:No siempre conocemos los parámetros bajo los cuales se deben generar estas desintegraciones. Como regla general, existe una cierta idea al respecto. Y el desafío de encontrar la física correcta es distinguir los eventos de señal de los eventos de fondo, que pueden estar asociados con el funcionamiento incorrecto de los algoritmos de recuperación o con la física de otros procesos que son muy similares a lo que estamos tratando de encontrar. Los algoritmos de aprendizaje automático hacen un buen trabajo en esto, pero es una historia bien conocida.

Pero para entrenar tales algoritmos, se requiereuna muestra estadística bastante grande de eventos simulados, y el cálculo de estos datos sintéticos requiere ciertos recursos. Porque la simulación de un evento toma alrededor de un minuto o incluso diez minutos del tiempo de cómputo de los centros de cómputo modernos. Debido al hecho de que la cantidad de eventos reales con los que trabajarán los físicos aumentará en órdenes de magnitud en los próximos años, la cantidad de eventos sintetizados también debería aumentar. Ahora los recursos informáticos apenas alcanzan para cubrir las necesidades de los investigadores. Porque para simular un evento, tenemos que calcular la interacción de las micropartículas con la estructura del detector y simular la respuesta que veremos en los sensores de este detector con una precisión muy alta.

La idea de la aceleración es entrenar la red neuronal.sobre eventos que fueron simulados utilizando un paquete certificado - GMT 4, que simula todo lo que sucede dentro de los detectores del colisionador. Esta neurona aprenderá a comparar las entradas, los parámetros de las partículas que queremos simular y las salidas, aquellas características observables que produce el detector. Hoy en día, las redes neuronales ya se enfrentan bastante bien a la tarea de interpolación de datos. Y varios proyectos en nuestro laboratorio apuntan precisamente a esto. Es decir, restaurar las características de las desintegraciones a partir de la muestra sintética disponible, es decir, fabricar dichos sintéticos de segundo orden. Pero hay un matiz: la ventaja de las redes neuronales es que podemos ajustarlas utilizando datos reales. Es decir, haga que esta configuración sea más precisa para un deterioro físico específico.

Las personas que se dedican a la actividad física en toda regla.simulación, dedican su tiempo y esfuerzo a esto, pero con las neuronas resulta un poco menos laborioso. Y a partir de los resultados que obtuvimos para el experimento LHTV en el CERN y el proyecto del experimento Dubna MPD en el acelerador de Nica, quedó claro que las redes neuronales pueden lograr una precisión muy alta al cubrir el espacio de fase de los eventos simulados. Aceleran significativamente el proceso de cálculo: pedidos e incluso cientos más rápido que una simulación honesta.

— ¿Cómo aprende la propia red neuronal?

— No existen diferencias en el proceso de aprendizaje.Pero hay una peculiaridad: para una red neuronal, además de la muestra de entrenamiento, es necesario formular criterios de calidad, es decir, establecer una función de pérdida que mejor se adapte a la tarea que esta red debería afrontar bien. Además, los investigadores no evalúan la calidad del trabajo de dicha red neuronal: se puede evaluar adecuadamente en términos de los pasos computacionales que ocurren en una etapa posterior del procesamiento de datos.

Para determinar si una simulación es buena o no, podemossolo después de que pasamos los eventos a través de la cadena de su análisis, reconstrucción, y entendemos que las mismas características que les pusimos originalmente son restauradas a partir de ellos. Esto significa que, por ejemplo, usar una métrica de error cuadrático medio MSE simple no es suficiente.

Error cuadrático medio de MSE- mide la diferencia cuadrática media entre los valores estimados y el valor real.

Es necesario evaluar más a fondo el comportamiento de la red neuronal, encaracterísticas en rangos de parámetros que pueden no haber estado presentes en el conjunto de entrenamiento. Construir modelos que se comporten mucho más allá de los valores de los parámetros conocidos en la etapa de entrenamiento es una tarea teórica amplia.

Las redes neuronales son buenas en los lugares en los queSabía algo en la etapa de entrenamiento. Fuera de ellos, pueden dar lo que quieran. En nuestro caso, esto es especialmente sensible, porque de ello depende la corrección de la interpretación física de la realidad que nos rodea.

“Si una partícula de materia oscura se descompone en partículas con las que sabemos cómo interactuar, se puede suponer que esta partícula de materia oscura realmente era”

- Es decir, ¿la red neuronal está buscando eventos raros que pueden ocurrir en el colisionador?

— Basada en el funcionamiento de modelos generativos, es decir,Primero, estamos hablando de la síntesis de todo lo que puede suceder. Hacemos esto con modelos en miniatura. Y a la salida de tales redes, podemos construir un modelo que buscará lo que necesitamos: lo que logramos generar en una red neuronal generativa.

Cómo buscar materia oscura y por qué se necesitan redes neuronales para esto

— ¿Se puede aplicar un principio de búsqueda similar a la materia oscura?

- El hecho es que la materia oscura se puede buscardiferentes caminos. Una forma es construir un detector adecuado que pueda aislar bastante bien de los efectos de la materia ordinaria. Es decir, para bloquear la señal que proviene de partículas conocidas por los físicos. Este es solo un método de eliminación: si el detector ve algo más que ruido, entonces ve algo que nunca antes habíamos visto. Una posibilidad sería que se trate de partículas de materia oscura.

Si, por ejemplo, una partícula de materia oscurase desintegra en partículas con las que sabemos cómo interactuar, y está claro que las huellas de la descomposición no pueden aparecer de ningún lado excepto de él, entonces podemos suponer que esta partícula de materia oscura realmente lo era.

Tales experimentos se discuten y planifican.Uno de ellos se llama SHiP (Búsqueda de partículas ocultas). Y, por cierto, para tal experimento, los enfoques de los que hablé también son aplicables. Requiere simulación y algoritmos para reconocer enfoques raros. Pero dado que la luminosidad de este experimento es mucho menor (la luminosidad es la cantidad de partículas que se planea detectar por unidad de tiempo), la necesidad de simular una gran cantidad de eventos similares no es tan aguda como en el caso del Colisionador de Hadrones. detectores Aunque, por ejemplo, la tarea asociada a la evaluación de la calidad del sistema de protección frente a partículas conocidas por la física requiere la simulación de un número bastante elevado de eventos. Esto es necesario para asegurarse de que la protección funcione bien con la enorme cantidad de partículas entrantes de varios tipos.

Embarcaciones un experimento destinado a encontrar ocultospartículas, incluidas partículas de materia oscura, en una corriente de partículas del acelerador SPS filtradas por campos magnéticos, una capa de cinco metros de hormigón y metal.

Hay otras formas de buscar materia oscura,relacionados con observaciones de fenómenos espaciales. En particular, una solución consiste en construir elementos sensibles que reconozcan la dirección de partículas que interactúan muy débilmente en función del ángulo de incidencia de estas partículas. La lógica del experimento es que es posible colocar los elementos sensibles de modo que estén orientados a lo largo del vector de movimiento del sistema Solar, es decir, hacia la constelación de Cygnus. Entonces podremos distinguir las partículas que se mueven en el sistema de coordenadas de la Tierra de las que se mueven de manera diferente. Como el éter inmóvil, que se distribuye en el espacio exterior según sus propias leyes, sin ninguna relación con la orientación y dirección del movimiento de los planetas. Es solo que en lugar de éter, se supone que hay partículas de materia oscura. Pueden interactuar débilmente con los sensores de nuestro experimento. Y al analizar sus lecturas, es posible derivar patrones de distribuciones angulares de partículas que interactúan. Si vemos que hay un componente grave que no depende de la posición de la Tierra en el espacio, esto indicará la existencia de partículas hasta ahora desconocidas. Y quizás éstas sean candidatas a partículas de materia oscura.

En tal experimento, la simulación es muy importante,porque para construir un algoritmo para reconocer eventos de señales, debe imaginar cómo se ve la señal que nos interesa. Por lo tanto, las tareas asociadas con la simulación rápida y la búsqueda de anomalías son relevantes y aplicables allí.

Hablan diferentes idiomas, pero los objetivos son comunes.

Hablemos de trabajar en el CERN. ¿Cómo es para una persona de TI trabajar con físicos? ¿Qué características se asocian con trabajar en un espacio tan intercientífico como el LHC?

- Buena pregunta.De hecho, las personas hablan diferentes idiomas: llega el punto de que los mismos conceptos se representan gráficamente de diferentes maneras. Por ejemplo, las curvas ROC, a las que están acostumbrados los especialistas en aprendizaje automático, normalmente se dibujan en física giradas 90 grados. Y las coordenadas no se denominan Tasa de verdaderos positivos y Tasa de falsos negativos, sino Eficiencia de la señal y Rechazo de fondo. Además, si la eficiencia de la señal sigue siendo Precisión, entonces el rechazo de fondo es uno menos la tasa de verdaderos negativos.

Curva ROC (del inglés receiver operating character, receiver operating character)— un gráfico que le permite evaluar la calidad del binarioclasificaciones. Muestra la relación entre las partes de objetos del número total de portadores de atributos, clasificados correctamente como portadores del atributo, y las partes de objetos del número total de objetos que no llevan el atributo, clasificados incorrectamente como portadores del atributo.

Está claro que tales cosas pueden estar en marchaLas superficies son superficiales y es relativamente fácil acostumbrarse a ellas, pero los principales desafíos radican en comprender algunas de las suposiciones básicas que hacen los investigadores al escribir sus artículos. Y, por regla general, van más allá de lo que escriben. Es decir, se trata de un conocimiento secreto que se transmite durante la formación de una persona en la escuela de posgrado, en el proceso de trabajar en sus proyectos de investigación, se forma en su mente.

Para la gente de otro campo de la ciencia, es comoentorno cultural diferente. Para ellos, estas suposiciones pueden no ser tan obvias. Debido a que el léxico resulta bastante extenso y variado, la construcción de un diálogo puede retrasarse o incluso resultar improductiva. Por lo tanto, aquí, como recomendaciones, probablemente se pueda aconsejar pedir a las personas que vayan más allá de lo que están acostumbrados y que formulen el problema en los términos más abstractos de la física. Hacemos esto en parte cuando organizamos competencias como parte de nuestra Olimpiada IDAL. En el proceso de diálogo, encontramos un escenario que no requeriría una inmersión profunda en la física, pero que al mismo tiempo sería interesante para los especialistas en aprendizaje automático.

Este año tuvimos un proyecto conjunto conun laboratorio italiano que busca materia oscura. Proporcionaron datos sintéticos para los Juegos Olímpicos para encontrar esta materia oscura. Realmente no hay materia oscura allí, porque se simularon las desintegraciones de la física conocida: colisiones de electrones e iones de helio.  Pero las colisiones de partículas de materia oscura podrían ser muy similares a algunas de estas colisiones. Son muy difíciles de simular y aún más difíciles de interpretar. Por eso, especialmente para las personas que no son especialistas en este campo, decidimos no extraer estos datos y limitarnos solo a aquellos que son similares. Los algoritmos que veremos funcionan con datos aproximados, pero también se pueden aplicar a datos reales.

Andrei Ustyuzhanin. Foto de los archivos del orador.

En resumen, una forma es acordar términos claros para todos, y la otra es dedicar tiempo y esfuerzo, asistir a escuelas de verano, participar en proyectos prácticos de investigación.

Libros sobre aprendizaje automático y experimentos físicos recomendados por Andrey Ustyuzhanin:

Deepak Kar,Física experimental de partículas: comprensión de las mediciones y búsquedas en el Gran Colisionador de Hadrones.
Iliá Narski,Técnicas de Análisis Estadístico en Física de Partículas: Ajustes, Estimación de Densidad y Aprendizaje Supervisado. 
Giuseppe Carleo,El aprendizaje automático y las ciencias físicas.

- ¿Existen contradicciones entre los valores de los físicos y los especialistas en TI: por ejemplo, es más importante para alguien la naturaleza de las interacciones o, por el contrario, la precisión?

— Si hablamos específicamente de precisión, probablementeno hay ambigüedad. Pero es más probable que esto se deba al hecho de que los especialistas en TI no comprenden la naturaleza de los datos. Es solo que si medimos los datos con una precisión de un milímetro, entonces no tiene sentido calcular el área con una precisión de micrones cuadrados. En el caso de las redes neuronales complejas, nos enfrentamos al hecho de que producen información precisa hasta el último signo de la mantisa, pero estos signos no tienen más significado que la precisión que había en la entrada.

Bueno, tal vez un deseo general para las personas.que se ocupan de evaluar la precisión de los modelos es dar no solo características absolutas, sino también los límites de rangos aceptables o la dispersión en la que se obtuvieron estos valores. Realmente una buena recomendación no solo para quienes interactúan con físicos o con biólogos. Esta es, en principio, la forma correcta de mantener una presentación de los resultados obtenidos.

Y si hablamos de cuanto pueden serdiferentes expectativas de una parte y de otra, entonces, de hecho, todas estas son cuestiones de trabajo. Si hay interés por ambas partes, se pueden resolver de forma sencilla y bien. Es decir, el aprendizaje automático ahora tiene demanda entre los físicos en un sentido amplio, porque proporciona herramientas más precisas para trabajar con sus datos. Y funciona en sentido contrario, porque para los especialistas en aprendizaje automático puede resultar mucho más interesante ver cómo sus algoritmos ayudan en el descubrimiento de nuevas partículas, por ejemplo, como ocurre en nuestro laboratorio. Trabajamos durante mucho tiempo para crear un algoritmo que determinara el tipo de partícula. Y recientemente hubo noticias sobre el descubrimiento de nuevos tetraquarks, y nuestros algoritmos participaron directamente en su descubrimiento.

Por tanto, para las personas de TI, condicionalmente de Ciencia de Datos,En Informática, sentir la utilidad de los algoritmos que desarrollan es muy importante. Por eso, en nuestra facultad, por ejemplo, existe un Laboratorio Internacional de Bioinformática.

Estas interacciones se vuelven cada vez máscada vez más normal. No sé si ya se pueden considerar mainstream o si todavía hay que esperar, pero de una forma u otra esta historia es inevitable. Incluso si nos fijamos en los talleres organizados en el marco de las principales conferencias actuales sobre inteligencia artificial, el taller sobre el uso de la IA en las ciencias físicas ocupa un lugar destacado en el número de personas interesadas.

Lee mas:

El satélite estadounidense "vio" un mensaje inusual de la Tierra

Video publicado del cohete, que fue lanzado desde un acelerador experimental.

El monstruo en el centro de nuestra Galaxia: mira la foto de un agujero negro en la Vía Láctea

Tecnología geek en línea

Todo sobre tecnología y gadgets.

Cazadores de anomalías: cómo el CERN busca partículas raras utilizando algoritmos de Yandex

Cómo buscar anomalías en los datos del Gran Colisionador de Hadrones

Simbiosis de la física y la TI: cómo se utiliza el aprendizaje automático en la investigación del LHC

Cómo buscar materia oscura y por qué se necesitan redes neuronales para esto

Hablan diferentes idiomas, pero los objetivos son comunes.