Andrey Ustyuzhanin— Responsabile del Laboratorio di ricerca e formazione sui metodi di analisi dei Big Data presso la Scuola Superiore di Economia dell'Università Nazionale degli Studi di Ricerca.
Laureato all'Istituto di Fisica e Tecnologia di Mosca nel 2000, candidato in scienze fisiche e matematiche. Uno dei giudici delle finali internazionali della Microsoft Imagine Cup, prima ancora mentore del team MIPT che ha vinto la coppa nel 2005.
Come cercare anomalie nei dati del Large Hadron Collider
Cosa sono le anomalie dei dati?
— Se parliamo di dati ottenuti utilizzandoLarge Hadron Collider (LHC), queste potrebbero essere scoperte che non si adattano alle idee standard su come avvengono i decadimenti delle particelle dopo le collisioni di protoni. Queste scoperte costituiranno anomalie.
Ad esempio, se stiamo parlando di quotazioni di assetin borsa, allora le anomalie potrebbero essere dovute al fatto che un certo hedge fund ha deciso di pompare un asset o Wall Street Bets ha deciso di guadagnare soldi extra e creare un proprio hedge fund distribuito. Cioè, la fisica è completamente diversa e anche la manifestazione di questa fisica nei dati non è simile ad altri casi.
Quindi, se parliamo di anomalie, dobbiamo prima capire di quali dati e di quale fisica stiamo parlando.
— Quindi chiariamo con un focus sui collisori.
- Qui è un po' più facile, anche se si presentaforchetta. Il fatto è che ci sono dati sul tipo di processi che si verificano con le particelle all'interno del rivelatore. E ci sono dati su come funziona questo collisore. Le persone che sono principalmente interessate a scoprire nuove particelle o leggi sono principalmente interessate al primo tipo di dati. Ma il fatto è che tutto ciò che accade in fisica passa attraverso una catena piuttosto lunga di raccolta ed elaborazione di queste informazioni. E se uno qualsiasi dei nodi di questa catena inizia a comportarsi non bene come immaginavamo, cioè va oltre certi limiti dell'ammissibile, ciò introduce una distorsione nelle misurazioni. Possiamo vedere anomalie nel luogo in cui, in generale, non erano in fisica.
Le scoperte che non rientrano nelle idee standard su come avviene il decadimento delle particelle lì, che si verificano dopo la collisione dei protoni, saranno anomalie
Per evitare eventi così spiacevoli, gentescrivono speciali sistemi di controllo della qualità dei dati che monitorano tutti i dati negli strumenti di misura e cercano di escludere dalla considerazione quei periodi di tempo in cui si sospetta che qualcosa stia andando storto.
Uno degli esempi di cui alla gente piace parlareI fisici dell'LHC, è stato che nelle prime fasi di funzionamento del collisore hanno notato anomalie che non rientravano nei concetti fisici. Non esisteva ancora l'LHC, ma la sua versione precedente. Di conseguenza, i fisici hanno scoperto che la correlazione è molto seria con l'orario dei treni sulla ferrovia, che si trova nelle vicinanze. E se apporti modifiche associate a queste fluttuazioni, ottieni un'immagine non fisica del mondo.
È necessario tenere conto dei fattori esterni ed essere in grado di farlocapire quali di essi devono essere compensati correttamente. La soluzione più semplice: buttiamo via i dati che non rientrano nella solita immagine del mondo. Storie più complesse devono cercare di restituire queste anomalie, utilizzando principi comprensibili e fisici, a dati normali e cercare di trarne vantaggio.
Buttare via i dati è uno spreco di fondi di bilancio. Ogni kilobyte-megabyte ha un certo prezzo.
Andrey Ustyuzhanin, responsabile del Laboratorio di ricerca e formazione per i metodi di analisi dei big data presso la National Research University Higher School of Economics
- E, di conseguenza, come si può rilevare l'anomalia in questi dati utilizzando un sistema di apprendimento automatico?
— Esistono due gruppi di tali algoritmi, chelavorare con anomalie. Il primo gruppo di metodi di classificazione a classe singola include algoritmi che utilizzano informazioni solo su quegli eventi contrassegnati come buoni. Cioè, stanno cercando di costruire uno scafo convesso che racchiuda tutto ciò che pensiamo sia giusto. La logica è questa: tutto ciò che va oltre lo scopo di questa shell, considereremo delle anomalie. Cioè, ad esempio, il 99% dei dati è coperto da una tale shell e tutto il resto sembra qualcosa di sospetto.
Un altro gruppo di algoritmi si basa sul partialevidenziando ciò che consideriamo sbagliato. Essenzialmente, esiste una serie di eventi noti per avere risultati indesiderati. E poi la ricerca delle anomalie si riduce a un problema di classificazione in due classi. Si tratta di un classificatore regolare che può essere costruito sui principi delle reti neurali o degli alberi decisionali.
La sfumatura è che di solito nelle attivitàanomalie, il campione non è equilibrato. Cioè, il numero di esempi positivi supera significativamente il numero di quelli negativi. In tali condizioni, gli algoritmi di classificazione standard potrebbero non funzionare come vorremmo. La funzione di perdita predefinita tratta le istanze che si qualificano correttamente allo stesso modo e può trascurare il fatto che tra 10.000 risultati corretti ce ne sono un centinaio che si qualificano in modo errato. Questo cento rappresenta solo quegli esempi negativi che sono più interessanti. È chiaro che questo può essere combattuto, ad esempio, assegnando più peso agli esempi negativi e tenendo conto degli errori con la loro classificazione con molto più peso.
Funzione di perdita- una funzione che, nella teoria delle decisioni statistiche, caratterizza le perdite dovute a decisioni errate basate sui dati osservati.
Contributo del nostro laboratorio alla risoluzione del problemaIl rilevamento delle anomalie consiste nel proporre metodi che combinino le caratteristiche del primo e del secondo approccio. Cioè, il compito di lavorare con la classificazione a una classe e a due classi. Tale combinazione diventa possibile se costruiamo modelli generativi di esempi anomali.
Utilizzando approcci come il generativoreti contraddittorie o normalizzando i flussi, possiamo imparare a recuperare quegli esempi che sono etichettati come negativi e generare un campione aggiuntivo che consentirà al classificatore regolare di lavorare con il campione sintetico aumentato in modo più efficiente. Questo approccio funziona bene sia per i dati tabulari che per le immagini. C'era un articolo su quest'ultimo anno, che descrive come è costruito un tale sistema e fornisce esempi pratici del suo utilizzo.
— Hai menzionato di lavorare con le immagini. Come funziona in questo caso?
— Ci sono esempi in cui abbiamo mostrato il lavoroquesto algoritmo. Hanno semplicemente scelto una delle classi di immagini: ad esempio, i numeri scritti a mano. E hanno detto che lo zero è una sorta di anomalia. E hanno chiesto alla rete neurale, che decide che gli zeri non sono come tutto il resto, di essere assegnati alla classe negativa. Naturalmente, questi possono essere non solo zeri, ma anche, ad esempio, numeri all'interno dei quali sono presenti cicli chiusi - 068 - o numeri con intersezioni orizzontali. O semplicemente immagini ruotate di un certo angolo rispetto al resto del campione.
“Possiamo simulare la fisica in determinate condizioniparametri esterni con buona precisione e dire quali caratteristiche osservabili descriveranno gli eventi di segnale corretti, ad esempio il decadimento del bosone di Higgs "
C'è un set di dati chiamato omniglot -lettere scritte con caratteri diversi. Esiste un numero enorme di caratteri: da Futurama, gotico, scritto a mano da alfabeti impopolari: sanscrito o ebraico. Possiamo dire che le lettere in sanscrito sono un'anomalia, lo sono anche le lettere scritte con una certa calligrafia.
Chiediamo al sistema di imparare a distinguere tuttoil resto da questi simboli anomali. La cosa principale è che sono molto più piccoli di tutto il resto. Questa è la difficoltà di lavorare con loro per gli algoritmi di apprendimento automatico convenzionali.
Simbiosi tra fisica e IT: come l'apprendimento automatico viene utilizzato nella ricerca LHC
— Quali compiti dell'LHC vengono risolti con l'aiuto dell'apprendimento automatico?
— Uno dei grandi compiti su cui stiamo lavorando èè accelerare i processi computazionali che simulano collisioni fisiche e decadimenti delle particelle. Il fatto è che la decisione se determinati eventi sono simili o meno a determinati decadimenti fisici viene presa dopo aver analizzato un numero abbastanza elevato di decadimenti simulati. Possiamo simulare la fisica con determinati parametri esterni con buona precisione e dire quali caratteristiche osservabili descriveranno gli eventi di segnale corretti, ad esempio il decadimento del bosone di Higgs.
Ma ci sono alcuni avvertimenti:Non sempre conosciamo i parametri in base ai quali questi decadimenti devono essere generati. Di regola, c'è una certa idea al riguardo. E la sfida nel trovare la fisica giusta è distinguere gli eventi di segnale dagli eventi di fondo, che possono essere associati o al funzionamento errato degli algoritmi di recupero, o alla fisica di altri processi che sono molto simili a quello che stiamo cercando di trovare. Gli algoritmi di apprendimento automatico fanno un buon lavoro in questo senso, ma è una storia ben nota.
Ma per addestrare tali algoritmi, è necessarioun campione statistico piuttosto ampio di eventi simulati e il calcolo di questi dati sintetici richiede determinate risorse. Perché la simulazione di un evento richiede circa un minuto o anche dieci minuti del tempo di elaborazione dei moderni centri di calcolo. A causa del fatto che il numero di eventi reali con cui lavoreranno i fisici aumenterà di ordini di grandezza nei prossimi anni, anche il numero di eventi sintetizzati dovrebbe aumentare. Ora le risorse informatiche sono appena sufficienti per coprire le esigenze dei ricercatori. Perché per simulare un evento, dobbiamo calcolare l'interazione delle microparticelle con la struttura del rivelatore e simulare la risposta che vedremo sui sensori di questo rivelatore con una precisione molto elevata.
L’idea dell’accelerazione è allenare la rete neuralesu eventi simulati utilizzando un pacchetto certificato - GMT 4, che simula tutto ciò che accade all'interno dei rilevatori del collisore. Questo neurone imparerà a confrontare gli input, i parametri delle particelle che vogliamo simulare e gli output, quelle caratteristiche osservabili prodotte dal rilevatore. Le reti neurali già oggi affrontano abbastanza bene il compito di interpolazione dei dati. E diversi progetti del nostro laboratorio mirano proprio a questo. Cioè, per ripristinare le caratteristiche dei decadimenti dal campione sintetico disponibile, cioè per realizzare tali sintetici del secondo ordine. Ma c’è una sfumatura: il vantaggio delle reti neurali è che possiamo ottimizzarle utilizzando dati reali. Cioè, rendi questa impostazione più precisa per un decadimento fisico specifico.
Persone che sono impegnate nel fisico a tutti gli effettisimulazione, dedicano tempo e fatica a questo, ma con i neuroni risulta un po' meno laborioso. E dai risultati che abbiamo ottenuto per l'esperimento LHTV al CERN e per il progetto dell'esperimento Dubna MPD all'acceleratore Nica, è diventato chiaro che le reti neurali possono raggiungere una precisione molto elevata nel coprire lo spazio delle fasi degli eventi simulati. Accelerano notevolmente il processo di calcolo: ordini e anche centinaia più velocemente di una simulazione onesta.
— Come apprende la rete neurale stessa?
— Non ci sono differenze nel processo di apprendimento.Ma c'è una particolarità: per una rete neurale, oltre al campione di addestramento, è necessario formulare criteri di qualità, cioè impostare una funzione di perdita che meglio corrisponda al compito che questa rete dovrebbe affrontare bene. Inoltre, la qualità del lavoro di tale rete neurale non viene valutata dai ricercatori: può essere adeguatamente valutata in termini di passaggi computazionali che si verificano in una fase successiva dell'elaborazione dei dati.
Per determinare se una simulazione è buona o meno, possiamosolo dopo che abbiamo fatto passare gli eventi attraverso la catena della loro analisi, ricostruzione, e abbiamo capito che le stesse caratteristiche che in essi originariamente avevamo posto vengono ripristinate da loro. Ciò significa che, ad esempio, l'utilizzo di una semplice metrica MSE Mean Squared Error non è sufficiente.
Errore quadratico medio MSE- misura la differenza quadratica media tra i valori stimati e il valore effettivo.
Il comportamento della rete neurale deve essere valutato ulteriormente, infunzionalità su intervalli di parametri che potrebbero non essere presenti nel set di addestramento. Costruire modelli che si comportino ben oltre i valori dei parametri conosciuti in fase di addestramento è un compito ampio e teorico.
Le reti neurali sono buone nei luoghi in cui si trovanosapeva qualcosa in fase di formazione. Al di fuori di loro, possono dare quello che vogliono. Nel nostro caso, questo è particolarmente delicato, perché da esso dipende la correttezza dell'interpretazione fisica della realtà che ci circonda.
“Se una particella di materia oscura decade in particelle con le quali sappiamo come interagire, si può presumere che questa particella di materia oscura lo fosse davvero”
- Cioè, la rete neurale sta cercando eventi rari che possono verificarsi al collisore?
— Basato sul funzionamento dei modelli generativi, ovveroIn primo luogo, stiamo parlando della sintesi di tutto ciò che può accadere. Lo facciamo con modelli in miniatura. E sull'output di tali reti, possiamo costruire un modello che cercherà ciò di cui abbiamo bisogno: ciò che siamo riusciti a generare su una rete neurale generativa.
Come cercare la materia oscura e perché le reti neurali sono necessarie per questo
— Un principio di ricerca simile può essere applicato alla materia oscura?
- Il fatto è che la materia oscura può essere ricercatadiversi modi. Un modo è costruire un rilevatore adeguato che possa isolare abbastanza bene dagli effetti della materia ordinaria. Cioè, per bloccare il segnale che proviene da particelle note ai fisici. Questo è solo un metodo di eliminazione: se il rilevatore vede qualcosa di diverso dal rumore, allora vede qualcosa che non abbiamo mai visto prima. Una possibilità sarebbe che queste siano particelle di materia oscura.
Se, ad esempio, una particella di materia oscuradecade in particelle con le quali sappiamo interagire, ed è chiaro che tracce di decadimento non potrebbero apparire da nessuna parte se non da essa, quindi possiamo supporre che questa particella di materia oscura lo fosse davvero.
Tali esperimenti vengono discussi e pianificati.Uno di questi si chiama SHiP (Search for Hidden Particles). E, a proposito, per un simile esperimento, sono applicabili anche gli approcci di cui ho parlato. Richiede simulazione e algoritmi per riconoscere approcci rari. Ma poiché la luminosità di questo esperimento è molto più bassa (la luminosità è il numero di particelle che si prevede di essere rilevate per unità di tempo), la necessità di simulare un gran numero di eventi simili non è così acuta come nel caso dell'Hadro Collider rivelatori. Sebbene, ad esempio, il compito associato alla valutazione della qualità del sistema di protezione contro le particelle note alla fisica richieda la simulazione di un numero abbastanza elevato di eventi. Ciò è necessario per assicurarsi che la protezione funzioni bene con l'enorme numero di particelle in entrata di vario tipo.
Naveè un esperimento finalizzato alla ricerca di oggetti nascostiparticelle, comprese le particelle di materia oscura, in un flusso di particelle proveniente dall'acceleratore SPS filtrato da campi magnetici, uno strato di cinque metri di cemento e metallo.
Esistono altri modi per cercare la materia oscura,legati all’osservazione dei fenomeni spaziali. In particolare, un approccio consiste nel costruire elementi sensibili che riconoscano la direzione di particelle che interagiscono molto debolmente a seconda dell'angolo di incidenza di questa particella. La logica dell'esperimento è che è possibile posizionare gli elementi sensibili in modo che siano orientati lungo il vettore del moto del sistema solare, cioè verso la costellazione del Cigno. Allora saremo in grado di distinguere le particelle che si muovono nel sistema di coordinate della Terra dalle particelle che si muovono diversamente. Come l'etere immobile, che è distribuito nello spazio secondo le proprie leggi, in nessun modo collegato all'orientamento e alla direzione del movimento dei pianeti. È solo che invece dell'etere si presume che ci siano particelle di materia oscura. Possono interagire debolmente con i sensori del nostro esperimento. E analizzando le loro letture, è possibile ricavare modelli di distribuzioni angolari delle particelle interagenti. Se vediamo che esiste una componente seria che non dipende dalla posizione della Terra nello spazio, ciò indicherà l'esistenza di particelle precedentemente sconosciute. E forse questi saranno candidati per le particelle di materia oscura.
In un tale esperimento, la simulazione è abbastanza importante,perché per costruire un algoritmo per riconoscere gli eventi segnale, è necessario immaginare come appare il segnale che ci interessa. Pertanto, i compiti associati alla simulazione rapida e alla ricerca di anomalie sono rilevanti e applicabili lì.
Parlano lingue diverse, ma gli obiettivi sono comuni
Parliamo di lavorare al CERN. Com'è per una persona IT lavorare con i fisici? Quali caratteristiche sono associate al lavoro in uno spazio interscientifico come LHC?
- Buona domanda.Le persone, infatti, parlano lingue diverse: arriva al punto che gli stessi concetti vengono rappresentati graficamente in modi diversi. Ad esempio, le curve ROC, a cui sono abituati gli specialisti dell'apprendimento automatico, vengono solitamente disegnate in fisica ruotate di 90 gradi. E le coordinate non si chiamano Tasso Vero Positivo e Tasso Falso Negativo, ma efficienza del segnale e reiezione dello sfondo. Inoltre, se l'efficienza del segnale è ancora Precisione, il rifiuto dello sfondo è pari a uno meno il tasso di vero negativo.
Curva ROC (dalla caratteristica operativa del ricevitore inglese, caratteristica operativa del ricevitore)— un grafico che consente di valutare la qualità del binarioclassificazioni. Visualizza la relazione tra le quote di oggetti dal numero totale di portatori di attributo, classificati correttamente come portanti l'attributo, e le parti di oggetti dal numero totale di oggetti che non portano l'attributo, classificati erroneamente come portanti l'attributo.
È chiaro che queste cose potrebbero succederesuperfici ed è relativamente facile abituarsi, ma la sfida principale sta nel comprendere alcuni dei presupposti di base che i ricercatori fanno quando scrivono i loro articoli. E, di regola, vanno oltre ciò di cui scrivono. Cioè, questa è una conoscenza segreta che viene trasmessa durante la formazione di una persona alla scuola di specializzazione, nel processo di lavoro sui suoi progetti di ricerca, si forma nella sua mente.
Per le persone di un altro campo della scienza, è comeambiente culturale diverso. Per loro, queste ipotesi potrebbero non essere così ovvie. A causa del fatto che il lessico risulta essere piuttosto ampio e diverso, la costruzione di un dialogo può essere ritardata o addirittura essere improduttiva. Pertanto, qui, come raccomandazioni, si può probabilmente consigliare di chiedere alle persone di andare oltre ciò a cui sono abituate e di formulare il problema nei termini più astratti della fisica. Lo facciamo in parte quando organizziamo le competizioni come parte delle nostre Olimpiadi IDAL. Nel processo di dialogo, troviamo un'ambientazione che non richiederebbe una profonda immersione nella fisica, ma allo stesso tempo sarebbe interessante per gli specialisti dell'apprendimento automatico.
Quest'anno abbiamo avuto un progetto comune conun laboratorio italiano che sta cercando la materia oscura. Hanno fornito dati sintetici alle Olimpiadi per trovare questa materia oscura. In realtà lì non c'è materia oscura, perché sono stati simulati i decadimenti della fisica conosciuta: collisioni di elettroni e ioni di elio. Ma le collisioni di particelle di materia oscura potrebbero essere molto simili ad alcune di queste collisioni. Sono molto difficili da simulare e ancora più difficili da interpretare. Pertanto, soprattutto per le persone che non sono specializzate in questo campo, abbiamo deciso di non estrarre questi dati e limitarci solo a quelli simili. Gli algoritmi che vedremo lavorano su dati approssimativi, ma possono essere applicati anche a dati reali.
Andrey Ustyuzhanin. Foto dagli archivi del relatore
Per riassumere, un modo è concordare condizioni chiare per tutti, e l'altro è dedicare tempo e fatica, frequentare le scuole estive, partecipare a progetti di ricerca pratici.
Libri sull'apprendimento automatico e sugli esperimenti fisici consigliati da Andrey Ustyuzhanin:
- Deepak Kar,Fisica sperimentale delle particelle: comprensione delle misurazioni e delle ricerche al Large Hadron Collider.
- Ilya Narsky,Tecniche di analisi statistica nella fisica delle particelle: fit, stima della densità e apprendimento supervisionato.
- Giuseppe Carleo,Apprendimento automatico e scienze fisiche.
- Ci sono delle contraddizioni tra i valori dei fisici e degli specialisti informatici: ad esempio, la natura delle interazioni è più importante per qualcuno o, al contrario, l'accuratezza?
— Se parliamo specificamente di precisione, probabilmentenon c'è ambiguità. Ma ciò è più probabile che sia dovuto al fatto che gli specialisti IT non comprendono la natura dei dati. È solo che se misurassimo i dati con una precisione di un millimetro, non ha senso calcolare l'area con una precisione di micron quadrati. Nel caso delle reti neurali complesse, ci troviamo di fronte al fatto che producono informazioni accurate fino all'ultimo segno della mantissa, ma non c'è più significato in questi segni che nella precisione che era all'input.
Beh, forse un augurio generale per le personeche si occupa di valutare l'accuratezza dei modelli è fornire non solo le caratteristiche assolute, ma anche i limiti degli intervalli accettabili o lo spread in cui questi valori sono stati ottenuti. In realtà una buona raccomandazione non solo per chi interagisce con i fisici o con i biologi. Questo è, in linea di principio, il modo corretto di mantenere una presentazione dei risultati ottenuti.
E se parliamo di quanto possono essereaspettative diverse da una parte e dall'altra, allora queste sono tutte questioni lavorative, in effetti. Se c’è interesse da entrambe le parti, i problemi possono essere risolti in modo semplice e positivo. Cioè, l'apprendimento automatico è ora richiesto dai fisici in senso lato, perché fornisce strumenti più accurati per lavorare con i loro dati. E funziona nella direzione opposta, perché per gli specialisti dell’apprendimento automatico può essere molto più interessante vedere come i loro algoritmi aiutano nella scoperta di nuove particelle, ad esempio, come avviene nel nostro laboratorio. Abbiamo lavorato a lungo per creare un algoritmo che determinasse il tipo di particella. E recentemente ci sono state notizie sulla scoperta di nuovi tetraquark e i nostri algoritmi hanno preso parte direttamente alla loro scoperta.
Pertanto, per le persone del settore IT, condizionatamente di Data Science,L'informatica, sentire l'utilità degli algoritmi che sviluppano è molto importante. Pertanto, nella nostra facoltà, ad esempio, c'è un Laboratorio internazionale di bioinformatica.
Tali interazioni diventano sempre più frequentisempre più normale. Non so se possano già essere considerati mainstream o se dobbiamo ancora aspettare, ma in un modo o nell’altro questa storia è inevitabile. Anche se si guardano i workshop organizzati nell'ambito delle principali conferenze odierne sull'intelligenza artificiale, il workshop sull'uso dell'intelligenza artificiale nelle scienze fisiche occupa un posto di primo piano nel numero di persone interessate.
Leggi di più:
Il satellite americano ha "visto" un messaggio insolito dalla Terra
Video pubblicato dal razzo, che è stato lanciato da un acceleratore sperimentale
Il mostro al centro della nostra Galassia: guarda la foto di un buco nero nella Via Lattea