Vânători de anomalii: cum caută CERN particule rare folosind algoritmi Yandex

Andrei Ustyuzhanin— Șef al Laboratorului de Cercetare și Educație Metode de Analiză a Big Data la Școala Superioară de Științe Economice a Universității Naționale de Cercetare.

Șeful proiectelor comune între Yandex și CERN. Participă la dezvoltarea serviciilor EventIndex și EventFilter, pe care Yandex le-a furnizat pentru experimentul LHCb din 2011. 

Absolvent al Institutului de Fizică și Tehnologie din Moscova în 2000, candidat la științe fizice și matematice. Unul dintre arbitrii finalelor internaționale Microsoft Imagine Cup, înainte de asta a fost mentor al echipei MIPT care a câștigat cupa în 2005.

Cum să căutați anomalii în datele lui Large Hadron Collider

Ce sunt anomaliile de date?

— Dacă vorbim despre datele obținute folosindLarge Hadron Collider (LHC), acestea pot fi descoperiri care nu se încadrează în ideile standard despre modul în care apar dezintegrarea particulelor acolo după ciocnirile de protoni. Aceste descoperiri vor fi anomalii. 

De exemplu, dacă vorbim de cotații de activela bursă, atunci pot exista anomalii din cauza faptului că un anumit fond speculativ a decis să pompeze un activ sau Wall Street Bets a decis să câștige bani în plus și să înființeze propriul fond speculativ distribuit. Adică, fizica este complet diferită, iar manifestarea acestei fizice în date nu este, de asemenea, similară cu alte cazuri.

Prin urmare, dacă vorbim despre anomalii, mai întâi trebuie să înțelegem despre ce date și despre ce fizică vorbim. 

— Atunci, să clarificăm, concentrându-ne pe coliziune.

- Aici este puțin mai ușor, deși apare și elfurculiţă. Faptul este că există date despre ce fel de procese au loc cu particulele din interiorul detectorului. Și există date despre cum funcționează acest colisionator. Oamenii care sunt interesați în primul rând să descopere noi particule sau legi sunt interesați în principal de primul tip de date. Dar adevărul este că tot ceea ce se întâmplă în fizică trece printr-un lanț destul de lung de colectare și procesare a acestor informații. Și dacă vreunul dintre nodurile acestui lanț începe să nu se comporte așa cum ne-am imaginat, adică depășește anumite limite ale permisului, aceasta introduce o distorsiune în măsurători. Putem observa anomalii în locul în care, în general, nu erau la fizică.

Descoperirile care nu se încadrează în ideile standard despre cum au loc dezintegrarea particulelor acolo, care apar după ciocnirea protonilor, vor fi anomalii.

Pentru a evita astfel de evenimente neplăcute, oameni buniei scriu sisteme speciale de control al calității datelor care monitorizează toate datele din instrumentele de măsurare și încearcă să excludă din considerare acele perioade de timp în care există suspiciunea că ceva nu merge bine. 

Unul dintre exemplele despre care oamenilor le place să vorbeascăfizicienii de la LHC, a fost că în primele etape ale funcționării colisionarului au observat anomalii care nu se încadrau în conceptele fizice. Nu exista încă LHC, ci versiunea anterioară. Drept urmare, fizicienii au constatat că corelația este foarte serioasă cu orarul trenurilor de pe calea ferată, care se află în apropiere. Și dacă faceți ajustări asociate cu aceste fluctuații, obțineți o imagine non-fizică a lumii. 

Este necesar să se țină cont de factorii externi și să fie capabilînțelegeți care dintre ele trebuie compensate corect. Cea mai simplă soluție: să aruncăm datele care nu se încadrează în imaginea obișnuită a lumii. Poveștile mai complexe sunt să încercăm să readucem aceste anomalii, folosind principii înțelese și fizice, la datele normale și să încercăm să beneficiezi de ele. 

Aruncarea datelor este o risipă de fonduri bugetare. Fiecare kilobyte-megaoctet are un anumit preț.

Andrey Ustyuzhanin, șeful Laboratorului de cercetare și educație pentru metodele de analiză a datelor mari de la Școala Superioară de Economie a Universității Naționale de Cercetare

- Și, în consecință, cum se poate detecta anomalia din aceste date folosind un sistem de învățare automată?

— Există două grupuri de astfel de algoritmi, carelucrul cu anomalii. Primul grup de metode de clasificare cu o singură clasă include algoritmi care utilizează informații numai despre acele evenimente care sunt marcate ca bune. Adică încearcă să construiască o carcasă convexă care să încapă tot ceea ce credem că este corect. Logica este aceasta: tot ceea ce depășește sfera acestui shell, vom lua în considerare anomalii. Adică, de exemplu, 99% din date sunt acoperite de un astfel de shell, iar orice altceva arată ca ceva suspect.

Un alt grup de algoritmi se bazează pe parțialmarcând ceea ce considerăm greșit. În esență, există un set de evenimente despre care se știe că au rezultate nedorite. Și apoi căutarea anomaliilor se reduce la o problemă de clasificare cu două clase. Acesta este un clasificator obișnuit care poate fi construit pe principiile rețelelor neuronale sau ale arborilor de decizie. 

Nuanța este că, de obicei, în sarcinianomalii, proba nu este echilibrată. Adică, numărul de exemple pozitive depășește semnificativ numărul celor negative. În astfel de condiții, algoritmii standard de clasificare ar putea să nu funcționeze atât de bine pe cât ne-am dori. Funcția implicită de pierdere tratează cazurile care se califică corect în mod egal și poate trece cu vederea faptul că dintre 10.000 de rezultate corecte există o sută care se califică incorect. Această sută reprezintă doar acele exemple negative care sunt cele mai interesante. Este clar că acest lucru poate fi combatet, de exemplu, atribuind mai multă pondere exemplelor negative și luând în considerare erorile cu clasificarea lor cu mult mai multă pondere.

Funcția de pierdere- o functie care, in teoria deciziilor statistice, caracterizeaza pierderile datorate unei decizii incorecte pe baza datelor observate.

Contribuția laboratorului nostru la rezolvarea problemeiDetectarea anomaliilor este de a propune metode care combină caracteristicile primei și celei de-a doua abordări. Adică, sarcina de a lucra cu o clasificare cu o clasă și două clase. O astfel de combinație devine posibilă dacă construim modele generative de exemple anormale. 

Folosind abordări precum generativerețele adverse sau fluxuri de normalizare, putem învăța să recuperăm acele exemple care sunt etichetate drept negative și să generăm un eșantion suplimentar care va permite clasificatorului obișnuit să lucreze cu eșantionul sintetic augmentat mai eficient. Această abordare funcționează bine atât pentru datele tabulare, cât și pentru imagini. A existat un articol despre asta anul trecut, care descrie modul în care este construit un astfel de sistem și oferă exemple practice de utilizare.

— Ai menționat că lucrezi cu imagini. Cum funcționează în acest caz?

— Există exemple în care am arătat lucrareaacest algoritm. Pur și simplu au ales una dintre clasele de imagini: de exemplu, numere scrise de mână. Și au spus că zero este un fel de anomalie. Și au cerut rețelei neuronale, care decide că zerourile nu sunt ca orice altceva, să fie atribuite clasei negative. Desigur, acestea pot fi nu numai zerouri, ci și, de exemplu, numere în cadrul cărora există cicluri închise - 068 - sau numere cu intersecții orizontale. Sau pur și simplu imagini rotite la un anumit unghi față de restul eșantionului. 

„Putem simula fizica cu certitudineparametri externi cu precizie bună și spuneți ce caracteristici observabile vor descrie evenimentele semnalului corect, de exemplu, dezintegrarea bosonului Higgs "

Există un set de date numit omniglot -scrisori scrise cu fonturi diferite. Există un număr mare de fonturi: din Futurama, gotic, scrise de mână din alfabete nepopulare - sanscrită sau ebraică. Putem spune că literele în sanscrită sunt o anomalie, literele scrise cu o anumită scriere de mână sunt și ele.

Cerem sistemului să învețe să distingă totulrestul din aceste simboluri anormale. Principalul lucru este că sunt mult mai mici decât orice altceva. Aceasta este dificultatea de a lucra cu ei pentru algoritmii convenționali de învățare automată.

Simbioza fizicii și IT: cum este utilizată învățarea automată în cercetarea LHC

— Ce sarcini ale LHC sunt rezolvate cu ajutorul învățării automate?

— O mare sarcină cu care lucrăm esteeste de a accelera procesele de calcul care simulează coliziunile fizice și dezintegrarea particulelor. Faptul este că decizia dacă evenimentele date sunt similare cu anumite dezintegrari fizice sau nu este luată după analizarea unui număr destul de mare de dezintegrari simulate. Putem simula fizica la anumiți parametri externi cu o bună acuratețe și putem spune ce caracteristici observabile vor descrie evenimentele semnalului corect, de exemplu, dezintegrarea bosonului Higgs. 

Dar există anumite avertismente:Nu știm întotdeauna parametrii sub care trebuie generate aceste dezintegrari. De regulă, există o anumită idee despre asta. Iar provocarea de a găsi fizica potrivită este să distingem evenimentele semnal de evenimentele de fundal, care pot fi asociate fie cu funcționarea incorectă a algoritmilor de recuperare, fie cu fizica altor procese care sunt foarte asemănătoare cu ceea ce încercăm să găsim. Algoritmii de învățare automată fac o treabă bună în acest sens, dar este o poveste binecunoscută. 

Dar pentru a antrena astfel de algoritmi, este necesarun eșantion statistic destul de mare de evenimente simulate, iar calculul acestor date sintetice necesită anumite resurse. Deoarece simularea unui eveniment durează aproximativ un minut sau chiar zece minute din timpul de calcul al centrelor de calcul moderne. Datorită faptului că numărul evenimentelor reale cu care vor lucra fizicienii va crește cu ordine de mărime în următorii ani, și numărul evenimentelor sintetizate ar trebui să crească. Acum resursele de calcul abia sunt suficiente pentru a acoperi nevoile cercetătorilor. Pentru că pentru a simula un eveniment, trebuie să calculăm interacțiunea microparticulelor cu structura detectorului și să simulăm răspunsul pe care îl vom vedea pe senzorii acestui detector cu o precizie foarte mare.

Ideea de accelerare este de a antrena rețeaua neuronalăpe evenimente care au fost simulate folosind un pachet certificat - GMT 4, care simulează tot ce se întâmplă în interiorul detectorilor de coliziune. Acest neuron va învăța să compare intrările, parametrii particulelor pe care dorim să le simulăm și ieșirile - acele caracteristici observabile pe care le produce detectorul. Rețelele neuronale de astăzi fac față deja destul de bine sarcinii de interpolare a datelor. Și câteva proiecte din laboratorul nostru vizează tocmai acest lucru. Adică pentru a restabili caracteristicile dezintegrarilor din proba sintetică disponibilă, adică pentru a face astfel de sintetice de ordinul doi. Dar există o nuanță: avantajul rețelelor neuronale este că le putem regla fin folosind date reale. Adică, faceți această setare mai precisă pentru o anumită degradare fizică. 

Oameni care sunt implicați în fizice cu drepturi deplinesimulare, își petrec timpul și efortul pe acest lucru, dar cu neuronii se dovedește puțin mai puțin laborios. Și din rezultatele pe care le-am făcut pentru experimentul LHTV de la CERN și proiectul de experiment Dubna MPD la acceleratorul Nica, a devenit clar că rețelele neuronale pot atinge o precizie foarte mare în acoperirea spațiului de fază al evenimentelor simulate. Ele accelerează semnificativ procesul de calcul: comenzi și chiar sute mai rapid decât o simulare onesta.

— Cum învață rețeaua neuronală în sine? 

— Nu există diferențe în procesul de învățare.Dar există o particularitate: pentru o rețea neuronală, pe lângă eșantionul de antrenament, este necesar să se formuleze criterii de calitate, adică să se stabilească o funcție de pierdere care să corespundă cel mai bine sarcinii căreia ar trebui să se descurce bine această rețea. În plus, calitatea muncii unei astfel de rețele neuronale nu este evaluată de cercetători: poate fi evaluată în mod adecvat în ceea ce privește etapele de calcul care au loc într-o etapă ulterioară a procesării datelor. 

Pentru a determina dacă o simulare este bună sau nu, putemnumai după ce trecem evenimentele prin lanțul analizei, reconstrucției lor și înțelegem că aceleași caracteristici pe care le-am pus inițial în ele sunt restaurate din ele. Aceasta înseamnă că, de exemplu, utilizarea unei valori simple MSE Mean Squared Error nu este suficientă.

Eroare medie pătratică MSE- măsoară diferența pătratică medie dintre valorile estimate și valoarea reală.

Comportamentul rețelei neuronale trebuie evaluat în continuare, încaracteristici ale intervalelor de parametri care este posibil să nu fi fost prezente în setul de antrenament. Construirea unor astfel de modele care se comportă cu mult peste valorile parametrilor cunoscute în etapa de pregătire este o sarcină mare și teoretică. 

Rețelele neuronale sunt bune în locurile în care acesteaștia ceva la etapa de pregătire. În afara lor, pot da tot ce vor. În cazul nostru, acest lucru este deosebit de sensibil, deoarece de ea depinde corectitudinea interpretării fizice a realității din jurul nostru. 

„Dacă o particulă de materie întunecată se descompune în particule cu care știm cum să interacționăm, se poate presupune că această particulă de materie întunecată a fost într-adevăr”

— Adică, rețeaua neuronală caută evenimente rare care pot avea loc la ciocnitor?

— Pe baza funcționării modelelor generative, adicăÎn primul rând, vorbim despre sinteza a tot ceea ce se poate întâmpla. Facem acest lucru cu modele în miniatură. Și la ieșirea unor astfel de rețele, putem construi un model care va căuta ceea ce avem nevoie: ceea ce am reușit să generăm pe o rețea neuronală generativă.

Cum să cauți materia întunecată și de ce sunt necesare rețele neuronale pentru aceasta

— Un principiu similar de căutare poate fi aplicat materiei întunecate?

- Faptul este că materia întunecată poate fi căutatăcăi diferite. O modalitate este de a construi un detector adecvat care se poate izola destul de bine de efectele materiei obișnuite. Adică să blocheze semnalul care vine de la particulele cunoscute de fizicieni. Aceasta este doar o metodă de eliminare: dacă detectorul vede altceva decât zgomot, atunci vede ceva ce nu am mai văzut până acum. O posibilitate ar fi ca acestea să fie particule de materie întunecată.

Dacă, de exemplu, o particulă de materie întunecatăse dezintegrează în particule cu care știm cum să interacționăm și este clar că urme de degradare nu au putut apărea de nicăieri decât din ea, atunci putem presupune că această particulă de materie întunecată a fost într-adevăr.

Astfel de experimente sunt discutate și planificate.Una dintre ele se numește SHiP (Search for Hidden Particles). Și, de altfel, pentru un astfel de experiment sunt aplicabile și abordările despre care am vorbit. Necesită simulare și algoritmi pentru recunoașterea abordărilor rare. Dar, din moment ce luminozitatea acestui experiment este mult mai mică (luminozitatea este numărul de particule care sunt planificate a fi detectate pe unitatea de timp), necesitatea de a simula un număr mare de evenimente similare nu este la fel de acută ca în cazul Hadron Collider. detectoare. Deși, de exemplu, sarcina asociată cu evaluarea calității sistemului de protecție împotriva particulelor cunoscute de fizică necesită simularea unui număr destul de mare de evenimente. Acest lucru este necesar pentru a vă asigura că protecția funcționează bine cu numărul enorm de particule de diferite tipuri care intră.

Navăeste un experiment care vizează găsirea ascunseparticule, inclusiv particule de materie întunecată, într-un flux de particule de la acceleratorul SPS filtrat de câmpuri magnetice, un strat de cinci metri de beton și metal. 

Există și alte moduri de a căuta materia întunecată,legate de observaţiile fenomenelor spaţiale. În special, o abordare este de a construi elemente sensibile care recunosc direcția particulelor care interacționează foarte slab în funcție de unghiul de incidență al acestei particule. Logica experimentului este că este posibilă plasarea elementelor sensibile astfel încât acestea să fie orientate de-a lungul vectorului de mișcare al sistemului solar, adică spre constelația Cygnus. Apoi vom putea distinge particulele care se mișcă în sistemul de coordonate al Pământului de particulele care se mișcă diferit. La fel ca eterul nemișcat, care este distribuit în spațiul cosmic conform propriilor legi, în nici un fel legat de orientarea și direcția de mișcare a planetelor. Doar că, în loc de eter, se presupune că există particule de materie întunecată. Ei pot interacționa slab cu senzorii experimentului nostru. Și analizând citirile lor, este posibil să se obțină modele de distribuții unghiulare ale particulelor care interacționează. Dacă vedem că există o componentă serioasă care nu depinde de poziția Pământului în spațiu, aceasta va indica existența unor particule necunoscute anterior. Și poate că acestea vor fi candidați pentru particule de materie întunecată. 

Într-un astfel de experiment, simularea este destul de importantă,deoarece pentru a construi un algoritm pentru recunoașterea evenimentelor semnal, trebuie să vă imaginați cum arată semnalul care ne interesează. Prin urmare, sarcinile asociate cu simularea rapidă și căutarea anomaliilor sunt relevante și aplicabile acolo.

Vorbesc limbi diferite, dar obiectivele sunt comune

Să vorbim despre munca la CERN. Cum este pentru un IT să lucreze cu fizicienii? Ce caracteristici sunt asociate cu lucrul într-un spațiu atât de trans-științific precum LHC?

- Buna intrebare.Într-adevăr, oamenii vorbesc limbi diferite: se ajunge la punctul în care aceleași concepte sunt reprezentate grafic în moduri diferite. De exemplu, curbele ROC, cu care specialiștii în învățarea automată sunt obișnuiți, sunt de obicei desenate în fizică rotite cu 90 de grade. Iar coordonatele nu se numesc Rată pozitivă adevărată și Rată negativă falsă, ci eficiența semnalului și respingerea fundalului. În plus, dacă eficiența semnalului este în continuare Precizie, atunci respingerea în fundal este un minus Rata negativă adevărată. 

Curba ROC (din limba engleză caracteristică de funcționare a receptorului, caracteristică de funcționare a receptorului)— un grafic care vă permite să evaluați calitatea binaruluiclasificări. Afișează relația dintre cotele de obiecte din numărul total de purtători de atribute, clasificate corect ca purtând atributul și cotele de obiecte din numărul total de obiecte care nu poartă atributul, clasificate incorect ca purtând atributul.

Este clar că astfel de lucruri pot existasuprafețe și sunt relativ ușor de obișnuit, dar principalele provocări constă în înțelegerea unora dintre ipotezele de bază pe care cercetătorii le fac atunci când își scriu lucrările. Și, de regulă, sunt dincolo de ceea ce scriu. Adică, acestea sunt niște cunoștințe secrete care sunt transmise în timpul pregătirii unei persoane în școala absolventă, în procesul de lucru la proiectele sale de cercetare, se formează în mintea lui. 

Pentru oameni din alt domeniu al științei, este camediu cultural diferit. Pentru ei, este posibil ca aceste presupuneri să nu fie atât de evidente. Datorită faptului că lexicul se dovedește a fi destul de extins și diferit, construirea unui dialog poate fi amânată sau chiar neproductivă. Prin urmare, aici, ca recomandări, probabil că se poate sfătui fie să le cerem oamenilor să depășească ceea ce sunt obișnuiți și să formuleze problema în cei mai abstracti termeni din fizică. Facem acest lucru parțial atunci când organizăm competiții ca parte a olimpiadei noastre IDAL. În procesul dialogului, găsim un cadru care nu ar necesita o imersiune profundă în fizică, dar în același timp ar fi interesant pentru specialiștii în învățarea automată.

Anul acesta am avut un proiect comun cuun laborator italian care caută materie întunecată. Ei au furnizat date sintetice pentru Jocurile Olimpice pentru a găsi această materie întunecată. Într-adevăr, nu există materie întunecată acolo, deoarece dezintegrarea fizicii cunoscute au fost simulate: ciocniri de electroni și ioni de heliu.  Dar ciocnirile de particule de materie întunecată ar putea fi foarte asemănătoare cu unele dintre aceste ciocniri. Sunt foarte greu de simulat și chiar mai greu de interpretat. Prin urmare, mai ales pentru persoanele care nu sunt specialiști în acest domeniu, am decis să nu scoatem aceste date și să ne limităm doar la cele care sunt asemănătoare. Algoritmii pe care îi vom vedea funcționează pe date aproximative, dar pot fi aplicați și datelor reale.

Andrei Ustyuzhanin. Fotografie din arhivele vorbitorului

Pentru a rezuma, o modalitate este de a conveni asupra unor termeni clari pentru toată lumea, iar cealaltă este de a petrece timp și efort, de a participa la școli de vară, de a participa la proiecte de cercetare practică.

Cărți despre învățarea automată și experimente fizice recomandate de Andrey Ustyuzhanin:

Deepak Kar,Fizica experimentală a particulelor: înțelegerea măsurătorilor și căutărilor la Large Hadron Collider.
Ilya Narsky,Tehnici de analiză statistică în fizica particulelor: potriviri, estimare a densității și învățare supravegheată. 
Giuseppe Carleo,Învățare automată și științe fizice.

- Există contradicții între valorile fizicienilor și ale specialiștilor IT: de exemplu, este mai importantă pentru cineva natura interacțiunilor sau, dimpotrivă, acuratețea?

— Dacă vorbim în mod specific despre acuratețe, probabilnu există ambiguitate. Dar acest lucru este mai probabil din cauza faptului că specialiștii IT nu înțeleg natura datelor. Doar că, dacă am măsurat datele cu o precizie de un milimetru, atunci nu are rost să calculăm zona cu o precizie de microni pătrați. În cazul rețelelor neuronale complexe, ne confruntăm cu faptul că acestea produc informații precise până la ultimul semn din mantise, dar nu există mai mult sens în aceste semne decât în acuratețea care a fost la intrare. 

Ei bine, poate o dorință generală pentru oamenicare se preocupă de evaluarea acurateței modelelor este de a oferi nu numai caracteristici absolute, ci și limitele intervalelor acceptabile sau răspândirea în care au fost obținute aceste valori. De fapt, o recomandare bună nu numai pentru cei care interacționează cu fizicienii sau cu biologii. Aceasta este, în principiu, modalitatea corectă de a menține o prezentare a rezultatelor obținute.

Și dacă vorbim despre cât de mult pot fiașteptări diferite pe de o parte și pe de altă parte, atunci toate acestea sunt probleme de lucru, de fapt. Dacă există interes de ambele părți, acestea pot fi rezolvate simplu și bine. Adică, învățarea automată este acum la cerere în rândul fizicienilor într-un sens larg, deoarece oferă instrumente mai precise pentru a lucra cu datele lor. Și funcționează în direcția opusă, deoarece pentru specialiștii în învățarea automată poate fi mult mai interesant să vedem cum algoritmii lor ajută la descoperirea de noi particule, de exemplu, așa cum este cazul în laboratorul nostru. Am lucrat mult timp pentru a crea un algoritm care să determine tipul de particule. Și recent au apărut știri despre descoperirea de noi tetraquarci, iar algoritmii noștri au participat direct la descoperirea lor. 

Prin urmare, pentru oamenii din IT, condiționat de la Data Science,Informatica, simtind utilitatea algoritmilor pe care ii dezvolta este foarte important. Prin urmare, la facultatea noastră, de exemplu, există un Laborator Internațional de Bioinformatică. 

Astfel de interacțiuni devin din ce în ce mai maridin ce în ce mai normal. Nu știu dacă pot fi deja considerate mainstream sau dacă mai trebuie să așteptăm, dar într-un fel sau altul această poveste este inevitabilă. Chiar dacă te uiți la atelierele organizate în cadrul conferințelor de astăzi despre inteligența artificială, atelierul despre utilizarea IA în științele fizice ocupă un loc de frunte în numărul de persoane interesate. 

Citeste mai mult:

Satelitul american „a văzut” un mesaj neobișnuit de pe Pământ

Video publicat de la rachetă, care a fost lansată de la un accelerator experimental

Monstrul din centrul galaxiei noastre: uită-te la fotografia unei găuri negre din Calea Lactee

Geek Tech Online

Totul despre tehnologie și gadgeturi

Vânători de anomalii: cum caută CERN particule rare folosind algoritmi Yandex

Cum să căutați anomalii în datele lui Large Hadron Collider

Simbioza fizicii și IT: cum este utilizată învățarea automată în cercetarea LHC

Cum să cauți materia întunecată și de ce sunt necesare rețele neuronale pentru aceasta

Vorbesc limbi diferite, dar obiectivele sunt comune