Anomalijægere: hvordan CERN søger efter sjældne partikler ved hjælp af Yandex-algoritmer

Andrey Ustyuzhanin— Leder af forsknings- og uddannelseslaboratoriet for big data-analysemetoder på National Research University Higher School of Economics.

Leder af fælles projekter mellem Yandex og CERN. Deltager i udviklingen af ​​EventIndex- og EventFilter-tjenesterne, som Yandex har leveret til LHCb-eksperimentet siden 2011. 

Uddannet fra Moskva Institut for Fysik og Teknologi i 2000, kandidat for fysiske og matematiske videnskaber. En af dommerne i den internationale finale i Microsoft Imagine Cup, før det var han mentor for MIPT-holdet, der vandt pokalen i 2005.

Sådan leder du efter anomalier i dataene fra Large Hadron Collider

Hvad er dataanomalier?

— Hvis vi taler om data opnået vhaLarge Hadron Collider (LHC), disse kan være opdagelser, der ikke passer ind i standardideer om, hvordan partikelhenfald opstår der efter protonkollisioner. Disse opdagelser vil være anomalier. 

For eksempel hvis vi taler om tilbud på aktiverpå børsen, så kan der være anomalier på grund af, at en bestemt hedgefond besluttede at pumpe et aktiv eller Wall Street Bets besluttede at tjene ekstra penge og oprette deres egen distribuerede hedgefond. Det vil sige, at fysikken er helt anderledes, og manifestationen af ​​denne fysik i dataene ligner heller ikke andre tilfælde.

Derfor, hvis vi taler om anomalier, skal vi først forstå, hvilke data og hvilken fysik vi taler om. 

— Lad os så afklare med fokus på kolliderere.

- Her er det lidt nemmere, selvom det også opstårgaffel. Faktum er, at der er data om, hvilken slags processer der sker med partikler inde i detektoren. Og der er data om, hvordan denne kolliderer virker. Folk, der primært er interesserede i at opdage nye partikler eller love, er hovedsageligt interesserede i den første type data. Men faktum er, at alt, hvad der sker i fysik, gennemgår en ret lang kæde af indsamling og behandling af denne information. Og hvis nogen af ​​knuderne i denne kæde begynder at opføre sig ikke så godt, som vi forestillede os, det vil sige, det går ud over visse grænser for det tilladte, introducerer dette en forvrængning i målingerne. Vi kan se anomalier på det sted, hvor de generelt ikke var i fysikken.

Opdagelser, der ikke passer ind i standardideerne om, hvordan partikelhenfald opstår der, som opstår efter kollisionen af ​​protoner, vil være anomalier

For at undgå sådanne ubehagelige begivenheder, menneskerde skriver særlige datakvalitetskontrolsystemer, der overvåger alle data i måleinstrumenterne og forsøger at udelukke de perioder, hvor der er mistanke om, at noget går galt, fra overvejelse. 

Et af de eksempler, som folk kan lide at tale omfysikere fra LHC, var, at de i de tidlige stadier af kolliderens operation bemærkede anomalier, der ikke passede ind i fysiske begreber. Der var endnu ikke LHC, men dens tidligere version. Som et resultat fandt fysikere ud af, at sammenhængen er meget alvorlig med togplanen på jernbanen, som ligger i nærheden. Og laver man justeringer i forbindelse med disse udsving, får man et ikke-fysisk billede af verden. 

Det er nødvendigt at tage hensyn til eksterne faktorer og kunneforstå, hvilke af dem der skal kompenseres korrekt. Den enkleste løsning: Lad os smide de data ud, som ikke passer ind i det sædvanlige verdensbillede. Mere komplekse historier er at forsøge at returnere disse anomalier, ved hjælp af forståelige og fysiske principper, til normale data og forsøge at drage fordel af dem. 

At smide data ud er spild af budgetmidler. Hver kilobyte-megabyte har en bestemt pris.

Andrey Ustyuzhanin, leder af forsknings- og uddannelseslaboratoriet for metoder til analyse af big data ved National Research University Higher School of Economics

- Og i overensstemmelse hermed, hvordan kan anomalien detekteres i disse data ved hjælp af et maskinlæringssystem?

— Der er to grupper af sådanne algoritmer, somarbejde med uregelmæssigheder. Den første gruppe af en-klasse klassifikationsmetoder inkluderer algoritmer, der kun bruger information om de hændelser, der er markeret som gode. Det vil sige, at de forsøger at bygge et konvekst skrog, der omslutter alt, hvad vi synes er rigtigt. Logikken er denne: alt, hvad der går ud over denne skal, vil vi overveje anomalier. Det vil sige, at 99% af dataene for eksempel er dækket af sådan en skal, og alt andet ligner noget mistænkeligt.

En anden gruppe af algoritmer er afhængig af delvismarkere, hvad vi anser for forkert. Grundlæggende er der et sæt begivenheder, som vides at have uønskede resultater. Og så kommer søgningen efter anomalier ned til et klassifikationsproblem i to klasser. Dette er en almindelig klassificering, der kan bygges på principperne for neurale netværk eller beslutningstræer. 

Nuancen er, at normalt i opgaveruregelmæssigheder, er prøven ikke afbalanceret. Det vil sige, at antallet af positive eksempler væsentligt overstiger antallet af negative. Under sådanne forhold fungerer standardklassifikationsalgoritmer muligvis ikke så godt, som vi ønsker. Standardtabsfunktionen behandler tilfælde, der kvalificerer sig korrekt ens, og kan overse det faktum, at der blandt 10.000 korrekte resultater er hundrede, der kvalificerer sig forkert. Dette hundrede repræsenterer bare de negative eksempler, der er mest interessante. Det er klart, at dette kan bekæmpes, for eksempel ved at tillægge negative eksempler mere vægt og tage højde for fejl med deres klassificering med meget større vægt.

Tabsfunktion- en funktion, der i teorien om statistiske beslutninger karakteriserer tab som følge af forkert beslutningstagning baseret på observerede data.

Bidrag fra vores laboratorium til at løse problemetAnomalidetektion er at foreslå metoder, der kombinerer funktionerne i den første og anden tilgang. Altså opgaven med at arbejde med en-klasse og to-klasse klassifikation. En sådan kombination bliver mulig, hvis vi bygger generative modeller af unormale eksempler. 

Brug af tilgange som generativmodstridende netværk eller normalisering af flows, kan vi lære at genvinde de eksempler, der er mærket som negative, og generere en ekstra prøve, der gør det muligt for den almindelige klassifikator at arbejde med den udvidede syntetiske prøve mere effektivt. Denne tilgang fungerer godt for både tabeldata og billeder. Der var en artikel om dette sidste år, som beskriver, hvordan et sådant system er bygget op, og giver praktiske eksempler på dets anvendelse.

— Du nævnte at arbejde med billeder. Hvordan fungerer det i dette tilfælde?

— Der er eksempler, hvor vi har vist værketdenne algoritme. De valgte simpelthen en af ​​billedklasserne: for eksempel håndskrevne tal. Og de sagde, at nul er en slags anomali. Og de bad det neurale netværk, som beslutter, at nuller ikke er som alt andet, om at blive tildelt den negative klasse. Det kan naturligvis ikke kun være nuller, men også for eksempel tal, inden for hvilke der er lukkede cyklusser - 068 - eller tal med vandrette skæringspunkter. Eller blot billeder roteret i en vinkel i forhold til resten af ​​prøven. 

"Vi kan simulere fysik under visse omstændighedereksterne parametre med god nøjagtighed og siger, hvilke observerbare karakteristika der vil beskrive de korrekte signalhændelser, for eksempel henfaldet af Higgs bosonen "

Der er et datasæt kaldet en omniglot -bogstaver skrevet med forskellige skrifttyper. Der er et stort antal skrifttyper: fra Futurama, gotisk, håndskrevne fra upopulære alfabeter - sanskrit eller hebraisk. Vi kan sige, at bogstaverne på sanskrit er en anomali, det er bogstaverne skrevet med en bestemt håndskrift også.

Vi beder systemet om at lære at skelne altresten fra disse unormale symboler. Det vigtigste er, at de er meget mindre end alt andet. Dette er vanskeligheden ved at arbejde med dem til konventionelle maskinlæringsalgoritmer.

Symbiose af fysik og IT: hvordan maskinlæring bruges i LHC-forskning

— Hvilke opgaver i LHC løses ved hjælp af maskinlæring?

— En stor opgave, vi arbejder med, erer at accelerere beregningsprocesser, der simulerer fysiske kollisioner og partikelhenfald. Faktum er, at beslutningen om, hvorvidt givne hændelser ligner visse fysiske henfald eller ej, tages efter at have analyseret et ret stort antal simulerede henfald. Vi kan simulere fysik ved visse eksterne parametre med god nøjagtighed og sige, hvilke observerbare karakteristika der vil beskrive de korrekte signalhændelser, for eksempel henfaldet af Higgs-bosonen. 

Men der er visse forbehold:Vi kender ikke altid de parametre, under hvilke disse henfald skal genereres. Som regel er der en vis idé om dette. Og udfordringen ved at finde den rigtige fysik er at skelne signalbegivenheder fra baggrundsbegivenheder, som kan være forbundet enten med den forkerte drift af recovery-algoritmer eller med fysikken i andre processer, der minder meget om det, vi forsøger at finde. Maskinlæringsalgoritmer gør et godt stykke arbejde med dette, men det er en velkendt historie. 

Men for at træne sådanne algoritmer er det påkræveten ret stor statistisk stikprøve af simulerede hændelser, og beregningen af ​​disse syntetiske data kræver visse ressourcer. Fordi simuleringen af ​​en hændelse tager omkring et minut eller endda ti minutters computertid af moderne computercentre. På grund af det faktum, at antallet af virkelige hændelser, som fysikere vil arbejde med, vil stige med størrelsesordener i de kommende år, bør antallet af syntetiserede hændelser også stige. Nu er computerressourcer knap nok til at dække forskernes behov. Fordi for at simulere en hændelse, skal vi beregne interaktionen mellem mikropartikler og detektorens struktur og simulere den respons, som vi vil se på sensorerne på denne detektor med meget høj nøjagtighed.

Ideen med acceleration er at træne det neurale netværkpå hændelser, der blev simuleret ved hjælp af en certificeret pakke - GMT 4, som simulerer alt, hvad der sker inde i kolliderdetektorerne. Denne neuron vil lære at sammenligne input, parametre for de partikler, som vi ønsker at simulere, og output - de observerbare egenskaber, som detektoren producerer. Neurale netværk i dag klarer allerede opgaven med datainterpolation ganske godt. Og flere projekter i vores laboratorium er rettet netop mod dette. Det vil sige at genoprette egenskaberne ved henfald fra den tilgængelige syntetiske prøve, det vil sige at fremstille sådanne andenordens syntetiske materialer. Men der er en nuance: Fordelen ved neurale netværk er, at vi kan finjustere dem ved hjælp af rigtige data. Det vil sige, gør denne indstilling mere nøjagtig for et bestemt fysisk henfald. 

Folk, der er engageret i fuldgyldig fysisksimulering, bruger de deres tid og kræfter på dette, men med neuroner viser det sig lidt mindre arbejdskrævende. Og fra resultaterne, som vi lavede for LHTV-eksperimentet på CERN og Dubna MPD-eksperimentprojektet ved Nica-acceleratoren, blev det klart, at neurale netværk kan opnå meget høj nøjagtighed i at dække faserummet af simulerede hændelser. De fremskynder betydeligt beregningsprocessen: ordrer og endda hundredvis hurtigere end en ærlig simulering.

— Hvordan lærer det neurale netværk selv? 

— Der er ingen forskelle i læreprocessen.Men der er en ejendommelighed: For et neuralt netværk er det ud over træningsprøven nødvendigt at formulere kvalitetskriterier, det vil sige at sætte en tabsfunktion, der bedst svarer til den opgave, som dette netværk skal klare godt. Derudover vurderes kvaliteten af ​​arbejdet i et sådant neuralt netværk ikke af forskere: det kan vurderes tilstrækkeligt i forhold til de beregningsmæssige trin, der opstår på et senere trin af databehandlingen. 

For at afgøre, om en simulering er god eller ej, kan viførst efter at vi passerer begivenhederne gennem kæden af ​​deres analyse, rekonstruktion, og vi forstår, at de samme karakteristika, som vi oprindeligt lagde i dem, er genoprettet fra dem. Det betyder, at det for eksempel ikke er nok at bruge en simpel MSE Mean Squared Error-metrik.

MSE Mean Squared Fejl- måler den gennemsnitlige kvadratiske forskel mellem de estimerede værdier og den faktiske værdi.

Det neurale netværks adfærd skal vurderes yderligere, ifunktioner på parameterområder, der måske ikke har været til stede i træningssættet. At bygge sådanne modeller, der opfører sig langt ud over de parameterværdier, der er kendt på træningsstadiet, er en stor og teoretisk opgave. 

Neurale netværk er gode de steder, hvor devidste noget på træningsstadiet. Uden for dem kan de give ud, hvad de vil. I vores tilfælde er dette særligt følsomt, fordi rigtigheden af ​​den fysiske fortolkning af virkeligheden omkring os afhænger af det. 

"Hvis en partikel af mørkt stof henfalder til partikler, som vi ved, hvordan vi skal interagere med, kan det antages, at denne partikel af mørkt stof virkelig var det"

- Det vil sige, at det neurale netværk leder efter sjældne hændelser, der kan opstå ved kollideren?

— Baseret på driften af ​​generative modeller, dvs.For det første taler vi om syntesen af ​​alt, hvad der kan ske. Det gør vi med miniaturemodeller. Og ved udgangen af ​​sådanne netværk kan vi bygge en model, der leder efter det, vi har brug for: det, vi formåede at generere på et generativt neuralt netværk.

Hvordan man søger efter mørkt stof og hvorfor neurale netværk er nødvendige for dette

— Kan et lignende søgeprincip anvendes på mørkt stof?

- Faktum er, at mørkt stof kan søges efterforskellige veje. En måde er at bygge en ordentlig detektor, der kan isolere ret godt fra virkningerne af almindeligt stof. Det vil sige at blokere det signal, der kommer fra partikler kendt af fysikere. Dette er blot en metode til eliminering: Hvis detektoren ser noget andet end støj, så ser den noget, vi aldrig har set før. En mulighed ville være, at disse er mørkt stof partikler.

Hvis for eksempel en mørk stofpartikelhenfalder til partikler, som vi ved, hvordan vi skal interagere med, og det er klart, at spor af henfald ikke kunne dukke op fra andre steder end fra det, så kan vi antage, at denne partikel af mørkt stof virkelig var.

Sådanne eksperimenter diskuteres og planlægges.En af dem hedder SHiP (Search for Hidden Particles). Og for et sådant eksperiment er de tilgange, som jeg talte om, også anvendelige. Det kræver simulering og algoritmer til at genkende sjældne tilgange. Men da lysstyrken af ​​dette eksperiment er meget lavere (lysstyrke er antallet af partikler, der er planlagt til at blive detekteret pr. tidsenhed), er behovet for at simulere et stort antal lignende hændelser ikke så akut som i tilfældet med Hadron Collider detektorer. Selvom for eksempel opgaven forbundet med at vurdere kvaliteten af ​​beskyttelsessystemet mod partikler kendt af fysikken kræver simulering af et ret stort antal hændelser. Dette er nødvendigt for at sikre, at beskyttelsen fungerer godt med det enorme antal indkommende partikler af forskellige typer.

Skiber et eksperiment, der har til formål at finde skjultepartikler, herunder mørkt stof-partikler, i en strøm af partikler fra SPS-acceleratoren filtreret af magnetiske felter, et fem meter lag beton og metal. 

Der er andre måder at søge efter mørkt stof på,relateret til observationer af rumfænomener. En tilgang er især at bygge følsomme elementer, der genkender retningen af ​​meget svagt interagerende partikler afhængigt af denne partikels indfaldsvinkel. Forsøgets logik er, at det er muligt at placere følsomme elementer, så de er orienteret langs solsystemets bevægelsesvektor, det vil sige mod stjernebilledet Cygnus. Så vil vi kunne skelne partikler, der bevæger sig i Jordens koordinatsystem, fra partikler, der bevæger sig forskelligt. Ligesom den ubevægelige æter, der er fordelt i det ydre rum efter sine egne love, på ingen måde relateret til planeternes orientering og bevægelsesretning. Det er bare, at i stedet for æter, antages det, at der er mørkt stof partikler. De kan svagt interagere med sensorerne i vores eksperiment. Og ved at analysere deres aflæsninger er det muligt at udlede mønstre af vinkelfordelinger af interagerende partikler. Hvis vi ser, at der er en alvorlig komponent, der ikke afhænger af Jordens position i rummet, vil dette indikere eksistensen af ​​hidtil ukendte partikler. Og måske vil disse være kandidater til mørkt stof partikler. 

I et sådant eksperiment er simulering ret vigtig,fordi for at bygge en algoritme til genkendelse af signalhændelser skal du forestille dig, hvordan signalet af interesse for os ser ud. Derfor er opgaverne i forbindelse med hurtig simulering og søgning efter anomalier relevante og anvendelige dér.

De taler forskellige sprog, men målene er fælles

Lad os tale om at arbejde på CERN. Hvordan er det for en it-person at arbejde med fysikere? Hvilke funktioner er forbundet med at arbejde i et så tværvidenskabeligt rum som LHC?

- Godt spørgsmål.Faktisk taler folk forskellige sprog: det kommer til det punkt, at de samme begreber er grafisk repræsenteret på forskellige måder. For eksempel er ROC-kurver, som maskinlæringsspecialister er vant til, normalt tegnet i fysik roteret 90 grader. Og koordinaterne kaldes ikke True Positive Rate og False Negative Rate, men Signaleffektivitet og Baggrundsafvisning. Desuden, hvis signaleffektivitet stadig er præcision, så er baggrundsafvisning én minus sand negativ sats. 

ROC-kurve (fra den engelske modtagerdriftskarakteristik, modtagerdriftskarakteristik)— en graf, der giver dig mulighed for at evaluere kvaliteten af ​​det binæreklassifikationer. Viser forholdet mellem andelene af objekter fra det samlede antal attributbærere, korrekt klassificeret som bærende attributten, og andele af objekter fra det samlede antal objekter, der ikke bærer attributten, forkert klassificeret som bærende attributten.

Det er klart, at sådanne ting kan være påoverflader og er relativt nemme at vænne sig til, men de største udfordringer ligger i at forstå nogle af de grundlæggende antagelser, som forskere gør sig, når de skriver deres artikler. Og som regel er de ud over, hvad de skriver om. Det vil sige, at dette er noget hemmeligt viden, der overføres under en persons uddannelse i ph.d.-skolen, i processen med at arbejde på hans forskningsprojekter, det dannes i hans sind. 

For folk fra et andet videnskabsområde er det ligesomanderledes kulturmiljø. For dem er disse antagelser måske ikke så indlysende. På grund af det faktum, at leksikonet viser sig at være ret omfattende og anderledes, kan opbygningen af ​​en dialog blive forsinket eller endda være uproduktiv. Derfor kan man her som anbefalinger nok råde til enten at bede folk om at gå ud over, hvad de er vant til og formulere problemet i de mest abstrakte termer fra fysikken. Det gør vi blandt andet, når vi arrangerer konkurrencer som en del af vores IDAL Olympiade. I dialogprocessen finder vi en ramme, der ikke ville kræve dyb fordybelse i fysik, men som samtidig ville være interessant for maskinlæringsspecialister.

I år havde vi et fælles projekt medet italiensk laboratorium, der leder efter mørkt stof. De leverede syntetiske data til OL for at finde dette mørke stof. Der er virkelig ikke noget mørkt stof dér, fordi den kendte fysiks henfald blev simuleret: kollisioner af elektroner og heliumioner.  Men kollisioner af mørkt stof partikler kan ligne nogle af disse kollisioner meget. De er meget svære at simulere og endnu sværere at fortolke. Derfor, især for folk, der ikke er specialister på dette område, besluttede vi ikke at trække disse data ud og begrænse os til kun dem, der ligner hinanden. Algoritmerne vi vil se virker på omtrentlige data, men kan også anvendes på rigtige data.

Andrey Ustyuzhanin. Foto fra talerens arkiv

For at opsummere er den ene måde at blive enige om klare vilkår for alle, og den anden er at bruge tid og kræfter, gå på sommerskoler, deltage i praktiske forskningsprojekter.

Bøger om maskinlæring og fysiske eksperimenter anbefalet af Andrey Ustyuzhanin:

  • Deepak Kar,Eksperimentel partikelfysik: Forståelse af målingerne og søgningerne ved Large Hadron Collider.
  • Ilya Narsky,Statistiske analyseteknikker i partikelfysik: tilpasninger, tæthedsestimering og overvåget læring. 
  • Giuseppe Carleo,Machine learning og de fysiske videnskaber. 

- Er der nogen modsætninger mellem fysikeres og it-specialisters værdier: er arten af ​​interaktioner for eksempel vigtigere for nogen, eller tværtimod nøjagtighed?

- Hvis vi taler specifikt om nøjagtighed, sandsynligvisder er ingen tvetydighed. Men dette er mere sandsynligt på grund af det faktum, at it-specialister ikke forstår karakteren af ​​dataene. Det er bare sådan, at hvis vi målte dataene med en nøjagtighed på en millimeter, så nytter det ikke noget at beregne arealet med en nøjagtighed på kvadratmikrometer. I tilfælde af komplekse neurale netværk står vi over for, at de producerer information nøjagtig til det sidste tegn i mantissen, men der er ikke mere mening i disse tegn end i den nøjagtighed, der var ved inputtet. 

Nå, måske et generelt ønske for folkder beskæftiger sig med at evaluere nøjagtigheden af ​​modeller er at give ikke kun absolutte egenskaber, men også grænserne for acceptable områder eller spredningen, hvori disse værdier blev opnået. Faktisk en god anbefaling ikke kun for dem, der interagerer med fysikere eller med biologer. Dette er i princippet den korrekte måde at opretholde en præsentation af de opnåede resultater på.

Og hvis vi taler om, hvor meget de kan væreforskellige forventninger på den ene side og på den anden side, så er det faktisk alle arbejdsproblemer. Hvis der er interesse fra begge sider, kan de løses enkelt og godt. Det vil sige, at maskinlæring nu er efterspurgt blandt fysikere i bred forstand, fordi det giver mere præcise værktøjer til at arbejde med deres data. Og det virker i den modsatte retning, for for maskinlæringsspecialister kan det være meget mere interessant at se, hvordan deres algoritmer hjælper med at opdage nye partikler, for eksempel, som det er tilfældet i vores laboratorium. Vi arbejdede i lang tid på at skabe en algoritme, der skulle bestemme typen af ​​partikel. Og for nylig var der nyheder om opdagelsen af ​​nye tetraquarks, og vores algoritmer tog direkte del i deres opdagelse. 

Derfor, for folk fra IT, betinget fra Data Science,Datalogi, det er meget vigtigt at mærke brugbarheden af ​​de algoritmer, de udvikler. Derfor er der på vores fakultet for eksempel et International Laboratory of Bioinformatics. 

Sådanne interaktioner bliver i stigende gradmere og mere normalt. Jeg ved ikke, om de allerede kan betragtes som mainstream, eller om vi stadig skal vente, men på en eller anden måde er denne historie uundgåelig. Selvom man ser på de workshops, der arrangeres som led i dagens førende konferencer om kunstig intelligens, så indtager workshoppen om brugen af ​​AI i de fysiske videnskaber en førende plads i antallet af interesserede. 

Læs mere:

Amerikansk satellit "så" en usædvanlig besked fra Jorden

Udgivet video fra raketten, som blev affyret fra en eksperimentel accelerator

Monsteret i midten af ​​vores galakse: se på billedet af et sort hul i Mælkevejen