Anomalijegere: hvordan CERN søker etter sjeldne partikler ved hjelp av Yandex-algoritmer

Andrey Ustyuzhanin— Leder for forsknings- og utdanningslaboratoriet for metoder for analyse av store data ved National Research University Higher School of Economics.

Leder for fellesprosjekter mellom Yandex og CERN. Deltar i utviklingen av EventIndex- og EventFilter-tjenestene, som Yandex har levert for LHCb-eksperimentet siden 2011. 

Uteksaminert fra Moscow Institute of Physics and Technology i 2000, kandidat for fysiske og matematiske vitenskaper. En av dommerne i Microsoft Imagine Cup internasjonale finaler, før det var han mentor for MIPT-laget som vant cupen i 2005.

Hvordan se etter anomalier i dataene til Large Hadron Collider

Hva er dataavvik?

— Hvis vi snakker om data innhentet ved hjelp avLarge Hadron Collider (LHC), dette kan være funn som ikke passer inn i standard ideer om hvordan partikkelforfall oppstår der etter protonkollisjoner. Disse oppdagelsene vil være anomalier. 

For eksempel, hvis vi snakker om aktiva sitaterpå børsen, så kan det være uregelmessigheter som skyldes at et bestemt hedgefond bestemte seg for å pumpe en eiendel eller Wall Street Bets bestemte seg for å tjene ekstra penger og opprette sitt eget distribuerte hedgefond. Det vil si at fysikken er helt annerledes, og manifestasjonen av denne fysikken i dataene er heller ikke lik andre tilfeller.

Derfor, hvis vi snakker om anomalier, må vi først forstå hvilke data og hvilken fysikk vi snakker om. 

— La oss da avklare med fokus på kollidere.

– Her er det litt lettere, selv om det også dukker oppgaffel. Faktum er at det finnes data om hva slags prosesser som skjer med partikler inne i detektoren. Og det er data om hvordan denne kollideren fungerer. Folk som først og fremst er interessert i å oppdage nye partikler eller lover er hovedsakelig interessert i den første typen data. Men faktum er at alt som skjer i fysikk går gjennom en ganske lang kjede med innsamling og behandling av denne informasjonen. Og hvis noen av nodene i denne kjeden begynner å oppføre seg ikke så bra som vi forestilte oss, det vil si at den går utover visse grenser for det tillatte, introduserer dette en forvrengning i målingene. Vi kan se anomalier på stedet der de generelt ikke var i fysikk.

Funn som ikke passer inn i standardideene om hvordan partikkelforfall oppstår der, som oppstår etter kollisjonen av protoner, vil være anomalier

For å unngå slike ubehagelige hendelser, folkde skriver spesielle datakvalitetskontrollsystemer som overvåker alle dataene i måleinstrumentene og prøver å utelukke fra vurdering de tidsperioder hvor det er mistanke om at noe går galt. 

Et av eksemplene folk liker å snakke omfysikere fra LHC, var at de i de tidlige stadiene av kolliderens operasjon la merke til anomalier som ikke passet inn i fysiske konsepter. Det var ennå ikke LHC, men dens forrige versjon. Som et resultat fant fysikere at sammenhengen er svært alvorlig med togplanen på jernbanen, som ligger i nærheten. Og hvis du gjør justeringer knyttet til disse svingningene, får du et ikke-fysisk bilde av verden. 

Det er nødvendig å ta hensyn til eksterne faktorer og kunneforstå hvilke av dem som må kompenseres riktig. Den enkleste løsningen: la oss kaste ut dataene som ikke passer inn i det vanlige verdensbildet. Mer komplekse historier er å prøve å returnere disse anomaliene, ved å bruke forståelige og fysiske prinsipper, til normale data og prøve å dra nytte av dem. 

Å kaste ut data er sløsing med budsjettmidler. Hver kilobyte-megabyte har en bestemt pris.

Andrey Ustyuzhanin, leder for forsknings- og utdanningslaboratoriet for metoder for analyse av store data ved National Research University Higher School of Economics

- Og, følgelig, hvordan kan man oppdage uregelmessigheten i disse dataene ved hjelp av et maskinlæringssystem?

— Det er to grupper av slike algoritmer, somjobbe med uregelmessigheter. Den første gruppen av klassifiseringsmetoder i én klasse inkluderer algoritmer som bare bruker informasjon om de hendelsene som er merket som gode. Det vil si at de prøver å bygge et konvekst skrog som omslutter det vi mener er riktig. Logikken er denne: alt som går utover dette skallet, vil vi vurdere anomalier. Det vil si at for eksempel 99 % av dataene er dekket av et slikt skall, og alt annet ser ut som noe mistenkelig.

En annen gruppe algoritmer er avhengig av delvismarkere det vi anser som feil. I hovedsak er det et sett med hendelser som er kjent for å ha uønskede resultater. Og så kommer søket etter anomalier ned til et klassifiseringsproblem i to klasser. Dette er en vanlig klassifikator som kan bygges på prinsippene for nevrale nettverk eller beslutningstrær. 

Nyansen er at vanligvis i oppgaveruregelmessigheter, prøven er ikke balansert. Det vil si at antallet positive eksempler betydelig overstiger antallet negative. Under slike forhold kan det hende at standard klassifiseringsalgoritmer ikke fungerer så godt som vi ønsker. Standard tapsfunksjonen behandler tilfeller som kvalifiserer riktig likt, og kan overse det faktum at blant 10 000 korrekte resultater er det hundre som kvalifiserer feil. Dette hundre representerer bare de negative eksemplene som er mest interessante. Det er klart at dette kan bekjempes for eksempel ved å tillegge negative eksempler større vekt, og ta hensyn til feil ved klassifiseringen deres med mye større vekt.

Tapsfunksjon- en funksjon som i teorien om statistiske beslutninger karakteriserer tap på grunn av feil beslutningstaking basert på observerte data.

Bidrag fra vårt laboratorium til å løse problemetAnomalideteksjon er å foreslå metoder som kombinerer funksjonene til den første og andre tilnærmingen. Det vil si oppgaven med å jobbe med en-klasse og to-klasse klassifisering. En slik kombinasjon blir mulig hvis vi bygger generative modeller av unormale eksempler. 

Bruke tilnærminger som generativmotstridende nettverk eller normalisering av strømmer, kan vi lære å gjenopprette de eksemplene som er merket som negative og generere en ekstra prøve som vil tillate den vanlige klassifikatoren å jobbe med den utvidede syntetiske prøven mer effektivt. Denne tilnærmingen fungerer godt for både tabelldata og bilder. Det var en artikkel om dette i fjor, som beskriver hvordan et slikt system er bygget opp, og gir praktiske eksempler på bruken.

— Du nevnte å jobbe med bilder. Hvordan fungerer det i dette tilfellet?

— Det er eksempler på at vi har vist arbeidetdenne algoritmen. De valgte ganske enkelt en av bildeklassene: for eksempel håndskrevne tall. Og de sa at null er en slags anomali. Og de ba det nevrale nettverket, som bestemmer at nuller ikke er som alt annet, om å bli tildelt den negative klassen. Naturligvis kan disse ikke bare være nuller, men også for eksempel tall der det er lukkede sykluser - 068 - eller tall med horisontale skjæringer. Eller ganske enkelt bilder rotert i en vinkel i forhold til resten av prøven. 

"Vi kan simulere fysikk under visseeksterne parametere med god nøyaktighet og sier hvilke observerbare egenskaper som vil beskrive de riktige signalhendelsene, for eksempel forfallet av Higgs-bosonet "

Det er et datasett kalt en omniglot -bokstaver skrevet med forskjellige fonter. Det er et stort antall skrifter: fra Futurama, gotisk, håndskrevet fra upopulære alfabeter - sanskrit eller hebraisk. Vi kan si at bokstavene på sanskrit er en anomali, bokstavene skrevet med en viss håndskrift er det også.

Vi ber systemet lære seg å skille altresten fra disse unormale symbolene. Hovedsaken er at de er mye mindre enn alt annet. Dette er vanskeligheten med å jobbe med dem for konvensjonelle maskinlæringsalgoritmer.

Symbiose av fysikk og IT: hvordan maskinlæring brukes i LHC-forskning

— Hvilke oppgaver til LHC løses ved hjelp av maskinlæring?

— En stor oppgave vi jobber med erer å akselerere beregningsprosesser som simulerer fysiske kollisjoner og partikkelforfall. Faktum er at beslutningen om hvorvidt gitte hendelser ligner visse fysiske forfall eller ikke, tas etter å ha analysert et ganske stort antall simulerte forfall. Vi kan simulere fysikk ved visse eksterne parametere med god nøyaktighet og si hvilke observerbare egenskaper som vil beskrive de riktige signalhendelsene, for eksempel forfallet av Higgs-bosonet. 

Men det er visse forbehold:Vi vet ikke alltid parametrene som disse henfallene må genereres under. Som regel er det en viss idé om dette. Og utfordringen med å finne den riktige fysikken er å skille signalhendelser fra bakgrunnshendelser, som kan være assosiert enten med feil drift av gjenopprettingsalgoritmer, eller med fysikken til andre prosesser som ligner veldig på det vi prøver å finne. Maskinlæringsalgoritmer gjør en god jobb med dette, men det er en velkjent historie. 

Men for å trene slike algoritmer kreves detet ganske stort statistisk utvalg av simulerte hendelser, og beregningen av disse syntetiske dataene krever visse ressurser. Fordi simuleringen av en hendelse tar omtrent et minutt eller ti minutter av datatiden til moderne datasentre. På grunn av det faktum at antallet reelle hendelser som fysikere skal jobbe med vil øke med størrelsesordener de neste årene, bør antallet syntetiserte hendelser også øke. Nå er dataressurser knapt nok til å dekke forskernes behov. Fordi for å simulere en hendelse, må vi beregne interaksjonen av mikropartikler med strukturen til detektoren og simulere responsen som vi vil se på sensorene til denne detektoren med svært høy nøyaktighet.

Ideen med akselerasjon er å trene det nevrale nettverketpå hendelser som ble simulert ved hjelp av en sertifisert pakke - GMT 4, som simulerer alt som skjer inne i kolliderdetektorene. Dette nevronet vil lære å sammenligne inngangene, parametrene til partiklene som vi ønsker å simulere, og utgangene - de observerbare egenskapene som detektoren produserer. Nevrale nettverk i dag takler allerede oppgaven med datainterpolering ganske godt. Og flere prosjekter i vårt laboratorium er rettet mot nettopp dette. Det vil si å gjenopprette egenskapene til forfall fra den tilgjengelige syntetiske prøven, det vil si å lage slike andre-ordens syntetiske stoffer. Men det er en nyanse: Fordelen med nevrale nettverk er at vi kan finjustere dem ved hjelp av ekte data. Det vil si, gjør denne innstillingen mer nøyaktig for et bestemt fysisk forfall. 

Folk som er engasjert i fullverdig fysisksimulering bruker de tid og krefter på dette, men med nevroner blir det litt mindre arbeidskrevende. Og fra resultatene vi gjorde for LHTV-eksperimentet ved CERN og Dubna MPD-eksperimentprosjektet ved Nica-akseleratoren, ble det klart at nevrale nettverk kan oppnå svært høy nøyaktighet i å dekke faserommet til simulerte hendelser. De fremskynder beregningsprosessen betydelig: bestillinger og til og med hundrevis raskere enn en ærlig simulering.

— Hvordan lærer selve nevrale nettverket? 

— Det er ingen forskjeller i læringsprosessen.Men det er en særegenhet: for et nevralt nettverk, i tillegg til treningsprøven, er det nødvendig å formulere kvalitetskriterier, det vil si å sette en tapsfunksjon som best samsvarer med oppgaven som dette nettverket skal takle godt. I tillegg vurderes ikke kvaliteten på arbeidet til et slikt nevralt nettverk av forskere: det kan vurderes tilstrekkelig med tanke på beregningstrinnene som skjer på et senere stadium av databehandlingen. 

For å finne ut om en simulering er god eller ikke, kan viførst etter at vi passerer hendelsene gjennom kjeden av deres analyse, rekonstruksjon, og vi forstår at de samme egenskapene som vi opprinnelig la i dem, gjenopprettes fra dem. Dette betyr at det for eksempel ikke er nok å bruke en enkel MSE Mean Squared Error-metrik.

MSE Mean Squared Error- måler rotmiddelforskjellen mellom de estimerte verdiene og den faktiske verdien.

Oppførselen til det nevrale nettverket må vurderes videre, ifunksjoner på parameterområder som kanskje ikke har vært til stede i treningssettet. Å bygge slike modeller som oppfører seg langt utover parameterverdiene som er kjent på opplæringsstadiet er en stor og teoretisk oppgave. 

Nevrale nettverk er gode på de stedene devisste noe på treningsstadiet. Utenfor dem kan de gi ut hva de vil. I vårt tilfelle er dette spesielt følsomt, fordi riktigheten av den fysiske tolkningen av virkeligheten rundt oss avhenger av den. 

"Hvis en mørk materiepartikkel forfaller til partikler som vi vet hvordan vi skal samhandle med, kan det antas at denne mørke materiepartikkelen virkelig var"

– Det vil si at det nevrale nettverket leter etter sjeldne hendelser som kan oppstå ved kollideren?

— Basert på driften av generative modeller, dvs.Først snakker vi om syntesen av alt som kan skje. Dette gjør vi med miniatyrmodeller. Og ved utgangen av slike nettverk kan vi bygge en modell som vil se etter det vi trenger: det vi klarte å generere på et generativt nevralt nettverk.

Hvordan søke etter mørk materie og hvorfor nevrale nettverk er nødvendig for dette

— Kan et lignende søkeprinsipp brukes på mørk materie?

– Faktum er at mørk materie kan letes etterforskjellige måter. En måte er å bygge en skikkelig detektor som kan isolere ganske godt fra virkningene av vanlig materie. Det vil si å blokkere signalet som kommer fra partikler kjent for fysikere. Dette er bare en metode for eliminering: hvis detektoren ser noe annet enn støy, så ser den noe vi aldri har sett før. En mulighet vil være at dette er mørk materie partikler.

Hvis for eksempel en mørk materiepartikkelhenfaller til partikler som vi vet hvordan vi skal samhandle med, og det er klart at spor av forfall ikke kunne dukke opp fra noe annet sted bortsett fra det, så kan vi anta at denne partikkelen av mørk materie virkelig var.

Slike eksperimenter diskuteres og planlegges.En av dem heter SHiP (Search for Hidden Particles). Og for et slikt eksperiment er tilnærmingene jeg snakket om også anvendelige. Det krever simulering og algoritmer for å gjenkjenne sjeldne tilnærminger. Men siden lysstyrken til dette eksperimentet er mye lavere (lysstyrken er antallet partikler som er planlagt å bli oppdaget per tidsenhet), er behovet for å simulere et stort antall lignende hendelser ikke så akutt som i tilfellet med Hadron Collider detektorer. Selv om for eksempel oppgaven knyttet til å vurdere kvaliteten på beskyttelsessystemet mot partikler kjent for fysikken krever simulering av et ganske stort antall hendelser. Dette er nødvendig for å sikre at beskyttelsen fungerer godt med det enorme antallet innkommende partikler av ulike typer.

Skiper et eksperiment rettet mot å finne skjultepartikler, inkludert mørk materiepartikler, i en strøm av partikler fra SPS-akseleratoren filtrert av magnetiske felt, et fem meter langt lag med betong og metall. 

Det finnes andre måter å søke etter mørk materie på,knyttet til observasjoner av romfenomener. Spesielt er en tilnærming å bygge sensitive elementer som gjenkjenner retningen til svært svakt samvirkende partikler avhengig av innfallsvinkelen til denne partikkelen. Logikken i eksperimentet er at det er mulig å plassere de følsomme elementene slik at de er orientert langs solsystemets bevegelsesvektor, det vil si mot stjernebildet Cygnus. Da vil vi kunne skille partikler som beveger seg i jordens koordinatsystem fra partikler som beveger seg annerledes. Som den ubevegelige eteren, som er fordelt i det ytre rom i henhold til sine egne lover, på ingen måte forbundet med orienteringen og bevegelsesretningen til planetene. Det er bare det at i stedet for eter, antas det at det finnes mørk materiepartikler. De kan samhandle svakt med sensorene i eksperimentet vårt. Og ved å analysere avlesningene deres, er det mulig å utlede mønstre av vinkelfordelinger av samvirkende partikler. Hvis vi ser at det er en alvorlig komponent som ikke er avhengig av jordens posisjon i verdensrommet, vil dette indikere eksistensen av tidligere ukjente partikler. Og kanskje vil disse være kandidater for mørk materiepartikler. 

I et slikt eksperiment er simulering ganske viktig,fordi for å bygge en algoritme for å gjenkjenne signalhendelser, må du forestille deg hvordan signalet av interesse for oss ser ut. Derfor er oppgavene knyttet til rask simulering og søk etter anomalier relevante og anvendelige der.

De snakker forskjellige språk, men målene er felles

La oss snakke om å jobbe på CERN. Hvordan er det for en IT-person å jobbe med fysikere? Hvilke funksjoner er forbundet med å jobbe i et så tverrvitenskapelig rom som LHC?

- Godt spørsmål.Faktisk snakker folk forskjellige språk: det kommer til det punktet at de samme konseptene er grafisk representert på forskjellige måter. For eksempel er ROC-kurver, som maskinlæringsspesialister er vant til, vanligvis tegnet i fysikk rotert 90 grader. Og koordinatene kalles ikke True Positive Rate og False Negative Rate, men Signaleffektivitet og Bakgrunnsavvisning. Dessuten, hvis signaleffektivitet fortsatt er presisjon, er bakgrunnsavvisning én minus sann negativ rate. 

ROC-kurve (fra den engelske mottakerdriftskarakteristikk, mottakerdriftskarakteristikk)— en graf som lar deg evaluere kvaliteten på binærenklassifiseringer. Viser forholdet mellom andelene av objekter fra det totale antallet attributtbærere, korrekt klassifisert som bærere av attributtet, og andelene til objekter fra det totale antallet objekter som ikke bærer attributtet, feilaktig klassifisert som bærere av attributtet.

Det er klart at slike ting kan være påoverflater og er relativt lette å venne seg til, men hovedutfordringene ligger i å forstå noen av de grunnleggende antakelsene som forskere gjør når de skriver sine oppgaver. Og som regel er de utenfor det de skriver om. Det vil si at dette er noe hemmelig kunnskap som overføres under en persons opplæring på forskerskolen, i prosessen med å jobbe med forskningsprosjektene hans, den dannes i tankene hans. 

For folk fra et annet vitenskapsfelt er det somannerledes kulturmiljø. For dem er disse forutsetningene kanskje ikke så åpenbare. På grunn av det faktum at leksikonet viser seg å være ganske omfattende og annerledes, kan konstruksjonen av en dialog bli forsinket eller til og med være uproduktiv. Derfor kan man her, som anbefalinger, trolig råde til enten å be folk gå utover det de er vant til og formulere problemet i de mest abstrakte termene fra fysikken. Dette gjør vi blant annet når vi arrangerer konkurranser som en del av vår IDAL Olympiade. I dialogprosessen finner vi en setting som ikke krever dyp fordypning i fysikk, men som samtidig vil være interessant for maskinlæringsspesialister.

I år hadde vi et felles prosjekt medet italiensk laboratorium som leter etter mørk materie. De ga syntetiske data for OL for å finne denne mørke materien. Det er egentlig ingen mørk materie der, fordi forfallet til kjent fysikk ble simulert: kollisjoner av elektroner og heliumioner.  Men kollisjoner av mørk materie partikler kan være svært lik noen av disse kollisjonene. De er svært vanskelige å simulere og enda vanskeligere å tolke. Derfor, spesielt for personer som ikke er spesialister på dette feltet, bestemte vi oss for ikke å trekke ut disse dataene og begrense oss til bare de som ligner. Algoritmene vi vil se fungerer på omtrentlige data, men kan også brukes på ekte data.

Andrey Ustyuzhanin. Foto fra foredragsholderens arkiv

For å oppsummere er den ene måten å bli enige om klare vilkår for alle, og den andre er å bruke tid og krefter, gå på sommerskoler, delta i praktiske forskningsprosjekter.

Bøker om maskinlæring og fysiske eksperimenter anbefalt av Andrey Ustyuzhanin:

Deepak Kar,Eksperimentell partikkelfysikk: Forstå målingene og søkene ved Large Hadron Collider.
Ilya Narsky,Statistiske analyseteknikker i partikkelfysikk: tilpasninger, tetthetsestimering og overvåket læring.
Giuseppe Carleo,Maskinlæring og fysiske vitenskaper.

- Er det noen motsetninger mellom verdiene til fysikere og IT-spesialister: er for eksempel arten av interaksjoner viktigere for noen, eller tvert imot nøyaktighet?

— Hvis vi snakker spesifikt om nøyaktighet, sannsynligvisdet er ingen tvetydighet. Men dette er mer sannsynlig på grunn av det faktum at IT-spesialister ikke forstår innholdet i dataene. Det er bare det at hvis vi målte dataene med en nøyaktighet på en millimeter, så er det ingen vits i å beregne arealet med en nøyaktighet på kvadratmikron. Når det gjelder komplekse nevrale nettverk, står vi overfor det faktum at de produserer informasjon nøyaktig til det siste tegnet i mantissen, men det er ikke mer mening i disse tegnene enn i nøyaktigheten som var ved inngangen. 

Vel, kanskje et generelt ønske for folksom er opptatt av å evaluere nøyaktigheten til modellene er å gi ikke bare absolutte egenskaper, men også grensene for akseptable områder eller spredningen der disse verdiene ble oppnådd. Egentlig en god anbefaling ikke bare for de som samhandler med fysikere eller med biologer. Dette er i prinsippet den riktige måten å opprettholde en presentasjon av de oppnådde resultatene på.

Og hvis vi snakker om hvor mye de kan væreforskjellige forventninger på den ene og på den andre siden, så er dette faktisk alle arbeidsproblemer. Hvis det er interesse fra begge sider, kan de løses enkelt og greit. Det vil si at maskinlæring nå er etterspurt blant fysikere i vid forstand, fordi det gir mer nøyaktige verktøy for å jobbe med dataene deres. Og det fungerer i motsatt retning, fordi for maskinlæringsspesialister kan det være mye mer interessant å se hvordan deres algoritmer hjelper til med oppdagelsen av nye partikler, for eksempel, slik tilfellet er i laboratoriet vårt. Vi jobbet lenge med å lage en algoritme som skulle bestemme partikkeltypen. Og nylig kom det nyheter om oppdagelsen av nye tetrakvarker, og algoritmene våre tok direkte del i oppdagelsen deres. 

Derfor, for folk fra IT, betinget fra Data Science,Datavitenskap, å føle nytten av algoritmene de utvikler er veldig viktig. Derfor er det ved vårt fakultet for eksempel et internasjonalt laboratorium for bioinformatikk. 

Slike interaksjoner blir stadig mermer og mer normalt. Jeg vet ikke om de allerede kan betraktes som mainstream eller om vi fortsatt må vente, men på en eller annen måte er denne historien uunngåelig. Selv om du ser på workshopene som arrangeres som en del av dagens ledende konferanser om kunstig intelligens, tar workshopen om bruk av AI i de fysiske vitenskapene en ledende plass i antall interesserte. 

Les mer:

Amerikansk satellitt "så" en uvanlig melding fra jorden

Publisert video fra raketten, som ble skutt opp fra en eksperimentell akselerator

Monsteret i sentrum av galaksen vår: se på bildet av et svart hull i Melkeveien

Geek Tech Online

Alt om teknologi og gadgets

Anomalijegere: hvordan CERN søker etter sjeldne partikler ved hjelp av Yandex-algoritmer

Hvordan se etter anomalier i dataene til Large Hadron Collider

Symbiose av fysikk og IT: hvordan maskinlæring brukes i LHC-forskning

Hvordan søke etter mørk materie og hvorfor nevrale nettverk er nødvendig for dette

De snakker forskjellige språk, men målene er felles