Anomalijägare: hur CERN söker efter sällsynta partiklar med Yandex-algoritmer

Andrey Ustyuzhanin— Chef för forsknings- och utbildningslaboratoriet för metoder för big dataanalys vid National Research University Higher School of Economics.

Chef för gemensamma projekt mellan Yandex och CERN. Deltar i utvecklingen av tjänsterna EventIndex och EventFilter, som Yandex har tillhandahållit för LHCb-experimentet sedan 2011. 

Utexaminerades från Moscow Institute of Physics and Technology 2000, kandidat för fysiska och matematiska vetenskaper. En av domarna i Microsoft Imagine Cup internationella finaler, innan dess var han mentor för MIPT-laget som vann cupen 2005.

Hur man letar efter anomalier i data från Large Hadron Collider

Vad är dataavvikelser?

— Om vi talar om data som erhållits med hjälp avLarge Hadron Collider (LHC), dessa kan vara upptäckter som inte passar in i standarduppfattningar om hur partikelsönderfall uppstår där efter protonkollisioner. Dessa upptäckter kommer att vara anomalier. 

Till exempel om vi pratar om tillgångskurserpå börsen, då kan anomalier bero på att en viss hedgefond bestämde sig för att pumpa en tillgång eller Wall Street Bets bestämde sig för att tjäna extra pengar och startade sin egen utdelade hedgefond. Det vill säga, fysiken är helt annorlunda, och manifestationen av denna fysik i data liknar inte heller andra fall.

Därför, om vi talar om anomalier, måste vi först förstå vilka data och vilken fysik vi talar om. 

— Låt oss då förtydliga med fokus på kolliderare.

– Här är det lite lättare, även om det också dyker uppgaffel. Faktum är att det finns data om vilken typ av processer som sker med partiklar inuti detektorn. Och det finns data om hur den här kollideraren fungerar. Människor som främst är intresserade av att upptäcka nya partiklar eller lagar är främst intresserade av den första typen av data. Men faktum är att allt som händer inom fysiken går igenom en ganska lång kedja av insamling och bearbetning av denna information. Och om någon av noderna i denna kedja börjar bete sig inte så bra som vi föreställt oss, det vill säga går utöver vissa gränser för det tillåtna, introducerar detta en förvrängning i mätningarna. Vi kan se anomalier på den plats där de i allmänhet inte fanns i fysiken.

Upptäckter som inte passar in i standardidéerna om hur partikelsönderfall uppstår där, som uppstår efter kollisionen av protoner, kommer att vara anomalier

För att undvika sådana obehagliga händelser, människorde skriver speciella datakvalitetskontrollsystem som övervakar all data i mätinstrumenten och försöker utesluta från övervägande de tidsperioder då det finns en misstanke om att något går fel. 

Ett av exemplen som folk gärna pratar omfysiker från LHC, var att de i de tidiga stadierna av kolliderens operation märkte anomalier som inte passade in i fysiska begrepp. Det fanns ännu inte LHC, men dess tidigare version. Som ett resultat fann fysiker att korrelationen är mycket allvarlig med tågschemat på järnvägen, som ligger i närheten. Och om du gör justeringar i samband med dessa fluktuationer får du en icke-fysisk bild av världen. 

Det är nödvändigt att ta hänsyn till yttre faktorer och kunnaförstå vilka av dem som behöver kompenseras korrekt. Den enklaste lösningen: låt oss kasta ut data som inte passar in i den vanliga bilden av världen. Mer komplexa historier är att försöka återställa dessa anomalier, med hjälp av förståeliga och fysiska principer, till normala data och försöka dra nytta av dem. 

Att kasta ut data är ett slöseri med budgetmedel. Varje kilobyte-megabyte har ett visst pris.

Andrey Ustyuzhanin, chef för forsknings- och utbildningslaboratoriet för metoder för analys av stora data vid National Research University Higher School of Economics

- Och, följaktligen, hur kan man upptäcka anomalien i dessa data med hjälp av ett maskininlärningssystem?

— Det finns två grupper av sådana algoritmer, somarbeta med anomalier. Den första gruppen av klassificeringsmetoder i en klass inkluderar algoritmer som endast använder information om de händelser som är markerade som bra. Det vill säga att de försöker bygga ett konvext skrov som omsluter det vi tycker är rätt. Logiken är denna: allt som går utöver detta skals omfattning kommer vi att överväga anomalier. Det vill säga att till exempel 99% av datan täcks av ett sådant skal, och allt annat ser ut som något misstänkt.

En annan grupp av algoritmer förlitar sig på partiellmarkerar vad vi anser vara fel. I huvudsak finns det en uppsättning händelser som är kända för att ha oönskade resultat. Och då kommer sökandet efter anomalier till ett tvåklassigt klassificeringsproblem. Detta är en vanlig klassificerare som kan byggas på principerna för neurala nätverk eller beslutsträd. 

Nyansen är att vanligtvis i uppgifteranomalier är provet inte balanserat. Det vill säga antalet positiva exempel överstiger betydligt antalet negativa. Under sådana förhållanden kanske standardklassificeringsalgoritmer inte fungerar så bra som vi skulle vilja. Standardförlustfunktionen behandlar instanser som kvalificerar sig korrekt lika, och kan förbise det faktum att bland 10 000 korrekta resultat finns hundra som kvalificerar sig felaktigt. Dessa hundra representerar bara de negativa exemplen som är mest intressanta. Det är tydligt att detta kan bekämpas till exempel genom att lägga större vikt åt negativa exempel, och ta hänsyn till fel med deras klassificering med mycket större vikt.

Förlustfunktion- en funktion som i teorin om statistiska beslut kännetecknar förluster på grund av felaktigt beslutsfattande baserat på observerade data.

Bidrag från vårt laboratorium för att lösa problemetAnomalidetektering är att föreslå metoder som kombinerar egenskaperna hos den första och andra metoden. Det vill säga uppgiften att arbeta med enklassig och tvåklassig klassificering. En sådan kombination blir möjlig om vi bygger generativa modeller av onormala exempel. 

Använda metoder som generativamotstridiga nätverk eller normaliserande flöden, kan vi lära oss att återställa de exempel som är märkta som negativa och generera ett extra prov som gör att den vanliga klassificeraren kan arbeta med det utökade syntetiska provet mer effektivt. Detta tillvägagångssätt fungerar bra för både tabelldata och bilder. Det fanns en artikel om detta förra året, som beskriver hur ett sådant system är uppbyggt och ger praktiska exempel på hur det används.

— Du nämnde att arbeta med bilder. Hur fungerar det i det här fallet?

— Det finns exempel där vi visade arbetetdenna algoritm. De valde helt enkelt en av bildklasserna: till exempel handskrivna siffror. Och de sa att noll är någon sorts anomali. Och de bad det neurala nätverket, som bestämmer att nollor inte är som allt annat, att tilldelas den negativa klassen. Naturligtvis kan dessa inte bara vara nollor, utan också till exempel tal inom vilka det finns slutna cykler - 068 - eller tal med horisontella skärningspunkter. Eller helt enkelt bilder roterade i någon vinkel i förhållande till resten av provet. 

"Vi kan simulera fysik under vissa omständigheterexterna parametrar med god noggrannhet och säger vilka observerbara egenskaper som kommer att beskriva de korrekta signalhändelserna, till exempel sönderfallet av Higgs boson "

Det finns en datauppsättning som kallas en omniglot -bokstäver skrivna i olika typsnitt. Det finns ett stort antal teckensnitt: från Futurama, gotiska, handskrivna från impopulära alfabet - sanskrit eller hebreiska. Vi kan säga att bokstäverna på sanskrit är en anomali, bokstäverna skrivna med en viss handstil är det också.

Vi ber systemet att lära sig att särskilja alltresten från dessa onormala symboler. Huvudsaken är att de är mycket mindre än allt annat. Detta är svårigheten att arbeta med dem för konventionella maskininlärningsalgoritmer.

Symbios av fysik och IT: hur maskininlärning används i LHC-forskning

— Vilka uppgifter för LHC löses med hjälp av maskininlärning?

— En stor uppgift vi jobbar med ärär att påskynda beräkningsprocesser som simulerar fysiska kollisioner och partikelsönderfall. Faktum är att beslutet om givna händelser liknar vissa fysiska sönderfall eller inte fattas efter att ha analyserat ett ganska stort antal simulerade sönderfall. Vi kan simulera fysik vid vissa yttre parametrar med god noggrannhet och säga vilka observerbara egenskaper som kommer att beskriva de korrekta signalhändelserna, till exempel sönderfallet av Higgs-bosonen. 

Men det finns vissa varningar:Vi vet inte alltid under vilka parametrar dessa sönderfall måste genereras. Som regel finns det en viss uppfattning om detta. Och utmaningen med att hitta rätt fysik är att skilja signalhändelser från bakgrundshändelser, som kan vara associerade antingen med felaktig funktion av återställningsalgoritmer, eller med fysiken i andra processer som är mycket lik det vi försöker hitta. Maskininlärningsalgoritmer gör ett bra jobb med detta, men det är en välkänd historia. 

Men för att träna sådana algoritmer krävs detett ganska stort statistiskt urval av simulerade händelser, och beräkningen av dessa syntetiska data kräver vissa resurser. Eftersom simuleringen av en händelse tar ungefär en minut eller till och med tio minuter av beräkningstiden för moderna datorcenter. På grund av att antalet verkliga händelser som fysiker kommer att arbeta med kommer att öka i storleksordningar under de kommande åren, bör även antalet syntetiserade händelser öka. Nu räcker knappt datorresurserna till för att täcka forskarnas behov. För att simulera en händelse måste vi beräkna interaktionen mellan mikropartiklar och detektorns struktur och simulera responsen som vi kommer att se på sensorerna i denna detektor med mycket hög noggrannhet.

Tanken med acceleration är att träna det neurala nätverketpå händelser som simulerades med ett certifierat paket - GMT 4, som simulerar allt som händer inuti kolliderdetektorerna. Denna neuron kommer att lära sig att jämföra insignalerna, parametrarna för de partiklar som vi vill simulera och utsignalerna - de observerbara egenskaper som detektorn producerar. Neurala nätverk klarar redan idag ganska bra uppgiften att interpolera data. Och flera projekt i vårt laboratorium syftar till just detta. Det vill säga att återställa egenskaperna hos sönderfall från det tillgängliga syntetiska provet, det vill säga att göra sådana andra ordningens syntetmaterial. Men det finns en nyans: fördelen med neurala nätverk är att vi kan finjustera dem med riktiga data. Det vill säga, gör den här inställningen mer exakt för ett specifikt fysiskt förfall. 

Människor som är engagerade i fullfjädrad fysisksimulering lägger de sin tid och kraft på detta, men med neuroner blir det lite mindre arbetskrävande. Och från resultaten som vi gjorde för LHTV-experimentet vid CERN och Dubna MPD-experimentprojektet vid Nica-acceleratorn, blev det tydligt att neurala nätverk kan uppnå mycket hög noggrannhet när det gäller att täcka fasutrymmet för simulerade händelser. De påskyndar beräkningsprocessen avsevärt: beställningar och till och med hundratals snabbare än en ärlig simulering.

— Hur lär sig själva det neurala nätverket? 

— Det finns inga skillnader i inlärningsprocessen.Men det finns en egenhet: för ett neuralt nätverk är det, utöver träningsprovet, nödvändigt att formulera kvalitetskriterier, det vill säga ställa in en förlustfunktion som bäst motsvarar den uppgift som detta nätverk ska klara av bra. Dessutom bedöms inte kvaliteten på arbetet i ett sådant neuralt nätverk av forskare: det kan bedömas adekvat i termer av de beräkningssteg som sker i ett senare skede av databehandlingen. 

För att avgöra om en simulering är bra eller inte, kan viförst efter att vi passerat händelserna genom kedjan av deras analys, rekonstruktion och vi förstår att samma egenskaper som vi ursprungligen lade i dem återställs från dem. Det betyder att det till exempel inte räcker med att använda ett enkelt MSE Mean Squared Error-mått.

MSE Mean Squared Error- mäter rotmedelvärdesskillnaden mellan de uppskattade värdena och det faktiska värdet.

Det neurala nätverkets beteende måste utvärderas ytterligare, ifunktioner på parameterområden som kanske inte fanns i träningsuppsättningen. Att bygga sådana modeller som beter sig långt utöver de parametervärden som är kända på utbildningsstadiet är en stor och teoretisk uppgift. 

Neurala nätverk är bra på de platser där devisste något på träningsstadiet. Utanför dem kan de ge ut vad de vill. I vårt fall är detta särskilt känsligt, eftersom riktigheten i den fysiska tolkningen av verkligheten omkring oss beror på det. 

"Om en mörk materia partikel sönderfaller till partiklar som vi vet hur man interagerar med, kan det antas att denna mörka materia partikel verkligen var"

— Det vill säga det neurala nätverket letar efter sällsynta händelser som kan inträffa vid kollideraren?

— Baserat på driften av generativa modeller, dvs.Först talar vi om syntesen av allt som kan hända. Vi gör detta med miniatyrmodeller. Och vid utgången av sådana nätverk kan vi bygga en modell som letar efter det vi behöver: vad vi lyckades generera på ett generativt neuralt nätverk.

Hur man söker efter mörk materia och varför neurala nätverk behövs för detta

— Kan en liknande sökprincip tillämpas på mörk materia?

– Faktum är att mörk materia går att söka efterolika sätt. Ett sätt är att bygga en ordentlig detektor som kan isolera ganska bra från effekterna av vanlig materia. Det vill säga att blockera signalen som kommer från partiklar kända för fysiker. Detta är bara en metod för eliminering: om detektorn ser något annat än brus, då ser den något som vi aldrig har sett förut. En möjlighet skulle vara att dessa är partiklar av mörk materia.

Om till exempel en mörk materia partikelsönderfaller till partiklar som vi vet hur vi ska interagera med, och det är tydligt att spår av sönderfall inte kunde dyka upp från någon annanstans förutom från det, då kan vi anta att denna partikel av mörk materia verkligen var.

Sådana experiment diskuteras och planeras.En av dem heter SHiP (Search for Hidden Particles). Och förresten, för ett sådant experiment är de metoder som jag talade om också tillämpliga. Det kräver simulering och algoritmer för att känna igen sällsynta tillvägagångssätt. Men eftersom ljusstyrkan för detta experiment är mycket lägre (luminositet är antalet partiklar som planeras att detekteras per tidsenhet), är behovet av att simulera ett stort antal liknande händelser inte lika akut som i fallet med Hadron Collider detektorer. Även om till exempel uppgiften i samband med att bedöma kvaliteten på skyddssystemet mot partiklar kända för fysiken kräver simulering av ett ganska stort antal händelser. Detta är nödvändigt för att säkerställa att skyddet fungerar bra med det enorma antalet inkommande partiklar av olika slag.

Fartygär ett experiment som syftar till att hitta gömdapartiklar, inklusive partiklar av mörk materia, i en ström av partiklar från SPS-acceleratorn filtrerad av magnetfält, ett fem meter långt lager av betong och metall. 

Det finns andra sätt att söka efter mörk materia,relaterat till observationer av rymdfenomen. I synnerhet är ett tillvägagångssätt att bygga känsliga element som känner igen riktningen för mycket svagt interagerande partiklar beroende på denna partikels infallsvinkel. Logiken i experimentet är att det är möjligt att placera de känsliga elementen så att de är orienterade längs med solsystemets rörelsevektor, det vill säga mot stjärnbilden Cygnus. Då kommer vi att kunna skilja partiklar som rör sig i jordens koordinatsystem från partiklar som rör sig annorlunda. Som den orörliga etern, som är fördelad i yttre rymden enligt sina egna lagar, inte på något sätt kopplad till planeternas orientering och rörelseriktning. Det är bara det att istället för eter antas det att det finns mörk materia partiklar. De kan svagt interagera med sensorerna i vårt experiment. Och genom att analysera deras avläsningar är det möjligt att härleda mönster av vinkelfördelningar av interagerande partiklar. Om vi ser att det finns en allvarlig komponent som inte beror på jordens position i rymden, kommer detta att indikera existensen av tidigare okända partiklar. Och kanske kommer dessa att vara kandidater för partiklar av mörk materia. 

I ett sådant experiment är simulering ganska viktigt,för att bygga en algoritm för att känna igen signalhändelser måste du föreställa dig hur signalen av intresse för oss ser ut. Därför är uppgifterna förknippade med snabb simulering och sökandet efter anomalier relevanta och tillämpliga där.

De talar olika språk, men målen är gemensamma

Låt oss prata om att jobba på CERN. Hur är det för en IT-person att arbeta med fysiker? Vilka egenskaper är förknippade med att arbeta i ett sådant tvärvetenskapligt område som LHC?

- Bra fråga.Faktum är att människor talar olika språk: det kommer till den punkten att samma begrepp representeras grafiskt på olika sätt. Till exempel ritas ROC-kurvor, som maskininlärningsspecialister är vana vid, vanligtvis i fysiken roterade 90 grader. Och koordinaterna kallas inte True Positive Rate och False Negative Rate, utan Signaleffektivitet och Bakgrundsavvisning. Dessutom, om signaleffektiviteten fortfarande är precision, är bakgrundsavvisning en minus sann negativ frekvens. 

ROC-kurva (från engelska mottagarens driftkarakteristik, mottagarens driftkarakteristik)— en graf som låter dig utvärdera kvaliteten på binärenklassificeringar. Visar förhållandet mellan andelarna av objekt från det totala antalet attributbärare, korrekt klassificerade som bärande av attributet, och andelarna av objekt från det totala antalet objekt som inte bär attributet, felaktigt klassificerade som bärande av attributet.

Det är klart att sådana saker kan vara på gångytor och är relativt lätta att vänja sig vid, men de största utmaningarna ligger i att förstå några av de grundläggande antaganden som forskare gör när de skriver sina uppsatser. Och som regel är de bortom vad de skriver om. Det vill säga, det här är någon hemlig kunskap som överförs under en persons utbildning i forskarskolan, i processen att arbeta med hans forskningsprojekt, den formas i hans sinne. 

För personer från ett annat vetenskapsområde är det somannorlunda kulturmiljö. För dem är dessa antaganden kanske inte så självklara. På grund av att lexikonet visar sig vara ganska omfattande och annorlunda, kan uppbyggnaden av en dialog bli försenad eller till och med vara improduktiv. Därför kan man här, som rekommendationer, antagligen råda att antingen be folk gå längre än vad de är vana vid och formulera problemet i de mest abstrakta termer från fysiken. Det gör vi bland annat när vi anordnar tävlingar som en del av vår IDAL Olympiad. I dialogprocessen hittar vi en miljö som inte skulle kräva djup fördjupning i fysik, men som samtidigt skulle vara intressant för maskininlärningsspecialister.

I år hade vi ett gemensamt projekt medett italienskt laboratorium som letar efter mörk materia. De tillhandahöll syntetiska data för OS för att hitta denna mörka materia. Det finns verkligen ingen mörk materia där, eftersom sönderfallet av känd fysik simulerades: kollisioner av elektroner och heliumjoner.  Men kollisioner av mörk materia partiklar kan likna några av dessa kollisioner. De är mycket svåra att simulera och ännu svårare att tolka. Därför, särskilt för personer som inte är specialister inom detta område, bestämde vi oss för att inte dra ut dessa uppgifter och begränsa oss till endast de som liknar dem. Algoritmerna vi kommer att se fungerar på ungefärliga data, men kan även appliceras på verklig data.

Andrey Ustyuzhanin. Foto från talarens arkiv

Sammanfattningsvis är ett sätt att komma överens om tydliga villkor för alla, och det andra är att lägga ner tid och kraft, gå på sommarskolor, delta i praktiska forskningsprojekt.

Böcker om maskininlärning och fysiska experiment som rekommenderas av Andrey Ustyuzhanin:

Deepak Kar,Experimentell partikelfysik: Förstå mätningarna och sökningarna vid Large Hadron Collider.
Ilya Narsky,Statistisk analysteknik i partikelfysik: passningar, densitetsuppskattning och övervakat lärande. 
Giuseppe Carleo,Maskininlärning och fysik.

- Finns det några motsättningar mellan fysikers och IT-specialisters värderingar: är till exempel karaktären av interaktioner viktigare för någon, eller tvärtom, noggrannhet?

— Om vi pratar specifikt om noggrannhet, förmodligendet finns ingen tvetydighet. Men detta är mer troligt på grund av det faktum att IT-specialister inte förstår informationens natur. Det är bara det att om vi mätte data med en noggrannhet på en millimeter, så är det ingen mening att beräkna arean med en noggrannhet på kvadratmikron. När det gäller komplexa neurala nätverk står vi inför det faktum att de producerar information exakt till det sista tecknet i mantissan, men det finns ingen mer mening i dessa tecken än i noggrannheten som fanns vid ingången. 

Tja, kanske en allmän önskan för människorsom handlar om att utvärdera modellernas noggrannhet är att ge inte bara absoluta egenskaper, utan också gränserna för acceptabla intervall eller spridningen i vilken dessa värden erhölls. Egentligen en bra rekommendation inte bara för dem som interagerar med fysiker eller med biologer. Detta är i princip det korrekta sättet att upprätthålla en presentation av de erhållna resultaten.

Och om vi pratar om hur mycket de kan varaolika förväntningar på ena sidan och å andra sidan, då är det faktiskt alla arbetsfrågor. Om det finns intresse från båda sidor kan de lösas enkelt och bra. Det vill säga att maskininlärning nu efterfrågas bland fysiker i bred bemärkelse, eftersom det ger mer exakta verktyg för att arbeta med deras data. Och det fungerar i motsatt riktning, för för maskininlärningsspecialister kan det vara mycket mer intressant att se hur deras algoritmer hjälper till att upptäcka nya partiklar, till exempel, som är fallet i vårt laboratorium. Vi arbetade länge med att skapa en algoritm som skulle bestämma typen av partikel. Och nyligen kom det nyheter om upptäckten av nya tetraquarks, och våra algoritmer tog en direkt del i deras upptäckt. 

Därför, för personer från IT, villkorligt från Data Science,Datavetenskap, att känna nyttan av de algoritmer de utvecklar är väldigt viktigt. Därför finns det på vår fakultet till exempel ett International Laboratory of Bioinformatics. 

Sådana interaktioner blir allt flermer och mer normalt. Jag vet inte om de redan kan betraktas som mainstream eller om vi fortfarande måste vänta, men på ett eller annat sätt är den här historien oundviklig. Även om man tittar på de workshops som anordnas som en del av dagens ledande konferenser om artificiell intelligens, så tar workshopen om användningen av AI inom de fysikaliska vetenskaperna en ledande plats i antalet intresserade. 

Läs mer:

Amerikansk satellit "såg" ett ovanligt meddelande från jorden

Publicerad video från raketen, som avfyrades från en experimentell accelerator

Monstret i mitten av vår galax: titta på fotot av ett svart hål i Vintergatan

Geek Tech Online

Allt om teknik och prylar

Anomalijägare: hur CERN söker efter sällsynta partiklar med hjälp av Yandex-algoritmer

Hur man letar efter anomalier i data från Large Hadron Collider

Symbios av fysik och IT: hur maskininlärning används i LHC-forskning

Hur man söker efter mörk materia och varför neurala nätverk behövs för detta

De talar olika språk, men målen är gemensamma