Lovci na anomalije: kako CERN traži rijetke čestice koristeći Yandex algoritme

Andrej Ustjužanin— voditeljica Istraživačko-edukativnog laboratorija za metode analize velikih podataka na Nacionalnom istraživačkom sveučilištu Visoka ekonomska škola.

Voditelj zajedničkih projekata Yandexa i CERN-a. Sudjeluje u razvoju usluga EventIndex i EventFilter, koje Yandex pruža za LHCb eksperiment od 2011. 

Diplomirao na Moskovskom institutu za fiziku i tehnologiju 2000. godine, kandidat fizikalnih i matematičkih znanosti. Jedan od sudaca međunarodnog finala Microsoft Imagine Cupa, prije toga bio je mentor MIPT tima koji je osvojio kup 2005. godine.

Kako tražiti anomalije u podacima Velikog hadronskog sudarača

Što su anomalije podataka?

— Ako govorimo o podacima dobivenim pomoćuVeliki hadronski sudarač (LHC), ovo mogu biti otkrića koja se ne uklapaju u standardne ideje o tome kako se ondje događaju raspadi čestica nakon sudara protona. Ta će otkrića biti anomalije. 

Na primjer, ako govorimo o kotacijama imovinena burzi, onda anomalije mogu postojati zbog činjenice da je određeni hedge fond odlučio pumpati imovinu ili su Wall Street Bets odlučili zaraditi dodatni novac i osnovati vlastiti distribuirani hedge fond. Odnosno, fizika je potpuno drugačija, a očitovanje ove fizike u podacima također nije slično drugim slučajevima.

Stoga, ako govorimo o anomalijama, prvo moramo razumjeti o kojim podacima i kakvoj fizici govorimo. 

— Onda razjasnimo s naglaskom na sudarače.

- Ovdje je malo lakše, iako se i to namećevilica. Činjenica je da postoje podaci o tome kakvi se procesi događaju s česticama unutar detektora. I postoje podaci o tome kako ovaj sudarač radi. Ljudi koji su prvenstveno zainteresirani za otkrivanje novih čestica ili zakona uglavnom su zainteresirani za prvu vrstu podataka. No činjenica je da sve što se događa u fizici prolazi kroz prilično dug lanac prikupljanja i obrade ovih informacija. A ako se bilo koji od čvorova ovog lanca počne ponašati ne onako kako smo zamislili, odnosno prelazi određene granice dopuštenog, to dovodi do izobličenja u mjerenjima. Anomalije možemo vidjeti na mjestu gdje ih, općenito, u fizici nije bilo.

Otkrića koja se ne uklapaju u standardne ideje o tome kako tamo dolazi do raspada čestica, nastalih nakon sudara protona, bit će anomalije

Da biste izbjegli takve nemile događaje, ljudipišu posebne sustave kontrole kvalitete podataka koji prate sve podatke u mjernim instrumentima i pokušavaju iz razmatranja isključiti one periode kada postoji sumnja da nešto nije u redu. 

Jedan od primjera o kojima se rado pričafizičara s LHC-a, bilo je to što su u ranim fazama rada sudarača uočili anomalije koje se nisu uklapale u fizikalne koncepte. Još nije postojao LHC, već njegova prethodna verzija. Kao rezultat toga, fizičari su otkrili da je korelacija vrlo ozbiljna s rasporedom vlakova na željeznici, koja se nalazi u blizini. A ako napravite prilagodbe povezane s tim fluktuacijama, dobit ćete nefizičku sliku svijeta. 

Potrebno je uzeti u obzir vanjske čimbenike i moćirazumjeti koje od njih treba ispravno nadoknaditi. Najjednostavnije rješenje: izbacimo podatke koji se ne uklapaju u uobičajenu sliku svijeta. Složenije priče su pokušati vratiti te anomalije, koristeći razumljive i fizičke principe, u normalne podatke i pokušati izvući korist od njih. 

Izbacivanje podataka je rasipanje proračunskih sredstava. Svaki kilobajt-megabajt ima određenu cijenu.

Andrey Ustyuzhanin, voditelj istraživačko-obrazovnog laboratorija za metode analize velikih podataka na Visokoj školi ekonomije Nacionalnog istraživačkog sveučilišta

- I, sukladno tome, kako se pomoću sustava strojnog učenja može otkriti anomalija u tim podacima?

— Postoje dvije skupine takvih algoritama, kojirad s anomalijama. Prva skupina metoda jednoklasne klasifikacije uključuje algoritme koji koriste informacije samo o onim događajima koji su označeni kao dobri. Odnosno, pokušavaju izgraditi konveksni trup koji zatvara sve što mislimo da je ispravno. Logika je sljedeća: sve što izlazi iz okvira ove ljuske, razmotrit ćemo anomalije. Odnosno, na primjer, 99% podataka je pokriveno takvom ljuskom, a sve ostalo izgleda kao nešto sumnjivo.

Druga skupina algoritama oslanja se na djelomičneobilježavanje onoga što smatramo pogrešnim. U biti, postoji niz događaja za koje se zna da imaju neželjene rezultate. A onda se potraga za anomalijama svodi na problem dvije klase klasifikacije. Ovo je uobičajeni klasifikator koji se može izgraditi na principima neuronskih mreža ili stabala odlučivanja. 

Nijansa je u tome što obično u zadacimaanomalija, uzorak nije uravnotežen. Odnosno, broj pozitivnih primjera znatno premašuje broj negativnih. U takvim uvjetima, standardni algoritmi klasifikacije možda neće raditi onako dobro kako bismo željeli. Zadana funkcija gubitka jednako tretira slučajeve koji se ispravno kvalificiraju i može previdjeti činjenicu da među 10 000 točnih rezultata postoji stotinu onih koji se ne kvalificiraju ispravno. Ova stotinka upravo predstavlja one negativne primjere koji su najzanimljiviji. Jasno je da se protiv toga može boriti, na primjer, pridavanjem veće težine negativnim primjerima, te uzimanjem u obzir pogrešaka pri njihovom razvrstavanju s mnogo većom težinom.

Funkcija gubitka- funkcija koja u teoriji statističkih odluka karakterizira gubitke zbog pogrešnog odlučivanja na temelju promatranih podataka.

Doprinos našeg laboratorija rješavanju problemaDetekcija anomalija je predložiti metode koje kombiniraju značajke prvog i drugog pristupa. Odnosno zadatak rada s jednorazrednom i dvorazrednom klasifikacijom. Takva kombinacija postaje moguća ako izgradimo generativne modele anomalnih primjera. 

Koristeći pristupe kao što su generativnisuprotstavljenim mrežama ili normalizirajućim tokovima, možemo naučiti oporaviti one primjere koji su označeni kao negativni i generirati dodatni uzorak koji će uobičajenom klasifikatoru omogućiti učinkovitiji rad s proširenim sintetičkim uzorkom. Ovaj pristup dobro funkcionira i za tablične podatke i za slike. O tome je prošle godine bio članak koji opisuje kako se takav sustav gradi, te daje praktične primjere njegove uporabe.

— Spomenuli ste rad sa slikama. Kako to funkcionira u ovom slučaju?

— Postoje primjeri u kojima smo pokazali radovaj algoritam. Jednostavno su odabrali jednu od klasa slika: na primjer, rukom ispisane brojeve. I rekli su da je nula neka anomalija. I zatražili su od neuronske mreže, koja odlučuje da nule nisu kao sve ostalo, da se dodijeli negativnoj klasi. Naravno, to mogu biti ne samo nule, već i, na primjer, brojevi unutar kojih postoje zatvoreni ciklusi - 068 - ili brojevi s vodoravnim sjecištima. Ili jednostavno slike zakrenute pod određenim kutom u odnosu na ostatak uzorka. 

“Možemo simulirati fiziku pod određenimvanjski parametri s dobrom točnošću i reći koje će opažene karakteristike opisati ispravne signalne događaje, na primjer, raspad Higgsovog bozona "

Postoji skup podataka koji se zove omniglot -slova napisana različitim fontovima. Postoji ogroman broj fontova: od Futurame, gotike, rukopisnih iz nepopularnih abeceda - sanskrta ili hebrejskog. Možemo reći da su slova na sanskrtu anomalija, slova napisana određenim rukopisom su također.

Tražimo od sustava da nauči razlikovati sveostalo od ovih anomalnih simbola. Glavna stvar je da su mnogo manji od svega ostalog. To je poteškoća u radu s njima za konvencionalne algoritme strojnog učenja.

Simbioza fizike i IT-a: kako se strojno učenje koristi u LHC istraživanju

— Koji se zadaci LHC-a rješavaju uz pomoć strojnog učenja?

— Jedan veliki zadatak s kojim radimo jeje ubrzati računalne procese koji simuliraju fizičke sudare i raspade čestica. Činjenica je da se odluka o tome jesu li dati događaji slični određenim fizičkim raspadima ili ne donosi nakon analize prilično velikog broja simuliranih raspada. Možemo simulirati fiziku pri određenim vanjskim parametrima s dobrom točnošću i reći koje će vidljive karakteristike opisati točne signalne događaje, na primjer, raspad Higgsovog bozona. 

Ali postoje određena upozorenja:Ne znamo uvijek parametre pod kojima se ti raspadi trebaju generirati. U pravilu postoji određena ideja o tome. A izazov pronalaženja prave fizike je razlikovati signalne događaje od pozadinskih događaja, koji mogu biti povezani ili s neispravnim radom algoritama za oporavak ili s fizikom drugih procesa koji su vrlo slični onome što pokušavamo pronaći. Algoritmi strojnog učenja to dobro rade, ali to je dobro poznata priča. 

Ali za treniranje takvih algoritama to je potrebnoprilično velik statistički uzorak simuliranih događaja, a izračun ovih sintetskih podataka zahtijeva određene resurse. Jer simulacija jednog događaja traje otprilike minutu ili čak deset minuta računalnog vremena modernih računalnih centara. Zbog činjenice da će se broj stvarnih događaja s kojima će fizičari raditi u sljedećim godinama povećati za redove veličine, trebao bi se povećati i broj sintetiziranih događaja. Sada su računalni resursi jedva dovoljni da pokriju potrebe istraživača. Jer da bismo simulirali jedan događaj, moramo izračunati interakciju mikročestica sa strukturom detektora i simulirati odgovor koji ćemo vidjeti na senzorima ovog detektora s vrlo velikom točnošću.

Ideja ubrzanja je uvježbavanje neuronske mrežena događaje koji su simulirani korištenjem certificiranog paketa - GMT 4, koji simulira sve što se događa unutar detektora sudarača. Ovaj će neuron naučiti uspoređivati ulaze, parametre čestica koje želimo simulirati i izlaze - one vidljive karakteristike koje proizvodi detektor. Neuronske mreže danas se već prilično dobro nose sa zadatkom interpolacije podataka. A nekoliko projekata u našem laboratoriju usmjereno je upravo tome. Odnosno, obnoviti karakteristike raspada iz raspoloživog sintetičkog uzorka, odnosno napraviti takve sintetike drugog reda. Ali postoji jedna nijansa: prednost neuronskih mreža je u tome što ih možemo fino podesiti pomoću stvarnih podataka. Odnosno, učinite ovu postavku preciznijom za određeni fizički raspad. 

Ljudi koji se bave punopravnim fizičkimsimulacije, troše svoje vrijeme i trud na to, ali s neuronima ispada malo manje radno intenzivnim. A iz rezultata koje smo napravili za LHTV eksperiment u CERN-u i projekt eksperimenta Dubna MPD na akceleratoru Nica, postalo je jasno da neuronske mreže mogu postići vrlo visoku točnost u pokrivanju faznog prostora simuliranih događaja. Oni značajno ubrzavaju proces izračuna: narudžbe i čak stotine brže od poštene simulacije.

— Kako sama neuronska mreža uči? 

— Nema razlike u procesu učenja.Ali postoji jedna posebnost: za neuronsku mrežu, osim uzorka za obuku, potrebno je formulirati kriterije kvalitete, odnosno postaviti funkciju gubitka koja bi najbolje odgovarala zadatku s kojim bi se ta mreža trebala dobro nositi. Osim toga, istraživači ne procjenjuju kvalitetu rada takve neuronske mreže: ona se može adekvatno procijeniti u smislu računskih koraka koji se događaju u kasnijoj fazi obrade podataka. 

Da bismo utvrdili je li simulacija dobra ili ne, možemotek nakon što događaje prođemo kroz lanac njihove analize, rekonstrukcije i shvatimo da se iz njih obnavljaju ista obilježja koja smo u njih prvotno položili. To znači da, na primjer, upotreba jednostavne metrike srednje kvadratne pogreške MSE nije dovoljna.

MSE srednja kvadratna greška- mjeri srednju kvadratnu razliku između procijenjenih vrijednosti i stvarne vrijednosti.

Ponašanje neuronske mreže treba dodatno procijeniti, uznačajke na rasponima parametara koji možda nisu bili prisutni u skupu za obuku. Izgradnja takvih modela koji se ponašaju daleko iznad vrijednosti parametara poznatih u fazi obuke velik je i teoretski zadatak. 

Neuronske mreže su dobre na mjestima na kojima se nalazeznao nešto u fazi obuke. Izvan njih mogu izdati što god žele. U našem slučaju to je posebno osjetljivo jer o tome ovisi ispravnost fizičke interpretacije stvarnosti oko nas. 

“Ako se čestica tamne tvari raspadne na čestice s kojima znamo kako komunicirati, može se pretpostaviti da je ta čestica tamne tvari doista bila”

— To jest, neuronska mreža traži rijetke događaje koji se mogu dogoditi na sudaraču?

— Na temelju rada generativnih modela, tj.Prvo, govorimo o sintezi svega što se može dogoditi. To radimo s minijaturnim modelima. A na izlazu takvih mreža možemo izgraditi model koji će tražiti ono što nam treba: ono što smo uspjeli generirati na generativnoj neuronskoj mreži.

Kako tražiti tamnu tvar i zašto su za to potrebne neuronske mreže

— Može li se sličan princip pretraživanja primijeniti na tamnu tvar?

- Činjenica je da se tamna tvar može tražitirazličiti putevi. Jedan od načina je izgraditi odgovarajući detektor koji može prilično dobro izolirati od učinaka obične materije. Odnosno, blokirati signal koji dolazi od čestica poznatih fizičarima. Ovo je samo metoda eliminacije: ako detektor vidi nešto osim buke, onda vidi nešto što nikada prije nismo vidjeli. Jedna od mogućnosti bi bila da su to čestice tamne tvari.

Ako je npr. čestica tamne tvariraspada na čestice s kojima znamo komunicirati, a jasno je da se tragovi raspadanja ne bi mogli pojaviti nigdje osim s njega, onda možemo pretpostaviti da je ta čestica tamne tvari doista i bila.

O takvim eksperimentima se raspravlja i planira.Jedan od njih se zove SHiP (Search for Hidden Particles). I, inače, za takav eksperiment također su primjenjivi pristupi o kojima sam govorio. Zahtijeva simulaciju i algoritme za prepoznavanje rijetkih pristupa. No budući da je luminoznost ovog eksperimenta puno niža (svjetlost je broj čestica koje se planira otkriti u jedinici vremena), potreba za simulacijom velikog broja sličnih događaja nije tako akutna kao u slučaju hadronskog sudarača. detektori. Iako, primjerice, zadatak vezan uz procjenu kvalitete zaštitnog sustava od čestica poznatih fizici zahtijeva simulaciju prilično velikog broja događaja. To je potrebno kako bi se osiguralo da zaštita dobro funkcionira s ogromnim brojem ulaznih čestica raznih vrsta.

Brodje eksperiment usmjeren na pronalaženje skrivenihčestice, uključujući čestice tamne tvari, u struji čestica iz SPS akceleratora filtrirane magnetskim poljima, petmetarski sloj betona i metala. 

Postoje i drugi načini traženja tamne tvari,vezano za promatranje svemirskih pojava. Konkretno, jedan pristup je izgradnja osjetljivih elemenata koji prepoznaju smjer vrlo slabo međudjelovajućih čestica ovisno o kutu upada te čestice. Logika eksperimenta je da je moguće osjetljive elemente postaviti tako da budu orijentirani duž vektora gibanja Sunčevog sustava, odnosno prema zviježđu Labuda. Tada ćemo moći razlikovati čestice koje se gibaju u Zemljinom koordinatnom sustavu od čestica koje se gibaju drugačije. Poput nepomičnog etera, koji je raspoređen u svemiru prema vlastitim zakonima, koji ni na koji način nisu povezani s orijentacijom i smjerom kretanja planeta. Samo što se umjesto etera pretpostavlja da postoje čestice tamne tvari. Oni mogu slabo komunicirati sa senzorima našeg eksperimenta. Analizirajući njihova očitanja, moguće je izvesti uzorke kutne raspodjele čestica koje međusobno djeluju. Ako vidimo da postoji ozbiljna komponenta koja ne ovisi o položaju Zemlje u svemiru, to će ukazivati na postojanje dosad nepoznatih čestica. A možda će to biti kandidati za čestice tamne tvari. 

U takvom eksperimentu simulacija je vrlo važna,jer da biste izgradili algoritam za prepoznavanje signalnih događaja, morate zamisliti kako izgleda signal koji nas zanima. Stoga su zadaci vezani uz brzu simulaciju i traženje anomalija relevantni i primjenjivi.

Govore različite jezike, ali su ciljevi zajednički

Razgovarajmo o radu u CERN-u. Kako je IT osobi raditi s fizičarima? Koje su značajke povezane s radom u takvom međuznanstvenom prostoru kao što je LHC?

- Dobro pitanje.Doista, ljudi govore različitim jezicima: dolazi do toga da se isti pojmovi grafički prikazuju na različite načine. Na primjer, ROC krivulje, na koje su stručnjaci za strojno učenje navikli, obično se crtaju u fizici zakrenute za 90 stupnjeva. A koordinate se ne zovu True Positive Rate i False Negative Rate, već Signal učinkovitost i Pozadinsko odbijanje. Štoviše, ako je učinkovitost signala još uvijek Preciznost, tada je odbijanje pozadine jedan minus True Negative Rate. 

ROC-krivulja (od engleske radne karakteristike prijemnika, radna karakteristika prijemnika)— grafikon koji vam omogućuje procjenu kvalitete binarne datotekeklasifikacije. Prikazuje odnos između udjela objekata iz ukupnog broja nositelja atributa, koji su ispravno klasificirani kao nositelji atributa, i udjela objekata iz ukupnog broja objekata koji ne nose atribut, a koji su pogrešno klasificirani kao nositelji atributa.

Jasno je da takve stvari mogu biti uključenepovršine i na njih se relativno lako naviknuti, ali glavni izazovi leže u razumijevanju nekih od osnovnih pretpostavki koje istraživači postavljaju kada pišu svoje radove. I u pravilu su izvan onoga o čemu pišu. Odnosno, riječ je o nekom tajnom znanju koje se čovjeku prenosi tijekom školovanja na diplomskom studiju, u procesu rada na njegovim istraživačkim projektima, formira se u njegovu umu. 

Za ljude iz drugog područja znanosti, to je kaodrugačije kulturno okruženje. Za njih ove pretpostavke možda nisu toliko očite. Zbog činjenice da se leksikon pokazuje prilično opsežnim i drugačijim, izgradnja dijaloga može biti odgođena ili čak neproduktivna. Stoga se ovdje, kao preporuke, vjerojatno može savjetovati ili zamoliti ljude da odu dalje od onoga na što su navikli i da problem formuliraju u najapstraktnijim terminima iz fizike. Djelomično to činimo i kada organiziramo natjecanja u sklopu naše IDAL olimpijade. U procesu dijaloga nalazimo postavku koja ne bi zahtijevala duboko uranjanje u fiziku, ali bi u isto vrijeme bila zanimljiva stručnjacima za strojno učenje.

Ove godine smo imali zajednički projekt satalijanski laboratorij koji traži tamnu tvar. Osigurali su sintetičke podatke za Olimpijske igre kako bi pronašli tu tamnu tvar. Tamo zapravo nema tamne tvari jer su simulirani raspadi poznate fizike: sudari elektrona i iona helija.  Ali sudari čestica tamne tvari mogli bi biti vrlo slični nekim od ovih sudara. Vrlo ih je teško simulirati, a još teže interpretirati. Stoga smo, posebno za ljude koji nisu stručnjaci u ovom području, odlučili ne izvlačiti ove podatke i ograničiti se samo na one koji su slični. Algoritmi koje ćemo vidjeti rade na približnim podacima, ali se mogu primijeniti i na stvarne podatke.

Andrej Ustjužanin. Fotografija iz arhive govornika

Ukratko, jedan način je dogovoriti jasne uvjete za sve, a drugi je utrošiti vrijeme i trud, pohađati ljetne škole, sudjelovati u praktičnim istraživačkim projektima.

Knjige o strojnom učenju i fizičkim eksperimentima koje je preporučio Andrey Ustyuzhanin:

Deepak Kar,Eksperimentalna fizika čestica: razumijevanje mjerenja i pretraživanja na Velikom hadronskom sudaraču,
Ilya Narsky,Tehnike statističke analize u fizici čestica: uklapanja, procjena gustoće i nadzirano učenje. 
Giuseppe Carleo,Strojno učenje i fizičke znanosti.

- Postoje li proturječnosti između vrijednosti fizičara i informatičara: na primjer, je li nekome važnija priroda interakcije ili, naprotiv, točnost?

— Ako govorimo konkretno o točnosti, vjerojatnonema dvosmislenosti. Ali to je vjerojatnije zbog činjenice da IT stručnjaci ne razumiju prirodu podataka. Samo, ako smo izmjerili podatke s točnošću od milimetra, onda nema smisla izračunavati površinu s točnošću od kvadratnih mikrona. U slučaju složenih neuronskih mreža suočeni smo s činjenicom da one proizvode informacije točne do zadnjeg znaka u mantisi, ali u tim znakovima nema više smisla nego u točnosti koja je bila na ulazu. 

Pa, možda opća želja za ljudekoji se bave ocjenjivanjem točnosti modela je dati ne samo apsolutne karakteristike, već i granice prihvatljivih raspona ili raspona u kojima su te vrijednosti dobivene. Zapravo dobra preporuka ne samo za one koji komuniciraju s fizičarima ili biolozima. Ovo je u načelu ispravan način održavanja prezentacije dobivenih rezultata.

A ako govorimo o tome koliko mogu bitirazličita očekivanja s jedne i s druge strane, onda su to zapravo sve radna pitanja. Ako postoji interes s obje strane, oni se mogu jednostavno i dobro riješiti. Odnosno, strojno učenje je sada traženo među fizičarima u širem smislu, jer pruža preciznije alate za rad s njihovim podacima. I radi u suprotnom smjeru, jer stručnjacima za strojno učenje može biti mnogo zanimljivije vidjeti kako njihovi algoritmi pomažu u otkrivanju novih čestica, na primjer, kao što je slučaj u našem laboratoriju. Dugo smo radili na stvaranju algoritma koji bi odredio vrstu čestice. A nedavno se pojavila vijest o otkriću novih tetrakvarkova, a naši su algoritmi izravno sudjelovali u njihovom otkriću. 

Dakle, za ljude iz IT-a, uvjetno iz Data Science,Računalne znanosti, osjećaj korisnosti algoritama koje razvijaju vrlo je važan. Stoga na našem fakultetu, primjerice, postoji Međunarodni laboratorij za bioinformatiku. 

Takve interakcije postaju sve češćesve normalniji. Ne znam mogu li se već sada smatrati mainstreamom ili još trebamo pričekati, ali ovako ili onako ova je priča neizbježna. Čak i ako pogledate radionice organizirane u sklopu današnjih vodećih konferencija o umjetnoj inteligenciji, radionica o korištenju umjetne inteligencije u fizičkim znanostima zauzima vodeće mjesto po broju zainteresiranih. 

Čitaj više:

Američki satelit "ugledao" je neobičnu poruku sa Zemlje

Objavljen video s rakete koja je lansirana iz eksperimentalnog akceleratora

Čudovište u središtu naše galaksije: pogledajte fotografiju crne rupe u Mliječnom putu

Geek Tech Online

Sve o tehnologiji i gadgetima

Lovci na anomalije: kako CERN traži rijetke čestice koristeći Yandex algoritme

Kako tražiti anomalije u podacima Velikog hadronskog sudarača

Simbioza fizike i IT-a: kako se strojno učenje koristi u LHC istraživanju

Kako tražiti tamnu tvar i zašto su za to potrebne neuronske mreže

Govore različite jezike, ali su ciljevi zajednički