Lovci anomálií: jak CERN hledá vzácné částice pomocí algoritmů Yandex

Andrej Usťuzhanin— Vedoucí výzkumné a vzdělávací laboratoře metod analýzy velkých dat na Vysoké ekonomické škole National Research University.

Vedoucí společných projektů mezi Yandex a CERN. Podílí se na vývoji služeb EventIndex a EventFilter, které Yandex poskytuje pro experiment LHCb od roku 2011. 

V roce 2000 absolvoval Moskevský institut fyziky a technologie, kandidát fyzikálních a matematických věd. Jeden z porotců mezinárodního finále Microsoft Imagine Cup, předtím byl mentorem týmu MIPT, který vyhrál pohár v roce 2005.

Jak hledat anomálie v datech Velkého hadronového urychlovače

Co jsou datové anomálie?

— Pokud mluvíme o údajích získaných pomocíVelký hadronový urychlovač (LHC), to mohou být objevy, které nezapadají do standardních představ o tom, jak tam dochází k rozpadům částic po srážkách protonů. Tyto objevy budou anomálie. 

Například pokud mluvíme o kotacích aktivna burze, pak mohou nastat anomálie v důsledku toho, že se jistý hedgeový fond rozhodl napumpovat aktivum nebo se Wall Street Bets rozhodly přivydělat si a založily svůj vlastní distribuovaný hedge fond. To znamená, že fyzika je úplně jiná a projev této fyziky v datech se také nepodobá jiným případům.

Pokud tedy mluvíme o anomáliích, musíme nejprve pochopit, o jakých datech a o jaké fyzice mluvíme. 

— Pak si to vyjasněme se zaměřením na srážeče.

- Tady je to trochu jednodušší, i když to také vznikáVidlička. Faktem je, že existují údaje o tom, jaké procesy probíhají s částicemi uvnitř detektoru. A existují údaje o tom, jak tento urychlovač funguje. Lidé, kteří se zajímají především o objevování nových částic nebo zákonitostí, se zajímají především o první typ dat. Faktem ale je, že vše, co se děje ve fyzice, prochází poměrně dlouhým řetězcem shromažďování a zpracovávání těchto informací. A pokud se některý z uzlů tohoto řetězce začne chovat ne tak dobře, jak jsme si představovali, to znamená, že překročí určité meze přípustnosti, dojde ke zkreslení měření. Můžeme vidět anomálie v místě, kde obecně ve fyzice nebyly.

Objevy, které nezapadají do standardních představ o tom, jak tam dochází k rozpadům částic, vznikajících po srážce protonů, budou anomálie

Aby se lidé vyhnuli takovým nepříjemným událostempíší speciální systémy kontroly kvality dat, které sledují všechna data v měřicích přístrojích a snaží se vyloučit z úvahy ta časová období, kdy existuje podezření, že se něco nedaří. 

Jeden z příkladů, o kterých lidé rádi mluvífyziků z LHC, bylo, že v raných fázích provozu urychlovače zaznamenali anomálie, které nezapadaly do fyzikálních konceptů. Ještě neexistoval LHC, ale jeho předchozí verze. V důsledku toho fyzici zjistili, že korelace je velmi vážná s jízdním řádem vlaků na železnici, která se nachází poblíž. A pokud provedete úpravy spojené s těmito výkyvy, získáte nefyzický obraz světa. 

Je třeba vzít v úvahu vnější faktory a umětpochopit, které z nich je třeba správně kompenzovat. Nejjednodušší řešení: vyhoďme data, která nezapadají do běžného obrazu světa. Složitější příběhy se mají pokusit vrátit tyto anomálie pomocí srozumitelných a fyzikálních principů do normálních dat a pokusit se z nich těžit. 

Vyhazování dat je plýtváním rozpočtovými prostředky. Každý kilobajt-megabajt má určitou cenu.

Andrey Ustyuzhanin, vedoucí výzkumné a vzdělávací laboratoře pro metody analýzy velkých dat na Vysoké ekonomické škole National Research University

- A jak tedy lze odhalit anomálii v těchto datech pomocí systému strojového učení?

— Existují dvě skupiny takových algoritmů, kterépracovat s anomáliemi. První skupina jednotřídních klasifikačních metod zahrnuje algoritmy, které využívají informace pouze o těch událostech, které jsou označeny jako dobré. To znamená, že se snaží postavit konvexní trup, který obepíná vše, co považujeme za správné. Logika je taková: vše, co přesahuje rámec této skořápky, budeme zvažovat anomálie. To znamená, že například 99 % dat je pokryto takovou skořápkou a vše ostatní vypadá jako něco podezřelého.

Další skupina algoritmů spoléhá na částečnéoznačení toho, co považujeme za špatné. V podstatě existuje soubor událostí, o kterých je známo, že mají nežádoucí výsledky. A pak při hledání anomálií dojde k problému klasifikace dvou tříd. Jedná se o běžný klasifikátor, který lze postavit na principech neuronových sítí nebo rozhodovacích stromů. 

Nuance je, že obvykle v úkolechanomálie, vzorek není vyvážený. To znamená, že počet pozitivních příkladů výrazně převyšuje počet negativních. Za takových podmínek nemusí standardní klasifikační algoritmy fungovat tak dobře, jak bychom chtěli. Funkce výchozí ztráty zachází s instancemi, které se kvalifikují správně, stejně a může přehlédnout skutečnost, že mezi 10 000 správnými výsledky je stovka, která se kvalifikují nesprávně. Tato stovka představuje pouze ty negativní příklady, které jsou nejzajímavější. Je jasné, že proti tomu lze bojovat například tím, že negativním příkladům přiřadíme větší váhu a s mnohem větší vahou zohledníme chyby při jejich klasifikaci.

Ztrátová funkce- funkce, která v teorii statistického rozhodování charakterizuje ztráty v důsledku nesprávného rozhodování na základě pozorovaných dat.

Příspěvek naší laboratoře k řešení problémuDetekce anomálií má navrhnout metody, které kombinují vlastnosti prvního a druhého přístupu. Tedy úkol pracovat s jednotřídkou a dvoutřídní klasifikací. Taková kombinace bude možná, pokud vytvoříme generativní modely anomálních příkladů. 

Použití přístupů, jako je generativníprotichůdné sítě nebo normalizační toky, můžeme se naučit obnovit ty příklady, které jsou označeny jako negativní, a vygenerovat extra vzorek, který umožní běžnému klasifikátoru pracovat s rozšířeným syntetickým vzorkem efektivněji. Tento přístup funguje dobře jak pro tabulková data, tak pro obrázky. Minulý rok o tom byl článek, který popisuje, jak se takový systém staví, a uvádí praktické příklady jeho použití.

— Zmínil jste práci s obrázky. Jak to v tomto případě funguje?

— Jsou příklady, na kterých jsme dílo ukázalitento algoritmus. Jednoduše si vybrali jednu z tříd obrázků: například ručně psaná čísla. A řekli, že nula je nějaká anomálie. A požádali neuronovou síť, která rozhoduje, že nuly nejsou jako všechno ostatní, aby byla přiřazena do negativní třídy. Přirozeně to mohou být nejen nuly, ale například i čísla, ve kterých jsou uzavřené cykly - 068 - nebo čísla s vodorovnými průsečíky. Nebo jednoduše obrázky otočené pod určitým úhlem vzhledem ke zbytku vzorku. 

"Fyziku můžeme za určitých podmínek simulovat."externí parametry s dobrou přesností a říkají, jaké pozorovatelné charakteristiky budou popisovat správné události signálu, například rozpad Higgsova bosonu “

Existuje datová sada zvaná omniglot -dopisy napsané v různých fontech. Existuje obrovské množství písem: z Futuramy, gotické, ručně psané z neoblíbených abeced - sanskrtu nebo hebrejštiny. Můžeme říci, že písmena v sanskrtu jsou anomálií, písmena psaná určitým rukopisem také.

Žádáme systém, aby se naučil vše rozlišovatzbytek z těchto anomálních symbolů. Hlavní věc je, že jsou mnohem menší než všechno ostatní. To je obtížnost práce s nimi pro konvenční algoritmy strojového učení.

Symbióza fyziky a IT: jak se strojové učení používá ve výzkumu LHC

— Jaké úkoly LHC jsou řešeny pomocí strojového učení?

— Jeden velký úkol, se kterým pracujeme, jeje urychlit výpočetní procesy, které simulují fyzikální srážky a rozpady částic. Faktem je, že rozhodnutí o tom, zda se dané události podobají určitým fyzikálním rozpadům či nikoli, je učiněno po analýze poměrně velkého počtu simulovaných rozpadů. Můžeme simulovat fyziku při určitých vnějších parametrech s dobrou přesností a říci, jaké pozorovatelné charakteristiky budou popisovat správné události signálu, například rozpad Higgsova bosonu. 

Existují však určitá upozornění:Ne vždy známe parametry, za kterých je třeba tyto rozpady generovat. Zpravidla o tom existuje určitá představa. A výzvou k nalezení správné fyziky je odlišit signální události od událostí na pozadí, které mohou být spojeny buď s nesprávným fungováním obnovovacích algoritmů, nebo s fyzikou jiných procesů, které jsou velmi podobné tomu, co se snažíme najít. Algoritmy strojového učení to dělají dobře, ale je to dobře známý příběh. 

Ale k trénování takových algoritmů je to nutnépoměrně velký statistický vzorek simulovaných událostí a výpočet těchto syntetických dat vyžaduje určité zdroje. Protože simulace jedné události zabere zhruba minutu nebo i deset minut výpočetního času moderních počítačových center. Vzhledem k tomu, že počet skutečných událostí, se kterými budou fyzici pracovat, v příštích letech řádově naroste, měl by se zvýšit i počet syntetizovaných událostí. Nyní výpočetní zdroje sotva stačí na pokrytí potřeb výzkumníků. Protože pro simulaci jedné události musíme spočítat interakci mikročástic se strukturou detektoru a simulovat odezvu, kterou uvidíme na senzorech tohoto detektoru s velmi vysokou přesností.

Myšlenkou zrychlení je trénovat neuronovou síťna událostech, které byly simulovány pomocí certifikovaného balíčku - GMT 4, který simuluje vše, co se děje uvnitř detektorů srážeče. Tento neuron se naučí porovnávat vstupy, parametry částic, které chceme simulovat, a výstupy – tedy ty pozorovatelné charakteristiky, které detektor produkuje. Neuronové sítě se dnes již poměrně dobře vyrovnávají s úlohou datové interpolace. A právě na to je zaměřeno několik projektů v naší laboratoři. Tedy obnovit charakteristiky rozpadů z dostupného syntetického vzorku, tedy vyrobit takové syntetiky druhého řádu. Je tu ale jedna nuance: výhodou neuronových sítí je, že je můžeme doladit pomocí reálných dat. To znamená, aby toto nastavení bylo přesnější pro konkrétní fyzický rozklad. 

Lidé, kteří se věnují plnohodnotnému fyzickémuSimulace, věnují tomu svůj čas a úsilí, ale s neurony je to o něco méně náročné na práci. A z výsledků, které jsme provedli pro experiment LHTV v CERNu a projekt experimentu Dubna MPD na urychlovači Nica, vyšlo najevo, že neuronové sítě mohou dosahovat velmi vysoké přesnosti při pokrytí fázového prostoru simulovaných událostí. Výrazně zrychlují proces výpočtu: objednávky a dokonce stovky rychleji než poctivá simulace.

— Jak se učí samotná neuronová síť? 

— V procesu učení nejsou žádné rozdíly.Je tu ale jedna zvláštnost: pro neuronovou síť je kromě trénovacího vzorku nutné formulovat kritéria kvality, tedy nastavit ztrátovou funkci, která by nejlépe odpovídala úkolu, který by tato síť měla dobře zvládnout. Kvalitu práce takové neuronové sítě navíc výzkumníci neposuzují: lze ji adekvátně posoudit z hlediska výpočetních kroků, ke kterým dochází v pozdější fázi zpracování dat. 

Můžeme určit, zda je simulace dobrá nebo neteprve poté, co události projdeme řetězcem jejich analýzy, rekonstrukce a pochopíme, že se z nich obnovují tytéž vlastnosti, které jsme do nich původně vložili. To znamená, že například použití jednoduché metriky MSE Mean Squared Error nestačí.

Střední kvadratická chyba MSE- měří střední kvadratický rozdíl mezi odhadovanými hodnotami a skutečnou hodnotou.

Chování neuronové sítě je třeba dále posoudit, vfunkce v rozsahu parametrů, které nemusí být přítomny v trénovací sadě. Vytváření takových modelů, které se chovají výrazně nad rámec hodnot parametrů známých ve fázi školení, je velký a teoretický úkol. 

Neuronové sítě jsou dobré v místech, kde jsouněco věděl ve fázi tréninku. Mimo ně mohou rozdávat, co chtějí. V našem případě je to obzvláště citlivé, protože na tom závisí správnost fyzikální interpretace reality kolem nás. 

"Pokud se částice temné hmoty rozpadne na částice, se kterými víme, jak interagovat, lze předpokládat, že tato částice temné hmoty skutečně byla."

- To znamená, že neuronová síť hledá vzácné události, které mohou nastat na urychlovači?

— Na základě fungování generativních modelů, tj.Za prvé, mluvíme o syntéze všeho, co se může stát. Děláme to s miniaturními modely. A na výstupu z takových sítí můžeme postavit model, který bude hledat to, co potřebujeme: co se nám podařilo vygenerovat na generativní neuronové síti.

Jak hledat temnou hmotu a proč jsou k tomu potřeba neuronové sítě

— Lze podobný princip hledání aplikovat na temnou hmotu?

- Faktem je, že temnou hmotu lze hledatrůzné způsoby. Jedním ze způsobů je postavit pořádný detektor, který dokáže poměrně dobře izolovat od vlivů běžné hmoty. Tedy blokovat signál, který pochází z částic známých fyzikům. Toto je pouze metoda eliminace: pokud detektor vidí něco jiného než hluk, pak vidí něco, co jsme nikdy předtím neviděli. Jednou z možností by bylo, že se jedná o částice temné hmoty.

Pokud například částice temné hmotyse rozpadá na částice, se kterými víme, jak interagovat, a je jasné, že stopy rozpadu se nemohly objevit odnikud, kromě ní, pak můžeme předpokládat, že tato částice temné hmoty skutečně byla.

Takové experimenty jsou diskutovány a plánovány.Jeden z nich se nazývá SHiP (Search for Hidden Particles). A mimochodem, pro takový experiment jsou také použitelné přístupy, o kterých jsem mluvil. Vyžaduje simulaci a algoritmy pro rozpoznání vzácných přístupů. Ale protože svítivost tohoto experimentu je mnohem nižší (svítivost je počet částic, které mají být detekovány za jednotku času), není potřeba simulovat velké množství podobných událostí tak akutní jako v případě Hadron Collider. detektory. I když například úkol spojený s posouzením kvality systému ochrany proti částicím známým fyzice vyžaduje simulaci docela velkého množství událostí. To je nezbytné, aby bylo zajištěno, že ochrana dobře funguje s obrovským množstvím přicházejících částic různých typů.

Loďje experiment zaměřený na hledání skrytýchčástice, včetně částic temné hmoty, v proudu částic z urychlovače SPS filtrovaných magnetickými poli, pětimetrová vrstva betonu a kovu. 

Existují i ​​jiné způsoby, jak hledat temnou hmotu,související s pozorováním vesmírných jevů. Jedním přístupem je zejména vytvoření citlivých prvků, které rozpoznávají směr velmi slabě interagujících částic v závislosti na úhlu dopadu této částice. Logika experimentu spočívá v tom, že je možné umístit citlivé prvky tak, aby byly orientovány podél vektoru pohybu Sluneční soustavy, tedy směrem k souhvězdí Labutě. Pak budeme schopni rozlišit částice, které se pohybují v souřadnicovém systému Země, od částic, které se pohybují jinak. Stejně jako nehybný éter, který je rozmístěn ve vesmíru podle svých vlastních zákonů, nijak nesouvisí s orientací a směrem pohybu planet. Jde jen o to, že místo éteru se předpokládá, že existují částice temné hmoty. Mohou slabě interagovat se senzory našeho experimentu. A analýzou jejich čtení je možné odvodit vzorce úhlového rozložení interagujících částic. Pokud uvidíme, že existuje vážná složka, která nezávisí na poloze Země ve vesmíru, bude to indikovat existenci dříve neznámých částic. A možná to budou kandidáti na částice temné hmoty. 

V takovém experimentu je velmi důležitá simulace,protože k sestavení algoritmu pro rozpoznávání signálových událostí si musíte představit, jak signál, který nás zajímá, vypadá. Proto jsou úlohy spojené s rychlou simulací a hledáním anomálií relevantní a aplikovatelné tam.

Mluví různými jazyky, ale cíle jsou společné

Pojďme se bavit o práci v CERNu. Jaké to je pro IT člověka pracovat s fyziky? Jaké vlastnosti jsou spojeny s prací v tak mezivědním prostoru, jakým je LHC?

- Dobrá otázka.Lidé skutečně mluví různými jazyky: dochází k tomu, že stejné pojmy jsou graficky znázorněny různými způsoby. Například ROC křivky, na které jsou specialisté na strojové učení zvyklí, se ve fyzice obvykle kreslí otočené o 90 stupňů. A souřadnice se nenazývají True Positive Rate a False Negative Rate, ale Signal efficiency a Background Reception. Navíc, pokud je účinnost signálu stále přesná, pak odmítnutí pozadí je jedna mínus Skutečná negativní frekvence. 

ROC-křivka (z anglického přijímače provozní charakteristika, provozní charakteristika přijímače)— graf, který umožňuje vyhodnotit kvalitu dvojhvězdyklasifikace. Zobrazuje vztah mezi podíly objektů z celkového počtu nositelů atributů, správně klasifikovaných jako nesoucích atribut, a podíly objektů z celkového počtu objektů nesoucích atribut, nesprávně klasifikovaných jako nesoucích atribut.

Je jasné, že takové věci mohou býtpovrchy a lze si na ně relativně snadno zvyknout, ale hlavní problémy spočívají v pochopení některých základních předpokladů, které výzkumníci při psaní svých prací dělají. A zpravidla jsou nad rámec toho, o čem píší. To znamená, že se jedná o nějaké tajné znalosti, které jsou předávány během školení člověka na postgraduální škole, v procesu práce na jeho výzkumných projektech se formují v jeho mysli. 

Pro lidi z jiného oboru vědy je to jakoodlišné kulturní prostředí. Pro ně nemusí být tyto předpoklady tak zřejmé. Vzhledem k tomu, že lexikon se ukazuje jako značně obsáhlý a odlišný, může být budování dialogu zdrženo nebo dokonce neproduktivní. Proto zde jako doporučení lze pravděpodobně doporučit buď požádat lidi, aby šli nad rámec toho, na co jsou zvyklí, a formulovali problém v nejabstraktnějších termínech z fyziky. Děláme to částečně, když pořádáme soutěže v rámci naší IDAL olympiády. V procesu dialogu najdeme nastavení, které by nevyžadovalo hluboké ponoření do fyziky, ale zároveň by bylo zajímavé pro specialisty na strojové učení.

Letos jsme měli společný projekt sitalská laboratoř, která hledá temnou hmotu. Poskytli syntetická data pro olympijské hry, aby našli tuto temnou hmotu. Temná hmota tam opravdu není, protože byly simulovány rozpady známé fyziky: srážky elektronů a iontů hélia.  Ale srážky částic temné hmoty by mohly být velmi podobné některým z těchto srážek. Je velmi obtížné je simulovat a ještě obtížnější je interpretovat. Proto jsme se zejména pro lidi, kteří nejsou specialisty v tomto oboru, rozhodli tato data nevytahovat a omezovat se pouze na podobná. Algoritmy, které uvidíme, fungují na přibližných datech, ale lze je aplikovat i na reálná data.

Andrej Usťuzhanin. Foto z archivu řečníka

Suma sumárum, jedna cesta je dohodnout se na jasných podmínkách pro všechny a druhá je trávit čas a úsilí, navštěvovat letní školy, účastnit se praktických výzkumných projektů.

Knihy o strojovém učení a fyzikálních experimentech doporučené Andrey Ustyuzhaninem:

  • Deepak Kar,Experimentální fyzika částic: Pochopení měření a hledání na velkém hadronovém urychlovači.
  • Ilya Narsky,Techniky statistické analýzy v částicové fyzice: proložení, odhad hustoty a kontrolované učení. 
  • Giuseppe Carleo,Strojové učení a fyzikální vědy. 

- Existují nějaké rozpory mezi hodnotami fyziků a IT specialistů: je například pro někoho důležitější povaha interakcí, nebo naopak přesnost?

— Pokud mluvíme konkrétně o přesnosti, pravděpodobněnení tam žádná dvojznačnost. Ale to je pravděpodobnější kvůli tomu, že IT specialisté nerozumí povaze dat. Jde jen o to, že pokud bychom naměřili data s přesností na milimetr, pak nemá smysl počítat plochu s přesností na čtvereční mikrony. V případě složitých neuronových sítí se setkáváme s tím, že produkují informace přesné do posledního znaménka v mantise, ale v těchto znacích není větší význam než v přesnosti, která byla na vstupu. 

No, možná obecné přání pro lidikteré se týkají vyhodnocování přesnosti modelů, je udávat nejen absolutní charakteristiky, ale také limity přijatelných rozsahů nebo rozpětí, ve kterém byly tyto hodnoty získány. Vlastně dobré doporučení nejen pro ty, kteří přicházejí do styku s fyziky nebo biology. Toto je v zásadě správný způsob, jak zachovat prezentaci získaných výsledků.

A když mluvíme o tom, jak moc mohou býtrůzná očekávání na jedné a na druhé straně, pak jsou to ve skutečnosti všechny pracovní problémy. Pokud je zájem na obou stranách, dají se jednoduše a dobře vyřešit. To znamená, že strojové učení je nyní mezi fyziky žádané v širokém slova smyslu, protože poskytuje přesnější nástroje pro práci s jejich daty. A funguje to i opačným směrem, protože pro specialisty na strojové učení může být mnohem zajímavější sledovat, jak jejich algoritmy pomáhají například při objevování nových částic, jako je tomu v naší laboratoři. Dlouho jsme pracovali na vytvoření algoritmu, který by určil typ částice. A nedávno se objevily zprávy o objevu nových tetrakvarků a naše algoritmy se na jejich objevu přímo podílely. 

Proto pro lidi z IT, podmíněně z Data Science,Počítačová věda, pocit užitečnosti algoritmů, které vyvíjejí, je velmi důležitý. Na naší fakultě proto například funguje Mezinárodní laboratoř bioinformatiky. 

Takových interakcí je stále vícečím dál normálnější. Nevím, jestli už je lze považovat za mainstream, nebo jestli si ještě musíme počkat, ale tak či onak je tento příběh nevyhnutelný. I když se podíváte na workshopy pořádané v rámci dnešních předních konferencí o umělé inteligenci, workshop o využití AI ve fyzikálních vědách zaujímá přední místo v počtu zájemců. 

Přečtěte si více:

Americká družice „zahlédla“ neobvyklou zprávu ze Země

Zveřejněno video z rakety, která byla vypuštěna z experimentálního urychlovače

Monstrum ve středu naší Galaxie: podívejte se na fotografii černé díry v Mléčné dráze