Ловци на аномалије: како ЦЕРН тражи ретке честице користећи Иандек алгоритаме

Андреј Устјужанин— Руководилац Истраживачко-образовне лабораторије за методе анализе великих података на Вишој економској школи Националног истраживачког универзитета.

Руководилац заједничких пројеката Иандек-а и ЦЕРН-а. Учествује у развоју услуга ЕвентИндек и ЕвентФилтер, које Иандек обезбеђује за експеримент ЛХЦб од 2011.&нбсп;

Дипломирао на Московском институту за физику и технологију 2000. године, кандидат физичко-математичких наука. Један од судија међународног финала Мицрософт Имагине Цупа, пре тога био је ментор тима МИПТ-а који је освојио куп 2005. године.

Како тражити аномалије у подацима Великог хадронског сударача

Шта су аномалије података?

— Ако говоримо о подацима добијеним коришћењемВелики хадронски сударач (ЛХЦ), ово могу бити открића која се не уклапају у стандардне идеје о томе како се распад честица дешава тамо након судара протона. Ова открића ће бити аномалије.&нбсп;

На пример, ако говоримо о квотама имовинена берзи, онда може доћи до аномалија због чињенице да је одређени хеџ фонд одлучио да пумпа средства или је Валл Стреет Бетс одлучио да заради додатни новац и оснује сопствени дистрибуирани хеџ фонд. То јест, физика је потпуно другачија, а манифестација ове физике у подацима такође није слична другим случајевима.

Дакле, ако говоримо о аномалијама, прво треба да схватимо о којим подацима и о којој физици је реч.&нбсп;

— Онда да разјаснимо са фокусом на судараче.

- Овде је мало лакше, мада и то настајевиљушка. Чињеница је да постоје подаци о томе какви се процеси дешавају са честицама унутар детектора. И постоје подаци о томе како овај колајдер ради. Људи који су првенствено заинтересовани за откривање нових честица или закона углавном су заинтересовани за прву врсту података. Али чињеница је да све што се дешава у физици пролази кроз прилично дуг ланац прикупљања и обраде ових информација. А ако било који од чворова овог ланца почне да се понаша не онако како смо замислили, односно пређе одређене границе дозвољеног, то доводи до изобличења у мерењима. Видимо аномалије на месту где их, генерално, није било у физици.

Открића која се не уклапају у стандардне идеје о томе како тамо долази до распада честица, насталих након судара протона, биће аномалије

Да би избегли такве непријатне догађаје, људипишу посебне системе за контролу квалитета података који прате све податке у мерним инструментима и покушавају да искључе из разматрања оне периоде када постоји сумња да нешто није у реду.&нбсп;

Један од примера о коме људи воле да причајуфизичари са ЛХЦ-а, је да су у раним фазама рада колајдера уочили аномалије које се нису уклапале у физичке концепте. Још није постојао ЛХЦ, већ његова претходна верзија. Као резултат тога, физичари су открили да је корелација веома озбиљна са распоредом возова на железници, која се налази у близини. А ако извршите прилагођавања повезана са овим флуктуацијама, добићете нефизичку слику света.&нбсп;

Неопходно је узети у обзир спољне факторе и уметиразумети које од њих треба правилно надокнадити. Најједноставније решење: избацимо податке који се не уклапају у уобичајену слику света. Сложеније приче су покушај да се ове аномалије, користећи разумљиве и физичке принципе, врате у нормалне податке и покушају да из њих извуку корист.&нбсп;

Избацивање података је трошење буџетских средстава. Сваки килобајт-мегабајт има одређену цену.

Андреј Устјужанин, руководилац Истраживачко-образовне лабораторије за методе анализе великих података на Високој школи економије Националног истраживачког универзитета

- И, сходно томе, како се може открити аномалија у овим подацима помоћу система машинског учења?

— Постоје две групе таквих алгоритама, којирад са аномалијама. Прва група метода једнокласне класификације обухвата алгоритме који користе информације само о оним догађајима који су означени као добри. То јест, они покушавају да изграде конвексни труп који обухвата све што сматрамо исправним. Логика је следећа: све што иде даље од ове љуске, сматраћемо аномалијама. То јест, на пример, 99% података је покривено таквом шкољком, а све остало изгледа као нешто сумњиво.

Друга група алгоритама се ослања на парцијалнеозначавајући оно што сматрамо погрешним. У суштини, постоји низ догађаја за које се зна да имају нежељене резултате. А онда се потрага за аномалијама своди на двокласни проблем класификације. Ово је обичан класификатор који се може изградити на принципима неуронских мрежа или стабала одлучивања.&нбсп;

Нијанса је у томе што обично у задацимааномалије, узорак није уравнотежен. Односно, број позитивних примера знатно премашује број негативних. У таквим условима, стандардни алгоритми класификације можда неће радити онако како бисмо желели. Подразумевана функција губитка третира инстанце које се исправно квалификују подједнако, и може превидети чињеницу да међу 10.000 тачних резултата има стотину оних који се квалификују нетачно. Ова стотинка управо представља оне негативне примере који су најзанимљивији. Јасно је да се против тога може борити, на пример, придавањем веће тежине негативним примерима, а узимајући у обзир грешке при њиховој класификацији са много већом тежином.

Функција губитка- функција која у теорији статистичких одлука карактерише губитке услед погрешног одлучивања на основу посматраних података.

Допринос наше лабораторије решавању проблемаДетекција аномалија је предлагање метода које комбинују карактеристике првог и другог приступа. Односно задатак рада са једноразредном и дворазредном класификацијом. Таква комбинација постаје могућа ако градимо генеративне моделе аномалних примера.&нбсп;

Користећи приступе као што су генеративнисупротстављеним мрежама или нормализујућим токовима, можемо научити да повратимо оне примере који су означени као негативни и генеришемо додатни узорак који ће омогућити редовном класификатору да ефикасније ради са проширеним синтетичким узорком. Овај приступ добро функционише и за табеларне податке и за слике. О томе је био чланак прошле године, који описује како се такав систем гради, и даје практичне примере његове употребе.

— Поменули сте рад са сликама. Како то функционише у овом случају?

— Има примера у којима смо приказали радовај алгоритам. Једноставно су изабрали једну од класа слика: на пример, ручно писане бројеве. И рекли су да је нула нека врста аномалије. И тражили су да се неуронска мрежа, која одлучује да нуле нису као све остало, додели негативној класи. Наравно, то могу бити не само нуле, већ и, на пример, бројеви унутар којих постоје затворени циклуси - 068 - или бројеви са хоризонталним пресецима. Или једноставно слике ротиране под неким углом у односу на остатак узорка.&нбсп;

„Можемо симулирати физику под одређенимспољни параметри са добром тачношћу и кажу које карактеристике ће описати тачне сигналне догађаје, на пример, распад Хигсовог бозона "

Постоји скуп података који се зове омниглот -слова написана различитим фонтовима. Постоји огроман број фонтова: од Футураме, готског, руком писаног од непопуларних алфабета - санскрита или хебрејског. Можемо рећи да су слова на санскриту аномалија, слова исписана одређеним рукописом су такође.

Тражимо од система да научи да разликује свеостало од ових аномалних симбола. Главна ствар је да су много мањи од свега осталог. Ово је тешкоћа рада са њима за конвенционалне алгоритме машинског учења.

Симбиоза физике и ИТ: како се машинско учење користи у ЛХЦ истраживању

— Који задаци ЛХЦ-а се решавају уз помоћ машинског учења?

— Један велики задатак са којим радимо јеје да се убрзају рачунски процеси који симулирају физичке сударе и распад честица. Чињеница је да се одлука о томе да ли су дати догађаји слични одређеним физичким распадима или не доноси након анализе прилично великог броја симулираних распада. Можемо да симулирамо физику на одређеним спољним параметрима са добром тачношћу и кажемо које карактеристике које се могу посматрати ће описати тачне сигналне догађаје, на пример, распад Хигсовог бозона.&нбсп;

Али постоје одређена упозорења:Не знамо увек параметре под којима се ови распади морају генерисати. По правилу, постоји одређена идеја о томе. А изазов проналажења праве физике је разликовати догађаје сигнала од позадинских догађаја, који могу бити повезани или са нетачним радом алгоритама за опоравак, или са физиком других процеса који су веома слични ономе што покушавамо да пронађемо. Алгоритми машинског учења то добро раде, али то је добро позната прича.&нбсп;

Али за обуку таквих алгоритама је потребноприлично велики статистички узорак симулираних догађаја, а израчунавање ових синтетичких података захтева одређене ресурсе. Јер симулација једног догађаја траје око минут или чак десет минута рачунарског времена савремених рачунарских центара. Због чињенице да ће се број стварних догађаја са којима ће физичари радити у наредним годинама повећати за редове величине, требало би да се повећа и број синтетизованих догађаја. Сада су рачунарски ресурси једва довољни да покрију потребе истраживача. Јер да бисмо симулирали један догађај, морамо израчунати интеракцију микрочестица са структуром детектора и симулирати одговор који ћемо видети на сензорима овог детектора са веома високом тачношћу.

Идеја убрзања је обука неуронске мрежена догађаје који су симулирани коришћењем сертификованог пакета - ГМТ 4, који симулира све што се дешава унутар детектора колајдера. Овај неурон ће научити да упореди улазе, параметре честица које желимо да симулирамо и излазе - оне видљиве карактеристике које детектор производи. Неуронске мреже данас се већ прилично добро носе са задатком интерполације података. И неколико пројеката у нашој лабораторији усмерено је управо на то. Односно, обновити карактеристике распада из расположивог синтетичког узорка, односно направити такву синтетику другог реда. Али постоји нијанса: предност неуронских мрежа је у томе што можемо да их фино подесимо користећи стварне податке. Односно, учините ово подешавање прецизнијим за одређени физички распад.&нбсп;

Људи који се баве пуноправним физичкимсимулација, они троше своје време и труд на ово, али са неуронима испада мало мање радно интензивно. А из резултата које смо урадили за ЛХТВ експеримент у ЦЕРН-у и пројекат експеримента Дубна МПД у акцелератору Ника, постало је јасно да неуронске мреже могу постићи веома високу тачност у покривању фазног простора симулираних догађаја. Они значајно убрзавају процес израчунавања: наруџбине и чак стотине брже од поштене симулације.

— Како сама неуронска мрежа учи?&нбсп;

— Нема разлика у процесу учења.Али постоји једна посебност: за неуронску мрежу, поред узорка за обуку, потребно је формулисати критеријуме квалитета, односно поставити функцију губитка која би најбоље одговарала задатку са којим би ова мрежа требало да се добро носи. Осим тога, квалитет рада такве неуронске мреже не оцењују истраживачи: он се може адекватно проценити у смислу рачунских корака који се јављају у каснијој фази обраде података.&нбсп;

Да бисмо утврдили да ли је симулација добра или не, можемотек након што догађаје прођемо кроз ланац њихове анализе, реконструкције, и схватимо да се из њих враћају исте карактеристике које смо првобитно у њих положили. То значи да, на пример, коришћење једноставне метрике средње квадратне грешке МСЕ није довољно.

МСЕ средња квадратна грешка- мери средњу квадратну разлику између процењених вредности и стварне вредности.

Понашање неуронске мреже треба даље проценити, укарактеристике на опсезима параметара који можда нису били присутни у скупу за обуку. Изградња таквих модела који се понашају знатно изнад вредности параметара познатих у фази обуке је велики и теоријски задатак.&нбсп;

Неуронске мреже су добре на местима на којима сузнао нешто у фази обуке. Изван њих, они могу да дају шта год желе. У нашем случају је то посебно осетљиво, јер од тога зависи исправност физичког тумачења стварности око нас.&нбсп;

„Ако се честица тамне материје распадне на честице са којима знамо како да комуницирамо, може се претпоставити да је та честица тамне материје заиста била“

- То јест, неуронска мрежа тражи ретке догађаје који се могу десити на сударачу?

— На основу рада генеративних модела, тј.Прво, говоримо о синтези свега што се може догодити. То радимо са минијатурним моделима. И на излазу таквих мрежа, можемо изградити модел који ће тражити оно што нам је потребно: оно што смо успели да генеришемо на генеративној неуронској мрежи.

Како тражити тамну материју и зашто су за то потребне неуронске мреже

— Може ли се сличан принцип претраживања применити на тамну материју?

- Чињеница је да се тамна материја може тражитиразличити начини. Један од начина је да се направи одговарајући детектор који може прилично добро да изолује од ефеката обичне материје. То јест, да блокира сигнал који долази од честица познатих физичарима. Ово је само метод елиминације: ако детектор види нешто осим буке, онда види нешто што никада раније нисмо видели. Једна од могућности би била да су то честице тамне материје.

Ако је, на пример, честица тамне материјераспада на честице са којима знамо да комуницирамо, а јасно је да се трагови распадања нису могли појавити нигде осим од њега, онда можемо претпоставити да је ова честица тамне материје заиста била.

О таквим експериментима се расправља и планира.Један од њих се зове СХиП (Сеарцх фор Хидден Партицлес). И, иначе, за такав експеримент су применљиви и приступи о којима сам говорио. Захтева симулацију и алгоритме за препознавање ретких приступа. Али пошто је луминозност овог експеримента много мања (светлост је број честица које је планирано да се детектују у јединици времена), потреба да се симулира велики број сличних догађаја није тако акутна као у случају хадронског колајдера. детектори. Иако, на пример, задатак везан за процену квалитета система заштите од честица познатих физици захтева симулацију прилично великог броја догађаја. Ово је неопходно како би се осигурало да заштита добро функционише са огромним бројем улазних честица разних врста.

СХиПје експеримент који има за циљ проналажење скривенихчестице, укључујући честице тамне материје, у струји честица из СПС акцелератора филтрираног магнетним пољима, слој бетона и метала од пет метара.&нбсп;

Постоје и други начини за тражење тамне материје,везано за посматрања свемирских појава. Конкретно, један приступ је изградња осетљивих елемената који препознају правац честица са врло слабом интеракцијом у зависности од упадног угла ове честице. Логика експеримента је да је могуће поставити осетљиве елементе тако да буду оријентисани дуж вектора кретања Сунчевог система, односно према сазвежђу Лабуд. Тада ћемо моћи да разликујемо честице које се крећу у Земљином координатном систему од честица које се крећу другачије. Попут непокретног етра, који се у свемиру распоређује по сопственим законима, ни на који начин није повезан са оријентацијом и правцем кретања планета. Само што се уместо етра претпоставља да постоје честице тамне материје. Они могу слабо да комуницирају са сензорима нашег експеримента. А анализом њихових очитавања могуће је извући обрасце угаоних дистрибуција честица у интеракцији. Ако видимо да постоји озбиљна компонента која не зависи од положаја Земље у свемиру, то ће указивати на постојање раније непознатих честица. А можда ће то бити кандидати за честице тамне материје.&нбсп;

У таквом експерименту, симулација је веома важна,јер да бисте изградили алгоритам за препознавање сигналних догађаја, потребно је да замислите како изгледа сигнал који нас занима. Стога су задаци везани за брзу симулацију и тражење аномалија релевантни и применљиви тамо.

Говоре различите језике, али су циљеви заједнички

Хајде да причамо о раду у ЦЕРН-у. Како је ИТ особи да ради са физичарима? Које карактеристике су повезане са радом у таквом међунаучном простору као што је ЛХЦ?

- Добро питање.Заиста, људи говоре различите језике: долази до тога да су исти концепти графички представљени на различите начине. На пример, РОЦ криве, на које су стручњаци за машинско учење навикли, обично се цртају у физици ротираним за 90 степени. А координате се не зову истинита позитивна стопа и лажна негативна стопа, већ ефикасност сигнала и одбијање позадине. Штавише, ако је ефикасност сигнала и даље Прецизна, онда је одбијање у позадини један минус права негативна стопа.&нбсп;

РОЦ-крива (од енглеске радне карактеристике пријемника, радна карактеристика пријемника)— график који вам омогућава да процените квалитет бинарног записакласификације. Приказује однос између удела објеката из укупног броја носилаца атрибута, који су исправно класификовани као носиоци атрибута, и удела објеката из укупног броја објеката који не носе атрибут, погрешно класификованих као носилаца атрибута.

Јасно је да такве ствари могу битиповршине и на њих се релативно лако навићи, али главни изазови леже у разумевању неких од основних претпоставки које истраживачи постављају када пишу своје радове. И, по правилу, превазилазе оно о чему пишу. Односно, то је неко тајно знање које се преноси током школовања човека на постдипломским студијама, у процесу рада на његовим истраживачким пројектима, формира се у његовом уму.&нбсп;

За људе из друге области науке, то је каодругачије културно окружење. За њих ове претпоставке можда нису тако очигледне. Због чињенице да се лексика испоставља прилично обимна и различита, изградња дијалога може бити одложена или чак непродуктивна. Стога се овде, као препоруке, вероватно може саветовати или да се од људи тражи да оду даље од онога на шта су навикли и да проблем формулишу најапстрактнијим терминима из физике. Делимично то радимо и када организујемо такмичења у оквиру наше ИДАЛ олимпијаде. У процесу дијалога налазимо поставку која не би захтевала дубоко урањање у физику, али би у исто време била интересантна за стручњаке за машинско учење.

Ове године смо имали заједнички пројекат саиталијанска лабораторија која тражи тамну материју. Они су обезбедили синтетичке податке за Олимпијске игре како би пронашли ову тамну материју. Тамо заиста нема тамне материје, јер су симулирани распади познате физике: судари електрона и јона хелијума.&нбсп; Али судари честица тамне материје могу бити веома слични неким од ових судара. Веома их је тешко симулирати и још теже интерпретирати. Стога смо, посебно за људе који нису специјалисти у овој области, одлучили да не извлачимо ове податке и ограничимо се само на оне који су слични. Алгоритми које ћемо видети раде на приближним подацима, али се могу применити и на стварне податке.

Андреј Устјужанин. Фотографија из архиве говорника

Да сумирамо, један начин је да се договоримо о јасним условима за све, а други је да утрошимо време и труд, похађамо летње школе, учествујемо у практичним истраживачким пројектима.

Књиге о машинском учењу и физичким експериментима које препоручује Андреј Устјужанин:

  • Деепак Кар,Експериментална физика честица: Разумевање мерења и претраживања на Великом хадронском сударачу.
  • Иља Нарски,Технике статистичке анализе у физици честица: уклапања, процена густине и надгледано учење.&нбсп;
  • Ђузепе Карлео,Машинско учење и физичке науке.&нбсп;

- Да ли постоје контрадикције између вредности физичара и ИТ стручњака: на пример, да ли је некоме важнија природа интеракције или, напротив, тачност?

— Ако говоримо конкретно о тачности, вероватнонема двосмислености. Али то је вероватније због чињенице да ИТ стручњаци не разумеју природу података. Само ако смо податке измерили са тачношћу од милиметра, онда нема смисла рачунати површину са тачношћу од квадратних микрона. У случају сложених неуронских мрежа, суочени смо са чињеницом да оне производе информације тачне до последњег знака у мантиси, али у тим знацима нема више смисла него у тачности која је била на улазу.&нбсп;

Па, можда општа жеља за људекоји се баве проценом тачности модела је да дају не само апсолутне карактеристике, већ и границе прихватљивих опсега или ширења у којима су ове вредности добијене. У ствари, добра препорука не само за оне који комуницирају са физичарима или биолозима. Ово је, у принципу, исправан начин одржавања презентације добијених резултата.

А ако говоримо о томе колико могу битиразличита очекивања на једној и на другој страни, онда су то, заправо, радна питања. Ако постоји интерес са обе стране, они се могу једноставно и добро решити. То јест, машинско учење је сада тражено међу физичарима у ширем смислу, јер пружа тачније алате за рад са њиховим подацима. А ради у супротном смеру, јер стручњацима за машинско учење може бити много интересантније да виде како њихови алгоритми помажу у откривању нових честица, на пример, као што је случај у нашој лабораторији. Дуго смо радили на стварању алгоритма који би одредио врсту честице. А недавно су се појавиле вести о открићу нових тетракваркова и наши алгоритми су директно учествовали у њиховом откривању.&нбсп;

Дакле, за људе из ИТ-а, условно из Дата Сциенце-а,Рачунарство, осећање корисности алгоритама које развијају је веома важно. Дакле, на нашем факултету, на пример, постоји Међународна лабораторија за биоинформатику.&нбсп;

Такве интеракције постају све чешћесве нормалније. Не знам да ли се већ могу сматрати мејнстримом или још треба да чекамо, али на овај или онај начин ова прича је неизбежна. Чак и ако погледате радионице организоване у оквиру данашњих водећих конференција о вештачкој интелигенцији, радионица о употреби вештачке интелигенције у физичким наукама заузима водеће место по броју заинтересованих.&нбсп;

Опширније:

Амерички сателит је „видео” необичну поруку са Земље

Објављен видео снимак са ракете, која је лансирана из експерименталног акцелератора

Чудовиште у центру наше Галаксије: погледајте фотографију црне рупе на Млечном путу