Мисливці за аномаліями: як у CERN шукають рідкісні частки за допомогою алгоритмів «Яндекса»

Андрій Устюжанін - Завідувач науково-навчальної лабораторії методів аналізу великих даних у НДУ ВШЕ.

Керівник спільних проектів «Яндекса» та CERN. Бере участь у розробці сервісів EventIndex та EventFilter, які Яндекс надає для експерименту LHCb з 2011 року.

Закінчив МФТІ у 2000 році, кандидат фізико-математичних наук. Один із суддів міжнародного фіналу Microsoft Imagine Cup, до цього був ментором команди МФТІ, яка виграла кубок у 2005 році.

Як шукають аномалії у даних Великого адронного коллайдера

- Що таке аномалії в даних?

— Якщо говорити про дані, отримані за допомогоюВеликого адронного коллайдера (БАК), це можуть бути відкриття, які не вкладаються в стандартні уявлення про те, як відбуваються розпади частинок, що виникають після зіткнення протонів. Ці відкриття і будуть аномаліями.

Наприклад, якщо ми говоримо про котирування активівна біржі, там аномалії можуть бути пов'язані з тим, що якийсь хедж-фонд вирішив прокачати актив або Wall Street Bets вирішили підзаробити і влаштували свій розподілений хедж-фонд. Тобто і фізика зовсім різна, і прояв цієї фізики в даних також не схожі на інші кейси.

Тому якщо говорити про аномалії, то спочатку потрібно зрозуміти, про які дані та яку фізику ми говоримо.

— Тоді уточнимо з фокусом на колайдери.

— Тут трохи простіше, хоч теж виникаєрозвилка. Справа в тому, що є дані про те, що за процеси відбуваються з частинками всередині детектора. А є дані, як працює цей колайдер. Людей, які цікавляться передусім відкриттям нових частинок чи законів, переважно цікавить перший тип даних. Але справа в тому, що все, що відбувається з фізики, проходить через досить довгий ланцюжок збору та обробки цієї інформації. І якщо якийсь із вузлів цього ланцюжка починає поводитися не так добре, як ми уявляли, тобто виходить за певні рамки допустимого, це вносить спотворення у виміри. Ми можемо побачити аномалії в тому місці, в яких їх загалом у фізиці і не було.

Відкриття, які не укладаються у стандартні уявлення про те, як проходять там розпади частинок, що виникають після зіткнення протонів, є аномаліями.

Щоб уникнути таких неприємних подій, людипишуть спеціальні системи контролю якості даних, які моніторять усі дані у вимірювальних інструментах та намагаються виключити з розгляду ті періоди часу, коли є підозра про те, що щось йде не так.

Один із прикладів, про який люблять розповідатифізики з ВАК, полягав у тому, що на ранніх етапах роботи коллайдера вони помітили аномалії, які не вписувалися у фізичні уявлення. Ще був не ВАК, а його попередня версія. У результаті фізики з'ясували, що кореляція дуже серйозна з розкладом руху поїздів на залізниці, що знаходиться неподалік. І якщо вносити корективи, пов'язані з цими коливаннями, виходить нефізична картина світу.

Необхідно враховувати зовнішні фактори та вмітирозуміти, які з них потрібно правильно компенсувати. Найпростіше рішення: давайте викинемо ті дані, які не вкладаються у звичну картину світу. Більш складні історії полягають у тому, щоб ці аномалії спробувати з використанням зрозумілих та фізичних принципів повернути в русло нормальних даних та спробувати отримати з них користь.

Викидати дані — це витрати бюджетних коштів. Кожен кілобайт-мегабайт має певну ціну.

Андрій Устюжанін, завідувач науково-навчальної лабораторії методів аналізу великих даних у НДУ ВШЕ

— І, відповідно, як за допомогою системи з машинним навчанням можна виявити в цих даних ту саму аномалію?

— Є дві групи таких алгоритмів, якіпрацюють із аномаліями. У першій групі методів однокласової класифікації знаходяться алгоритми, які використовують інформацію тільки про події, які позначені як хороші. Тобто, вони намагаються побудувати опуклу оболонку, яка охоплює все, що ми вважаємо правильним. Логіка така: все, що виходить за рамки цієї оболонки, вважатимемо аномаліями. Тобто, наприклад, 99% даних такою оболонкою покриваються, а решта виглядає як щось підозріле.

Інша група алгоритмів спирається на частковурозмітку те, що ми вважаємо неправильним. По суті, є набір подій, про які точно відомо, що це небажані результати. І тоді пошук аномалій зводиться до завдання двокласової класифікації. Це звичайний класифікатор, який можна побудувати на принципах нейронних мереж чи деревах рішень.

Нюанс полягає в тому, що зазвичай у завданняханомалій вибірка не збалансована. Тобто кількість позитивних прикладів значно перевищує кількість негативних. У таких умовах стандартні алгоритми класифікації можуть працювати не так добре, як хотілося б. Функція втрат за замовчуванням однаково розцінює приклади, які правильно класифікуються, і може не звернути увагу, що серед 10 000 правильних результатів є сотня тих, що кваліфікувалися неправильно. Ця сотня якраз представляє ті негативні приклади, які найцікавіші. Зрозуміло, що з цим можна боротися, наприклад, надавши негативним прикладам більшу вагу, і враховувати помилки з їхньою класифікацією зі значною вагою.

Функція втрат - Функція, яка в теорії статистичних рішень характеризує втрати при неправильному прийнятті рішень на основі даних, що спостерігаються.

Внесок нашої лабораторії у вирішення задачівиявлення аномалій полягає у реченні методів, які поєднують у собі особливості першого та другого підходу. Тобто завдання роботи з однокласовою та двокласовою класифікацією. Таке суміщення стає можливим, якщо побудувати генеративні моделі аномальних прикладів.

Використовуючи такі підходи, як генеративнізмагальні мережі або нормуючі потоки, ми можемо навчитися відновлювати ті приклади, які позначені як негативні, і генерувати додаткову вибірку, яка дозволить звичайному класифікатору працювати з доповненою синтетичною вибіркою ефективніше. Такий підхід добре поводиться і у разі табличних даних, і у разі роботи із зображеннями. Про це була стаття минулого року, яка описує, як така система будується, та наводить практичні приклади її використання.

— Ви сказали про роботу із зображеннями. Як це працює у цьому випадку?

— Є приклади, на яких ми показували роботуцього алгоритму. Просто вибирали один із класів зображень: наприклад, рукописні цифри. І казали, що нуль – це якась аномалія. І просили нейронну мережу, яка приймає рішення про те, що нулики не схожі на решту, віднести до негативного класу. Природно, це можуть бути не лише нулі, а й, наприклад, цифри, всередині яких є замкнуті цикли – 068 – чи цифри з горизонтальними перетинами. Або просто зображення, повернені на якийсь кут по відношенню до всієї решти вибірки.

«Ми можемо просимулювати фізику за певнихзовнішніх параметрах з хорошою точністю і сказати, якими спостерігаються характеристиками описуватимуться правильні сигнальні події, наприклад, розпад бозона Хіггса»

Є датасет, який називається омніглот.літери, написані різними шрифтами. Там безліч шрифтів: з Futurama, готичні, рукописні з непопулярних алфавітів — санскриту чи івриту. Можна сказати, що літери на санскриті — це аномалія, літери, написані певним почерком, — також.

Ми просимо систему навчитися розрізняти всерешта цих аномальних символів. Головне, що їх набагато менше, ніж решта. У цьому полягає складність роботи з ними для стандартних алгоритмів машинного навчання.

Симбіоз фізики та ІТ: як застосовують машинне навчання в дослідженнях ВАК

- Які завдання ВАК вирішуються за допомогою машинного навчання?

— Одне велике завдання, з яким ми працюємо,полягає у прискоренні обчислювальних процесів, які симулюють фізичні зіткнення та розпади частинок. Справа в тому, що ухвалення рішення про те, схожі дані події на певні фізичні розпади чи ні, приймається після аналізу досить великої кількості симульованих розпадів. Ми можемо просимулювати фізику при певних зовнішніх параметрах з хорошою точністю і сказати, якими спостерігаються характеристиками описуватимуться правильні сигнальні події, наприклад, розпад бозона Хіггса.

Але є певні застереження:Не завжди ми знаємо параметри, у яких потрібно згенерувати ці розпади. Як правило, є певне уявлення про це. І завдання пошуку правильної фізики полягає в тому, щоб відрізнити сигнальні від фонових подій, які можуть бути пов'язані або з неправильною роботою алгоритмів відновлення або з фізикою інших процесів, які дуже схожі на те, що ми намагаємося знайти. З цим завданням добре справляються алгоритми машинного навчання, але це досить відома історія.

Але для навчання таких алгоритмів потрібноДосить велика статистична вибірка симульованих подій, а обчислення цих синтетичних даних потребує певних ресурсів. Тому що на симуляцію однієї події йде близько хвилини або навіть десятка хвилин обчислювального часу сучасних комп'ютерних центрів. Через те, що кількість реальних подій, з якими працюватимуть фізики, збільшиться на порядки найближчими роками, кількість синтезованих подій теж має збільшитись. Наразі обчислювальних ресурсів ледве вистачає на те, щоб покрити потреби дослідників. Тому що для симуляції однієї події доводиться розраховувати взаємодію мікрочастинок із структурою детектора та симулювати той відгук, який ми побачимо на сенсорах цього детектора з дуже високою точністю.

Ідея прискорення полягає у навчанні нейромережіна подіях, які були зімітовані за допомогою сертифікованого пакета - GMT 4, за допомогою якого симулюється все, що відбувається всередині детекторів колайдера. Ця нейронка навчиться зіставляти входи, параметри частинок, які ми хочемо просимулювати, і виходи - ті характеристики, які видає детектор. Нейросети сьогодні вже досить добре справляються із завданням інтерполяції даних. І кілька проектів нашої лабораторії націлені саме на це. Тобто відновлення характеристик розпадів по наявної синтетичної вибірці, тобто зробити таку синтетику другого порядку. Але є нюанс: перевага нейромереж полягає в тому, що ми можемо їх доналаштувати з використанням реальних даних. Тобто зробити це налаштування акуратнішим під конкретний фізичний розпад.

Люди, які займаються повноцінною фізичноюсимуляцією, цього витрачають свій час і сили, але з нейронками це виходить трохи менш трудомістким. І за результатами, які ми робили для експерименту LHTV у CERN та проекту з експериментом MPD у Дубні на прискорювачі Nica, стало зрозуміло, що нейромережі можуть досягати дуже високої точності покриття фазового простору симульованих подій. Вони значно прискорюють процес обчислень: на порядки і навіть сотні швидше ніж чесна симуляція.

- А як відбувається саме навчання нейронної мережі?

— Якихось відмінностей у процесі навчання немає.Але є одна особливість: для нейромережі, крім навчальної вибірки, необхідно сформулювати критерії якості, тобто задати функцію втрат, яка максимально відповідала тій задачі, з якою ця сітка повинна добре справлятися. Крім того, якість роботи такої нейромережі оцінюється не дослідниками: його можна адекватно оцінити з точки зору кроків обчислень, що відбуваються на пізнішому етапі обробки даних.

Визначити, чи хороша симуляція чи ні, ми зможемотільки після того, як пропустимо події через ланцюжок їх аналізу, реконструкції, і зрозуміємо, що з них відновлюються ті самі характеристики, які ми заклали у них спочатку. Це означає, що, наприклад, використовувати просту метрику MSE Mean Squared Error недостатньо.

MSE Mean Squared Error, середньоквадратична помилка - Вимірює середньоквадратичну різницю між оціночними значеннями і фактичним значенням.

Поведінку нейромережі потрібно оцінювати і надалі,особливості на діапазонах параметрів, які, можливо, були присутні у навчальної вибірці. Побудова таких моделей, які добре поводяться за межами значень параметрів, відомих на етапі навчання, — велике і теоретичне завдання.

Нейросети хороші в тих місцях, де вонизнали щось на етапі навчання. За їх межами вони можуть видавати все, що їм заманеться. У нашому випадку це особливо чутливо, тому що від цього залежить правильність фізичної інтерпретації дійсності, що нас оточує.

«Якщо частка темної матерії розпадається на частинки, з якими ми знаємо, як взаємодіяти, можна припустити, що ця частка темної матерії справді була»

— Тобто, нейромережа займається пошуком рідкісних подій, які можуть статися на колайдері?

— На основі роботи генеративних моделей, тобтоПерш за все говоримо про з'єднання всього того, що може відбуватися. Ми це робимо за допомогою мініатюрних моделей. І на виході таких мереж ми можемо побудувати модель, яка шукатиме, що нам потрібно: те, що ми зуміли згенерувати на генеративній нейромережі.

Як шукати темну матерію і навіщо для цього потрібні нейромережі

— Чи можна прикласти аналогічний принцип пошуку до темної матерії?

— Справа в тому, що темну матерію можна шукатирізними способами. Один із способів полягає в побудові правильного детектора, який може добре ізолюватися від ефектів звичайної матерії. Тобто заблокувати сигнал, який надходить від відомих фізикам частинок. Це просто метод виключення: якщо детектор бачить щось, окрім шуму, то він бачить те, що ми раніше не бачили ніколи. Однією з можливостей буде те, що це частинки темної матерії.

Якщо, наприклад, частка темної матеріїрозпадається на частинки, з якими ми знаємо, як взаємодіяти, і зрозуміло, що сліди розпаду не могли з'явитися звідки, крім як з неї, можна припустити, що ця частка темної матерії дійсно була.

Такі експерименти обговорюються та плануються.Один із них називається SHiP (Search for Hidden Particles). І, до речі, для такого експерименту ті підходи, про які я говорив, також можна застосувати. Там потрібна симуляція та алгоритми розпізнавання рідкісних підходів. Але оскільки світність цього експерименту набагато менша (світність — це кількість частинок, які планують детектувати в одиницю часу), то необхідність симуляції великої кількості однотипних подій не є такою гострою, як у випадку з детекторами адронного коллайдера. Хоча, наприклад, завдання, пов'язане з оцінкою якості роботи захисної системи від відомих фізики частинок, вимагає симуляції досить великої кількості подій. Це необхідно для того, щоб переконатися, що захист працює добре при колосальній кількості частинок різного виду, що прилітають.

SHiP - Це експеримент, спрямований на пошук прихованих частинок, у тому числі частинок темної матерії, у відфільтрованому магнітними полями, п'ятиметровим шаром бетону і потоці металу частинок від прискорювача SPS.

Є й інші способи пошуку темної матерії,пов'язані зі спостереженнями за космічними явищами. Зокрема один із підходів полягає у побудові чутливих елементів, які розпізнають напрямок дуже слабко взаємодіючих частинок залежно від кута падіння цієї частки. Логіка експерименту полягає в тому, що можна помістити чутливі елементи так, щоб вони були орієнтовані на вектор руху Сонячної системи, тобто до сузір'я Лебідь. Тоді ми зможемо відрізняти частинки, що рухаються у системі координат Землі, від частинок, що рухаються по-іншому. Подібно до нерухомого ефіру, який розподілений у космічному просторі за своїми законами, ніяк не пов'язаним з орієнтацією та напрямом руху планет. Просто замість ефіру передбачається, що є частинки темної матерії. Вони можуть слабко взаємодіяти з датчиками нашого експерименту. І, аналізуючи їх показання, можна вивести закономірності кутових розподілів взаємодіючих частинок. Якщо побачимо, що є серйозна складова, яка не залежить від положення Землі у просторі, це свідчить про існування раніше невідомих частинок. І можливо, це будуть кандидати на частинки темної матерії.

У такому експерименті симуляція досить важлива,тому що для побудови алгоритму розпізнавання сигнальних подій потрібно уявляти, як виглядає цікавий для нас сигнал. Тому завдання, пов'язані з швидкою симуляцією та пошуком аномалій, там актуальні та застосовні.

Говорять різними мовами, але цілі спільні

- Поговоримо про роботу в CERN. Як людині з ІТ працювати з фізиками? Які особливості пов'язані з роботою в такому крос-науковому просторі як ВАК?

- Гарне питання.Справді люди розмовляють різними мовами: сягає того, що одні й самі поняття графічно зображуються різними способами. Наприклад, ROC-криві, до яких звикли фахівці з машинного навчання, у фізиці прийнято креслити поверненими на 90 градусів. А координати називаються не True Positive Rate та False Negative Rate, а Signal efficiency та Background rejection. При цьому, якщо Signal efficiency це все ще Precision, то Background rejection це одиниця мінус True Negative Rate.

ROC-крива (від англ. Receiver operating characteristic, робоча характеристика приймача) - Графік, що дозволяє оцінити якість бінарноїкласифікації. Відображає співвідношення між частками об'єктів від загальної кількості носіїв ознаки, вірно класифікованих як несучі ознаки, і частками об'єктів від загальної кількості об'єктів, що не мають ознаки, помилково класифікованих як ознаки, що несуть.

Зрозуміло, що такі речі можуть перебувати наповерхні, і до них щодо просто можна звикнути, але основні складнощі полягають у розумінні деяких основних припущень, яких відштовхуються дослідники, коли пишуть свої статті. І, як правило, вони знаходяться за межами того, про що пишуть. Тобто це деяке потаємне знання, яке передається у процесі навчання людини в аспірантурі, у процесі роботи над його дослідницькими проектами, воно формується у його свідомості.

Для людей з іншої галузі науки це якінше культурне середовище. Їх ці припущення може бути настільки очевидними. Через те, що лексикон виявляється досить широким і різним, побудова діалогу може затягтися або бути непродуктивним. Тому тут як рекомендації, напевно, можна порадити або просити людей вийти за рамки того, до чого вони звикли, і сформулювати завдання в максимально абстрактних термінах від фізики. Частково ми цим займаємось, коли організуємо змагання у рамках нашої олімпіади IDAL. У процесі діалогу ми знаходимо таку постановку, яка б не вимагала глибокого занурення у фізику, але водночас була б цікавою для фахівців з машинного навчання.

Цього року у нас був спільний проект зіталійською лабораторією, яка саме шукає темну матерію. Вони надали синтетичні дані для олімпіади щодо пошуку цієї темної матерії. Там, правда, немає ніякої темної матерії, бо симулювалися розпади відомої фізики: зіткнення електронів та іонів гелію. Але зіткнення частинок темної матерії можуть бути дуже схожі на якісь із цих зіткнень. Їх дуже складно симулювати, а інтерпретувати ще складніше. Тому спеціально для людей, які не є фахівцями в цій галузі, ми вирішили не витягувати ці дані та обмежитись лише тими, які будуть схожі. Алгоритми, які ми побачимо, працюють на наближених даних, але можуть бути використані і до реальних.

Андрій Устюжанін. Фото з архівів спікера

Якщо підсумувати, один спосіб — це домовитися про зрозумілі терміни для всіх, а інший — витратити час і сили, пройти літні школи, взяти участь у практичних дослідницьких проектах.

Книги про машинне навчання та фізичні експерименти, які радить Андрій Устюжанін:

  • Deepak Kar, Experimental Particle Physics: Understanding the measurements and searches в Large Hadron Collider.
  • Ilya Narsky, Statistical Analysis Techniques in Particle Physics: Fits, Density Estimation and Supervised Learning.
  • Giuseppe Carleo, Machine learning and the physical sciences.

— Чи є суперечності між цінностями фізиків та айтішників: комусь, наприклад, важливіший характер взаємодій, чи, навпаки, точність?

— Якщо говорити конкретно про точність, мабуть,немає неоднозначності. Але це скоріше через те, що айтішники не розуміють природу даних. Просто, якщо ми виміряли дані з точністю до міліметра, то рахувати площу з точністю до квадратних мікронів ніякого сенсу немає. У разі роботи складних нейромереж ми стикаємося з тим, що вони видають інформацію з точністю до останнього знака в мантисі, але сенсу в цих знаках не більше ніж у тій точності, що була на вході.

Ну і, можливо, загальне побажання для людей,які оцінюють точності моделей, — це видавати як абсолютні характеристики, а й межі допустимих діапазонів чи розкид, у яких ці значення було отримано. Насправді хороша рекомендація не тільки для тих, хто взаємодіє з фізиками чи біологами. Це у принципі правильний спосіб ведення уявлення отриманих результатів.

А якщо говорити про те, наскільки може бутирізними очікуваннями з одного і з іншого боку, то це все робочі питання, насправді. За наявності зацікавленості з обох боків вони вирішуються просто та добре. Тобто у фізиків у широкому сенсі машинне навчання зараз затребуване, тому що надає точніші інструменти для роботи з їхніми даними. І у зворотний бік це працює, тому що для фахівців з машинного навчання буває набагато цікавіше дивитися, як їхні алгоритми допомагають у відкритті нових частинок, наприклад, як у випадку з нашою лабораторією. Ми довго працювали над тим, щоб зробити алгоритм, який визначав би тип частинки. І нещодавно була новина про відкриття нових тетракварків, і наші алгоритми взяли безпосередню участь у їхньому відкритті.

Тому для людей з ІТ, умовно з Data Science,Computer Science, відчувати корисність алгоритмів, що розробляються, дуже важливо. Тому на нашому факультеті, наприклад, є Міжнародна лабораторія біоінформатики.

Такі взаємодії з часом стають усібільш і більш нормальними. Я не знаю, чи можна вже зараз вважати їх мейнстримом, чи потрібно ще почекати, але так чи інакше ця історія неминуча. Навіть якщо подивитися на воркшопи, що організуються в рамках сучасних провідних конференцій зі штучного інтелекту, то воркшоп із застосування ІІ у фізичних науках займає лідируюче місце за кількістю зацікавлених людей.

Читати далі:

Американський супутник «роздивився» із Землі незвичайне послання

Опубліковано відео з ракети, яку запустили з експериментального прискорювача

Чудовисько у центрі нашої Галактики: подивіться на фото чорної діри у Чумацькому Шляху