アノマリーハンター：CERNがYandexアルゴリズムを使用して希少粒子を検索する方法-Geek Tech Online

アンドレイ・ウスチュジャニン— 国立研究大学経済学部高等部ビッグデータ分析手法研究教育研究室長。

Yandex と CERN の共同プロジェクトの責任者。 Yandex が 2011 年から LHCb 実験に提供してきた EventIndex サービスと EventFilter サービスの開発に参加しています。

2000年にモスクワ物理技術研究所を卒業し、物理および数理科学の候補者。 Microsoft Imagine Cup国際決勝の審査員の1人であり、それ以前は2005年にカップで優勝したMIPTチームのメンターでした。

大型ハドロン衝突型加速器のデータで異常を探す方法

データ異常とは何ですか？

— を使用して取得されたデータについて言えば、大型ハドロン衝突型加速器（LHC）、これらは、陽子の衝突後にそこで粒子の崩壊がどのように起こるかについての標準的な考え方に当てはまらない発見である可能性があります。これらの発見は異常になります。 

たとえば、資産相場について話している場合証券取引所では、特定のヘッジファンドが資産をポンプすることを決定したか、ウォールストリートベットが追加のお金を稼ぎ、独自の分散型ヘッジファンドを設立することを決定したという事実が原因である可能性があります。つまり、物理学は完全に異なり、データ内のこの物理学の表現も他の場合と同様ではありません。

したがって、異常について話す場合は、まずどのデータとどのような物理学について話しているのかを理解する必要があります。

—次に、コライダーに焦点を当てて明確にしましょう。

-ここでも少し簡単ですが、フォーク。事実、検出器内の粒子でどのようなプロセスが発生するかについてのデータがあります。そして、このコライダーがどのように機能するかについてのデータがあります。新しい粒子や法則の発見に主に関心がある人は、主に最初のタイプのデータに関心があります。しかし、実際には、物理学で起こることはすべて、この情報の収集と処理のかなり長いチェーンを経ています。そして、このチェーンのノードのいずれかが私たちが想像したように動作しなくなった場合、つまり、許容範囲の特定の制限を超えた場合、これにより測定値に歪みが生じます。一般に物理学ではなかった場所に異常が見られます。

陽子の衝突後に発生する粒子崩壊がそこでどのように発生するかについての標準的な考えに適合しない発見は異常になります

このような不快な出来事を避けるために、人々は彼らは、測定器内のすべてのデータを監視する特別なデータ品質管理システムを作成し、何か問題が発生している疑いがある期間を考慮から除外しようとします。 

人々が話したがる例の 1 つLHCの物理学者らは、衝突型加速器の運用の初期段階で、物理的概念に当てはまらない異常に気づいたという。 LHC はまだ存在していませんでしたが、その前のバージョンがありました。その結果、物理学者らは、近くにある鉄道の列車スケジュールとの相関関係が非常に深刻であることを発見した。そして、これらの変動に関連する調整を行うと、世界の非物理的なイメージが得られます。 

外部要因を考慮し、次のことを行うことができる必要があります。どちらを正しく補償する必要があるかを理解してください。最も単純な解決策は、通常の世界像に当てはまらないデータを破棄しましょう。より複雑なストーリーは、理解可能な物理的原理を使用して、これらの異常を通常のデータに戻し、そこから利益を得ようとすることです。

データを捨てることは予算資金の無駄です。キロバイト-メガバイトごとに特定の価格があります。

Andrey Ustyuzhanin、国立研究大学経済高等学校のビッグデータ分析手法の研究および教育研究所の責任者

-したがって、機械学習システムを使用して、これらのデータの異常をどのように検出できますか？

—このようなアルゴリズムには2つのグループがあり、異常を処理します。 1クラス分類方法の最初のグループには、良好とマークされたイベントに関する情報のみを使用するアルゴリズムが含まれます。つまり、彼らは私たちが正しいと思うものをすべて囲む凸包を構築しようとしています。論理はこれです：このシェルを超えるすべてのものは、異常を考慮します。つまり、たとえば、データの99％がそのようなシェルでカバーされており、他のすべては疑わしいもののように見えます。

別のグループのアルゴリズムは部分的なものに依存しています。私たちが間違っていると思うものにマークを付けます。基本的に、望ましくない結果をもたらすことが知られている一連のイベントが存在します。そして、異常の検索は 2 クラスの分類問題に行き着きます。これは、ニューラルネットワークまたはデシジョンツリーの原理に基づいて構築できる通常の分類子です。 

ニュアンスは通常タスクでそれです異常、サンプルのバランスが取れていません。つまり、ポジティブな例の数はネガティブな例の数を大幅に上回っています。このような状況では、標準の分類アルゴリズムが期待どおりに機能しない可能性があります。デフォルトの損失関数は、正しく適格なインスタンスを同等に扱い、10,000個の正しい結果の中に100個の誤った適格性があるという事実を見落とす可能性があります。この百は、最も興味深いネガティブな例を表しています。これは、たとえば、否定的な例により多くの重みを割り当て、はるかに重みのある分類のエラーを考慮に入れることによって、対処できることは明らかです。

損失関数- 統計的意思決定の理論において、観察されたデータに基づいた誤った意思決定による損失を特徴付ける関数。

問題解決への当研究室の貢献異常検出では、1 番目のアプローチと 2 番目のアプローチの特徴を組み合わせた方法を提案します。つまり、1 クラスと 2 クラスの分類を扱うタスクです。異常な例の生成モデルを構築すると、このような組み合わせが可能になります。 

生成などのアプローチを使用する敵対的ネットワークまたは正規化フローでは、ネガティブとラベル付けされた例を回復し、通常の分類器が拡張合成サンプルをより効率的に処理できるようにする追加のサンプルを生成する方法を学ぶことができます。このアプローチは、表形式のデータと画像の両方に適しています。昨年、このようなシステムがどのように構築されているかを説明し、その使用例を示す記事がありました。

—画像の操作についておっしゃいました。この場合、どのように機能しますか？

— 作品を展示した例もありますこのアルゴリズム。彼らは、画像のクラスの 1 つ (たとえば、手書きの数字) を選択しただけです。そして、ゼロはある種の異常であると彼らは言いました。そして彼らは、ゼロが他のすべてと同じではないと判断するニューラルネットワークに、ネガティブクラスに割り当てるよう依頼しました。当然のことながら、これらはゼロだけでなく、たとえば、内部に閉じたサイクル - 068 - が存在する数値、または水平交差のある数値でもあり得ます。または、サンプルの残りの部分に対してある角度で回転した単純な画像。

「特定の条件下で物理学をシミュレートできます精度の高い外部パラメータと、ヒッグス粒子の崩壊など、観測可能な特性が正しい信号イベントを表すことを示します。

omniglotと呼ばれるデータセットがあります-異なるフォントで書かれた文字。フューチュラマ、ゴシック、人気のないアルファベットから手書きされたサンスクリット語やヘブライ語など、膨大な数のフォントがあります。サンスクリット語の文字は異常であると言えますが、ある手書きの文字も異常です。

私たちはシステムにすべてを区別することを学ぶように頼みますこれらの異常なシンボルからの残り。主なことは、それらが他のすべてよりもはるかに小さいということです。これは、従来の機械学習アルゴリズムでそれらを使用することの難しさです。

物理学とITの共生：LHC研究で機械学習がどのように使用されるか

—機械学習の助けを借りて、LHCのどのタスクが解決されますか？

— 私たちが取り組んでいる大きな課題の 1 つは、物理的な衝突や粒子の崩壊をシミュレートする計算プロセスを加速することです。実際のところ、特定のイベントが特定の物理的崩壊に類似しているかどうかの決定は、かなりの数のシミュレートされた崩壊を分析した後に行われます。特定の外部パラメータで物理学を高い精度でシミュレートし、どのような観測可能な特性が正しい信号イベント (たとえば、ヒッグス粒子の崩壊) を説明するかを判断できます。

ただし、次のような注意点があります。これらの減衰を生成する必要があるパラメーターが常にわかっているわけではありません。原則として、これについては一定の考えがあります。そして、適切な物理学を見つける際の課題は、回復アルゴリズムの誤った動作、または見つけようとしているものと非常によく似た他のプロセスの物理学に関連している可能性があるバックグラウンドイベントから信号イベントを区別することです。機械学習アルゴリズムはこれにうまく対処しますが、これはよく知られた話です。 

しかし、そのようなアルゴリズムを訓練するには、それが必要ですシミュレートされたイベントのかなり大きな統計サンプルであり、これらの合成データの計算には特定のリソースが必要です。なぜなら、1つのイベントのシミュレーションには、最新のコンピューターセンターの計算時間は約1分または10分かかるからです。物理学者が取り組む実際のイベントの数は今後数桁で増加するという事実のために、合成されたイベントの数も増加するはずです。現在、コンピューティングリソースは、研究者のニーズをカバーするのにかろうじて十分です。 1つのイベントをシミュレートするには、微粒子と検出器の構造との相互作用を計算し、この検出器のセンサーで見られる応答を非常に高い精度でシミュレートする必要があります。

加速の考え方はニューラルネットワークを訓練することです認定パッケージである GMT 4 を使用してシミュレートされたイベントについては、コライダー検出器内で発生するすべてのことをシミュレートします。このニューロンは、入力、シミュレートしたい粒子のパラメーター、および検出器が生成する観察可能な特性である出力を比較することを学習します。今日のニューラルネットワークは、データ補間のタスクにすでに十分に対応しています。私たちの研究室のいくつかのプロジェクトは、まさにこれを目的としています。つまり、入手可能な合成サンプルから崩壊の特徴を復元すること、つまり、そのような二次合成サンプルを作成することです。ただし、ニュアンスがあります。ニューラルネットワークの利点は、実際のデータを使用して微調整できることです。つまり、特定の物理的減衰に対してこの設定をより正確にします。 

本格的な肉体に従事している人シミュレーションでは、彼らはこれに時間と労力を費やしますが、ニューロンを使用すると、少し労力がかからないことがわかります。また、CERNでのLHTV実験とNicaアクセラレータでのDubna MPD実験プロジェクトで行った結果から、ニューラルネットワークはシミュレートされたイベントの位相空間をカバーする際に非常に高い精度を達成できることが明らかになりました。それらは計算プロセスを大幅にスピードアップします：正直なシミュレーションよりも注文と数百も速くなります。

— ニューラルネットワーク自体はどのように学習するのですか? 

— 学習プロセスに違いはありません。ただし、1 つ特殊な点があります。ニューラルネットワークの場合、トレーニングサンプルに加えて、品質基準を策定する必要があります。つまり、このネットワークが適切に対処すべきタスクに最もよく対応する損失関数を設定する必要があります。さらに、このようなニューラルネットワークの作業の品質は研究者によって評価されません。データ処理の後の段階で発生する計算ステップの観点から適切に評価できます。

シミュレーションが良いかどうかを判断するために、次のことができます。イベントを分析、再構築のチェーンに通した後でのみ、最初にそれらに設定したのと同じ特性がそれらから復元されることを理解しています。これは、たとえば、単純なMSE平均二乗誤差メトリックを使用するだけでは不十分であることを意味します。

MSE平均二乗誤差- 推定値と実際の値の間の二乗平均平方根の差を測定します。

ニューラルネットワークの動作は、さらに評価する必要があります。トレーニングセットには存在しなかった可能性のあるパラメータ範囲の特徴。トレーニング段階で既知のパラメーター値をはるかに超えて動作するこのようなモデルを構築することは、大規模で理論的な作業です。 

ニューラルネットワークは、次のような場所で優れています。訓練段階で何かを知っていた。彼らの外では、彼らは望むものを何でも与えることができます。私たちの場合、これは特に敏感です。なぜなら、私たちの周囲の現実の物理的解釈の正しさがそれに依存するからです。 

「暗黒物質の粒子が崩壊して、私たちが相互作用する方法を知っている粒子になった場合、この暗黒物質の粒子は実際にそうであったと見なすことができます」

-つまり、ニューラルネットワークはコライダーで発生する可能性のあるまれなイベントを探していますか？

—生成モデルの操作に基づく、つまり、まず、起こりうるすべての統合について話します。これはミニチュアモデルで行います。そして、そのようなネットワークの出力で、必要なもの、つまり生成型ニューラルネットワークで生成できたものを探すモデルを構築できます。

暗黒物質を検索する方法と、これにニューラルネットワークが必要な理由

—同様の検索原理を暗黒物質に適用できますか？

-実は暗黒物質を探すことができるのです違う方法。 1つの方法は、通常の物質の影響からかなりよく分離できる適切な検出器を構築することです。つまり、物理学者に知られている粒子から来る信号をブロックすることです。これは単なる除去方法です。検出器がノイズ以外のものを検出した場合、これまでに見たことのないものを検出します。 1つの可能性は、これらが暗黒物質の粒子であるということです。

たとえば、暗黒物質の粒子の場合崩壊して、私たちが相互作用する方法を知っている粒子になり、崩壊の痕跡がそれ以外の場所からは現れないことは明らかです。そして、この暗黒物質の粒子は実際にあったと推測できます。

そのような実験は議論され、計画されています。それらの1つはSHiP（隠された粒子の検索）と呼ばれます。ちなみに、そのような実験には、私が話したアプローチも当てはまります。まれなアプローチを認識するためのシミュレーションとアルゴリズムが必要です。しかし、この実験の光度ははるかに低いため（光度は単位時間あたりに検出される予定の粒子の数です）、多数の同様のイベントをシミュレートする必要性は、ハドロン衝突型加速器の場合ほど深刻ではありません。検出器。たとえば、物理学で知られている粒子に対する保護システムの品質を評価することに関連するタスクでは、かなり多数のイベントのシミュレーションが必要です。これは、保護がさまざまなタイプの膨大な数の入ってくる粒子でうまく機能することを確認するために必要です。

船隠されたものを見つけることを目的とした実験ですSPS 加速器から磁場で濾過された粒子の流れの中の暗黒物質粒子を含む粒子。コンクリートと金属の 5 メートルの層。 

暗黒物質を探す方法は他にもありますが、宇宙現象の観測に関係する。特に、1 つのアプローチは、粒子の入射角に応じて、非常に弱く相互作用する粒子の方向を認識する感知素子を構築することです。実験の論理は、太陽系の運動ベクトルに沿って、つまりはくちょう座に向かうように感応要素を配置することが可能であるということです。そうすれば、地球の座標系内で移動する粒子と、別の方法で移動する粒子を区別できるようになります。静止したエーテルのように、惑星の方向や運動の方向とはまったく関係なく、独自の法則に従って宇宙空間に分布します。ただ、エーテルの代わりに暗黒物質の粒子があると想定されているだけです。それらは私たちの実験のセンサーと弱く相互作用する可能性があります。そして、その読み取り値を分析することで、相互作用する粒子の角度分布のパターンを導き出すことができます。宇宙空間における地球の位置に依存しない重大な成分が存在することがわかれば、これはこれまで知られていなかった粒子の存在を示すことになります。そしておそらく、これらは暗黒物質粒子の候補となるでしょう。 

このような実験では、シミュレーションは非常に重要です。信号イベントを認識するためのアルゴリズムを構築するには、関心のある信号がどのように見えるかを想像する必要があるためです。したがって、高速シミュレーションと異常の検索に関連するタスクは、そこで関連性があり、適用可能です。

彼らは異なる言語を話しますが、目標は一般的です

CERNで働くことについて話しましょう。 IT担当者が物理学者と協力するのはどのようなものですか？ LHCのような科学横断的な空間での作業に関連する機能は何ですか？

- 良い質問。実際、人々は異なる言語を話します。同じ概念が異なる方法でグラフィックで表現されるようになります。たとえば、機械学習の専門家が慣れ親しんでいる ROC 曲線は、通常、物理学で 90 度回転して描画されます。そして、その座標は真陽性率と偽陰性率ではなく、信号効率とバックグラウンド除去と呼ばれます。さらに、信号効率が依然として Precision である場合、バックグラウンド除去は 1 から真陰性率を引いた値になります。

ROC曲線（英語の受信者動作特性、受信者動作特性から）— バイナリの品質を評価できるグラフ分類。属性を持つものとして正しく分類された、属性キャリアの総数からのオブジェクトのシェアと、属性を持つものとして誤って分類された、属性を持たないオブジェクトの総数からのオブジェクトのシェアとの関係を表示します。

そのようなことが起こっている可能性があることは明らかです表面的なもので、慣れるのは比較的簡単ですが、主な課題は、研究者が論文を書くときに行う基本的な前提のいくつかを理解することにあります。そして、原則として、それらは書かれている内容を超えています。つまり、これは大学院での研修中に伝えられ、研究プロジェクトに取り組む過程で頭の中に形成される秘密の知識です。 

別の科学分野の人にとっては、異なる文化的環境。彼らにとって、これらの仮定はそれほど明白ではないかもしれません。レキシコンが非常に広範で異なっていることが判明したため、対話の構築が遅れたり、非生産的になることさえあります。したがって、ここでは、推奨事項として、慣れているものを超えて、物理学から最も抽象的な用語で問題を定式化するように人々に求めることをアドバイスすることができます。これは、IDALオリンピックの一環として大会を開催するときに部分的に行います。対話の過程で、物理学に深く没頭する必要はないが、同時に機械学習の専門家にとって興味深い設定を見つけます。

今年は、との共同プロジェクトを行いました。暗黒物質を探しているイタリアの研究所。彼らはオリンピックにこの暗黒物質を発見するための合成データを提供しました。電子とヘリウムイオンの衝突など、既知の物理学の崩壊がシミュレートされているため、実際には暗黒物質は存在しません。しかし、暗黒物質粒子の衝突は、これらの衝突の一部と非常によく似ている可能性があります。それらをシミュレートするのは非常に難しく、解釈するのはさらに困難です。したがって、特にこの分野の専門家ではない人々のために、このデータを抽出せず、類似したデータのみに限定することにしました。これから説明するアルゴリズムは近似データに対して機能しますが、実際のデータにも適用できます。

アンドレイ・ウスティウザニン。講演者のアーカイブからの写真

要約すると、一つの方法はすべての人のために明確な条件に同意することであり、もう一つの方法は時間と労力を費やし、サマースクールに通い、実践的な研究プロジェクトに参加することです。

Andrey Ustyuzhaninが推奨する機械学習と物理実験に関する本：

ディーパック・カー実験的素粒子物理学：大型ハドロン衝突型加速器での測定と検索を理解する。
イリヤ・ナルスキー素粒子物理学における統計分析手法：適合、密度推定、教師あり学習. 
ジュゼッペ・カルレオ機械学習と物理科学.

-物理学者とITスペシャリストの価値観の間に矛盾はありますか？たとえば、相互作用の性質は誰かにとってより重要ですか、それどころか、正確さですか？

— 特に精度について言えば、おそらく曖昧さはありません。しかしこれは、IT 専門家がデータの性質を理解していないことが原因である可能性が高くなります。ただ、ミリメートルの精度でデータを測定した場合、平方ミクロンの精度で面積を計算するのは意味がありません。複雑なニューラルネットワークの場合、仮数部の最後の符号まで正確な情報が生成されるという事実に直面しますが、これらの符号には入力時の精度以上の意味はありません。

まあ、多分人々への一般的な願いモデルの精度の評価に関係するのは、絶対的な特性だけでなく、許容範囲の限界またはこれらの値が取得された広がりも与えることです。実際、物理学者や生物学者と交流する人だけでなく、良い推奨事項です。これは、原則として、得られた結果の表示を維持するための正しい方法です。

そして、それがどれだけできるかについて話したら、一方の側ともう一方の側で期待が異なる場合、実際には、これらはすべて作業上の問題です。双方に利害関係があれば、簡単かつうまく解決できます。つまり、機械学習は、データを操作するためのより正確なツールを提供するため、広い意味で物理学者の間で現在需要が高まっています。そしてそれは逆方向に作用します。なぜなら、機械学習の専門家にとっては、たとえば私たちの研究室の場合のように、アルゴリズムが新しい粒子の発見にどのように役立つかを知ることの方がはるかに興味深いからです。私たちは、粒子の種類を決定するアルゴリズムの作成に長い時間を費やしました。そして最近、新しいテトラクォークの発見に関するニュースがあり、私たちのアルゴリズムはその発見に直接関与しました。

したがって、IT 関係者、条件付きでデータサイエンス関係者にとって、コンピュータサイエンスでは、自分たちが開発したアルゴリズムの有用性を感じることが非常に重要です。したがって、たとえば、私たちの学部には、バイオインフォマティクス国際研究室があります。 

こういったやり取りが増えてきていますますます普通に。それらがすでに主流と考えられるのか、それともまだ待たなければならないのかはわかりませんが、いずれにしてもこの話は避けられません。今日の人工知能に関する主要な会議の一環として開催されたワークショップを見ても、物理科学における AI の使用に関するワークショップが、関心を持つ人の数でトップの位置を占めています。 

続きを読む：

アメリカの衛星は地球からの珍しいメッセージを「見た」

実験的な加速器から発射されたロケットからの公開されたビデオ

私たちの銀河の中心にいるモンスター：天の川のブラックホールの写真を見てください

ギークテックオンライン

技術とガジェットに関するすべて

アノマリーハンター：CERNがYandexアルゴリズムを使用して希少粒子を検索する方法

大型ハドロン衝突型加速器のデータで異常を探す方法

物理学とITの共生：LHC研究で機械学習がどのように使用されるか

暗黒物質を検索する方法と、これにニューラルネットワークが必要な理由

彼らは異なる言語を話しますが、目標は一般的です