صائدو الشذوذ: كيف يبحث CERN عن الجسيمات النادرة باستخدام خوارزميات Yandex

أندريه أوستيوزانين— رئيس المختبر البحثي والتعليمي لأساليب تحليل البيانات الضخمة بالمدرسة العليا للاقتصاد بالجامعة الوطنية للأبحاث.

رئيس المشاريع المشتركة بين ياندكس و CERN. يشارك في تطوير خدمات EventIndex وEventFilter، التي قدمتها Yandex لتجربة LHCb منذ عام 2011. 

تخرج من معهد موسكو للفيزياء والتكنولوجيا في عام 2000 ، مرشح العلوم الفيزيائية والرياضية. أحد الحكام في نهائي كأس التخيل لمايكروسوفت الدولي ، قبل ذلك كان مرشدًا لفريق MIPT الذي فاز بالكأس في 2005.

كيفية البحث عن الحالات الشاذة في بيانات مصادم الهدرونات الكبير

ما هي البيانات الشاذة؟

— إذا كنا نتحدث عن البيانات التي تم الحصول عليها باستخداممصادم الهادرونات الكبير (LHC)، قد تكون هذه اكتشافات لا تتناسب مع الأفكار القياسية حول كيفية حدوث تحلل الجسيمات هناك بعد اصطدام البروتونات. ستكون هذه الاكتشافات شذوذًا.

على سبيل المثال ، إذا كنا نتحدث عن أسعار الأصولفي البورصة ، قد تكون هناك حالات شاذة بسبب حقيقة أن صندوق تحوط معين قرر ضخ أحد الأصول أو قررت وول ستريت بيتس كسب أموال إضافية وإنشاء صندوق تحوط خاص بهم. أي أن الفيزياء مختلفة تمامًا ، كما أن مظهر هذه الفيزياء في البيانات لا يشبه الحالات الأخرى.

لذلك، إذا تحدثنا عن الحالات الشاذة، نحتاج أولاً إلى فهم البيانات والفيزياء التي نتحدث عنها.

- ثم دعنا نوضح بالتركيز على المصادمات.

- هنا أسهل قليلاً ، على الرغم من ظهورها أيضًاشوكة. الحقيقة هي أن هناك بيانات حول نوع العمليات التي تحدث مع الجسيمات داخل الكاشف. وهناك بيانات حول كيفية عمل هذا المصادم. يهتم الأشخاص المهتمون بشكل أساسي باكتشاف جسيمات أو قوانين جديدة بالنوع الأول من البيانات. لكن الحقيقة هي أن كل ما يحدث في الفيزياء يمر بسلسلة طويلة من جمع ومعالجة هذه المعلومات. وإذا بدأ أي من العقد في هذه السلسلة في التصرف بشكل غير جيد كما تخيلنا ، أي أنه يتجاوز حدودًا معينة مسموحًا بها ، فهذا يؤدي إلى تشويه في القياسات. يمكننا أن نرى حالات شاذة في المكان الذي لم تكن فيه ، بشكل عام ، في الفيزياء.

الاكتشافات التي لا تتناسب مع الأفكار القياسية حول كيفية حدوث تحلل الجسيمات هناك ، والتي تنشأ بعد اصطدام البروتونات ، ستكون حالات شاذة

لتجنب مثل هذه الأحداث غير السارة، والناسيكتبون أنظمة خاصة لمراقبة جودة البيانات تراقب جميع البيانات الموجودة في أدوات القياس وتحاول أن تستبعد من الاعتبار تلك الفترات الزمنية التي يكون فيها هناك شك في حدوث خطأ ما. 

من الأمثلة التي يحب الناس الحديث عنهاكان علماء الفيزياء من LHC أنهم لاحظوا في المراحل الأولى من تشغيل المصادم حالات شاذة لا تتناسب مع المفاهيم الفيزيائية. لم يكن هناك مصادم الهادرونات الكبير (LHC) بعد، بل نسخته السابقة. ونتيجة لذلك، وجد الفيزيائيون أن الارتباط خطير للغاية مع جدول القطارات على خط السكة الحديد الذي يقع في مكان قريب. وإذا قمت بإجراء التعديلات المرتبطة بهذه التقلبات، فإنك تحصل على صورة غير مادية للعالم.

من الضروري أن تأخذ في الاعتبار العوامل الخارجية وتكون قادرًا على ذلكفهم أي منهم يحتاج إلى التعويض بشكل صحيح. الحل الأبسط: دعونا نتخلص من البيانات التي لا تتناسب مع الصورة المعتادة للعالم. أما القصص الأكثر تعقيدًا فهي محاولة إعادة هذه الحالات الشاذة، باستخدام مبادئ مادية ومفهومة، إلى البيانات الطبيعية ومحاولة الاستفادة منها.

التخلص من البيانات هو إهدار لأموال الميزانية. كل كيلو بايت له سعر معين.

أندري أوستيوزانين ، رئيس مختبر الأبحاث والتعليم لأساليب تحليل البيانات الضخمة في المدرسة الوطنية العليا للاقتصاد بجامعة الأبحاث الوطنية

- وبالتالي ، كيف يمكن اكتشاف الانحراف في هذه البيانات باستخدام نظام التعلم الآلي؟

- هناك مجموعتان من هذه الخوارزمياتالعمل مع الحالات الشاذة. تتضمن المجموعة الأولى من طرق التصنيف ذات الفئة الواحدة الخوارزميات التي تستخدم المعلومات فقط حول الأحداث التي تم تمييزها على أنها جيدة. أي أنهم يحاولون بناء بدن محدب يحيط بكل ما نعتقد أنه صحيح. المنطق هو هذا: كل ما يتجاوز هذه القشرة ، سننظر في الحالات الشاذة. وهذا يعني ، على سبيل المثال ، أن 99٪ من البيانات مغطاة بمثل هذه الصدفة ، وكل شيء آخر يبدو وكأنه شيء مريب.

Другая группа алгоритмов опирается на частичную بمناسبة ما نعتبره خطأ. في الأساس، هناك مجموعة من الأحداث المعروفة بأن لها نتائج غير مرغوب فيها. ومن ثم يأتي البحث عن الحالات الشاذة في مشكلة تصنيف من فئتين. هذا مصنف عادي يمكن بناؤه على مبادئ الشبكات العصبية أو أشجار القرار.

فارق بسيط هو أن عادة في المهامالشذوذ ، العينة غير متوازنة. أي أن عدد الأمثلة الإيجابية يتجاوز بشكل كبير عدد الأمثلة السلبية. في ظل هذه الظروف ، قد لا تعمل خوارزميات التصنيف القياسية بالشكل الذي نرغب فيه. تعالج وظيفة الخسارة الافتراضية الحالات التي تتأهل بشكل صحيح بشكل متساوٍ ، وقد تغفل حقيقة أنه من بين 10000 نتيجة صحيحة ، هناك مائة مؤهلة بشكل غير صحيح. هذه المائة تمثل فقط تلك الأمثلة السلبية الأكثر إثارة للاهتمام. من الواضح أنه يمكن مكافحة ذلك ، على سبيل المثال ، من خلال إعطاء أهمية أكبر للأمثلة السلبية ، مع الأخذ في الاعتبار الأخطاء في تصنيفها بقدر أكبر من الأهمية.

فقدان وظيفة- وظيفة تصف، في نظرية القرارات الإحصائية، الخسائر الناجمة عن اتخاذ القرارات غير الصحيحة بناء على البيانات المرصودة.

مساهمة مختبرنا في حل المشكلةالكشف عن الشذوذ هو اقتراح طرق تجمع بين ميزات الطريقتين الأولى والثانية. أي مهمة العمل مع تصنيف فئة واحدة وفئتين. ويصبح مثل هذا المزيج ممكنا إذا قمنا ببناء نماذج توليدية من الأمثلة الشاذة.

باستخدام مناهج مثل التوليفيةشبكات الخصومة أو التدفقات الطبيعية ، يمكننا أن نتعلم استرداد تلك الأمثلة التي تم تصنيفها على أنها سلبية وإنشاء عينة إضافية تسمح للمصنف العادي بالعمل مع العينة الاصطناعية المعززة بشكل أكثر كفاءة. يعمل هذا الأسلوب جيدًا لكل من البيانات الجدولية والصور. كان هناك مقال حول هذا العام الماضي ، يصف كيفية بناء مثل هذا النظام ، ويقدم أمثلة عملية على استخدامه.

- ذكرت العمل بالصور. كيف يعمل في هذه الحالة؟

— هناك أمثلة أظهرنا فيها العملهذه الخوارزمية. لقد اختاروا ببساطة إحدى فئات الصور: على سبيل المثال، الأرقام المكتوبة بخط اليد. وقالوا أن الصفر هو نوع من الشذوذ. وطلبوا من الشبكة العصبية، التي تقرر أن الأصفار ليست مثل أي شيء آخر، أن يتم تخصيصها للفئة السلبية. وبطبيعة الحال، قد لا تكون هذه أصفارًا فحسب، بل أيضًا، على سبيل المثال، أرقام توجد بها دورات مغلقة - 068 - أو أرقام ذات تقاطعات أفقية. أو ببساطة تم تدوير الصور بزاوية معينة بالنسبة لبقية العينة.

"يمكننا محاكاة الفيزياء تحت إشراف معينالمعلمات الخارجية بدقة جيدة وتذكر الخصائص التي يمكن ملاحظتها والتي ستصف أحداث الإشارة الصحيحة ، على سبيل المثال ، اضمحلال بوزون هيغز "

توجد مجموعة بيانات تسمى omniglot -رسائل مكتوبة بخطوط مختلفة. هناك عدد كبير من الخطوط: من Futurama ، و Gothic ، وخط اليد من أبجديات غير شائعة - السنسكريتية أو العبرية. يمكننا القول أن الحروف في اللغة السنسكريتية شذوذ ، وكذلك الحروف المكتوبة بخط يد معين.

نطلب من النظام أن يتعلم تمييز كل شيءالباقي من هذه الرموز الشاذة. الشيء الرئيسي هو أنها أصغر بكثير من أي شيء آخر. هذه هي صعوبة العمل معهم لخوارزميات التعلم الآلي التقليدية.

تكافل الفيزياء وتكنولوجيا المعلومات: كيف يتم استخدام التعلم الآلي في أبحاث LHC

- ما هي مهام المصادم LHC التي يتم حلها بمساعدة التعلم الآلي؟

- إحدى المهام الكبيرة التي نعمل معها هيهو تسريع العمليات الحسابية التي تحاكي الاصطدامات الفيزيائية واضمحلال الجسيمات. والحقيقة هي أن القرار بشأن ما إذا كانت الأحداث المعطاة مشابهة لبعض الانحلالات الفيزيائية أم لا يتم اتخاذه بعد تحليل عدد كبير إلى حد ما من الانحلالات المحاكاة. يمكننا محاكاة الفيزياء عند بعض المعلمات الخارجية بدقة جيدة ونقول ما هي الخصائص التي يمكن ملاحظتها والتي ستصف أحداث الإشارة الصحيحة، على سبيل المثال، اضمحلال بوزون هيغز.

ولكن هناك بعض التحذيرات:نحن لا نعرف دائمًا المعلمات التي يجب أن يتم بموجبها إنشاء هذه الانحلالات. كقاعدة عامة، هناك فكرة معينة حول هذا الموضوع. والتحدي المتمثل في العثور على الفيزياء الصحيحة هو التمييز بين أحداث الإشارة وأحداث الخلفية، والتي قد تكون مرتبطة إما بالتشغيل غير الصحيح لخوارزميات الاسترداد، أو بفيزياء العمليات الأخرى التي تشبه إلى حد كبير ما نحاول العثور عليه. تقوم خوارزميات التعلم الآلي بعمل جيد في هذا الأمر، لكنها قصة معروفة.

ولكن لتدريب مثل هذه الخوارزميات ، فهو مطلوبعينة إحصائية كبيرة إلى حد ما من الأحداث التي تمت محاكاتها ، ويتطلب حساب هذه البيانات التركيبية موارد معينة. لأن محاكاة حدث واحد تستغرق حوالي دقيقة أو حتى عشر دقائق من وقت الحوسبة في مراكز الكمبيوتر الحديثة. نظرًا لحقيقة أن عدد الأحداث الحقيقية التي سيعمل عليها الفيزيائيون سيزداد بأعداد كبيرة في السنوات القادمة ، يجب أيضًا زيادة عدد الأحداث المركبة. الآن موارد الحوسبة بالكاد كافية لتغطية احتياجات الباحثين. لأنه لمحاكاة حدث واحد ، يتعين علينا حساب تفاعل الجسيمات الدقيقة مع بنية الكاشف ومحاكاة الاستجابة التي سنراها على مستشعرات هذا الكاشف بدقة عالية جدًا.

فكرة التسريع هي تدريب الشبكة العصبيةعلى الأحداث التي تمت محاكاتها باستخدام الحزمة المعتمدة - GMT 4 والتي تحاكي كل ما يحدث داخل أجهزة الكشف عن المصادم. سوف تتعلم هذه الخلية العصبية مقارنة المدخلات، ومعلمات الجسيمات التي نريد محاكاتها، والمخرجات - تلك الخصائص التي يمكن ملاحظتها والتي ينتجها الكاشف. تتعامل الشبكات العصبية اليوم بشكل جيد مع مهمة استيفاء البيانات. وتهدف العديد من المشاريع في مختبرنا إلى تحقيق هذا الهدف بالتحديد. وهذا يعني استعادة خصائص التحلل من العينة الاصطناعية المتاحة، أي صنع مثل هذه المواد الاصطناعية من الدرجة الثانية. ولكن هناك فارق بسيط: ميزة الشبكات العصبية هي أنه يمكننا ضبطها باستخدام بيانات حقيقية. وهذا يعني جعل هذا الإعداد أكثر دقة بالنسبة لتدهور جسدي معين. 

الأشخاص الذين يعملون في المجال الجسدي الكاملفي المحاكاة ، يقضون وقتهم وجهدهم في هذا ، ولكن مع الخلايا العصبية يتبين أنها تتطلب عمالة أقل قليلاً. ومن النتائج التي أجريناها لتجربة LHTV في CERN ومشروع تجربة Dubna MPD في مسرّع Nica ، أصبح من الواضح أن الشبكات العصبية يمكنها تحقيق دقة عالية جدًا في تغطية فضاء المرحلة لأحداث المحاكاة. إنها تسرع بشكل كبير عملية الحساب: الطلبات وحتى المئات أسرع من المحاكاة الصادقة.

— كيف تتعلم الشبكة العصبية نفسها؟ 

- لا توجد فروق في عملية التعلم.ولكن هناك خصوصية واحدة: بالنسبة للشبكة العصبية، بالإضافة إلى عينة التدريب، من الضروري صياغة معايير الجودة، أي تعيين وظيفة الخسارة التي تتوافق بشكل أفضل مع المهمة التي يجب أن تتعامل معها هذه الشبكة بشكل جيد. بالإضافة إلى ذلك، لا يتم تقييم جودة عمل مثل هذه الشبكة العصبية من قبل الباحثين: يمكن تقييمها بشكل مناسب من حيث الخطوات الحسابية التي تحدث في مرحلة لاحقة من معالجة البيانات.

نستطيع تحديد ما إذا كانت المحاكاة جيدة أم لافقط بعد أن نمر بالأحداث عبر سلسلة تحليلها وإعادة بنائها ، ونفهم أن نفس الخصائص التي وضعناها في الأصل يتم استعادتها منها. وهذا يعني ، على سبيل المثال ، أن استخدام مقياس خطأ متوسط مربع متوسط MSE بسيط لا يكفي.

خطأ مربع متوسط MSE- يقيس جذر متوسط مربع الفرق بين القيم المقدرة والقيمة الفعلية.

يحتاج سلوك الشبكة العصبية إلى مزيد من التقييمالميزات الموجودة في نطاقات المعلمات التي ربما لم تكن موجودة في مجموعة التدريب. يعد بناء مثل هذه النماذج التي تتصرف بشكل يتجاوز قيم المعلمات المعروفة في مرحلة التدريب مهمة كبيرة ونظرية.

الشبكات العصبية جيدة في الأماكن التي توجد فيهاعرف شيئًا ما في مرحلة التدريب. وخارجهم يمكنهم تقديم ما يريدون. وفي حالتنا، يعد هذا أمرًا حساسًا بشكل خاص، لأن صحة التفسير المادي للواقع من حولنا يعتمد عليه.

"إذا تحلل جسيم المادة المظلمة إلى جسيمات نعرف كيف نتفاعل معها ، فيمكن افتراض أن جسيم المادة المظلمة هذا كان حقًا"

- أي أن الشبكة العصبية تبحث عن أحداث نادرة يمكن أن تحدث عند المصادم؟

- بناءً على تشغيل النماذج التوليدية ، أي ،أولاً ، نحن نتحدث عن تركيب كل ما يمكن أن يحدث. نقوم بهذا باستخدام نماذج مصغرة. وعند إخراج مثل هذه الشبكات ، يمكننا بناء نموذج يبحث عما نحتاج إليه: ما تمكنا من إنشاؤه على شبكة عصبية مولدة.

كيفية البحث عن المادة المظلمة ولماذا هناك حاجة للشبكات العصبية لهذا الغرض

- هل يمكن تطبيق مبدأ بحث مشابه على المادة المظلمة؟

- الحقيقة أنه يمكن البحث عن المادة المظلمةطرق مختلفة. تتمثل إحدى الطرق في بناء كاشف مناسب يمكنه عزل تأثيرات المادة العادية بشكل جيد. أي لمنع الإشارة التي تأتي من الجسيمات المعروفة للفيزيائيين. هذه مجرد طريقة للتخلص: إذا رأى الكاشف شيئًا آخر غير الضوضاء ، فإنه يرى شيئًا لم نره من قبل. قد يكون أحد الاحتمالات أن هذه هي جسيمات مادة مظلمة.

إذا ، على سبيل المثال ، جسيم المادة المظلمةتتحلل إلى جسيمات نعرف كيف نتفاعل معها ، ومن الواضح أن آثار الاضمحلال لا يمكن أن تظهر من أي مكان إلا منها ، ثم يمكننا أن نفترض أن هذا الجسيم من المادة المظلمة كان بالفعل.

تتم مناقشة هذه التجارب والتخطيط لها.واحد منهم يسمى SHiP (البحث عن الجسيمات المخفية). وبالمناسبة ، بالنسبة لمثل هذه التجربة ، فإن الأساليب التي تحدثت عنها قابلة للتطبيق أيضًا. يتطلب المحاكاة والخوارزميات للتعرف على الأساليب النادرة. ولكن نظرًا لأن سطوع هذه التجربة أقل بكثير (اللمعان هو عدد الجسيمات المخطط اكتشافها لكل وحدة زمنية) ، فإن الحاجة إلى محاكاة عدد كبير من الأحداث المماثلة ليست حادة كما في حالة مصادم الهادرون كاشفات. على الرغم من أن المهمة المرتبطة بتقييم جودة نظام الحماية ضد الجسيمات المعروفة في الفيزياء ، على سبيل المثال ، تتطلب محاكاة عدد كبير نسبيًا من الأحداث. يعد هذا ضروريًا للتأكد من أن الحماية تعمل بشكل جيد مع العدد الهائل من الجسيمات الواردة من أنواع مختلفة.

سفينةهي تجربة تهدف إلى العثور على المخفيةالجسيمات، بما في ذلك جسيمات المادة المظلمة، في تيار من الجسيمات من مسرع SPS الذي تمت تصفيته بواسطة المجالات المغناطيسية، وهي طبقة طولها خمسة أمتار من الخرسانة والمعدن.

هناك طرق أخرى للبحث عن المادة المظلمة،المتعلقة برصد الظواهر الفضائية. على وجه الخصوص، يتمثل أحد الأساليب في بناء عناصر حساسة تتعرف على اتجاه الجسيمات المتفاعلة بشكل ضعيف جدًا اعتمادًا على زاوية سقوط هذا الجسيم. منطق التجربة هو أنه من الممكن وضع العناصر الحساسة بحيث تكون موجهة على طول متجه حركة النظام الشمسي، أي نحو كوكبة الدجاجة. عندها سنكون قادرين على تمييز الجسيمات التي تتحرك في نظام إحداثيات الأرض عن الجسيمات التي تتحرك بشكل مختلف. مثل الأثير الساكن الذي يتوزع في الفضاء الخارجي وفق قوانينه الخاصة، ولا يرتبط بأي حال من الأحوال باتجاه واتجاه حركة الكواكب. إنه فقط بدلاً من الأثير، يُفترض وجود جزيئات المادة المظلمة. يمكنهم التفاعل بشكل ضعيف مع أجهزة استشعار تجربتنا. ومن خلال تحليل قراءاتها، من الممكن استخلاص أنماط التوزيعات الزاوية للجسيمات المتفاعلة. فإذا رأينا أن هناك عنصرا خطيرا لا يعتمد على موقع الأرض في الفضاء، فهذا يدل على وجود جسيمات لم تكن معروفة من قبل. وربما تكون هذه الجسيمات مرشحة لجسيمات المادة المظلمة.

في مثل هذه التجربة ، تكون المحاكاة مهمة جدًا ،لأنه لبناء خوارزمية للتعرف على أحداث الإشارة ، عليك أن تتخيل كيف تبدو الإشارة التي تهمنا. لذلك ، فإن المهام المرتبطة بالمحاكاة السريعة والبحث عن الحالات الشاذة ذات صلة وقابلة للتطبيق هناك.

يتحدثون لغات مختلفة ، لكن الأهداف مشتركة

لنتحدث عن العمل في CERN. كيف يبدو أن يعمل شخص متخصص في تكنولوجيا المعلومات مع علماء الفيزياء؟ ما الميزات المرتبطة بالعمل في مساحة علمية مشتركة مثل LHC؟

- سؤال جيد.في الواقع، يتحدث الناس لغات مختلفة: يصل الأمر إلى حد أن نفس المفاهيم يتم تمثيلها بيانياً بطرق مختلفة. على سبيل المثال، منحنيات ROC، التي اعتاد عليها متخصصو التعلم الآلي، عادة ما يتم رسمها في الفيزياء بتدويرها بمقدار 90 درجة. والإحداثيات لا تسمى المعدل الإيجابي الحقيقي والمعدل السلبي الكاذب، ولكن كفاءة الإشارة ورفض الخلفية. علاوة على ذلك، إذا كانت كفاءة الإشارة لا تزال دقيقة، فإن رفض الخلفية يكون واحدًا ناقص المعدل السلبي الحقيقي. 

منحنى ROC (من خاصية تشغيل المستقبل الإنجليزية ، خاصية تشغيل المستقبل)- رسم بياني يسمح لك بتقييم جودة الثنائيالتصنيفات. يعرض العلاقة بين حصص الكائنات من إجمالي عدد حاملات السمة، المصنفة بشكل صحيح على أنها تحمل السمة، وحصص الكائنات من إجمالي عدد الكائنات التي لا تحمل السمة، والمصنفة بشكل غير صحيح على أنها تحمل السمة.

فمن الواضح أن مثل هذه الأمور قد تكون علىوهي سطحية ومن السهل نسبيًا التعود عليها، لكن التحديات الرئيسية تكمن في فهم بعض الافتراضات الأساسية التي يضعها الباحثون عند كتابة أوراقهم البحثية. وكقاعدة عامة، فإنهم يتجاوزون ما يكتبون عنه. أي أن هذه بعض المعرفة السرية التي تنتقل أثناء تدريب الشخص في كلية الدراسات العليا، أثناء العمل على مشاريعه البحثية، تتشكل في ذهنه. 

بالنسبة للأشخاص من مجال آخر من مجالات العلوم ، يبدو الأمر كذلكبيئة ثقافية مختلفة. بالنسبة لهم ، قد لا تكون هذه الافتراضات واضحة. نظرًا لحقيقة أن المعجم اتضح أنه شامل ومختلف تمامًا ، فقد يتأخر إنشاء الحوار أو قد يكون غير منتج. لذلك ، هنا ، كتوصيات ، يمكن للمرء أن ينصح إما أن يطلب من الناس تجاوز ما اعتادوا عليه وصياغة المشكلة بأكثر المصطلحات المجردة من الفيزياء. نقوم بذلك جزئيًا عندما ننظم مسابقات كجزء من أولمبياد IDAL الخاص بنا. في عملية الحوار ، نجد بيئة لا تتطلب الانغماس العميق في الفيزياء ، ولكنها في نفس الوقت ستكون مثيرة للاهتمام لمتخصصي التعلم الآلي.

هذا العام كان لدينا مشروع مشترك معمختبر إيطالي يبحث عن المادة المظلمة. لقد قدموا بيانات اصطناعية للألعاب الأولمبية للعثور على هذه المادة المظلمة. لا توجد حقًا مادة مظلمة هناك، لأنه تمت محاكاة اضمحلال الفيزياء المعروفة: اصطدام الإلكترونات وأيونات الهيليوم. لكن تصادمات جسيمات المادة المظلمة يمكن أن تكون مشابهة جدًا لبعض هذه التصادمات. من الصعب جدًا محاكاتها، بل ومن الأصعب تفسيرها. لذلك، وخاصة بالنسبة للأشخاص غير المتخصصين في هذا المجال، قررنا عدم سحب هذه البيانات والاقتصار على تلك المشابهة فقط. الخوارزميات التي سنراها تعمل على بيانات تقريبية، لكن يمكن تطبيقها أيضًا على بيانات حقيقية.

أندريه أوستيوزانين. صورة من أرشيف المتحدث

للتلخيص ، تتمثل إحدى الطرق في الاتفاق على شروط واضحة للجميع ، والآخر هو قضاء الوقت والجهد ، والالتحاق بالمدارس الصيفية ، والمشاركة في مشاريع البحث العملي.

كتب عن التعلم الآلي والتجارب البدنية التي أوصى بها أندريه أوستيوزانين:

ديباك كار،فيزياء الجسيمات التجريبية: فهم القياسات وعمليات البحث في مصادم الهادرونات الكبير.
ايليا نارسكي,تقنيات التحليل الإحصائي في فيزياء الجسيمات: النوبات وتقدير الكثافة والتعلم الخاضع للإشراف. 
جوزيبي كارليو,التعلم الآلي والعلوم الفيزيائية.

- هل هناك تناقضات بين قيم الفيزيائيين ومتخصصي تكنولوجيا المعلومات: على سبيل المثال ، هل طبيعة التفاعلات أكثر أهمية بالنسبة لشخص ما ، أم على العكس من ذلك ، الدقة؟

— إذا تحدثنا على وجه التحديد عن الدقة، على الأرجحليس هناك غموض. ولكن هذا يرجع على الأرجح إلى حقيقة أن متخصصي تكنولوجيا المعلومات لا يفهمون طبيعة البيانات. إنه فقط إذا قمنا بقياس البيانات بدقة ملليمتر، فلا فائدة من حساب المنطقة بدقة ميكرون مربع. في حالة الشبكات العصبية المعقدة، نواجه حقيقة أنها تنتج معلومات دقيقة حتى آخر علامة في الجزء العشري، ولكن لا يوجد معنى في هذه العلامات أكثر من الدقة التي كانت عند الإدخال.

حسنًا ، ربما تكون أمنية عامة للناسالتي تهتم بتقييم دقة النماذج لا تعطي فقط الخصائص المطلقة ، ولكن أيضًا حدود النطاقات المقبولة أو النطاق الذي تم الحصول فيه على هذه القيم. في الواقع توصية جيدة ليس فقط لأولئك الذين يتفاعلون مع علماء الفيزياء أو مع علماء الأحياء. هذه ، من حيث المبدأ ، هي الطريقة الصحيحة للحفاظ على عرض النتائج التي تم الحصول عليها.

وإذا تحدثنا عن مقدار ما يمكن أن يكونتوقعات مختلفة من جهة ومن جهة أخرى، فهذه كلها قضايا عمل في الواقع. فإذا كان هناك اهتمام من الجانبين، فمن الممكن حلها ببساطة وبشكل جيد. وهذا يعني أن التعلم الآلي أصبح الآن مطلوبًا بين الفيزيائيين بالمعنى الواسع، لأنه يوفر أدوات أكثر دقة للعمل مع بياناتهم. وهو يعمل في الاتجاه المعاكس، لأنه بالنسبة لمتخصصي التعلم الآلي، قد يكون من المثير للاهتمام أكثر أن نرى كيف تساعد خوارزمياتهم في اكتشاف جسيمات جديدة، على سبيل المثال، كما هو الحال في مختبرنا. لقد عملنا لفترة طويلة لإنشاء خوارزمية تحدد نوع الجسيم. ومؤخرًا كانت هناك أخبار عن اكتشاف رباعيات كواركات جديدة، وقد لعبت خوارزمياتنا دورًا مباشرًا في اكتشافها. 

لذلك، بالنسبة للأشخاص من تكنولوجيا المعلومات، بشكل مشروط من علوم البيانات،علوم الكمبيوتر، فإن الشعور بفائدة الخوارزميات التي يطورونها أمر مهم للغاية. لذلك، يوجد في كليتنا، على سبيل المثال، مختبر دولي للمعلوماتية الحيوية. 

أصبحت مثل هذه التفاعلات بشكل متزايدأكثر وأكثر طبيعية. لا أعرف ما إذا كان من الممكن بالفعل اعتبارها سائدة أو ما إذا كان لا يزال يتعين علينا الانتظار، لكن هذه القصة لا مفر منها بطريقة أو بأخرى. حتى لو نظرت إلى ورش العمل التي تم تنظيمها كجزء من المؤتمرات الرائدة اليوم حول الذكاء الاصطناعي، فإن ورشة العمل حول استخدام الذكاء الاصطناعي في العلوم الفيزيائية تحتل مكانة رائدة في عدد الأشخاص المهتمين. 

قراءة المزيد:

القمر الصناعي الأمريكي "رأى" رسالة غير عادية من الأرض

فيديو منشور من الصاروخ الذي انطلق من معجل تجريبي

الوحش في مركز مجرتنا: انظر إلى صورة ثقب أسود في مجرة درب التبانة

المهوس التكنولوجيا على الانترنت

كل شيء عن التكنولوجيا والأدوات

صائدو الشذوذ: كيف تبحث CERN عن الجسيمات النادرة باستخدام خوارزميات Yandex

كيفية البحث عن الحالات الشاذة في بيانات مصادم الهدرونات الكبير

تكافل الفيزياء وتكنولوجيا المعلومات: كيف يتم استخدام التعلم الآلي في أبحاث LHC

كيفية البحث عن المادة المظلمة ولماذا هناك حاجة للشبكات العصبية لهذا الغرض

يتحدثون لغات مختلفة ، لكن الأهداف مشتركة