Κυνηγοί ανωμαλιών: πώς το CERN αναζητά σπάνια σωματίδια χρησιμοποιώντας αλγόριθμους Yandex

Andrey Ustyuzhanin— Επικεφαλής του Ερευνητικού και Εκπαιδευτικού Εργαστηρίου Μεθόδων Ανάλυσης Μεγάλων Δεδομένων στην Ανώτατη Οικονομική Σχολή του Εθνικού Ερευνητικού Πανεπιστημίου.

Επικεφαλής των κοινών έργων μεταξύ Yandex και CERN. Συμμετέχει στην ανάπτυξη των υπηρεσιών EventIndex και EventFilter, τις οποίες η Yandex παρέχει για το πείραμα LHCb από το 2011. 

Αποφοίτησε από το Ινστιτούτο Φυσικής και Τεχνολογίας της Μόσχας το 2000, υποψήφιος στις Φυσικές και Μαθηματικές Επιστήμες. Ένας από τους κριτές των διεθνών τελικών του Microsoft Imagine Cup, πριν από αυτό ήταν μέντορας της ομάδας MIPT που κέρδισε το κύπελλο το 2005.

Πώς να αναζητήσετε ανωμαλίες στα δεδομένα του Μεγάλου Επιταχυντή Αδρονίων

Τι είναι οι ανωμαλίες δεδομένων;

— Αν μιλάμε για δεδομένα που λαμβάνονται με τη χρήσηΜεγάλος Επιταχυντής Αδρονίων (LHC), αυτές μπορεί να είναι ανακαλύψεις που δεν ταιριάζουν σε τυπικές ιδέες σχετικά με το πώς συμβαίνουν εκεί οι διασπάσεις των σωματιδίων μετά από συγκρούσεις πρωτονίων. Αυτές οι ανακαλύψεις θα είναι ανωμαλίες. 

Για παράδειγμα, αν μιλάμε για τιμές ενεργητικούστο χρηματιστήριο, τότε μπορεί να υπάρχουν ανωμαλίες λόγω του γεγονότος ότι ένα συγκεκριμένο hedge fund αποφάσισε να αντλήσει ένα περιουσιακό στοιχείο ή η Wall Street Bets αποφάσισε να κερδίσει επιπλέον χρήματα και να δημιουργήσει το δικό της διανεμημένο hedge fund. Δηλαδή, η φυσική είναι εντελώς διαφορετική και η εκδήλωση αυτής της φυσικής στα δεδομένα δεν είναι επίσης παρόμοια με άλλες περιπτώσεις.

Επομένως, αν μιλάμε για ανωμαλίες, πρέπει πρώτα να καταλάβουμε για ποια δεδομένα και για ποια φυσική μιλάμε. 

— Τότε ας ξεκαθαρίσουμε με επίκεντρο τους επιταχυντές.

- Εδώ είναι λίγο πιο εύκολο, αν και προκύπτει και αυτόπιρούνι. Το γεγονός είναι ότι υπάρχουν δεδομένα για το τι είδους διεργασίες συμβαίνουν με σωματίδια μέσα στον ανιχνευτή. Και υπάρχουν δεδομένα για το πώς λειτουργεί αυτός ο επιταχυντής. Οι άνθρωποι που ενδιαφέρονται πρωτίστως για την ανακάλυψη νέων σωματιδίων ή νόμων ενδιαφέρονται κυρίως για τον πρώτο τύπο δεδομένων. Αλλά το γεγονός είναι ότι όλα όσα συμβαίνουν στη φυσική περνούν από μια μάλλον μακρά αλυσίδα συλλογής και επεξεργασίας αυτών των πληροφοριών. Και αν κάποιος από τους κόμβους αυτής της αλυσίδας αρχίσει να συμπεριφέρεται όχι τόσο καλά όσο φανταζόμασταν, δηλαδή ξεπερνά ορισμένα όρια του επιτρεπόμενου, αυτό εισάγει μια παραμόρφωση στις μετρήσεις. Μπορούμε να δούμε ανωμαλίες στο μέρος όπου, γενικά, δεν ήταν στη φυσική.

Οι ανακαλύψεις που δεν ταιριάζουν στις τυπικές ιδέες για το πώς συμβαίνουν εκεί διασπάσεις σωματιδίων, που προκύπτουν μετά τη σύγκρουση πρωτονίων, θα είναι ανωμαλίες

Για να αποφύγετε τέτοια δυσάρεστα γεγονότα, οι άνθρωποιγράφουν ειδικά συστήματα ελέγχου ποιότητας δεδομένων που παρακολουθούν όλα τα δεδομένα στα όργανα μέτρησης και προσπαθούν να αποκλείσουν από την εξέταση εκείνες τις χρονικές περιόδους που υπάρχει υποψία ότι κάτι δεν πάει καλά. 

Ένα από τα παραδείγματα για τα οποία αρέσει να μιλούν οι άνθρωποιφυσικοί από το LHC, ήταν ότι στα πρώτα στάδια της λειτουργίας του επιταχυντή παρατήρησαν ανωμαλίες που δεν ταίριαζαν σε φυσικές έννοιες. Δεν υπήρχε ακόμα το LHC, αλλά η προηγούμενη έκδοσή του. Ως αποτέλεσμα, οι φυσικοί διαπίστωσαν ότι ο συσχετισμός είναι πολύ σοβαρός με το πρόγραμμα των τρένων στον σιδηρόδρομο, ο οποίος βρίσκεται κοντά. Και αν κάνετε προσαρμογές που σχετίζονται με αυτές τις διακυμάνσεις, θα έχετε μια μη φυσική εικόνα του κόσμου. 

Είναι απαραίτητο να λάβετε υπόψη εξωτερικούς παράγοντες και να μπορέσετεκατανοήσουν ποια από αυτά πρέπει να αποζημιωθούν σωστά. Η απλούστερη λύση: ας πετάξουμε τα δεδομένα που δεν ταιριάζουν στη συνηθισμένη εικόνα του κόσμου. Πιο περίπλοκες ιστορίες είναι να προσπαθήσουμε να επιστρέψουμε αυτές τις ανωμαλίες σε κανονικά δεδομένα χρησιμοποιώντας κατανοητές και φυσικές αρχές και να προσπαθήσουμε να επωφεληθείτε από αυτές. 

Η απόρριψη δεδομένων είναι σπατάλη δημοσιονομικών πόρων. Κάθε kilobyte-megabyte έχει μια συγκεκριμένη τιμή.

Andrey Ustyuzhanin, Επικεφαλής του Ερευνητικού και Εκπαιδευτικού Εργαστηρίου για Μεθόδους Ανάλυσης Μεγάλων Δεδομένων στην Ανώτατη Οικονομική Σχολή του Εθνικού Ερευνητικού Πανεπιστημίου

- Και, κατά συνέπεια, πώς μπορεί κανείς να εντοπίσει την ανωμαλία σε αυτά τα δεδομένα χρησιμοποιώντας ένα σύστημα μηχανικής μάθησης;

— Υπάρχουν δύο ομάδες τέτοιων αλγορίθμων, οι οποίοιεργασία με ανωμαλίες. Η πρώτη ομάδα μεθόδων ταξινόμησης μιας κατηγορίας περιλαμβάνει αλγόριθμους που χρησιμοποιούν πληροφορίες μόνο για εκείνα τα συμβάντα που επισημαίνονται ως καλά. Δηλαδή προσπαθούν να φτιάξουν μια κυρτή γάστρα που να περικλείει ό,τι εμείς θεωρούμε σωστό. Η λογική είναι η εξής: ό,τι υπερβαίνει αυτό το κέλυφος, θα θεωρούμε ανωμαλίες. Δηλαδή, για παράδειγμα, το 99% των δεδομένων καλύπτεται από ένα τέτοιο κέλυφος, και όλα τα άλλα μοιάζουν με κάτι ύποπτο.

Μια άλλη ομάδα αλγορίθμων βασίζεται σε μερικήσημειώνοντας αυτό που θεωρούμε λάθος. Ουσιαστικά, υπάρχει ένα σύνολο γεγονότων που είναι γνωστό ότι έχουν ανεπιθύμητα αποτελέσματα. Και τότε η αναζήτηση για ανωμαλίες καταλήγει σε ένα πρόβλημα ταξινόμησης δύο τάξεων. Αυτός είναι ένας κανονικός ταξινομητής που μπορεί να κατασκευαστεί με βάση τις αρχές των νευρωνικών δικτύων ή των δέντρων αποφάσεων. 

Η απόχρωση είναι αυτή συνήθως στις εργασίεςανωμαλίες, το δείγμα δεν είναι ισορροπημένο. Δηλαδή, ο αριθμός των θετικών παραδειγμάτων υπερβαίνει σημαντικά τον αριθμό των αρνητικών. Κάτω από τέτοιες συνθήκες, οι τυπικοί αλγόριθμοι ταξινόμησης μπορεί να μην λειτουργούν όσο καλά θα θέλαμε. Η προεπιλεγμένη συνάρτηση απώλειας αντιμετωπίζει τις περιπτώσεις που πληρούν τις προϋποθέσεις σωστά και μπορεί να παραβλέπει το γεγονός ότι μεταξύ 10.000 σωστών αποτελεσμάτων υπάρχουν εκατό που πληρούν τις προϋποθέσεις εσφαλμένα. Αυτό το εκατό αντιπροσωπεύει απλώς εκείνα τα αρνητικά παραδείγματα που είναι πιο ενδιαφέροντα. Είναι σαφές ότι αυτό μπορεί να καταπολεμηθεί, για παράδειγμα, δίνοντας μεγαλύτερη βαρύτητα σε αρνητικά παραδείγματα και λαμβάνοντας υπόψη τα σφάλματα κατά την κατάταξή τους με πολύ μεγαλύτερη βαρύτητα.

Λειτουργία απώλειας- μια συνάρτηση που, στη θεωρία των στατιστικών αποφάσεων, χαρακτηρίζει απώλειες λόγω λανθασμένης λήψης αποφάσεων με βάση τα παρατηρούμενα δεδομένα.

Συμβολή του εργαστηρίου μας στην επίλυση του προβλήματοςΗ ανίχνευση ανωμαλιών είναι να προτείνει μεθόδους που συνδυάζουν τα χαρακτηριστικά της πρώτης και της δεύτερης προσέγγισης. Δηλαδή, το έργο της εργασίας με ταξινόμηση μιας τάξης και δύο τάξεων. Ένας τέτοιος συνδυασμός καθίσταται δυνατός εάν δημιουργήσουμε παραγωγικά μοντέλα ανώμαλων παραδειγμάτων. 

Χρησιμοποιώντας προσεγγίσεις όπως η γενετικήαντίθετα δίκτυα ή ομαλοποίηση ροών, μπορούμε να μάθουμε να ανακτούμε τα παραδείγματα που επισημαίνονται ως αρνητικά και να δημιουργήσουμε ένα επιπλέον δείγμα που θα επιτρέψει στον κανονικό ταξινομητή να εργαστεί με το επαυξημένο συνθετικό δείγμα πιο αποτελεσματικά. Αυτή η προσέγγιση λειτουργεί καλά τόσο για δεδομένα πινάκων όσο και για εικόνες. Υπήρχε ένα άρθρο σχετικά με αυτό τον περασμένο χρόνο, το οποίο περιγράφει πώς κατασκευάζεται ένα τέτοιο σύστημα και δίνει πρακτικά παραδείγματα χρήσης του.

— Αναφέρατε τη δουλειά με εικόνες. Πώς λειτουργεί σε αυτή την περίπτωση;

— Υπάρχουν παραδείγματα στα οποία δείξαμε το έργοαυτόν τον αλγόριθμο. Απλώς επέλεξαν μία από τις κατηγορίες εικόνων: για παράδειγμα, χειρόγραφους αριθμούς. Και είπαν ότι το μηδέν είναι κάποιο είδος ανωμαλίας. Και ζήτησαν από το νευρωνικό δίκτυο, το οποίο αποφασίζει ότι τα μηδενικά δεν είναι όπως όλα τα άλλα, να αντιστοιχιστεί στην αρνητική τάξη. Φυσικά, αυτά μπορεί να είναι όχι μόνο μηδενικά, αλλά και, για παράδειγμα, αριθμοί εντός των οποίων υπάρχουν κλειστοί κύκλοι - 068 - ή αριθμοί με οριζόντιες διασταυρώσεις. Ή απλώς οι εικόνες περιστρέφονται υπό κάποια γωνία σε σχέση με το υπόλοιπο δείγμα. 

«Μπορούμε να προσομοιώσουμε τη φυσική υπό ορισμένους όρουςεξωτερικές παραμέτρους με καλή ακρίβεια και πείτε ποια παρατηρήσιμα χαρακτηριστικά θα περιγράψουν τα σωστά συμβάντα σήματος, για παράδειγμα, τη διάσπαση του μποζονίου Higgs "

Υπάρχει ένα σύνολο δεδομένων που ονομάζεται omniglot -γράμματα γραμμένα με διαφορετικές γραμματοσειρές. Υπάρχει ένας τεράστιος αριθμός γραμματοσειρών: από Futurama, Gothic, χειρόγραφες από μη δημοφιλή αλφάβητα - σανσκριτικά ή εβραϊκά. Μπορούμε να πούμε ότι τα γράμματα στα σανσκριτικά είναι μια ανωμαλία, τα γράμματα που γράφονται με συγκεκριμένο χειρόγραφο είναι επίσης.

Ζητάμε από το σύστημα να μάθει να ξεχωρίζει τα πάντατα υπόλοιπα από αυτά τα ανώμαλα σύμβολα. Το κυριότερο είναι ότι είναι πολύ μικρότερα από όλα τα άλλα. Αυτή είναι η δυσκολία της εργασίας μαζί τους για τους συμβατικούς αλγόριθμους μηχανικής εκμάθησης.

Συμβίωση φυσικής και πληροφορικής: πώς χρησιμοποιείται η μηχανική μάθηση στην έρευνα LHC

— Ποιες εργασίες του LHC επιλύονται με τη βοήθεια της μηχανικής μάθησης;

— Ένα μεγάλο έργο με το οποίο εργαζόμαστε είναιείναι η επιτάχυνση των υπολογιστικών διεργασιών που προσομοιώνουν φυσικές συγκρούσεις και διασπάσεις σωματιδίων. Γεγονός είναι ότι η απόφαση για το αν τα δεδομένα γεγονότα είναι παρόμοια με ορισμένες φυσικές αποσυνθέσεις ή όχι λαμβάνεται μετά από ανάλυση ενός αρκετά μεγάλου αριθμού προσομοιωμένων αποσυνθέσεων. Μπορούμε να προσομοιώσουμε τη φυσική σε ορισμένες εξωτερικές παραμέτρους με καλή ακρίβεια και να πούμε ποια παρατηρήσιμα χαρακτηριστικά θα περιγράψουν τα σωστά συμβάντα σήματος, για παράδειγμα, τη διάσπαση του μποζονίου Higgs. 

Υπάρχουν όμως ορισμένες επιφυλάξεις:Δεν γνωρίζουμε πάντα τις παραμέτρους κάτω από τις οποίες πρέπει να δημιουργηθούν αυτές οι διασπάσεις. Κατά κανόνα, υπάρχει μια συγκεκριμένη ιδέα για αυτό. Και η πρόκληση της εύρεσης της σωστής φυσικής είναι να διακρίνει κανείς τα γεγονότα σήματος από τα γεγονότα του παρασκηνίου, τα οποία μπορεί να σχετίζονται είτε με τη λανθασμένη λειτουργία αλγορίθμων ανάκτησης είτε με τη φυσική άλλων διεργασιών που μοιάζουν πολύ με αυτό που προσπαθούμε να βρούμε. Οι αλγόριθμοι μηχανικής εκμάθησης κάνουν καλή δουλειά σε αυτό, αλλά είναι μια πολύ γνωστή ιστορία. 

Αλλά για την εκπαίδευση τέτοιων αλγορίθμων, απαιτείταιένα αρκετά μεγάλο στατιστικό δείγμα προσομοιωμένων γεγονότων και ο υπολογισμός αυτών των συνθετικών δεδομένων απαιτεί ορισμένους πόρους. Επειδή η προσομοίωση ενός γεγονότος διαρκεί περίπου ένα λεπτό ή και δέκα λεπτά από τον υπολογιστικό χρόνο των σύγχρονων κέντρων υπολογιστών. Λόγω του γεγονότος ότι ο αριθμός των πραγματικών γεγονότων με τα οποία θα εργαστούν οι φυσικοί θα αυξηθεί κατά τάξεις μεγέθους τα επόμενα χρόνια, ο αριθμός των συνθετικών γεγονότων θα πρέπει επίσης να αυξηθεί. Τώρα οι υπολογιστικοί πόροι μόλις και μετά βίας επαρκούν για να καλύψουν τις ανάγκες των ερευνητών. Γιατί για να προσομοιώσουμε ένα συμβάν, πρέπει να υπολογίσουμε την αλληλεπίδραση των μικροσωματιδίων με τη δομή του ανιχνευτή και να προσομοιώσουμε την απόκριση που θα δούμε στους αισθητήρες αυτού του ανιχνευτή με πολύ υψηλή ακρίβεια.

Η ιδέα της επιτάχυνσης είναι να εκπαιδεύσει το νευρωνικό δίκτυοσε συμβάντα που προσομοιώθηκαν χρησιμοποιώντας ένα πιστοποιημένο πακέτο - GMT 4, το οποίο προσομοιώνει όλα όσα συμβαίνουν μέσα στους ανιχνευτές επιταχυντών. Αυτός ο νευρώνας θα μάθει να συγκρίνει τις εισόδους, τις παραμέτρους των σωματιδίων που θέλουμε να προσομοιώσουμε και τις εξόδους - αυτά τα παρατηρήσιμα χαρακτηριστικά που παράγει ο ανιχνευτής. Τα νευρωνικά δίκτυα σήμερα αντιμετωπίζουν ήδη αρκετά καλά το έργο της παρεμβολής δεδομένων. Και αρκετά έργα στο εργαστήριό μας στοχεύουν ακριβώς σε αυτό. Δηλαδή να αποκαταστήσει τα χαρακτηριστικά των φθορών από το διαθέσιμο συνθετικό δείγμα, να φτιάξει δηλαδή τέτοια συνθετικά δεύτερης τάξης. Υπάρχει όμως μια απόχρωση: το πλεονέκτημα των νευρωνικών δικτύων είναι ότι μπορούμε να τα βελτιστοποιήσουμε χρησιμοποιώντας πραγματικά δεδομένα. Δηλαδή, κάντε αυτήν τη ρύθμιση πιο ακριβή για μια συγκεκριμένη φυσική αποσύνθεση. 

Άτομα που ασχολούνται με πλήρη σωματικήπροσομοίωση, ξοδεύουν το χρόνο και την προσπάθειά τους σε αυτό, αλλά με τους νευρώνες αποδεικνύεται λίγο λιγότερο εντατική. Και από τα αποτελέσματα που κάναμε για το πείραμα LHTV στο CERN και το πειραματικό έργο Dubna MPD στον επιταχυντή Nica, κατέστη σαφές ότι τα νευρωνικά δίκτυα μπορούν να επιτύχουν πολύ υψηλή ακρίβεια στην κάλυψη του χώρου φάσης των προσομοιωμένων γεγονότων. Επιταχύνουν σημαντικά τη διαδικασία υπολογισμού: παραγγελίες και μάλιστα εκατοντάδες πιο γρήγορα από μια ειλικρινή προσομοίωση.

— Πώς μαθαίνει το ίδιο το νευρωνικό δίκτυο; 

— Δεν υπάρχουν διαφορές στη μαθησιακή διαδικασία.Αλλά υπάρχει μια ιδιαιτερότητα: για ένα νευρωνικό δίκτυο, εκτός από το δείγμα εκπαίδευσης, είναι απαραίτητο να διαμορφωθούν κριτήρια ποιότητας, δηλαδή να οριστεί μια συνάρτηση απώλειας που θα ανταποκρίνεται καλύτερα στην εργασία που αυτό το δίκτυο θα πρέπει να αντιμετωπίσει καλά. Επιπλέον, η ποιότητα της εργασίας ενός τέτοιου νευρωνικού δικτύου δεν αξιολογείται από τους ερευνητές: μπορεί να αξιολογηθεί επαρκώς ως προς τα υπολογιστικά βήματα που προκύπτουν σε μεταγενέστερο στάδιο της επεξεργασίας δεδομένων. 

Για να προσδιορίσουμε αν μια προσομοίωση είναι καλή ή όχι, μπορούμεμόνο αφού περάσουμε τα γεγονότα μέσα από την αλυσίδα της ανάλυσής τους, της ανακατασκευής τους, και καταλάβουμε ότι αποκαθίστανται από αυτά τα ίδια χαρακτηριστικά που αρχικά βάλαμε σε αυτά. Αυτό σημαίνει ότι, για παράδειγμα, η χρήση μιας απλής μέτρησης MSE Mean Squared Error δεν αρκεί.

Μέσο τετράγωνο σφάλμα MSE- μετρά τη διαφορά μέσης τετραγωνικής ρίζας μεταξύ των εκτιμώμενων τιμών και της πραγματικής τιμής.

Η συμπεριφορά του νευρωνικού δικτύου πρέπει να αξιολογηθεί περαιτέρω, στοχαρακτηριστικά σε εύρη παραμέτρων που μπορεί να μην υπήρχαν στο σετ εκπαίδευσης. Η κατασκευή τέτοιων μοντέλων που συμπεριφέρονται πολύ πέρα από τις τιμές παραμέτρων που είναι γνωστές στο στάδιο της εκπαίδευσης είναι ένα μεγάλο και θεωρητικό έργο. 

Τα νευρωνικά δίκτυα είναι καλά στα σημεία στα οποία βρίσκονταιήξερε κάτι στο στάδιο της προπόνησης. Έξω από αυτά, μπορούν να δώσουν ό,τι θέλουν. Στην περίπτωσή μας, αυτό είναι ιδιαίτερα ευαίσθητο, γιατί από αυτό εξαρτάται η ορθότητα της φυσικής ερμηνείας της πραγματικότητας γύρω μας. 

«Αν ένα σωματίδιο της σκοτεινής ύλης διασπαστεί σε σωματίδια με τα οποία ξέρουμε πώς να αλληλεπιδράσουμε, μπορούμε να υποθέσουμε ότι αυτό το σωματίδιο της σκοτεινής ύλης ήταν πραγματικά»

- Δηλαδή, το νευρωνικό δίκτυο ψάχνει για σπάνια συμβάντα που μπορεί να συμβούν στον επιταχυντή;

— Με βάση τη λειτουργία παραγωγικών μοντέλων, δηλαδή,Πρώτον, μιλάμε για τη σύνθεση όλων όσων μπορούν να συμβούν. Αυτό το κάνουμε με μικροσκοπικά μοντέλα. Και στην έξοδο τέτοιων δικτύων, μπορούμε να δημιουργήσουμε ένα μοντέλο που θα αναζητά αυτό που χρειαζόμαστε: αυτό που καταφέραμε να δημιουργήσουμε σε ένα γενετικό νευρωνικό δίκτυο.

Πώς να αναζητήσετε τη σκοτεινή ύλη και γιατί χρειάζονται τα νευρωνικά δίκτυα για αυτό

— Μπορεί μια παρόμοια αρχή αναζήτησης να εφαρμοστεί στη σκοτεινή ύλη;

- Το γεγονός είναι ότι η σκοτεινή ύλη μπορεί να αναζητηθείδιαφορετικοί τρόποι. Ένας τρόπος είναι η κατασκευή ενός κατάλληλου ανιχνευτή που μπορεί να απομονωθεί αρκετά καλά από τις επιπτώσεις της συνηθισμένης ύλης. Δηλαδή να μπλοκάρει το σήμα που προέρχεται από σωματίδια που είναι γνωστά στους φυσικούς. Αυτή είναι απλώς μια μέθοδος εξάλειψης: αν ο ανιχνευτής δει κάτι άλλο εκτός από θόρυβο, τότε βλέπει κάτι που δεν έχουμε ξαναδεί. Μια πιθανότητα θα ήταν ότι πρόκειται για σωματίδια σκοτεινής ύλης.

Αν, για παράδειγμα, ένα σωματίδιο σκοτεινής ύληςδιασπάται σε σωματίδια με τα οποία ξέρουμε πώς να αλληλεπιδρούμε, και είναι σαφές ότι τα ίχνη αποσύνθεσης δεν μπορούσαν να εμφανιστούν από πουθενά εκτός από αυτό, τότε μπορούμε να υποθέσουμε ότι αυτό το σωματίδιο της σκοτεινής ύλης ήταν πραγματικά.

Τέτοια πειράματα συζητούνται και σχεδιάζονται.Ένα από αυτά ονομάζεται SHiP (Αναζήτηση για κρυφά σωματίδια). Και, παρεμπιπτόντως, για ένα τέτοιο πείραμα, ισχύουν και οι προσεγγίσεις για τις οποίες μίλησα. Απαιτεί προσομοίωση και αλγόριθμους για την αναγνώριση σπάνιων προσεγγίσεων. Αλλά επειδή η φωτεινότητα αυτού του πειράματος είναι πολύ χαμηλότερη (φωτεινότητα είναι ο αριθμός των σωματιδίων που σχεδιάζεται να ανιχνευθούν ανά μονάδα χρόνου), η ανάγκη για προσομοίωση μεγάλου αριθμού παρόμοιων γεγονότων δεν είναι τόσο έντονη όσο στην περίπτωση του Επιταχυντή Αδρονίων ανιχνευτές. Αν και, για παράδειγμα, η εργασία που σχετίζεται με την αξιολόγηση της ποιότητας του συστήματος προστασίας από σωματίδια που είναι γνωστά στη φυσική απαιτεί την προσομοίωση ενός αρκετά μεγάλου αριθμού γεγονότων. Αυτό είναι απαραίτητο για να βεβαιωθείτε ότι η προστασία λειτουργεί καλά με τον τεράστιο αριθμό εισερχόμενων σωματιδίων διαφόρων τύπων.

Πλοίοείναι ένα πείραμα που στοχεύει στην εύρεση κρυμμένωνσωματίδια, συμπεριλαμβανομένων των σωματιδίων της σκοτεινής ύλης, σε ένα ρεύμα σωματιδίων από τον επιταχυντή SPS φιλτραρισμένο από μαγνητικά πεδία, ένα στρώμα πέντε μέτρων από σκυρόδεμα και μέταλλο. 

Υπάρχουν άλλοι τρόποι αναζήτησης για σκοτεινή ύλη,που σχετίζονται με παρατηρήσεις διαστημικών φαινομένων. Συγκεκριμένα, μια προσέγγιση είναι η κατασκευή ευαίσθητων στοιχείων που αναγνωρίζουν την κατεύθυνση των πολύ ασθενώς αλληλεπιδρώντων σωματιδίων ανάλογα με τη γωνία πρόσπτωσης αυτού του σωματιδίου. Η λογική του πειράματος είναι ότι είναι δυνατό να τοποθετηθούν τα ευαίσθητα στοιχεία έτσι ώστε να προσανατολίζονται κατά μήκος του διανύσματος κίνησης του Ηλιακού συστήματος, δηλαδή προς τον αστερισμό του Κύκνου. Τότε θα μπορέσουμε να διακρίνουμε τα σωματίδια που κινούνται στο σύστημα συντεταγμένων της Γης από τα σωματίδια που κινούνται διαφορετικά. Όπως ο ακίνητος αιθέρας, ο οποίος κατανέμεται στο διάστημα σύμφωνα με τους δικούς του νόμους, σε καμία περίπτωση δεν συνδέεται με τον προσανατολισμό και την κατεύθυνση κίνησης των πλανητών. Απλώς αντί για αιθέρα, υποτίθεται ότι υπάρχουν σωματίδια σκοτεινής ύλης. Μπορούν να αλληλεπιδράσουν ασθενώς με τους αισθητήρες του πειράματός μας. Και αναλύοντας τις αναγνώσεις τους, είναι δυνατό να εξαχθούν μοτίβα γωνιακών κατανομών αλληλεπιδρώντων σωματιδίων. Αν δούμε ότι υπάρχει ένα σοβαρό συστατικό που δεν εξαρτάται από τη θέση της Γης στο διάστημα, αυτό θα υποδηλώνει την ύπαρξη προηγουμένως άγνωστων σωματιδίων. Και ίσως αυτοί να είναι υποψήφιοι για σωματίδια σκοτεινής ύλης. 

Σε ένα τέτοιο πείραμα, η προσομοίωση είναι πολύ σημαντική,γιατί για να δημιουργήσετε έναν αλγόριθμο αναγνώρισης συμβάντων σήματος, πρέπει να φανταστείτε πώς μοιάζει το σήμα που μας ενδιαφέρει. Επομένως, οι εργασίες που σχετίζονται με τη γρήγορη προσομοίωση και την αναζήτηση ανωμαλιών είναι σχετικές και εφαρμόσιμες εκεί.

Μιλούν διαφορετικές γλώσσες, αλλά οι στόχοι είναι κοινοί

Ας μιλήσουμε για τη δουλειά στο CERN. Πώς είναι για ένα άτομο πληροφορικής να συνεργάζεται με φυσικούς; Ποια χαρακτηριστικά συνδέονται με την εργασία σε έναν τόσο διεπιστημονικό χώρο όπως ο LHC;

- Καλή ερώτηση.Πράγματι, οι άνθρωποι μιλούν διαφορετικές γλώσσες: φτάνει στο σημείο οι ίδιες έννοιες να αναπαρίστανται γραφικά με διαφορετικούς τρόπους. Για παράδειγμα, οι καμπύλες ROC, στις οποίες είναι συνηθισμένοι οι ειδικοί της μηχανικής μάθησης, σχεδιάζονται συνήθως στη φυσική περιστρέφονται κατά 90 μοίρες. Και οι συντεταγμένες δεν ονομάζονται True Positive Rate και False Negative Rate, αλλά Signal efficiency and Background Rejection. Επιπλέον, εάν η απόδοση του σήματος εξακολουθεί να είναι Ακρίβεια, τότε η απόρριψη φόντου είναι ένα μείον τον πραγματικό αρνητικό ρυθμό. 

Καμπύλη ROC (από το αγγλικό χαρακτηριστικό λειτουργίας δέκτη, χαρακτηριστικό λειτουργίας δέκτη)— ένα γράφημα που σας επιτρέπει να αξιολογήσετε την ποιότητα του δυαδικού αρχείουταξινομήσεις. Εμφανίζει τη σχέση μεταξύ των μεριδίων αντικειμένων από τον συνολικό αριθμό φορέων χαρακτηριστικών, που ταξινομήθηκαν σωστά ως φέροντες το χαρακτηριστικό, και των μεριδίων αντικειμένων από τον συνολικό αριθμό αντικειμένων που δεν φέρουν το χαρακτηριστικό, που ταξινομήθηκαν λανθασμένα ως φέροντες το χαρακτηριστικό.

Είναι σαφές ότι τέτοια πράγματα μπορεί να συμβαίνουνεπιφάνειες και είναι σχετικά εύκολο να συνηθίσετε, αλλά οι κύριες προκλήσεις έγκεινται στην κατανόηση ορισμένων από τις βασικές υποθέσεις που κάνουν οι ερευνητές όταν γράφουν τις εργασίες τους. Και, κατά κανόνα, είναι πέρα από αυτά για τα οποία γράφουν. Δηλαδή, αυτή είναι κάποια μυστική γνώση που μεταδίδεται κατά τη διάρκεια της εκπαίδευσης ενός ατόμου στο μεταπτυχιακό, στη διαδικασία της εργασίας στα ερευνητικά του έργα, διαμορφώνεται στο μυαλό του. 

Για ανθρώπους από άλλο πεδίο της επιστήμης, είναι σανδιαφορετικό πολιτισμικό περιβάλλον. Για αυτούς, αυτές οι υποθέσεις μπορεί να μην είναι τόσο προφανείς. Λόγω του γεγονότος ότι το λεξικό αποδεικνύεται αρκετά εκτεταμένο και διαφορετικό, η κατασκευή ενός διαλόγου μπορεί να καθυστερήσει ή ακόμα και να αποβεί μη παραγωγική. Ως εκ τούτου, εδώ, ως συστάσεις, μπορεί κανείς πιθανώς να συμβουλεύσει είτε να ζητήσει από τους ανθρώπους να προχωρήσουν πέρα από αυτό που έχουν συνηθίσει και να διατυπώσουν το πρόβλημα με τους πιο αφηρημένους όρους από τη φυσική. Αυτό το κάνουμε εν μέρει όταν διοργανώνουμε διαγωνισμούς ως μέρος της Ολυμπιάδας μας IDAL. Στη διαδικασία του διαλόγου, βρίσκουμε ένα σκηνικό που δεν θα απαιτούσε βαθιά εμβάπτιση στη φυσική, αλλά ταυτόχρονα θα ήταν ενδιαφέρον για τους ειδικούς της μηχανικής εκμάθησης.

Φέτος είχαμε ένα κοινό έργο μεένα ιταλικό εργαστήριο που αναζητά τη σκοτεινή ύλη. Παρείχαν συνθετικά δεδομένα για τους Ολυμπιακούς Αγώνες για να βρουν αυτή τη σκοτεινή ύλη. Πραγματικά δεν υπάρχει σκοτεινή ύλη εκεί, επειδή προσομοιώθηκαν οι διασπάσεις της γνωστής φυσικής: συγκρούσεις ηλεκτρονίων και ιόντων ηλίου.  Αλλά οι συγκρούσεις σωματιδίων της σκοτεινής ύλης θα μπορούσαν να είναι πολύ παρόμοιες με ορισμένες από αυτές τις συγκρούσεις. Είναι πολύ δύσκολο να προσομοιωθούν και ακόμη πιο δύσκολο να ερμηνευτούν. Επομένως, ειδικά για άτομα που δεν είναι ειδικοί σε αυτόν τον τομέα, αποφασίσαμε να μην βγάλουμε αυτά τα δεδομένα και να περιοριστούμε μόνο σε αυτά που είναι παρόμοια. Οι αλγόριθμοι που θα δούμε λειτουργούν σε δεδομένα κατά προσέγγιση, αλλά μπορούν να εφαρμοστούν και σε πραγματικά δεδομένα.

Andrey Ustyuzhanin. Φωτογραφία από το αρχείο του ομιλητή

Συνοψίζοντας, ένας τρόπος είναι να συμφωνήσουμε σε ξεκάθαρους όρους για όλους και ο άλλος είναι να ξοδέψουμε χρόνο και προσπάθεια, να παρακολουθήσουμε θερινά σχολεία, να συμμετάσχουμε σε πρακτικά ερευνητικά προγράμματα.

Βιβλία σχετικά με τη μηχανική μάθηση και τα φυσικά πειράματα που προτείνει ο Andrey Ustyuzhanin:

Deepak Kar,Πειραματική Φυσική Σωματιδίων: Κατανόηση των μετρήσεων και των αναζητήσεων στον Μεγάλο Επιταχυντή Αδρονίων.
Ilya Narsky,Τεχνικές στατιστικής ανάλυσης στη φυσική των σωματιδίων: προσαρμογές, εκτίμηση πυκνότητας και εποπτευόμενη μάθηση. 
Τζουζέπε Καρλέο,Μηχανική μάθηση και φυσικές επιστήμες.

- Υπάρχουν αντιφάσεις μεταξύ των αξιών των φυσικών και των ειδικών της πληροφορικής: για παράδειγμα, είναι πιο σημαντική για κάποιον η φύση των αλληλεπιδράσεων ή, αντίθετα, η ακρίβεια;

— Αν μιλάμε συγκεκριμένα για ακρίβεια, μάλλονδεν υπάρχει καμία αμφισημία. Αλλά αυτό είναι πιο πιθανό λόγω του γεγονότος ότι οι ειδικοί πληροφορικής δεν κατανοούν τη φύση των δεδομένων. Απλώς, αν μετρήσαμε τα δεδομένα με ακρίβεια χιλιοστού, τότε δεν έχει νόημα να υπολογίσουμε την περιοχή με ακρίβεια τετραγωνικών μικρών. Στην περίπτωση των πολύπλοκων νευρωνικών δικτύων, βρισκόμαστε αντιμέτωποι με το γεγονός ότι παράγουν πληροφορίες ακριβείς μέχρι το τελευταίο πρόσημο στη μάντισσα, αλλά δεν υπάρχει περισσότερο νόημα σε αυτά τα σημάδια παρά στην ακρίβεια που υπήρχε στην είσοδο. 

Ну и, может быть, общее пожелание для людей, που ασχολούνται με την αξιολόγηση της ακρίβειας των μοντέλων πρέπει να δίνουν όχι μόνο απόλυτα χαρακτηριστικά, αλλά και τα όρια των αποδεκτών περιοχών ή το spread στο οποίο προέκυψαν αυτές οι τιμές. Πράγματι μια καλή σύσταση όχι μόνο για όσους αλληλεπιδρούν με φυσικούς ή με βιολόγους. Αυτός είναι, καταρχήν, ο σωστός τρόπος για να διατηρείται μια παρουσίαση των αποτελεσμάτων που λαμβάνονται.

Και αν μιλήσουμε για το πόσα μπορούν να είναιδιαφορετικές προσδοκίες από τη μία πλευρά και από την άλλη, τότε όλα αυτά είναι λειτουργικά ζητήματα, στην πραγματικότητα. Αν υπάρχει ενδιαφέρον και από τις δύο πλευρές, μπορούν να λυθούν απλά και καλά. Δηλαδή, η μηχανική μάθηση είναι πλέον περιζήτητη μεταξύ των φυσικών με την ευρεία έννοια, επειδή παρέχει πιο ακριβή εργαλεία για την εργασία με τα δεδομένα τους. Και λειτουργεί προς την αντίθετη κατεύθυνση, γιατί για τους ειδικούς της μηχανικής μάθησης μπορεί να είναι πολύ πιο ενδιαφέρον να δουν πώς οι αλγόριθμοί τους βοηθούν στην ανακάλυψη νέων σωματιδίων, για παράδειγμα, όπως συμβαίνει στο εργαστήριό μας. Δουλέψαμε για πολύ καιρό για να δημιουργήσουμε έναν αλγόριθμο που θα καθόριζε τον τύπο του σωματιδίου. Και πρόσφατα υπήρξαν νέα για την ανακάλυψη νέων τετρακουάρκων και οι αλγόριθμοί μας συμμετείχαν άμεσα στην ανακάλυψή τους. 

Επομένως, για άτομα από την πληροφορική, υπό όρους από την Επιστήμη των Δεδομένων,Η Πληροφορική, η αίσθηση της χρησιμότητας των αλγορίθμων που αναπτύσσουν είναι πολύ σημαντική. Επομένως, στη σχολή μας, για παράδειγμα, υπάρχει ένα Διεθνές Εργαστήριο Βιοπληροφορικής. 

Τέτοιες αλληλεπιδράσεις γίνονται όλο και περισσότερεςόλο και πιο φυσιολογικό. Δεν ξέρω αν μπορούν ήδη να θεωρηθούν mainstream ή αν πρέπει ακόμα να περιμένουμε, αλλά με τον ένα ή τον άλλο τρόπο αυτή η ιστορία είναι αναπόφευκτη. Ακόμα κι αν κοιτάξετε τα εργαστήρια που διοργανώνονται στο πλαίσιο των σημερινών κορυφαίων συνεδρίων για την τεχνητή νοημοσύνη, το εργαστήριο για τη χρήση της τεχνητής νοημοσύνης στις φυσικές επιστήμες κατέχει ηγετική θέση όσον αφορά τον αριθμό των ενδιαφερομένων. 

Διαβάστε περισσότερα:

Ο αμερικανικός δορυφόρος «είδε» ένα ασυνήθιστο μήνυμα από τη Γη

Δημοσιεύτηκε βίντεο από τον πύραυλο, ο οποίος εκτοξεύτηκε από πειραματικό επιταχυντή

Το τέρας στο κέντρο του Γαλαξία μας: δείτε τη φωτογραφία μιας μαύρης τρύπας στον Γαλαξία μας

Geek Tech Online

Όλα για την τεχνολογία και τα gadgets

Κυνηγοί ανωμαλιών: πώς το CERN αναζητά σπάνια σωματίδια χρησιμοποιώντας αλγόριθμους Yandex

Πώς να αναζητήσετε ανωμαλίες στα δεδομένα του Μεγάλου Επιταχυντή Αδρονίων

Συμβίωση φυσικής και πληροφορικής: πώς χρησιμοποιείται η μηχανική μάθηση στην έρευνα LHC

Πώς να αναζητήσετε τη σκοτεινή ύλη και γιατί χρειάζονται τα νευρωνικά δίκτυα για αυτό

Μιλούν διαφορετικές γλώσσες, αλλά οι στόχοι είναι κοινοί