ציידי אנומליות: כיצד CERN מחפשת חלקיקים נדירים באמצעות אלגוריתמי Yandex

אנדריי אוסטיוז'נין- ראש מעבדת המחקר והחינוך לשיטות ניתוח ביג דאטה בבית הספר הגבוה לכלכלה של אוניברסיטת המחקר הלאומית.

ראש פרויקטים משותפים בין Yandex ו-CERN. משתתפת בפיתוח שירותי EventIndex ו-EventFilter, ש-Yandex מספקת עבור ניסוי LHCb מאז 2011. 

בוגר המכון לפיזיקה וטכנולוגיה במוסקבה בשנת 2000, מועמד למדעי הפיזיקה והמתמטיקה. אחד משופטי גמר גביע ה-Microsoft Imagine הבינלאומי, לפני כן היה מנטור של קבוצת MIPT שזכתה בגביע ב-2005.

כיצד לחפש חריגות בנתונים של מאיץ ההדרון הגדול

מהן חריגות נתונים?

- אם אנחנו מדברים על נתונים שהושגו באמצעותמאיץ האדרון גדול (LHC), אלו עשויים להיות תגליות שאינן משתלבות ברעיונות סטנדרטיים לגבי האופן שבו התפרקות חלקיקים מתרחשת שם לאחר התנגשויות פרוטונים. תגליות אלו יהיו חריגות. 

למשל, אם אנחנו מדברים על ציטוטי נכסיםבבורסה, אז חריגות עשויות להיות בגלל העובדה שקרן גידור מסוימת החליטה לשאוב נכס או Wall Street Bets החליטו להרוויח כסף נוסף ולהקים קרן גידור מבוזרת משלהם. כלומר, הפיזיקה שונה לחלוטין, וגם הביטוי של הפיזיקה הזו בנתונים אינו דומה למקרים אחרים.

לכן, אם אנחנו מדברים על חריגות, אנחנו צריכים קודם כל להבין על איזה נתונים ועל איזו פיזיקה אנחנו מדברים. 

- אז בואו נבהיר עם התמקדות במתנגשים.

- כאן זה קצת יותר קל, למרות שזה גם עולהמזלג. העובדה היא שיש נתונים על איזה סוג של תהליכים מתרחשים עם חלקיקים בתוך הגלאי. ויש נתונים על איך פועל המתנגש הזה. אנשים שמתעניינים בעיקר בגילוי חלקיקים או חוקים חדשים מתעניינים בעיקר בסוג הנתונים הראשון. אבל העובדה היא שכל מה שקורה בפיזיקה עובר בשרשרת די ארוכה של איסוף ועיבוד המידע הזה. ואם אחד מהצמתים של השרשרת הזו מתחיל להתנהג לא כמו שדמיינו, כלומר, הוא חורג מגבולות מסוימים של המותר, זה מכניס עיוות במידות. אנו יכולים לראות חריגות במקום שבו הן, באופן כללי, לא היו בפיזיקה.

תגליות שאינן משתלבות ברעיונות הסטנדרטיים לגבי האופן שבו מתרחשת שם התפרקות חלקיקים, הנובעת לאחר התנגשות פרוטונים, יהיו חריגות

כדי למנוע אירועים לא נעימים כאלה, אנשיםהם כותבים מערכות בקרת איכות נתונים מיוחדות המנטרות את כל הנתונים במכשירי המדידה ומנסות להוציא מהשיקול את פרקי הזמן שבהם יש חשד שמשהו משתבש. 

אחת הדוגמאות שאנשים אוהבים לדבר עליהןפיזיקאים מה-LHC, היה שבשלבים המוקדמים של פעולת המתנגש הם הבחינו בחריגות שלא התאימו למושגים הפיזיקליים. עדיין לא היה ה-LHC, אלא הגרסה הקודמת שלו. כתוצאה מכך, פיזיקאים גילו שהמתאם רציני מאוד עם לוח הזמנים של הרכבת על מסילת הברזל, שנמצאת בקרבת מקום. ואם תבצע התאמות הקשורות לתנודות הללו, תקבל תמונה לא פיזית של העולם. 

יש צורך לקחת בחשבון גורמים חיצוניים ולהיות מסוגליםלהבין מי מהם צריך לקבל פיצוי נכון. הפתרון הפשוט ביותר: בואו נזרוק את הנתונים שלא מתאימים לתמונת העולם הרגילה. סיפורים מורכבים יותר הם לנסות להחזיר את החריגות הללו, תוך שימוש בעקרונות מובנים ופיזיקליים, לנתונים רגילים ולנסות להפיק מהם תועלת. 

זריקת נתונים היא בזבוז כספים תקציביים. לכל קילובייט-מגה-בייט יש מחיר מסוים.

אנדריי אוסטיוז'נין, ראש מעבדת המחקר והחינוך לשיטות ניתוח ביג דאטה בבית הספר הגבוה לכלכלה של אוניברסיטת המחקר הלאומית

- ובהתאם לכך, כיצד ניתן לזהות את האנומליה בנתונים אלו באמצעות מערכת למידת מכונה?

- ישנן שתי קבוצות של אלגוריתמים כאלה, אשרלעבוד עם חריגות. הקבוצה הראשונה של שיטות סיווג מחלקה אחת כוללת אלגוריתמים המשתמשים במידע רק על אותם אירועים המסומנים כטובים. כלומר, הם מנסים לבנות גוף קמור שסוגר את כל מה שנראה לנו נכון. ההיגיון הוא כזה: כל מה שמעבר לקליפה הזו, נשקול חריגות. כלומר, למשל, 99% מהנתונים מכוסים במעטפת כזו, וכל השאר נראה כמו משהו חשוד.

קבוצה נוספת של אלגוריתמים מסתמכת על חלקימסמן את מה שאנו מחשיבים לא נכון. בעיקרו של דבר, יש אוסף של אירועים שידוע שיש להם תוצאות לא רצויות. ואז החיפוש אחר חריגות מסתכם בבעיית סיווג דו-מעמדית. זהו מסווג רגיל שניתן לבנות על עקרונות של רשתות עצביות או עצי החלטה. 

הניואנס הוא שבדרך כלל במשימותחריגות, המדגם אינו מאוזן. כלומר, מספר הדוגמאות החיוביות עולה באופן משמעותי על מספר השליליות. בתנאים כאלה, אלגוריתמי סיווג סטנדרטיים עשויים שלא לעבוד כמו שהיינו רוצים. פונקציית ההפסד המוגדרת כברירת מחדל מתייחסת למקרים שמתאימים בצורה שווה, ועשויה להתעלם מהעובדה שבין 10,000 תוצאות נכונות יש מאה שמתאימות בצורה שגויה. המאה הזו רק מייצגת את הדוגמאות השליליות המעניינות ביותר. ברור שניתן להילחם בכך, למשל, על ידי מתן משקל רב יותר לדוגמאות שליליות, והתחשבות בטעויות בסיווגן בעלות משקל רב בהרבה.

פונקציית הפסד- פונקציה שבתורת ההחלטות הסטטיסטיות מאפיינת הפסדים עקב קבלת החלטות שגויה על סמך נתונים נצפים.

תרומה של המעבדה שלנו לפתרון הבעיהאיתור אנומליות הוא להציע שיטות המשלבות את התכונות של הגישה הראשונה והשנייה. כלומר, משימת העבודה עם סיווג חד-מעמדי ושני-מעמדי. שילוב כזה מתאפשר אם נבנה מודלים גנרטיביים של דוגמאות חריגות. 

שימוש בגישות כמו גנרטיביותרשתות יריבות או מנרמל זרימות, נוכל ללמוד לשחזר את הדוגמאות המסומנות כשליליות וליצור מדגם נוסף שיאפשר למסווג הרגיל לעבוד עם המדגם הסינטטי המוגדל בצורה יעילה יותר. גישה זו עובדת היטב עבור נתונים טבלאיים ותמונות. הייתה על כך מאמר בשנה שעברה, שמתארת כיצד בנויה מערכת כזו, ונותנת דוגמאות מעשיות לשימוש בה.

- הזכרת עבודה עם תמונות. איך זה עובד במקרה הזה?

- יש דוגמאות שבהן הראינו את העבודהאלגוריתם זה. הם פשוט בחרו באחד ממעמדות התמונות: למשל, מספרים בכתב יד. והם אמרו שאפס זה סוג של אנומליה. והם ביקשו מרשת העצבים, שמחליטה שאפסים אינם כמו כל דבר אחר, לשייך למעמד השלילי. מטבע הדברים, אלה יכולים להיות לא רק אפסים, אלא גם, למשל, מספרים שבתוכם יש מחזורים סגורים - 068 - או מספרים עם צמתים אופקיים. או פשוט תמונות מסובבות בזווית כלשהי ביחס לשאר הדגימה. 

"אנחנו יכולים לדמות פיזיקה בוודאותפרמטרים חיצוניים עם דיוק טוב ואומרים אילו מאפיינים נצפים יתארו את אירועי האות הנכונים, למשל, התפרקות בוזון היגס "

יש מערך נתונים שנקרא omniglot -אותיות כתובות בגופנים שונים. יש מספר עצום של גופנים: מ-Futurama, גותי, בכתב יד מאלפבית לא פופולרי - סנסקריט או עברית. אנו יכולים לומר שהאותיות בסנסקריט הן חריגות, האותיות הכתובות בכתב יד מסוים הן גם כן.

אנו מבקשים מהמערכת ללמוד להבחין בכל דברהשאר מהסמלים החריגים האלה. העיקר שהם הרבה יותר קטנים מכל השאר. זה הקושי לעבוד איתם עבור אלגוריתמים קונבנציונליים של למידת מכונה.

סימביוזה של פיזיקה ו-IT: כיצד למידת מכונה משמשת במחקר LHC

- אילו משימות של LHC נפתרות בעזרת למידת מכונה?

- משימה אחת גדולה שאנחנו עובדים איתה היאהיא להאיץ תהליכים חישוביים המדמים התנגשויות פיזיקליות והתפרקות חלקיקים. העובדה היא שההחלטה אם אירועים נתונים דומים לדעיכה פיזית מסוימת או לא מתקבלת לאחר ניתוח מספר גדול למדי של דעיכה מדומה. אנחנו יכולים לדמות פיזיקה בפרמטרים חיצוניים מסוימים בדיוק טוב ולומר אילו מאפיינים נצפים יתארו את אירועי האות הנכונים, למשל, התפרקות בוזון היגס. 

אבל יש אזהרות מסוימות:לא תמיד אנו יודעים מהם הפרמטרים שלפיהם צריך להיווצר דעיכה זו. ככלל, יש רעיון מסוים לגבי זה. והאתגר של מציאת הפיזיקה הנכונה הוא להבחין בין אירועי אות לאירועי רקע, אשר עשויים להיות קשורים או לפעולה לא נכונה של אלגוריתמי התאוששות, או לפיזיקה של תהליכים אחרים הדומים מאוד למה שאנו מנסים למצוא. אלגוריתמי למידת מכונה עושים את זה טוב, אבל זה סיפור ידוע. 

אבל כדי לאמן אלגוריתמים כאלה, זה נדרשמדגם סטטיסטי גדול למדי של אירועים מדומים, וחישוב הנתונים הסינתטיים הללו דורש משאבים מסוימים. מכיוון שהסימולציה של אירוע אחד לוקחת בערך דקה או אפילו עשר דקות של זמן מחשוב של מרכזי מחשבים מודרניים. בשל העובדה שמספר האירועים האמיתיים שאיתם יעבדו פיזיקאים יגדל בסדרי גודל בשנים הקרובות, גם מספר האירועים המסונתזים אמור לעלות. כעת משאבי מחשוב בקושי מספיקים כדי לכסות את צורכי החוקרים. כי כדי לדמות אירוע אחד, עלינו לחשב את האינטראקציה של מיקרו-חלקיקים עם מבנה הגלאי ולדמות את התגובה שנראה בחיישנים של הגלאי הזה בדיוק גבוה מאוד.

הרעיון של האצה הוא לאמן את הרשת העצביתעל אירועים שהודמו באמצעות חבילה מוסמכת - GMT 4, המדמה כל מה שקורה בתוך גלאי המתנגשים. נוירון זה ילמד להשוות בין התשומות, הפרמטרים של החלקיקים שאנו רוצים לדמות, והפלטים - אותם מאפיינים נצפים שהגלאי מייצר. רשתות עצביות כיום כבר מתמודדות די טוב עם המשימה של אינטרפולציה של נתונים. ומספר פרויקטים במעבדה שלנו מכוונים בדיוק לזה. כלומר, לשחזר את המאפיינים של דעיכה מהמדגם הסינתטי הזמין, כלומר, לייצר חומרים סינתטיים מסוג שני כאלה. אבל יש ניואנס: היתרון של רשתות עצביות הוא שאנחנו יכולים לכוונן אותן באמצעות נתונים אמיתיים. כלומר, הפוך את ההגדרה הזו למדויק יותר עבור דעיכה פיזית מסוימת. 

אנשים העוסקים בפיזי מן המנייןסימולציה, הם מבזבזים את זמנם ומאמצים על זה, אבל עם נוירונים זה מתברר קצת פחות אינטנסיבי. ומהתוצאות שעשינו עבור ניסוי LHTV ב-CERN ופרויקט ניסוי MPD של דובנה במאיץ Nica, התברר שרשתות עצביות יכולות להגיע לדיוק גבוה מאוד בכיסוי מרחב הפאזה של אירועים מדומים. הם מאיצים באופן משמעותי את תהליך החישוב: הזמנות ואפילו מאות מהר יותר מאשר סימולציה כנה.

— איך הרשת העצבית עצמה לומדת? 

- אין הבדלים בתהליך הלמידה.אבל יש ייחוד אחד: עבור רשת עצבית, בנוסף למדגם האימון, יש צורך לגבש קריטריונים לאיכות, כלומר, להגדיר פונקציית אובדן שתתאים בצורה הטובה ביותר למשימה שרשת זו צריכה להתמודד איתה היטב. בנוסף, איכות העבודה של רשת עצבית כזו אינה מוערכת על ידי חוקרים: ניתן להעריך אותה בצורה נאותה במונחים של השלבים החישוביים המתרחשים בשלב מאוחר יותר של עיבוד הנתונים. 

כדי לקבוע אם סימולציה טובה או לא, אנחנו יכוליםרק לאחר שנעביר את האירועים בשרשרת הניתוח, השחזור שלהם, ונבין שאותם המאפיינים שהנחנו בהם במקור משוחזרים מהם. משמעות הדבר היא שלמשל, שימוש במדד שגיאה ממוצע מרובע פשוט של MSE אינו מספיק.

שגיאת MSE ממוצעת בריבוע- מודד את ההבדל הריבועי הממוצע בין הערכים המשוערים לערך בפועל.

יש להעריך עוד יותר את התנהגות הרשת העצבית, בתכונות בטווחי פרמטרים שאולי לא היו קיימים בערכת ההדרכה. בניית מודלים כאלה שמתנהגים הרבה מעבר לערכי הפרמטרים הידועים בשלב ההכשרה היא משימה גדולה ותיאורטית. 

רשתות עצביות טובות במקומות שבהם הןידע משהו בשלב האימון. מחוץ להם, הם יכולים לתת מה שהם רוצים. במקרה שלנו זה רגיש במיוחד, כי נכונות הפרשנות הפיזית של המציאות סביבנו תלויה בזה. 

"אם חלקיק חומר אפל מתפרק לחלקיקים איתם אנו יודעים לקיים אינטראקציה, ניתן להניח שחלקיק החומר האפל הזה באמת היה"

- כלומר, הרשת העצבית מחפשת אירועים נדירים שיכולים להתרחש במתנגש?

- מבוסס על פעולת מודלים גנרטיביים, כלומר,ראשית, אנחנו מדברים על הסינתזה של כל מה שיכול לקרות. אנחנו עושים זאת עם דגמים מיניאטוריים. ובפלט של רשתות כאלה, אנחנו יכולים לבנות מודל שיחפש את מה שאנחנו צריכים: מה שהצלחנו לייצר ברשת עצבית יוצרת.

כיצד לחפש חומר אפל ומדוע רשתות עצביות נחוצות לשם כך

- האם ניתן ליישם עקרון חיפוש דומה על חומר אפל?

- העובדה היא שניתן לחפש חומר אפלדרכים שונות. אחת הדרכים היא לבנות גלאי מתאים שיכול לבודד די טוב מהשפעות של חומר רגיל. כלומר, לחסום את האות שמגיע מחלקיקים המוכרים לפיזיקאים. זו רק שיטת חיסול: אם הגלאי רואה משהו אחר מלבד רעש, אז הוא רואה משהו שמעולם לא ראינו קודם. אפשרות אחת תהיה שמדובר בחלקיקי חומר אפל.

אם, למשל, חלקיק חומר אפלמתפרק לחלקיקים שאנו יודעים לקיים איתם אינטראקציה, וברור שעקבות ריקבון לא יכלו להופיע מכל מקום מלבד ממנו, אז אפשר להניח שחלקיק החומר האפל הזה באמת היה.

ניסויים כאלה נידונים ומתוכננים.אחד מהם נקרא SHiP (חיפוש חלקיקים נסתרים). ודרך אגב, לניסוי כזה, הגישות שעליהן דיברתי ישימות גם כן. זה דורש סימולציה ואלגוריתמים לזיהוי גישות נדירות. אך מכיוון שהבהירות של ניסוי זה נמוכה בהרבה (בהירות היא מספר החלקיקים המתוכננים להתגלות ביחידת זמן), הצורך לדמות מספר רב של אירועים דומים אינו חריף כמו במקרה של מאיץ ההדרון. גלאים. אם כי, למשל, המשימה הקשורה להערכת איכות מערכת ההגנה מפני חלקיקים המוכרים לפיזיקה דורשת הדמיה של מספר רב למדי של אירועים. זה הכרחי על מנת לוודא שההגנה פועלת היטב עם המספר העצום של חלקיקים נכנסים מסוגים שונים.

ספינההוא ניסוי שמטרתו למצוא נסתרחלקיקים, לרבות חלקיקי חומר אפל, בזרם של חלקיקים ממאיץ ה-SPS המסונן בשדות מגנטיים, שכבה של חמישה מטרים של בטון ומתכת. 

יש דרכים אחרות לחפש חומר אפל,קשור לתצפיות על תופעות חלל. בפרט, גישה אחת היא בניית אלמנטים רגישים המזהים את הכיוון של חלקיקים בעלי אינטראקציה חלשה מאוד בהתאם לזווית הפגיעה של חלקיק זה. ההיגיון של הניסוי הוא שניתן למקם את היסודות הרגישים כך שהם מכוונים לאורך וקטור התנועה של מערכת השמש, כלומר לכיוון קבוצת הכוכבים Cygnus. אז נוכל להבחין בין חלקיקים שנעים במערכת הקואורדינטות של כדור הארץ לבין חלקיקים שנעים בצורה שונה. כמו האתר חסר התנועה, המופץ בחלל החיצון על פי חוקיו שלו, לא קשור בשום אופן לכיוון ולכיוון התנועה של כוכבי הלכת. רק שבמקום אתר, מניחים שיש חלקיקי חומר אפל. הם יכולים ליצור אינטראקציה חלשה עם החיישנים של הניסוי שלנו. ועל ידי ניתוח הקריאות שלהם, ניתן לגזור דפוסים של התפלגות זוויתית של חלקיקים בעלי אינטראקציה. אם נראה שיש מרכיב רציני שאינו תלוי במיקומו של כדור הארץ בחלל, הדבר יעיד על קיומם של חלקיקים שלא ידועים בעבר. ואולי אלו יהיו מועמדים לחלקיקי חומר אפל. 

בניסוי כזה, סימולציה היא די חשובה,כי כדי לבנות אלגוריתם לזיהוי אירועי אות, אתה צריך לדמיין איך נראה האות שמעניין אותנו. לכן, המשימות הקשורות לסימולציה מהירה ולחיפוש חריגות רלוונטיות וישימות שם.

הם מדברים בשפות שונות, אבל המטרות משותפות

בואו נדבר על עבודה ב-CERN. איך זה עבור איש IT לעבוד עם פיזיקאים? אילו תכונות קשורות לעבודה במרחב חוצה מדעי כמו LHC?

- שאלה טובה.אכן, אנשים מדברים בשפות שונות: זה מגיע לנקודה שאותם מושגים מיוצגים בצורה גרפית בדרכים שונות. לדוגמה, עקומות ROC, שאליהם רגילים מומחי למידת מכונה, מצוירות בדרך כלל בפיזיקה מסובבות ב-90 מעלות. והקואורדינטות אינן נקראות True Positive Rate ו-False Negative Rate, אלא יעילות אות ודחיית רקע. יתרה מכך, אם יעילות האות עדיין היא דיוק, דחיית רקע היא שיעור שלילי אמת אחד פחות. 

ROC-curve (מאופיין הפעלה של מקלט, מאפיין הפעלה של מקלט)- גרף המאפשר לך להעריך את איכות הבינאריסיווגים. מציג את הקשר בין המניות של אובייקטים מהמספר הכולל של נושאי התכונה, המסווגים בצורה נכונה כנושאים את התכונה, לבין המניות של אובייקטים מתוך המספר הכולל של אובייקטים שאינם נושאים את התכונה, שסווגו בצורה שגויה כנשאים את התכונה.

ברור שדברים כאלה עשויים להיות פעיליםמשטחים וקל יחסית להתרגל אליהם, אבל האתגרים העיקריים טמונים בהבנת חלק מההנחות הבסיסיות שחוקרים מניחים בעת כתיבת מאמרים. וככלל, הם מעבר למה שהם כותבים עליו. כלומר, זהו ידע סודי כלשהו שמועבר במהלך הכשרתו של אדם בבית הספר לתארים מתקדמים, בתהליך העבודה על פרויקטי המחקר שלו, הוא נוצר במוחו. 

עבור אנשים מתחום אחר של מדע, זה כמוסביבה תרבותית שונה. עבורם, הנחות אלו אולי לא כל כך ברורות. בשל העובדה שהלקסיקון מתברר כנרחב ושונה למדי, בניית דיאלוג עלולה להתעכב או אפילו להיות בלתי פרודוקטיבית. לכן, כאן, כהמלצות, אפשר כנראה לייעץ או לבקש מאנשים ללכת מעבר למה שהם רגילים אליו ולנסח את הבעיה במונחים המופשטים ביותר מהפיסיקה. אנו עושים זאת בחלקו כאשר אנו מארגנים תחרויות כחלק מאולימפיאדת IDAL שלנו. בתהליך הדיאלוג, אנו מוצאים תפאורה שלא תצריך התעמקות עמוקה בפיזיקה, אך יחד עם זאת תהיה מעניינת עבור מומחי למידת מכונה.

השנה היה לנו פרויקט משותף עםמעבדה איטלקית שמחפשת חומר אפל. הם סיפקו נתונים סינתטיים לאולימפיאדה כדי למצוא את החומר האפל הזה. באמת אין שם חומר אפל, כי הריקבון של הפיזיקה הידועה בוצע הדמיה: התנגשויות של אלקטרונים ויוני הליום.  אבל התנגשויות של חלקיקי חומר אפל עשויות להיות דומות מאוד לחלק מההתנגשויות הללו. קשה מאוד לדמות אותם ועוד יותר קשה לפרש אותם. לכן, במיוחד עבור אנשים שאינם מומחים בתחום זה, החלטנו לא לשלוף את הנתונים הללו ולהגביל את עצמנו רק לאלו הדומים. האלגוריתמים שנראה עובדים על נתונים משוערים, אך ניתן ליישם אותם גם על נתונים אמיתיים.

אנדריי אוסטיוז'נין. תמונה מארכיון הדובר

לסיכום, דרך אחת היא להסכים על תנאים ברורים לכולם, והשנייה היא להשקיע זמן ומאמץ, ללמוד בבתי ספר קיץ, להשתתף בפרויקטי מחקר מעשיים.

ספרים על למידת מכונה וניסויים פיזיים המומלצים על ידי אנדריי אוסטיוז'נין:

דיפאק קאר,פיזיקת חלקיקים ניסויית: הבנת המדידות והחיפושים במאיץ ההדרונים הגדול.
איליה נרסקי,טכניקות ניתוח סטטיסטי בפיזיקה של חלקיקים: התאמות, הערכת צפיפות ולמידה מפוקחת. 
ג'וזפה קרליאו,למידת מכונה ומדעי הפיזיקה.

- האם יש סתירות בין הערכים של פיזיקאים ומומחי IT: למשל, האם אופי האינטראקציות חשוב יותר למישהו, או להיפך, הדיוק?

- אם נדבר ספציפית על דיוק, כנראהאין אי בהירות. אבל זה סביר יותר בגלל העובדה שמומחי IT אינם מבינים את אופי הנתונים. רק שאם מדדנו את הנתונים בדיוק של מילימטר, אז אין טעם לחשב את השטח בדיוק של מיקרון רבועים. במקרה של רשתות עצביות מורכבות, אנו עומדים בפני העובדה שהן מייצרות מידע מדויק עד לסימן האחרון במנטיסה, אך אין יותר משמעות בסימנים הללו מאשר בדיוק שהיה בקלט. 

ובכן, אולי משאלה כללית לאנשיםהעוסקים בהערכת הדיוק של מודלים היא לתת לא רק מאפיינים מוחלטים, אלא גם את גבולות הטווחים המקובלים או את הפריסה שבה הושגו ערכים אלה. למעשה המלצה טובה לא רק למי שמקיים אינטראקציה עם פיזיקאים או עם ביולוגים. זו, באופן עקרוני, הדרך הנכונה לשמור על הצגת התוצאות שהתקבלו.

ואם נדבר על כמה הם יכולים להיותציפיות שונות מצד אחד ומצד שני, אז כל אלה הם למעשה בעיות עבודה. אם יש עניין משני הצדדים, ניתן לפתור אותם בצורה פשוטה וטובה. כלומר, למידת מכונה מבוקשת כיום בקרב פיזיקאים במובן הרחב, מכיוון שהיא מספקת כלים מדויקים יותר לעבודה עם הנתונים שלהם. וזה עובד בכיוון ההפוך, כי עבור מומחי למידת מכונה זה יכול להיות הרבה יותר מעניין לראות כיצד האלגוריתמים שלהם עוזרים בגילוי של חלקיקים חדשים, למשל, כפי שקורה במעבדה שלנו. עבדנו הרבה זמן כדי ליצור אלגוריתם שיקבע את סוג החלקיק. ולאחרונה היו חדשות על גילוי טטרקווארקים חדשים, והאלגוריתמים שלנו לקחו חלק ישיר בגילוי שלהם. 

לכן, עבור אנשים מ-IT, בתנאי מ-Data Science,מדעי המחשב, תחושת התועלת של האלגוריתמים שהם מפתחים חשובה מאוד. לכן, בפקולטה שלנו, למשל, ישנה מעבדה בינלאומית לביואינפורמטיקה. 

אינטראקציות כאלה הופכות יותר ויותריותר ויותר נורמלי. אני לא יודע אם הם כבר יכולים להיחשב למיינסטרים או שעדיין נצטרך לחכות, אבל כך או כך הסיפור הזה הוא בלתי נמנע. גם אם מסתכלים על הסדנאות המאורגנות במסגרת הכנסים המובילים כיום בנושא בינה מלאכותית, הסדנה על שימוש ב-AI במדעי הפיזיקה תופסת מקום מוביל במספר המתעניינים. 

קרא עודYou

הלוויין האמריקאי "ראה" הודעה יוצאת דופן מכדור הארץ

פורסם סרטון מתוך הרקטה, ששוגרה ממאיץ ניסיוני

המפלצת במרכז הגלקסיה שלנו: הבט בתמונה של חור שחור בשביל החלב

Geek Tech Online

הכל על טכנולוגיה וגאדג'טים

ציידי אנומליות: כיצד CERN מחפשת חלקיקים נדירים באמצעות אלגוריתמי Yandex

כיצד לחפש חריגות בנתונים של מאיץ ההדרון הגדול

סימביוזה של פיזיקה ו-IT: כיצד למידת מכונה משמשת במחקר LHC

כיצד לחפש חומר אפל ומדוע רשתות עצביות נחוצות לשם כך

הם מדברים בשפות שונות, אבל המטרות משותפות