מדע הנתונים ברפואה: מי, איך ומדוע מעבד נתונים

Несмотря на то, что с методологической точки зрения ИТ и медицина достаточно далеки друг от друга, именно

биология и медицинские исследования двигали анализ данных и применение различных аналитических моделей вперед. Сегодня даже в медицинских институтах, на курсах медицинской статистики, изучаются основы Data Science. И хотя эти методы в медвузах называются иначе, врачам достаточно трудно их применять — сказывается отсутствие опыта в программировании. Умение программировать — первое, что требуется от специалиста в данной области. Необходимо разбираться в современных алгоритмах анализа данных — в нейронных сетях. Причем не просто теоретически понимать, как работает алгоритм, — для этого нужно неплохо владеть высшей математикой и уметь эти алгоритмы использовать на реальных медицинских данных. Это, в свою очередь, требует от специалиста знаний специальных инструментов Data Science — библиотек Python и методов предобработки данных.

כיצד הפך וירוס הקורונאלי לזרז למדע הנתונים ברפואה

На сегодняшний день есть два ключевых направления прикладного применения Data Science в медицине — здравоохранение и фармацевтика. В первое направление входят задачи диагностики, оптимизация работы клиник и врачей, подбор лекарств и лечения на основе диагноза. Решения, которые применяются в каждой из этих глобальных задач, базируются на основе алгоритмах анализа данных и машинного обучения. В разработке лекарств активно используются накопленные медицинские данные. Речь идет как о применении в поиске действующих веществ, так и о тестировании препаратов на животных и людях.

תפקיד מיוחד בפיתוח טכנולוגיות מדע הנתוניםמנוגנת על ידי מגיפת וירוס הכור. הצורך במודלים מנבאים שיכולים לספק נתונים מדויקים יותר על התפשטות העתיד של נגיף הכורון גדל מאוד: לחזות את מספר האשפוזים, את ההשפעה של צעדים מגבילים מסוימים וחיסונים על COVID-19. ואם באפידמיולוגיה קלאסית תחזיות כאלה מבוססות על מודלים אפידמיולוגיים פשוטים יחסית, הרי שבמציאות מודלים אלה הראו עצמם בצורה גרועה ביותר, בעוד ששיטות Data Data מודרניות מסוגלות להחליף אותם ולשפר את דיוק התחזיות.

תחומי היישום העיקריים של מדע הנתונים בהרפואה במהלך המגפה נותרה זהה, אך כמות הנתונים והזמן הצפוי לפתרון הבעיה השתנו באופן משמעותי. לדוגמא, המשימה של אבחון מחלה על ידי CT של הריאות נחקרה זמן רב; יש בשוק מספיק פתרונות עבודה. אך הודות לאופי הגלובלי של המגיפה, להחלפת הנתונים המתמדת ולזמינותם, משימת האבחון האוטומטי של COVID-19 על ידי CT נפתרה בהקדם האפשרי. כנ"ל לגבי חיזוי חומרת תוצאת המחלה, מה שיכול לעזור לחזות את מספר מיטות האשפוז הזמינות. כדי לפתור בעיה זו, כמות עצומה של נתונים נאספת ומנותחת בכמה מדינות במקביל. אך הספציפיות של הרפואה היא כזו שהכנסת פתרונות חדשים היא כמעט בלתי אפשרית. כמו בחיסונים, נדרשת בדיקה מדוקדקת של כל מודל לפני שההחלטות הרפואיות תלויות בו.

איזה ידע בסיסי נדרש לעבודה במדעי הנתונים:

  • מתמטיקה גבוהה יותר: אלגברה לינארית, ניתוח מתמטי, סטטיסטיקה.
  • כיצד עובדות שיטות לימוד מכונה.

כיצד מדע הנתונים עוזר להילחם בסרטן, באלצהיימר ובתרופות חדשות

Остановимся на различных направлениях применения Data Science в медицине. Одно из самых перспективных — диагностика онкологических заболеваний. Сегодня дата-сайентисты используют целый спектр алгоритмов для разработки решений в этой области: выбор за конкретным методом зависит от поставленной задачи, данных, которые имеются, и их объема. К примеру, можно делать диагностику по изображениям опухоли — в этом случае специалисты Data Science скорее всего будут использовать нейронные сети. Для диагностики по результатам анализов будет выбран один из методов машинного обучения, лучше других подходящий для конкретной задачи. Также существуют специфические алгоритмы, используемые, например, для анализа данных ДНК, полученных от единичных клеток. Такие данные чаще всего анализируются с помощью алгоритмов на графах. Но это скорее исключение из правил.

בנוסף, ישנן מספר שיטות המיושמותלשיפור תמונות ושיפור דיוק התוצאה. פלטפורמות ביג דאטה (כמו Hadoop) משתמשות למשל ב- MapReduce כדי למצוא פרמטרים בהם ניתן להשתמש במשימות שונות. לאלו שהולכים לפתח מוצר משלהם בתחום זה, או פשוט לחובבים, ישנם מספר מערכי נתונים פתוחים להדמיית מוח: BrainWeb, IXI Dataset, fastMRI ו- OASIS

מקרה נוסף הוא דוגמנות איבריםאנושי, אחת המשימות הטכניות הקשות ביותר. יתר על כן, בעת פיתוח פתרון זה או אחר, על המומחה להבין בדיוק מדוע ובאיזו רמת מורכבות מעוצב האיבר. לדוגמא, אתה יכול ליצור מודל של גידול ספציפי ברמה של ביטוי גנים ומסלולי איתות. כיום חברת Insilico Medicine פותרת בעיות כאלה. גישה זו משמשת למציאת מטרת הטיפול, כולל בשיטות מדע הנתונים. מודלים כאלה משמשים בעיקר למחקר מדעי; הם עדיין רחוקים ממימוש מעשי.

ניתוח רצף גנים - שלםכיוון של רפואה שפיתוחה פשוט בלתי אפשרי ללא מדע נתונים. אם כישורי תכנות של פיתון חשובים ביותר במדעי הנתונים, הרי שעבודה עם גנים דורשת גם ידע בשפת התכנות R ובכלי ביואינפורמטיקה ספציפיים - תוכניות לעבודה עם רצפי DNA וחלבונים. מרבית התוכניות הללו פועלות במערכת ההפעלה יוניקס ואינן ידידותיות במיוחד למשתמש. כדי לשלוט בהם, עליכם להבין לפחות את יסודות הביולוגיה המולקולרית והגנטיקה. למרבה הצער, גם בבתי ספר לרפואה כיום ישנן בעיות גדולות בכך, ולרוב הרופאים יש למעשה מושג רע כיצד פועלים רצפי הגנים. ברוסיה עוסקות שתי חברות בתחום זה - אטלס וג'נוטק. ניתוח למוטציות של גנים בודדים פופולרי גם כיום. מרבית חברות הניתוח הרפואיות הגדולות מספקות שירותים כאלה. חולים, למשל, יכולים לגלות אם יש להם נטייה לסרטן השד באותם גנים של אנג'לינה ג'ולי. אזור זה מאופיין במחסור בכוח אדם, שכן ישנם רק כמה מקומות בהם תוכלו לקבל השכלה מתאימה. בנוסף, רבים נשארים לעבוד במדע או לצאת לחו"ל. ישנם מעט מקורות מקוונים בשפה הרוסית שבהם ניתן ללמוד ניתוח כזה. בדרך כלל הם מכוונים לרופאים או לביולוגים ומלמדים רק תכנות ומניפולציה בסיסית בנתונים. על מנת לקבל חינוך ממוקד יותר בפועל עם גישה לתחום זה, תוכלו להשלים קורס בפקולטה למדעי הנתונים ברפואה ב- GeekBrains.

Сегодня на рынке существует несколько инструментов для анализа данных в этой области: MapReduce, SQL, Galaxy, Bioconductor. MapReduce обрабатывает генетические данные и сокращает время, необходимое для обработки генетических последовательностей.

SQL היא שפת בסיס הנתונים היחסי שאנומשמשים לשאילתות ואחזור נתונים ממאגרי מידע גנומיים. Galaxy הוא יישום מחקר ביו -רפואי מבוסס GUI מבוסס קוד פתוח. זה מאפשר לך לבצע פעולות שונות עם גנום.

לבסוף, Bioconductor היא תוכנת קוד פתוח המיועדת לניתוח נתונים גנומיים.

Важное коммерческое и одновременно исследовательское направление — создание лекарственных препаратов нового поколения. Специалисты фармы используют машинное обучение для поиска мишени терапии и биомаркеров. Ни первое, ни второе, конечно, ещё не сами лекарства. Мишени — это молекулы в организме, с которыми лекарство взаимодействует, а биомаркеры — молекулы, сообщающие врачу о том, кому следует применять лекарство. Поэтому практически все компании, которые разрабатывают лекарства от болезней с неизвестными мишенями и биомаркерами — Novartis, Merck, Roche и российский BIOCAD — используют машинное обучение. Это, в первую очередь, онкологические и аутоиммунные заболевания, болезнь Альцгеймера. Сюда же можно отнести поиск новых антибиотиков.

מדוע הרופאים אינם מטפחים יישום מדעי הנתונים

השנים האחרונות הראו כי Data Scienceהוא המנוע של תעשיית המודלים הניבויים והאנליטיים ברפואה, למשל, ביישום רשתות עצביות לקביעת המבנה המרחבי של החלבונים. אך המגיפה חשפה בעיה גלובלית במדינות רבות הקשורות לאופטימיזציה של משאבי המרפאה ומחסור בצוות. במהלך השנה האחרונה צצו חברות רבות המציעות פתרונות לבעיות אלו באמצעות Data Science. השימוש בנתונים הפך לפריצת דרך גדולה עבור מרפאות פרטיות, מכיוון שהוא הופך את שירותי הרפואה לזולים יותר. על רקע המגיפה, גדל גם הביקוש לשירותי טלפואה, בהם נעשה שימוש נרחב באלגוריתמים של למידת מכונה. שירותי הרפואה מבוקשים לאבחון ראשוני, עבודה עם ניתוחים ויצירת בוטים של צ'אט.

С точки зрения технологических ограничений применение компьютерного зрения и машинного обучения практически не имеет препятствий. Более глубокое внедрение алгоритмов и сервисов упирается в желание клиник и врачей применять методы Data Science. Также остро ощущается нехватка данных для обучения, причем это вопрос не только к коммерческим медицинским учреждениям, но и к государству: правительствам следует демократизировать доступ к данным бюджетных больниц, чтобы компании-разработчики могли создавать современные продукты.

ללמוד אפילו תוכנית אחת דורש הרבהנתוני איכות. על מנת ללמוד כיצד להבחין בגידול במסגרת, התוכנית זקוקה לאלפי תמונות שניתחו באופן ידני של מטופלים, ורופאים מנוסים צריכים להיות מעורבים בניתוח.

הרופא חייב קודם כל למצוא את הגידול ולאחר מכןלהראות היכן היא. כפי שאתה יכול לדמיין, לרופאים מנוסים יש עוד דברים רבים לעשות. אבל המגיפה, למרבה הפלא, עזרה לאזורים מסוימים. לדוגמה, DiagnoCat, סטארט -אפ רוסי שעושה שימוש בראייה ממוחשבת כדי לנתח תמונות ברפואת שיניים, הצליח למשוך רופאים לא תפוסים לנתח תמונות במהלך נעילה. באשר לרתיעה של מרפאות ורופאים, הרופאים פשוט אינם סומכים על טכנולוגיות כאלה. רופא טוב בוודאי ימצא מקרה כזה כשהתוכנית מאבחנת לא נכון, רופא חסר ניסיון מפחד שהתוכנית תעשה הכל טוב ממנו. כתוצאה מכך, אתה תמיד יכול להצדיק את עצמך על ידי טיפול בחולה ובהיבטים המשפטיים.

סינרגיה של מדעי הנתונים וטכנולוגיות רפואיותכבר אפשר לנו לקפוץ קדימה בפיתוח פתרונות לאבחון סרטן, אוטואימוניות ומחלות ניווניות. שירותים המופעלים על ידי ניתוח נתונים ולמידת מכונה מסוגלים לחזות את התפשטות הנגיפים ולחפש דורות חדשות של תרופות. למרות שהחינוך הרפואי הקלאסי מפגר מאחורי האתגרים העומדים בפני התעשייה כיום, זה אמיתי להפוך למומחה מודרני שעובד בצומת של שני תחומים מדעיים - מדעי הנתונים והרפואה. ודרך אחת היא הקורס המקוון בפקולטה למדעי הנתונים ברפואה ב- GeekBrains.

ראה גם:

ערפיליות, שביטים ומשתלות כוכבים: מציגות את האסטרופוטוגרפיה הטובה ביותר של השנה

נתונים מלווייני ריגול סייעו לגלות את הגורם להמסת קרחונים באסיה

וירוס קורונה במערה: הכל על כורים סינים שסבלו מדלקת ריאות מוזרה בשנת 2012