Незважаючи на те, що з методологічної точки зору ІТ та медицина досить далекі один від одного, саме
Як коронавірус став каталізатором для Data Science в медицині
На сьогоднішній день є два ключові напрямкиприкладного застосування Data Science в медицині - охорона здоров'я та фармацевтика. До першого напряму входять завдання діагностики, оптимізація роботи клінік та лікарів, підбір ліків та лікування на основі діагнозу. Рішення, що застосовуються у кожному з цих глобальних завдань, базуються на основі алгоритмів аналізу даних та машинного навчання. У розробці ліків активно використовують накопичені медичні дані. Йдеться як про застосування у пошуку діючих речовин, так і про тестування препаратів на тваринах та людях.
Особливу роль у розвитку технологій Data Scienceзіграла пандемія коронавируса. Різко зросла потреба в Предсказательная моделях, які могли б дати більш точні дані про майбутнє поширенні коронавируса: передбачити кількість госпіталізацій, вплив тих чи інших обмежувальних заходів та вакцинації на COVID-19. І якщо в класичній епідеміології подібні прогнози ґрунтуються на відносно простих епідеміологічних моделях, то в реальності ці моделі показали себе вкрай погано, тоді як сучасні методи Data Science здатні їх замінити і підвищити точність прогнозів.
Основні напрямки застосування Data Science вмедицині під час пандемії залишилися колишніми, але обсяг даних і очікуваний час на вирішення завдання істотно змінилися. Наприклад, завдання діагностики захворювання по КТ легенів вже давно вивчена, на ринку присутня достатня кількість робочих рішень. Але завдяки глобальності пандемії, постійному обміну даними та їх доступності завдання автоматичної діагностики COVID-19 по КТ була вирішена в найкоротші терміни. Те саме можна сказати і до передбачення тяжкості результату захворювання, це могло б допомогти для прогнозування кількості вільних місць у лікарнях. Для вирішення цього завдання в декількох країнах паралельно збирається і аналізується гігантський обсяг даних. Але специфіка медицини така, що впровадження нових рішень на практично неможливо. Як і у випадку з вакцинами, потрібна ретельна перевірка будь-якої моделі перш, ніж від неї залежатимуть лікарські рішення.
Які базові знання необхідні для роботи в Data Science:
- Вища математика: лінійна алгебра, математичний аналіз, статистика.
- Принципи роботи методів машинного навчання.
Як Data Science допомагає в боротьбі з раком, хворобою Альцгеймера і в пошуку нових ліків
Зупинимося на різних напрямках застосуванняData Science у медицині. Одне з найперспективніших – діагностика онкологічних захворювань. Сьогодні дата-саєністи використовують цілий спектр алгоритмів для розробки рішень у цій галузі: вибір за конкретним методом залежить від поставленого завдання, даних, які є, та їх обсягу. Наприклад, можна робити діагностику за зображеннями пухлини - у цьому випадку фахівці Data Science швидше за все використовуватимуть нейронні мережі. Для діагностики за результатами аналізів буде обрано один з методів машинного навчання, який краще за інших підходить для конкретної задачі. Також існують специфічні алгоритми, які використовуються, наприклад, для аналізу даних ДНК, отриманих від одиничних клітин. Такі дані найчастіше аналізуються з допомогою алгоритмів на графах. Але це скоріше виняток із правил.
Крім того, є кілька методів, що застосовуютьсядля поліпшення зображень і підвищення точності результату. Платформи великих даних (такі, як Hadoop) застосовують, наприклад, MapReduce для пошуку параметрів, які можна використовувати в різних завданнях. Для тих, хто збирається розробити свій продукт в цій сфері, або просто ентузіастів є кілька відкритих наборів даних візуалізації мозку: BrainWeb, IXI Dataset, fastMRI і OASIS.
Ще один кейс - це моделювання органівлюдини, одна з найскладніших технічних завдань. Причому при розробці того чи іншого рішення фахівець повинен точно розуміти, для чого і на якому рівні складності моделюється орган. Наприклад, можна зробити модель певної пухлини на рівні експресії генів і сигнальних шляхів. Сьогодні рішенням таких завдань займається компанія Insilico Medicine. Цей підхід використовується для пошуку мішені терапії, в тому числі методами Data Science. Подібні моделі в основному застосовуються для наукових досліджень, до практичного застосування їм поки що ще далеко.
Аналіз послідовності генів - ціленапрямок медицини, розвиток якого просто неможливо без Data Science. Якщо в Data Science вкрай важливий навик програмування на Python, то при роботі з генами також необхідні знання мови програмування R і специфічні інструменти біоінформатики - програми для роботи з послідовностями ДНК і білків. Більшість таких програм працюють на операційній системі Unix і не дуже «доброзичливі» до користувачів. Щоб їх освоїти, потрібно як мінімум розуміти основи молекулярної біології і генетики. На жаль, навіть у медичних вузах з цим сьогодні великі проблеми, і більшість лікарів насправді погано уявляють, як влаштовані послідовності генів. У Росії цим напрямком займаються дві компанії - «Атлас» і «Генотек». Популярним в даний час є і аналіз на мутації окремих генів. Більшість великих компаній, які займаються медичними аналізами, надають такі послуги. Пацієнти, наприклад, можуть з'ясувати, чи немає у них схильності до раку грудей в тих же генах, що у Анджеліни Джолі. Ця сфера характеризується дефіцитом кадрів, так як існує всього кілька місць, де можна отримати відповідну освіту. До того ж багато хто або залишаються працювати в науці, або їдуть за кордон. Російськомовних онлайн-ресурсів, де можна навчитися подібного аналізу, досить мало. Зазвичай вони розраховані на лікарів або біологів і навчають тільки програмування і основам роботи з даними. Для того щоб отримати більш практико-орієнтовану освіту з виходом в цю область, можна закінчити курс на Факультеті Data Science в медицині в GeekBrains.
Сьогодні на ринку існує декількаінструментів для аналізу даних у цій галузі: MapReduce, SQL, Galaxy, Bioconductor. MapReduce обробляє генетичні дані та скорочує час, необхідний для обробки генетичних послідовностей.
SQL - це мова реляційних баз даних, який мивикористовуємо для виконання запитів і отримання даних з геномних баз даних. Galaxy - додаток для біомедичних досліджень з відкритим вихідним кодом, заснований на графічному інтерфейсі. Воно дозволяє виконувати різні операції з геномами.
І, нарешті, Bioconductor - це програмне забезпечення з відкритим вихідним кодом, розроблене для аналізу геномних даних.
Важливе комерційне та водночасдослідницький напрямок - створення лікарських препаратів нового покоління. Фахівці фарми використовують машинне навчання для пошуку мішені терапії та біомаркерів. Ні перше, ні друге, звичайно, ще не самі ліки. Мішені - це молекули в організмі, з якими ліки взаємодіють, а біомаркери - молекули, які повідомляють лікаря про те, кому слід застосовувати ліки. Тому практично всі компанії, які розробляють ліки від хвороб із невідомими мішенями та біомаркерами – Novartis, Merck, Roche та російський BIOCAD – використовують машинне навчання. Це насамперед онкологічні та аутоімунні захворювання, хвороба Альцгеймера. Сюди можна віднести пошук нових антибіотиків.
Чому лікарі не сприяють впровадженню Data Science
Останні роки показали, що Data Scienceє двигуном індустрії прогностичних і аналітичних моделей в медицині, наприклад, в застосуванні нейронних мереж для визначення просторової структури білків. Але пандемія розкрила у багатьох країнах глобальну проблему, пов'язану з оптимізацією ресурсів клінік і недоліком персоналу. За останній рік з'явилося безліч компаній, що пропонують вирішувати ці проблеми за допомогою Data Science. Використання даних стало великим проривом і для приватних клінік, оскільки робить медичні послуги дешевше. На тлі пандемії також виріс попит на послуги телемедицини, в яких широко застосовуються алгоритми машинного навчання. Сервіси телемедицини затребувані для попередньої постановки діагнозу, роботи з аналізами і створити групу чату спамерських пошукових роботів.
З погляду технологічних обмеженьзастосування комп'ютерного зору та машинного навчання практично не має перешкод. Більш глибоке використання алгоритмів та сервісів упирається в бажання клінік та лікарів застосовувати методи Data Science. Також гостро відчувається брак даних для навчання, причому це питання не лише до комерційних медичних закладів, а й до держави: урядам слід демократизувати доступ до даних бюджетних лікарень, щоб компанії розробники могли створювати сучасні продукти.
Навчання навіть однієї програми вимагає багатоякісних даних. Для того щоб навчитися розрізняти пухлина в кадрі, програмою необхідні тисячі вручну проаналізованих знімків пацієнтів, причому до аналізу слід залучати досвідчених лікарів.
Лікар повинен спочатку знайти пухлина, а потімпоказати, де вона знаходиться. Як ви розумієте, у досвідчених лікарів є багато інших справ. Але пандемія, як не дивно, допомогла деяким областям. Так, наприклад, DiagnoCat, російський стартап, який застосовує комп'ютерний зір для аналізу знімків в стоматології, під час локдауна зміг залучити незайнятих лікарів для аналізу знімків. Що стосується небажання клінік і лікарів, то лікарі просто не довіряють подібним технологіям. Хороший лікар напевно знайде такий випадок, коли програма поставить невірний діагноз, недосвідчений лікар злякається, що програма зробить все краще за нього. У підсумку завжди можна виправдатися турботою про пацієнта і юридичними аспектами.
Синергія Data Science і медичних технологійвже дозволила здійснити стрибок у розробці рішень для діагностики онкологічних, аутоімунних і нейродегенеративних захворювань. Сервіси, що працюють на основі аналізу даних і машинного навчання, здатні прогнозувати поширення вірусів і шукати ліки нових поколінь. Незважаючи на те, що класичне медичну освіту відстає від викликів, які стоять сьогодні перед індустрією, стати сучасним фахівцем, що працює на стику двох наукових напрямків - Data Science і медицини - реально. І один із способів - онлайн-курс на факультеті «Data Science в медицині» в GeekBrains.
Читайте також:
Туманності, комети і зоряні ясла: показуємо найкращі астрофотографії року
Дані із супутників-шпигунів допомогли з'ясувати причину танення льодовиків в Азії
Коронавірус в печері: все про китайських шахтарів, які хворіли дивною пневмонією в 2012 році