Data Science w medycynie: kto, jak i dlaczego przetwarza dane

Mimo że z metodologicznego punktu widzenia informatyka i medycyna są od siebie dość odległe, to jednak tak jest

pobudziły biologię i badania medyczneanalizowanie danych i stosowanie różnych modeli analitycznych do przodu. Dziś nawet w instytutach medycznych na kursach statystyki medycznej studiuje się podstawy nauki o danych. I choć na uczelniach medycznych metody te nazywane są inaczej, lekarzom dość trudno jest z nich korzystać – ze względu na brak doświadczenia w programowaniu. Umiejętność programowania to pierwsza rzecz, jakiej wymaga się od specjalisty w tej dziedzinie. Konieczne jest zrozumienie współczesnych algorytmów analizy danych – sieci neuronowych. Co więcej, nie chodzi tylko o teoretyczne zrozumienie działania algorytmu, do tego trzeba dobrze znać wyższą matematykę i umieć wykorzystywać te algorytmy na rzeczywistych danych medycznych. To z kolei wymaga od specjalisty znajomości specjalnych narzędzi Data Science – bibliotek Pythona i metod wstępnego przetwarzania danych.

Jak koronawirus stał się katalizatorem nauki o danych w medycynie

Dziś są dwa kluczowe kierunkistosowane zastosowania Data Science w medycynie – ochronie zdrowia i farmacji. Pierwszy kierunek obejmuje zadania diagnostyczne, optymalizację pracy klinik i lekarzy, dobór leków i sposobów leczenia w oparciu o diagnozę. Rozwiązania stosowane w każdym z tych globalnych problemów opierają się na analizie danych i algorytmach uczenia maszynowego. Zgromadzone dane medyczne są aktywnie wykorzystywane przy opracowywaniu leków. Mówimy zarówno o zastosowaniu w poszukiwaniu substancji aktywnych, jak i testowaniu leków na zwierzętach i ludziach.

Szczególna rola w rozwoju technologii Data Sciencegrana przez pandemię koronawirusa. Potrzeba modeli predykcyjnych, które mogłyby dostarczyć dokładniejszych danych na temat przyszłego rozprzestrzeniania się koronawirusa, gwałtownie wzrosła: aby przewidzieć liczbę hospitalizacji, wpływ niektórych środków restrykcyjnych i szczepień na COVID-19. A jeśli w klasycznej epidemiologii takie prognozy opierają się na stosunkowo prostych modelach epidemiologicznych, to w rzeczywistości modele te okazały się wyjątkowo słabo, podczas gdy nowoczesne metody Data Science są w stanie je zastąpić i poprawić dokładność prognoz.

Główne obszary zastosowania Data Science wmedycyna podczas pandemii pozostała taka sama, ale ilość danych i oczekiwany czas rozwiązania problemu znacznie się zmieniły. Na przykład od dawna badano zadanie diagnozowania choroby za pomocą CT płuc, na rynku istnieje wystarczająca liczba działających rozwiązań. Jednak dzięki globalnemu charakterowi pandemii, ciągłej wymianie danych i ich dostępności, zadanie automatycznej diagnozy COVID-19 przez CT zostało jak najszybciej rozwiązane. To samo dotyczy przewidywania ciężkości wyniku choroby, co może pomóc w przewidywaniu liczby dostępnych łóżek szpitalnych. Aby rozwiązać ten problem, w kilku krajach równolegle zbiera się i analizuje ogromną ilość danych. Ale specyfika medycyny jest taka, że ​​wprowadzenie nowych rozwiązań jest praktycznie niemożliwe. Podobnie jak w przypadku szczepionek, konieczne jest dokładne przetestowanie każdego modelu, zanim zależeć będą od niego decyzje medyczne.

Jaka podstawowa wiedza jest wymagana do pracy w Data Science:

  • Matematyka wyższa: algebra liniowa, analiza matematyczna, statystyka.
  • Jak działają metody uczenia maszynowego.

Jak Data Science pomaga w walce z rakiem, chorobą Alzheimera i nowymi lekami

Przyjrzyjmy się różnym obszarom zastosowańNauka o danych w medycynie. Jedną z najbardziej obiecujących jest diagnostyka raka. Obecnie badacze danych wykorzystują całą gamę algorytmów do opracowywania rozwiązań w tym obszarze: wybór konkretnej metody zależy od postawionego zadania, dostępnych danych i ich objętości. Można na przykład przeprowadzić diagnostykę za pomocą obrazów nowotworów – w tym przypadku specjaliści Data Science najprawdopodobniej skorzystają z sieci neuronowych. Do diagnostyki, na podstawie wyników analizy, zostanie wybrana jedna z metod uczenia maszynowego, która jest lepiej dostosowana do konkretnego zadania. Istnieją również specyficzne algorytmy wykorzystywane np. do analizy danych DNA uzyskanych z pojedynczych komórek. Dane takie najczęściej analizuje się za pomocą algorytmów grafowych. Ale to raczej wyjątek od reguły.

Ponadto stosuje się kilka metodaby poprawić obrazy i poprawić dokładność wyniku. Platformy Big Data (takie jak Hadoop) wykorzystują na przykład MapReduce do znajdowania parametrów, które można wykorzystać w różnych zadaniach. Dla tych, którzy zamierzają opracować własny produkt w tej dziedzinie, lub po prostu entuzjastów, istnieje kilka otwartych zestawów danych obrazowania mózgu: BrainWeb, IXI Dataset, fastMRI i OASIS.

Innym przypadkiem jest modelowanie organówczłowieka, jedno z najtrudniejszych zadań technicznych. Co więcej, opracowując to lub inne rozwiązanie, specjalista musi dokładnie zrozumieć, dlaczego i na jakim poziomie złożoności modelowany jest narząd. Na przykład możesz stworzyć model konkretnego guza na poziomie ekspresji genów i szlaków sygnałowych. Dziś takie problemy rozwiązuje firma Insilico Medicine. To podejście jest wykorzystywane do znalezienia celu terapii, w tym metodami Data Science. Takie modele wykorzystywane są głównie do badań naukowych, wciąż dalekie są od praktycznego zastosowania.

Analiza sekwencji genów - całośćkierunek medycyny, którego rozwój jest po prostu niemożliwy bez Data Science. Jeśli umiejętności programowania w Pythonie są niezwykle ważne w Data Science, to praca z genami wymaga również znajomości języka programowania R oraz konkretnych narzędzi bioinformatycznych – programów do pracy z sekwencjami DNA i białek. Większość z tych programów działa w systemie operacyjnym Unix i nie jest zbyt przyjazna dla użytkownika. Aby je opanować, musisz przynajmniej zrozumieć podstawy biologii molekularnej i genetyki. Niestety, nawet w dzisiejszych szkołach medycznych są z tym duże problemy, a większość lekarzy faktycznie ma słabe pojęcie o tym, jak działają sekwencje genów. W Rosji w tym obszarze zaangażowane są dwie firmy – Atlas i Genotech. Obecnie popularna jest również analiza pod kątem mutacji poszczególnych genów. Większość dużych firm zajmujących się analizą medyczną świadczy takie usługi. Na przykład pacjentki mogą dowiedzieć się, czy mają predyspozycje do raka piersi w tych samych genach, co Angelina Jolie. Obszar ten charakteryzuje się niedoborem kadrowym, ponieważ jest tylko kilka miejsc, w których można uzyskać odpowiednie wykształcenie. Ponadto wiele osób zostaje, aby pracować w nauce lub wyjeżdża za granicę. Istnieje kilka rosyjskojęzycznych zasobów internetowych, w których można nauczyć się takiej analizy. Są one zwykle skierowane do lekarzy lub biologów i uczą jedynie programowania i podstawowej manipulacji danymi. Aby uzyskać bardziej zorientowaną na praktykę edukację z dostępem do tego obszaru, możesz ukończyć kurs na Wydziale Nauk o Danych w Medycynie w GeekBrains.

Obecnie na rynku jest ich kilkanarzędzia do analizy danych w tym obszarze: MapReduce, SQL, Galaxy, Bioconductor. MapReduce przetwarza dane genetyczne i skraca czas wymagany do przetwarzania sekwencji genetycznych.

SQL to język relacyjnych baz danych, którysłużą do wyszukiwania i pobierania danych z baz danych genomowych. Galaxy to aplikacja do badań biomedycznych o otwartym kodzie źródłowym GUI. Pozwala na wykonywanie różnych operacji na genomach.

Wreszcie Bioconductor to oprogramowanie typu open source przeznaczone do analizy danych genomowych.

Ważna reklama i jednocześniekierunek badań - tworzenie leków nowej generacji. Specjaliści farmaceutyczni wykorzystują uczenie maszynowe do poszukiwania celów terapeutycznych i biomarkerów. Ani pierwsze, ani drugie nie są oczywiście same w sobie narkotykami. Cele to cząsteczki w organizmie, z którymi lek wchodzi w interakcję, a biomarkery to cząsteczki, które informują lekarza, kto powinien zastosować lek. Dlatego prawie wszystkie firmy opracowujące leki na choroby o nieznanym celu i biomarkerach – Novartis, Merck, Roche i rosyjski BIOCAD – korzystają z uczenia maszynowego. Są to przede wszystkim choroby nowotworowe i autoimmunologiczne, choroba Alzheimera. Obejmuje to również poszukiwanie nowych antybiotyków.

Dlaczego lekarze nie wspierają wdrażania nauki o danych

Ostatnie lata pokazały, że Data Sciencejest motorem przemysłu modeli predykcyjnych i analitycznych w medycynie, na przykład w zastosowaniu sieci neuronowych do określania przestrzennej struktury białek. Jednak pandemia ujawniła w wielu krajach globalny problem związany z optymalizacją zasobów kliniki i brakiem personelu. W ciągu ostatniego roku pojawiło się wiele firm oferujących rozwiązania tych problemów za pomocą Data Science. Wykorzystanie danych stało się dużym przełomem dla prywatnych klinik, ponieważ powoduje, że usługi medyczne są tańsze. Na tle pandemii wzrosło również zapotrzebowanie na usługi telemedyczne, w których szeroko wykorzystywane są algorytmy uczenia maszynowego. Usługi telemedyczne wymagają wstępnej diagnozy, pracy z analizami i tworzenia chat botów.

Jeśli chodzi o ograniczenia technologicznezastosowanie wizji komputerowej i uczenia maszynowego nie ma praktycznie żadnych barier. Głębsza implementacja algorytmów i usług uzależniona jest od chęci klinik i lekarzy do stosowania metod Data Science. Dotkliwie brakuje także danych szkoleniowych i jest to problem nie tylko komercyjnych zakładów opieki zdrowotnej, ale także państwa: rządy powinny zdemokratyzować dostęp do danych szpitali publicznych, aby firmy deweloperskie mogły tworzyć nowoczesne produkty.

Nauka nawet jednego programu wymaga dużodane jakościowe. Aby nauczyć się rozróżniać guza w kadrze, program potrzebuje tysięcy ręcznie analizowanych obrazów pacjentów, a w analizę powinni być zaangażowani doświadczeni lekarze.

Lekarz musi najpierw znaleźć guza, a potempokaż gdzie ona jest. Jak możesz sobie wyobrazić, doświadczeni lekarze mają wiele innych rzeczy do zrobienia. Ale pandemia, co dziwne, pomogła niektórym obszarom. Na przykład DiagnoCat, rosyjski startup, który wykorzystuje widzenie komputerowe do analizy obrazów w stomatologii, był w stanie przyciągnąć niezajętych lekarzy do analizy obrazów podczas blokady. Jeśli chodzi o niechęć klinik i lekarzy, lekarze po prostu nie ufają takim technologiom. Dobry lekarz na pewno znajdzie taki przypadek, gdy program postawi błędną diagnozę, niedoświadczony lekarz boi się, że program zrobi wszystko lepiej od niego. Dzięki temu zawsze możesz usprawiedliwić się dbaniem o cierpliwość i aspekty prawne.

Synergia nauki o danych i technologii medycznychjuż umożliwił skok naprzód w opracowywaniu rozwiązań do diagnozowania chorób nowotworowych, autoimmunologicznych i neurodegeneracyjnych. Usługi oparte na analizie danych i uczeniu maszynowym są w stanie przewidywać rozprzestrzenianie się wirusów i poszukiwać nowych generacji leków. Pomimo tego, że klasyczna edukacja medyczna pozostaje w tyle za wyzwaniami, przed którymi stoi dziś branża, to naprawdę można stać się nowoczesnym specjalistą pracującym na styku dwóch dziedzin naukowych – Data Science i Medicine. Jednym ze sposobów jest kurs online na Wydziale Nauk o Danych w Medycynie w GeekBrains.

Zobacz także:

Mgławice, komety i gwiezdne żłobki: pokazuje najlepszą astrofotografię roku

Dane z satelitów szpiegowskich pomogły ustalić przyczynę topnienia lodowców w Azji

Koronawirus w jaskini: wszystko o chińskich górnikach, którzy w 2012 roku cierpieli na dziwne zapalenie płuc