Datavidenskab i medicin: hvem, hvordan og hvorfor behandler data

På trods af at IT og medicin fra et metodologisk synspunkt er ret langt fra hinanden.Ven, det er

Biologi og medicinsk forskning drev dataanalyse og anvendelse af forskellige analytiske modeller fremad.I dag, selv i medicinske institutter, i medicinske statistikkurser, studeres det grundlæggende i datalogi.Og selvom disse metoder kaldes forskelligt i medicinske universiteter, er det ret svært for læger at anvende dem på grund af manglende erfaring med programmering.Evnen til at programmere er den første ting, der kræves af en specialist på dette område.Det er nødvendigt at forstå moderne dataanalysealgoritmer - neurale netværk.Og ikke kun for teoretisk at forstå, hvordan algoritmen fungerer, men for at gøre dette skal du have en god kommando af højere matematik og være i stand til at bruge disse algoritmer på reelle medicinske data.Dette kræver igen viden om specielle datavidenskabsværktøjer, såsom Python-biblioteker og dataforbehandlingsmetoder.

Hvordan Coronavirus blev en katalysator for datalogi inden for medicin

На сегодняшний день есть два ключевых направления anvendt anvendelse af Data Science i medicin - sundhedspleje og lægemidler. Den første retning omfatter diagnostiske opgaver, optimering af klinikker og lægers arbejde, valg af medicin og behandlinger baseret på diagnose. De løsninger, der bruges i hvert af disse globale problemer, er baseret på dataanalyse og maskinlæringsalgoritmer. Akkumulerede medicinske data bruges aktivt i lægemiddeludvikling. Vi taler både om brugen i søgningen efter aktive stoffer og testning af lægemidler på dyr og mennesker.

En særlig rolle i udviklingen af ​​datavidenskabsteknologierspillet af coronaviruspandemien. Behovet for forudsigelige modeller, der kunne give mere nøjagtige data om den fremtidige spredning af coronavirus, er steget kraftigt: at forudsige antallet af indlæggelser, indvirkningen af ​​visse restriktive foranstaltninger og vaccinationer på COVID-19. Og hvis sådanne forudsigelser i klassisk epidemiologi er baseret på relativt enkle epidemiologiske modeller, så har disse modeller i virkeligheden vist sig ekstremt dårligt, mens moderne datalogiske metoder er i stand til at erstatte dem og forbedre nøjagtigheden af ​​forudsigelser.

De vigtigste anvendelsesområder for datalogi imedicin under pandemien forblev den samme, men mængden af ​​data og den forventede tid til at løse problemet er ændret betydeligt. For eksempel har opgaven med at diagnosticere en sygdom ved CT i lungerne været undersøgt i lang tid; der er et tilstrækkeligt antal arbejdsløsninger på markedet. Men takket være pandemiens globale natur, den konstante udveksling af data og deres tilgængelighed blev opgaven med automatisk diagnose af COVID-19 ved CT løst så hurtigt som muligt. Det samme gælder for at forudsige sværhedsgraden af ​​sygdomsudfaldet, hvilket kan hjælpe med at forudsige antallet af tilgængelige hospitalssenge. For at løse dette problem indsamles og analyseres en enorm mængde data parallelt i flere lande. Men medicinens specificitet er sådan, at introduktionen af ​​nye løsninger praktisk taget er umulig. Som med vacciner er det nødvendigt med omhyggelig test af enhver model, inden medicinske beslutninger afhænger af den.

Hvilken grundlæggende viden kræves for at arbejde i datalogi:

  • Højere matematik: lineær algebra, matematisk analyse, statistik.
  • Sådan fungerer maskinlæringsmetoder.

Hvordan datalogi hjælper med at bekæmpe kræft, Alzheimers og nye stoffer

Lad os se på forskellige anvendelsesområderDatavidenskab i medicin. En af de mest lovende er diagnosen kræft. I dag bruger dataforskere en lang række algoritmer til at udvikle løsninger på dette område: Valget af en specifik metode afhænger af opgaven, de data, der er tilgængelige, og dens mængde. For eksempel kan du lave diagnostik ved hjælp af tumorbilleder - i dette tilfælde vil Data Science-specialister højst sandsynligt bruge neurale netværk. Til diagnostik vil der på baggrund af analyseresultaterne blive valgt en af ​​de maskinlæringsmetoder, der er bedre egnet til en specifik opgave. Der er også specifikke algoritmer, der bruges, for eksempel til at analysere DNA-data opnået fra enkeltceller. Sådanne data analyseres oftest ved hjælp af grafalgoritmer. Men dette er snarere en undtagelse fra reglen.

Derudover er der flere metoder anvendtfor at forbedre billeder og forbedre nøjagtigheden af ​​resultatet. Big data-platforme (såsom Hadoop) bruger for eksempel MapReduce til at finde parametre, der kan bruges i forskellige opgaver. For dem, der skal udvikle deres eget produkt inden for dette område eller bare entusiaster, er der flere åbne hjernedannende datasæt: BrainWeb, IXI Dataset, fastMRI og OASIS.

En anden sag er orgelmodelleringmenneske, en af ​​de sværeste tekniske opgaver. Desuden skal specialisten forstå udviklingen af ​​denne eller den anden løsning nøjagtigt hvorfor og på hvilket kompleksitetsniveau organet modelleres. For eksempel kan du lave en model af en bestemt tumor på niveauet med genekspression og signalveje. I dag løser firmaet Insilico Medicine sådanne problemer. Denne tilgang bruges til at finde målet for terapi, herunder ved datalogiske metoder. Sådanne modeller bruges hovedsageligt til videnskabelig forskning; de er stadig langt fra praktisk anvendelse.

Gensekvensanalyse - helen retning af medicin, hvis udvikling simpelthen er umulig uden datalogi. Hvis Python-programmeringsfærdigheder er ekstremt vigtige inden for datalogi, kræver det at arbejde med gener også viden om R-programmeringssproget og specifikke bioinformatikværktøjer - programmer til at arbejde med DNA og proteinsekvenser. De fleste af disse programmer kører på Unix-operativsystemet og er ikke særlig brugervenlige. For at mestre dem skal du i det mindste forstå det grundlæggende i molekylærbiologi og genetik. Desværre, selv i medicinske skoler i dag, er der store problemer med dette, og de fleste læger har faktisk en dårlig idé om, hvordan gensekvenserne fungerer. I Rusland er to virksomheder engageret i dette område - Atlas og Genotech. Analyse for mutationer af individuelle gener er også populær på nuværende tidspunkt. De fleste store medicinske analysefirmaer leverer sådanne tjenester. Patienter kan for eksempel finde ud af, om de har en disposition for brystkræft i de samme gener som Angelina Jolie. Dette område er præget af mangel på personale, da der kun er få steder, hvor du kan få en passende uddannelse. Derudover forbliver mange enten for at arbejde inden for videnskab eller rejse til udlandet. Der er kun få russiske sprogressourcer, hvor du kan lære en sådan analyse. De er normalt rettet mod læger eller biologer og underviser kun i programmering og grundlæggende databehandling. For at få en mere praksisorienteret uddannelse med adgang til dette område kan du gennemføre et kursus på Det Datalogiske Fakultet i Medicin på GeekBrains.

Der er flere på markedet i dagværktøjer til dataanalyse på dette område: MapReduce, SQL, Galaxy, Bioconductor. MapReduce behandler genetiske data og reducerer den tid, der kræves til at behandle genetiske sekvenser.

SQL er det relationelle databasesprog, som vibruges til at forespørge og hente data fra genomiske databaser. Galaxy er en open source GUI-baseret biomedicinsk forskningsapplikation. Det giver dig mulighed for at udføre forskellige operationer med genomer.

Endelig er Bioconductor en open source-software designet til analyse af genomiske data.

Vigtig kommerciel og på samme tidforskningsretning - skabelsen af ​​ny generation af lægemidler. Farmaceutiske specialister bruger maskinlæring til at søge efter terapeutiske mål og biomarkører. Hverken den første eller den anden er selvfølgelig selve stofferne. Mål er molekyler i kroppen, som et lægemiddel interagerer med, og biomarkører er molekyler, der fortæller en læge, hvem der skal bruge stoffet. Derfor bruger næsten alle virksomheder, der udvikler lægemidler til sygdomme med ukendte mål og biomarkører – Novartis, Merck, Roche og det russiske BIOCAD – maskinlæring. Det er først og fremmest kræft og autoimmune sygdomme, Alzheimers sygdom. Dette omfatter også søgen efter nye antibiotika.

Hvorfor læger ikke fremmer implementering af datalogi

De seneste år har vist, at datavidenskaber motoren i branchen for forudsigelige og analytiske modeller inden for medicin, for eksempel i anvendelsen af ​​neurale netværk til bestemmelse af proteins rumlige struktur. Men pandemien har afsløret et globalt problem i mange lande relateret til optimering af klinikressourcer og mangel på personale. I løbet af det sidste år er der opstået mange virksomheder, der tilbyder løsninger på disse problemer med Data Science. Brug af data er blevet et stort gennembrud for private klinikker, da det gør medicinske tjenester billigere. På baggrund af pandemien er efterspørgslen efter telemedicintjenester også steget, hvor maskinlæringsalgoritmer er meget udbredt. Telemedicintjenester er efterspurgt til foreløbig diagnose, der arbejder med analyser og opretter chatbots.

Med hensyn til teknologiske begrænsningeranvendelsen af ​​computersyn og maskinlæring har stort set ingen barrierer. Dybere implementering af algoritmer og tjenester afhænger af klinikkernes og lægernes ønske om at anvende Data Science-metoder. Der er også en akut mangel på uddannelsesdata, og det er et problem ikke kun for kommercielle sundhedsinstitutioner, men også for staten: Regeringer bør demokratisere adgangen til offentlige hospitalsdata, så udviklingsvirksomheder kan skabe moderne produkter.

At lære selv et program kræver megetkvalitative data. For at lære at skelne en tumor i en ramme, kræver programmet tusindvis af manuelt analyserede billeder af patienter, og erfarne læger bør være involveret i analysen.

Lægen skal først finde tumoren og dereftervis hvor hun er. Som du kan forestille dig, har erfarne læger mange andre ting at gøre. Men pandemien har underligt nok hjulpet nogle områder. For eksempel var DiagnoCat, en russisk opstart, der bruger computersyn til at analysere billeder inden for tandpleje, i stand til at tiltrække ledige læger til at analysere billeder under en lockdown. Med hensyn til kliniske og lægeres tilbageholdenhed stoler læger simpelthen ikke på sådanne teknologier. En god læge vil helt sikkert finde en sådan sag, når programmet stiller en forkert diagnose, en uerfaren læge er bange for, at programmet vil gøre alt bedre end ham. Som et resultat kan du altid retfærdiggøre dig selv ved at tage dig af patientens og juridiske aspekter.

Synergi mellem datalogi og medicinske teknologierhar allerede givet mulighed for et spring fremad i udviklingen af ​​løsninger til diagnose af kræft, autoimmune og neurodegenerative sygdomme. Tjenester, der drives af dataanalyse og maskinindlæring, er i stand til at forudsige spredningen af ​​vira og se efter nye generationer af stoffer. På trods af at klassisk medicinsk uddannelse hænger bag de udfordringer, som branchen står over for i dag, er det virkeligt at blive en moderne specialist, der arbejder i krydset mellem to videnskabelige områder - Datavidenskab og medicin. Og en måde er online-kurset på fakultetet for datalogi i medicin på GeekBrains.

Se også:

Tåger, kometer og stjerneskoler: viser årets bedste astrofotografi

Data fra spion-satellitter hjalp med at finde ud af årsagen til smeltende gletschere i Asien

Coronavirus i en hule: alt om kinesiske minearbejdere, der led af mærkelig lungebetændelse i 2012