Znanost podataka u medicini: tko, kako i zašto obrađuje podatke

Unatoč tome što su s metodološkog stajališta informatika i medicina prilično udaljene jedna od druge, jest

biologija i medicinska istraživanja potjeralaanaliziranje podataka i primjena raznih analitičkih modela naprijed. Danas se i na medicinskim institutima, na tečajevima medicinske statistike, proučavaju osnove Data Science. I iako se te metode na medicinskim sveučilištima nazivaju drugačije, liječnicima ih je prilično teško koristiti - zbog nedostatka iskustva u programiranju. Sposobnost programiranja je prva stvar koja se traži od stručnjaka u ovom području. Potrebno je razumjeti suvremene algoritme analize podataka – neuronske mreže. Štoviše, to nije samo teoretsko razumijevanje načina na koji algoritam funkcionira; za to morate dobro vladati višom matematikom i moći koristiti te algoritme na stvarnim medicinskim podacima. To pak od stručnjaka zahtijeva poznavanje posebnih alata Data Science - Python knjižnica i metoda pretprocesiranja podataka.

Kako je koronavirus postao katalizator za znanost o podacima u medicini

Danas postoje dva ključna pravcaprimijenjena primjena znanosti o podacima u medicini – zdravstvu i farmaciji. Prvi smjer uključuje dijagnostičke zadatke, optimizaciju rada klinika i liječnika, izbor lijekova i tretmana na temelju dijagnoze. Rješenja koja se koriste u svakom od ovih globalnih problema temelje se na analizi podataka i algoritmima strojnog učenja. Akumulirani medicinski podaci aktivno se koriste u razvoju lijekova. Riječ je kako o upotrebi u potrazi za djelatnim tvarima, tako i o ispitivanju lijekova na životinjama i ljudima.

Posebna uloga u razvoju tehnologija Data Sciencekoju je odigrala pandemija koronavirusa. Potreba za prediktivnim modelima koji bi mogli pružiti točnije podatke o budućem širenju koronavirusa naglo se povećala: za predviđanje broja hospitalizacija, utjecaja određenih restriktivnih mjera i cijepljenja na COVID-19. I ako se u klasičnoj epidemiologiji takva predviđanja temelje na relativno jednostavnim epidemiološkim modelima, onda su se ti modeli u stvarnosti pokazali izuzetno loše, dok su moderne metode Data Science u stanju ih zamijeniti i poboljšati točnost predviđanja.

Glavna područja primjene znanosti o podacima ulijek tijekom pandemije ostao je isti, ali količina podataka i očekivano vrijeme za rješavanje problema značajno su se promijenili. Primjerice, zadatak dijagnosticiranja bolesti CT-om pluća već je dugo proučavan; na tržištu postoji dovoljan broj radnih rješenja. No, zahvaljujući globalnoj prirodi pandemije, stalnoj razmjeni podataka i njihovoj dostupnosti, zadatak automatske dijagnoze COVID-19 CT-om riješen je što je prije moguće. Isto se odnosi na predviđanje težine ishoda bolesti, što bi moglo pomoći u predviđanju broja raspoloživih bolničkih kreveta. Da bi se riješio ovaj problem, paralelno se u nekoliko zemalja prikuplja i analizira ogromna količina podataka. Ali specifičnost medicine je takva da je uvođenje novih rješenja praktički nemoguće. Kao i kod cjepiva, potrebno je pažljivo testiranje bilo kojeg modela prije nego što medicinske odluke ovise o njemu.

Koja su osnovna znanja potrebna za rad u znanosti znanosti:

  • Viša matematika: linearna algebra, matematička analiza, statistika.
  • Kako funkcioniraju metode strojnog učenja.

Kako znanost podataka pomaže u borbi protiv raka, Alzheimerove bolesti i novih lijekova

Pogledajmo različita područja primjeneZnanost o podacima u medicini. Jedna od najperspektivnijih je dijagnoza raka. Danas podatkovni znanstvenici koriste čitav niz algoritama za razvoj rješenja u ovom području: izbor određene metode ovisi o zadatku koji se radi, podacima koji su dostupni i njihovoj količini. Na primjer, možete napraviti dijagnostiku pomoću slika tumora - u ovom će slučaju stručnjaci za Data Science najvjerojatnije koristiti neuronske mreže. Za dijagnostiku će se na temelju rezultata analize odabrati jedna od metoda strojnog učenja koja je prikladnija za određeni zadatak. Postoje i posebni algoritmi koji se koriste, na primjer, za analizu DNK podataka dobivenih iz pojedinačnih stanica. Takvi se podaci najčešće analiziraju pomoću graf algoritama. Ali ovo je prije iznimka od pravila.

Uz to se primjenjuje nekoliko metodaza poboljšanje slika i poboljšanje točnosti rezultata. Platforme za velike podatke (kao što je Hadoop) koriste, na primjer, MapReduce za pronalaženje parametara koji se mogu koristiti u raznim zadacima. Za one koji će razviti vlastiti proizvod na ovom području ili jednostavno za entuzijaste, postoji nekoliko otvorenih skupova podataka za slikanje mozga: BrainWeb, IXI Skup podataka, fastMRI i OASIS.

Drugi slučaj je modeliranje organačovjek, jedan od najtežih tehničkih zadataka. Štoviše, kada razvija ovo ili ono rješenje, stručnjak mora točno razumjeti zašto se i na kojoj razini složenosti organ modelira. Na primjer, možete napraviti model određenog tumora na razini ekspresije gena i signalnih putova. Danas tvrtka Insilico Medicine rješava takve probleme. Ovaj se pristup koristi za pronalaženje cilja terapije, uključujući Data Science metode. Takvi se modeli uglavnom koriste za znanstvena istraživanja, ali još uvijek su daleko od praktične primjene.

Analiza sekvence gena - cjelinasmjer medicine čiji je razvoj jednostavno nemoguć bez Data Sciencea. Ako su vještine programiranja Python izuzetno važne u znanosti znanosti, tada rad s genima također zahtijeva poznavanje programskog jezika R i specifičnih alata za bioinformatiku - programa za rad s DNA i proteinskim sekvencama. Većina tih programa radi na operacijskom sustavu Unix i nisu vrlo jednostavni za upotrebu. Da biste ih savladali, morate barem razumjeti osnove molekularne biologije i genetike. Nažalost, čak i danas na medicinskim fakultetima s tim postoje veliki problemi, a većina liječnika zapravo slabo zna kako djeluju sekvence gena. U Rusiji su dvije tvrtke angažirane na ovom području - Atlas i Genotech. Analiza mutacija pojedinih gena također je popularna u današnje vrijeme. Većina velikih tvrtki za medicinsku analizu pruža takve usluge. Pacijenti, na primjer, mogu saznati imaju li predispoziciju za rak dojke u istim genima kao Angelina Jolie. Ovo područje karakterizira nedostatak osoblja, jer postoji samo nekoliko mjesta na kojima možete steći odgovarajuće obrazovanje. Uz to, mnogi ili ostaju raditi u znanosti ili odlaze u inozemstvo. Malo je internetskih izvora na ruskom jeziku na kojima možete naučiti takvu analizu. Obično su usmjereni na liječnike ili biologe i podučavaju samo programiranje i osnovne manipulacije podacima. Da biste stekli više obrazovanja usmjereno na praksu s pristupom ovom području, možete završiti tečaj na Medicinskom fakultetu podataka GeekBrains.

Danas ih je na tržištu nekolikoalati za analizu podataka u ovom području: MapReduce, SQL, Galaxy, Bioconductor. MapReduce obrađuje genetske podatke i smanjuje vrijeme potrebno za obradu genetskih sekvenci.

SQL je relacijski jezik baze podataka koji mikoriste se za traženje i dohvaćanje podataka iz genomskih baza podataka. Galaxy je aplikacija za biomedicinska istraživanja temeljena na GUI-u. Omogućuje vam izvođenje različitih operacija s genomima.

Napokon, Bioconductor je softver otvorenog koda dizajniran za analizu genomskih podataka.

Važan komercijalni i ujednosmjer istraživanja - stvaranje lijekova nove generacije. Farmaceutski stručnjaci koriste strojno učenje za traženje terapijskih ciljeva i biomarkera. Ni prvo ni drugo, naravno, nisu sami lijekovi. Mete su molekule u tijelu s kojima lijek stupa u interakciju, a biomarkeri su molekule koje govore liječniku tko treba koristiti lijek. Stoga gotovo sve tvrtke koje razvijaju lijekove za bolesti s nepoznatim ciljevima i biomarkerima – Novartis, Merck, Roche i ruski BIOCAD – koriste strojno učenje. To su prije svega rak i autoimune bolesti, Alzheimerova bolest. To uključuje i potragu za novim antibioticima.

Zašto liječnici ne potiču provedbu znanosti o podacima

Posljednje godine pokazale su da Data Scienceje motor industrije prediktivnih i analitičkih modela u medicini, na primjer, u primjeni neuronskih mreža za određivanje prostorne strukture proteina. No, pandemija je u mnogim zemljama razotkrila globalni problem povezan s optimizacijom kliničkih resursa i nedostatkom osoblja. Tijekom protekle godine pojavile su se mnoge tvrtke koje nude rješenja za ove probleme s Data Scienceom. Korištenje podataka postalo je veliko otkriće za privatne klinike jer medicinske usluge čini jeftinijima. U pozadini pandemije povećala se i potražnja za telemedicinskim uslugama u kojima se široko koriste algoritmi strojnog učenja. Potrebne su usluge telemedicine za preliminarnu dijagnozu, rad s analizama i stvaranje chat botova.

U smislu tehnoloških ograničenjaprimjena računalnog vida i strojnog učenja praktički nema prepreka. Dublja implementacija algoritama i usluga ovisi o želji klinika i liječnika za primjenom Data Science metoda. Postoji i akutni nedostatak podataka o obuci, a to nije problem samo za komercijalne zdravstvene ustanove, već i za državu: vlade bi trebale demokratizirati pristup podacima javnih bolnica kako bi razvojne tvrtke mogle stvarati moderne proizvode.

Učenje čak i jednog programa zahtijeva punopodaci o kvaliteti. Da bi naučio kako razlikovati tumor u okviru, programu su potrebne tisuće ručno analiziranih slika pacijenata, a u analizu bi trebali biti uključeni iskusni liječnici.

Liječnik prvo mora pronaći tumor, a zatimpokazati gdje je. Kao što možete zamisliti, iskusni liječnici moraju obaviti još mnogo toga. No, pandemija je, čudno, pomogla nekim područjima. Na primjer, DiagnoCat, ruski startup koji koristi računalni vid za analizu slika u stomatologiji, uspio je privući nezaposlene liječnike da analiziraju slike tijekom zaključavanja. Što se tiče oklijevanja klinika i liječnika, liječnici jednostavno ne vjeruju takvim tehnologijama. Dobar će liječnik sigurno pronaći takav slučaj kada program postavi pogrešnu dijagnozu, neiskusni se liječnik boji da će program učiniti sve bolje od njega. Kao rezultat toga, uvijek se možete opravdati brigom o pacijentu i pravnim aspektima.

Sinergija znanosti o podacima i medicinskih tehnologijaveć nam je omogućio skok naprijed u razvoju rješenja za dijagnozu raka, autoimunih i neurodegenerativnih bolesti. Usluge pokrenute analizom podataka i strojnim učenjem mogu predvidjeti širenje virusa i tražiti nove generacije lijekova. Unatoč činjenici da klasično medicinsko obrazovanje zaostaje za izazovima s kojima se industrija danas suočava, stvarno je postati suvremeni specijalist koji radi na spoju dvaju znanstvenih područja - znanosti znanosti i medicine. A jedan od načina je mrežni tečaj na Medicinskom fakultetu u GeekBrainsu.

Pogledajte i:

Maglice, komete i zvjezdani rasadnici: prikazuju najbolju astrofotografiju godine

Podaci špijunskih satelita pomogli su otkriti uzrok topljenja ledenjaka u Aziji

Koronavirus u špilji: sve o kineskim rudarima koji su 2012. patili od čudne upale pluća