Știința datelor în medicină: cine, cum și de ce prelucrează datele

În ciuda faptului că, din punct de vedere metodologic, IT și medicina sunt destul de departe una de alta, și anume

biologia și cercetarea medicală s-au mutatanaliza datelor și aplicarea diverselor modele analitice înainte. Astăzi, chiar și în institutele medicale, în cursurile de statistică medicală, sunt studiate elementele de bază ale științei datelor. Și, deși aceste metode sunt numite diferit în universitățile medicale, este destul de dificil pentru medici să le aplice - lipsa de experiență în programare afectează. Abilitatea de a programa este primul lucru care este cerut de la un specialist în acest domeniu. Este necesar să înțelegem algoritmi moderni pentru analiza datelor - în rețelele neuronale. Mai mult decât atât, nu este doar să înțelegem teoretic modul în care funcționează algoritmul - pentru aceasta trebuie să aveți o bună cunoaștere a matematicii superioare și să puteți folosi acești algoritmi pe date medicale reale. La rândul său, acest lucru necesită ca specialistul să aibă cunoștințe despre instrumentele speciale pentru știința datelor - biblioteci Python și metode de preprocesare a datelor.

Cum a devenit Coronavirus un catalizator pentru știința datelor în medicină

Astăzi există două domenii cheieAplicarea științei datelor în medicină - asistență medicală și farmaceutică. Prima direcție include sarcinile de diagnosticare, optimizarea activității clinicilor și medicilor, selectarea medicamentelor și tratamentul pe baza diagnosticului. Soluțiile aplicate în fiecare dintre aceste probleme globale se bazează pe algoritmi pentru analiza datelor și învățarea automată. Datele medicale acumulate sunt utilizate în mod activ în dezvoltarea medicamentelor. Vorbim atât despre utilizarea în căutarea substanțelor active, cât și despre testarea drogurilor pe animale și oameni.

Un rol special în dezvoltarea tehnologiilor Data Sciencejucat de pandemia de coronavirus. Nevoia de modele predictive care ar putea oferi date mai exacte despre răspândirea viitoare a coronavirusului a crescut brusc: pentru a prezice numărul de spitalizări, impactul anumitor măsuri restrictive și vaccinări asupra COVID-19. Și dacă în epidemiologia clasică astfel de previziuni se bazează pe modele epidemiologice relativ simple, atunci în realitate aceste modele s-au arătat extrem de slab, în ​​timp ce metodele moderne de știința datelor sunt capabile să le înlocuiască și să îmbunătățească acuratețea predicțiilor.

Principalele domenii de aplicare a științei datelor în Româniamedicamentul în timpul pandemiei a rămas același, dar cantitatea de date și timpul așteptat pentru rezolvarea problemei s-au schimbat semnificativ. De exemplu, sarcina de a diagnostica o boală prin CT a plămânilor a fost studiată mult timp; există un număr suficient de soluții de lucru pe piață. Dar, datorită naturii globale a pandemiei, schimbului constant de date și disponibilității acestora, sarcina diagnosticării automate a COVID-19 prin CT a fost rezolvată cât mai curând posibil. Același lucru este valabil și pentru prezicerea severității rezultatului bolii, care ar putea ajuta la prezicerea numărului de paturi de spital disponibile. Pentru a rezolva această problemă, o cantitate imensă de date este colectată și analizată în mai multe țări în paralel. Dar specificitatea medicinii este de așa natură încât introducerea de soluții noi este practic imposibilă. Ca și în cazul vaccinurilor, este necesară testarea atentă a oricărui model înainte ca deciziile medicale să depindă de acesta.

Ce cunoștințe de bază sunt necesare pentru a lucra în știința datelor:

  • Matematică superioară: algebră liniară, analiză matematică, statistici.
  • Cum funcționează metodele de învățare automată.

Modul în care știința datelor ajută la combaterea cancerului, a Alzheimerului și a medicamentelor noi

Să ne oprim asupra diferitelor domenii de aplicareȘtiința datelor în medicină. Una dintre cele mai promițătoare este diagnosticarea bolilor oncologice. Astăzi, oamenii de știință utilizează o gamă întreagă de algoritmi pentru a dezvolta soluții în acest domeniu: alegerea pentru o metodă specifică depinde de sarcina, datele disponibile și volumul acestora. De exemplu, puteți efectua diagnostice pe baza imaginilor tumorale - în acest caz, specialiștii în știința datelor vor folosi cel mai probabil rețelele neuronale. Pentru diagnosticarea bazată pe rezultatele analizelor, va fi aleasă una dintre metodele de învățare automată care este cea mai potrivită pentru o sarcină specifică. Există, de asemenea, algoritmi specifici utilizați, de exemplu, pentru a analiza datele ADN obținute din celule unice. Astfel de date sunt analizate cel mai adesea folosind algoritmi grafici. Dar aceasta este mai degrabă o excepție de la regulă.

În plus, există mai multe metode aplicatepentru a îmbunătăți imaginile și a îmbunătăți precizia rezultatului. Platformele de date mari (cum ar fi Hadoop) folosesc, de exemplu, MapReduce pentru a găsi parametrii care pot fi utilizați în diferite sarcini. Pentru cei care urmează să-și dezvolte propriul produs în acest domeniu, sau pur și simplu entuziaști, există mai multe seturi de date de imagini cerebrale deschise: BrainWeb, IXI Dataset, fastMRI și OASIS.

Un alt caz este modelarea organeloruman, una dintre cele mai dificile sarcini tehnice. Mai mult, atunci când dezvoltă această soluție sau alta, specialistul trebuie să înțeleagă exact de ce și la ce nivel de complexitate este modelat organul. De exemplu, puteți face un model al unei tumori specifice la nivelul căilor de expresie și de semnalizare a genei. Astăzi, compania Insilico Medicine rezolvă astfel de probleme. Această abordare este utilizată pentru a găsi ținta terapiei, inclusiv prin metode Data Science. Astfel de modele sunt utilizate în principal pentru cercetarea științifică; sunt încă departe de a fi aplicate în mod practic.

Analiza secvenței genetice - întrego direcție a medicinei, a cărei dezvoltare este pur și simplu imposibilă fără știința datelor. Dacă abilitățile de programare Python sunt extrem de importante în știința datelor, atunci lucrul cu gene necesită, de asemenea, cunoașterea limbajului de programare R și a instrumentelor specifice bioinformaticii - programe pentru lucrul cu ADN și secvențe de proteine. Majoritatea acestor programe rulează pe sistemul de operare Unix și nu sunt foarte ușor de utilizat. Pentru a le stăpâni, trebuie să înțelegeți cel puțin elementele de bază ale biologiei moleculare și ale geneticii. Din păcate, chiar și în școlile medicale de astăzi, există mari probleme cu acest lucru și majoritatea medicilor au de fapt o idee slabă despre modul în care funcționează secvențele genetice. În Rusia, două companii sunt angajate în acest domeniu - Atlas și Genotech. Analiza mutațiilor genelor individuale este, de asemenea, populară în prezent. Majoritatea companiilor mari de analize medicale oferă astfel de servicii. Pacienții, de exemplu, pot afla dacă au o predispoziție la cancerul de sân în aceleași gene ca și Angelina Jolie. Această zonă este caracterizată de un deficit de personal, deoarece există doar câteva locuri în care puteți obține o educație adecvată. În plus, mulți fie rămân să lucreze în știință, fie pleacă în străinătate. Există puține resurse online în limba rusă unde puteți afla o astfel de analiză. Acestea sunt de obicei destinate medicilor sau biologilor și predă doar programarea și manipularea datelor de bază. Pentru a obține o educație mai orientată spre practică, cu acces la această zonă, puteți finaliza un curs la Facultatea de Știința Datelor în Medicină la GeekBrains.

Sunt câtevainstrumente de analiză a datelor în acest domeniu: MapReduce, SQL, Galaxy, Bioconductor. MapReduce procesează date genetice și reduce timpul necesar procesării secvențelor genetice.

SQL este limbajul bazei de date relaționale pe care noisunt folosite pentru interogarea și preluarea datelor din bazele de date genomice. Galaxy este o aplicație de cercetare biomedicală bazată pe GUI open source. Vă permite să efectuați diverse operații cu genomii.

În cele din urmă, Bioconductor este un software open source conceput pentru analiza datelor genomice.

Comercial important și în același timpdirecția cercetării - crearea de medicamente de nouă generație. Profesioniștii farmaceutici folosesc învățarea automată pentru a găsi ținte pentru terapie și biomarkeri. Nici primul, nici al doilea, desigur, nu sunt drogurile în sine. Țintele sunt molecule din corpul cu care interacționează un medicament, iar biomarkerii sunt molecule care spun medicului cine ar trebui să utilizeze medicamentul. Prin urmare, aproape toate companiile care dezvoltă medicamente pentru boli cu ținte și biomarkeri necunoscuți - Novartis, Merck, Roche și BIOCAD din Rusia - folosesc învățarea automată. Acestea sunt, în primul rând, boli oncologice și autoimune, boala Alzheimer. Aceasta include și căutarea de noi antibiotice.

De ce medicii nu promovează implementarea științei datelor

Ultimii ani au arătat că știința dateloreste motorul industriei modelelor predictive și analitice în medicină, de exemplu, în aplicarea rețelelor neuronale pentru a determina structura spațială a proteinelor. Dar pandemia a expus o problemă globală în multe țări legate de optimizarea resurselor clinicii și de lipsa de personal. În ultimul an, multe companii au apărut oferind soluții la aceste probleme cu Data Science. Utilizarea datelor a devenit o mare descoperire pentru clinicile private, deoarece reduce serviciile medicale. Pe fondul pandemiei, a crescut și cererea de servicii de telemedicină, în care algoritmii de învățare automată sunt folosiți pe scară largă. Serviciile de telemedicină sunt solicitate pentru diagnostic preliminar, lucrează cu analize și creează chat-uri.

În ceea ce privește constrângerile tehnologiceaplicarea viziunii computerizate și a învățării automate nu are practic obstacole. Implementarea mai profundă a algoritmilor și serviciilor se bazează pe dorința clinicilor și a medicilor de a utiliza metodele Data Science. Există, de asemenea, o lipsă acută de date pentru instruire, iar aceasta este o problemă nu numai pentru instituțiile medicale comerciale, ci și pentru stat: guvernele ar trebui să democratizeze accesul la date de la spitalele bugetare, astfel încât companiile de dezvoltare să poată crea produse moderne.

Învățarea chiar și a unui singur program necesită multdate de calitate. Pentru a învăța cum să distingem o tumoare într-un cadru, programul are nevoie de mii de imagini analizate manual ale pacienților, iar medicii cu experiență ar trebui să fie implicați în analiză.

Medicul trebuie mai întâi să găsească tumoarea și apoiarată unde este. După cum vă puteți imagina, medicii cu experiență au multe alte lucruri de făcut. Dar pandemia, destul de ciudat, a ajutat unele zone. De exemplu, DiagnoCat, un startup rus care folosește viziunea computerizată pentru a analiza imaginile din stomatologie, a reușit să atragă medici neocupați pentru a analiza imaginile în timpul blocării. În ceea ce privește reticența clinicilor și a medicilor, medicii pur și simplu nu au încredere în astfel de tehnologii. Un medic bun va găsi cu siguranță un astfel de caz atunci când programul face un diagnostic greșit, un medic neexperimentat se teme că programul va face totul mai bine decât el. Drept urmare, vă puteți justifica oricând având grijă de pacient și de aspectele legale.

Sinergia științei datelor și a tehnologiilor medicalene-a permis deja să facem un salt înainte în dezvoltarea soluțiilor pentru diagnosticarea cancerului, a bolilor autoimune și neurodegenerative. Serviciile oferite de analiza datelor și învățarea automată sunt capabile să prezică răspândirea virușilor și să caute noi generații de medicamente. În ciuda faptului că educația medicală clasică rămâne în urmă provocărilor cu care se confruntă astăzi industria, este real să deveniți un specialist modern care lucrează la intersecția a două domenii științifice - Știința datelor și medicina. Și o modalitate este cursul online de la Facultatea de Știința Datelor în Medicină de la GeekBrains.

Vezi și:

Nebuloase, comete și pepiniere stelare: arată cea mai bună astrofotografie a anului

Datele de la sateliții spion au ajutat la aflarea cauzei topirii ghețarilor din Asia

Coronavirusul într-o peșteră: totul despre minerii chinezi care au suferit de pneumonie ciudată în 2012