Duomenų mokslas medicinoje: kas, kaip ir kodėl apdoroja duomenis

Nepaisant to, kad metodologiniu požiūriu IT ir medicina yra gana toli viena nuo kitos.draugas, tai yra

Biologija ir medicininiai tyrimai paskatino duomenų analizę ir įvairių analitinių modelių taikymą.Šiandien, net medicinos institutuose, medicinos statistikos kursuose, tiriami duomenų mokslo pagrindai.Ir nors šie metodai medicinos universitetuose vadinami skirtingai, gydytojams juos taikyti yra gana sunku dėl to, kad trūksta programavimo patirties.Gebėjimas programuoti yra pirmas dalykas, kurio reikia šios srities specialistui.Būtina suprasti šiuolaikinius duomenų analizės algoritmus - neuroninius tinklus.Ir ne tik teoriškai suprasti, kaip veikia algoritmas, bet ir tai padaryti, turite gerai išmanyti aukštąją matematiką ir mokėti naudoti šiuos algoritmus realiuose medicininiuose duomenyse.Tam, savo ruožtu, reikia žinių apie specialius duomenų mokslo įrankius, tokius kaip Python bibliotekos ir duomenų išankstinio apdorojimo metodai.

Kaip koronavirusas tapo duomenų duomenų medicinos katalizatoriumi

Šiandien yra dvi pagrindinės kryptysduomenų mokslo taikymas medicinoje – sveikatos apsauga ir farmacija. Pirmoji kryptis apima diagnostikos užduotis, klinikų ir gydytojų darbo optimizavimą, vaistų ir gydymo metodų parinkimą pagal diagnozę. Kiekvienoje iš šių pasaulinių problemų naudojami sprendimai yra pagrįsti duomenų analize ir mašininio mokymosi algoritmais. Sukaupti medicininiai duomenys aktyviai naudojami kuriant vaistus. Kalbame ir apie naudojimą ieškant veikliųjų medžiagų, ir apie vaistų bandymus su gyvūnais ir žmonėmis.

Ypatingas vaidmuo kuriant duomenų mokslo technologijasvaidino koronaviruso pandemija. Smarkiai išaugo poreikis numatomiesiems modeliams, kurie galėtų pateikti tikslesnius duomenis apie būsimą koronaviruso plitimą: numatyti hospitalizacijų skaičių, tam tikrų ribojančių priemonių ir vakcinacijų poveikį COVID-19. Ir jei klasikinėje epidemiologijoje tokios prognozės yra pagrįstos gana paprastais epidemiologiniais modeliais, tai iš tikrųjų šie modeliai pasirodė ypač prastai, o šiuolaikiniai duomenų mokslo metodai sugeba juos pakeisti ir pagerinti prognozių tikslumą.

Pagrindinės duomenų mokslo taikymo sritys 2005 mmedicina pandemijos metu išliko ta pati, tačiau duomenų kiekis ir numatomas problemos sprendimo laikas labai pasikeitė. Pavyzdžiui, ilgą laiką buvo tiriama užduotis diagnozuoti ligą atliekant KT plaučiuose; rinkoje yra pakankamai veikiančių sprendimų. Tačiau dėl pasaulinio pandemijos pobūdžio, nuolatinio keitimosi duomenimis ir jų prieinamumo, automatinės COVID-19 diagnostikos užduotis KT buvo kuo greičiau išspręsta. Tas pats pasakytina ir apie ligos baigties sunkumo prognozavimą, o tai galėtų padėti numatyti turimų ligoninių lovų skaičių. Norėdami išspręsti šią problemą, keliose šalyse lygiagrečiai renkamas ir analizuojamas didžiulis duomenų kiekis. Bet medicinos specifika yra tokia, kad praktiškai neįmanoma įvesti naujų sprendimų. Kaip ir vakcinų atveju, prieš pradedant medicininius sprendimus, reikia atidžiai išbandyti bet kokį modelį.

Kokios pagrindinės žinios reikalingos norint dirbti su duomenų mokslu:

  • Aukštoji matematika: tiesinė algebra, matematinė analizė, statistika.
  • Kaip veikia mašininio mokymosi metodai.

Kaip duomenų mokslas padeda kovoti su vėžiu, Alzheimerio liga ir naujais vaistais

Pažvelkime į įvairias taikymo sritisDuomenų mokslas medicinoje. Viena iš perspektyviausių – vėžio diagnozė. Šiandien duomenų mokslininkai naudoja daugybę algoritmų, kad sukurtų šios srities sprendimus: konkretaus metodo pasirinkimas priklauso nuo atliekamos užduoties, turimų duomenų ir jų apimties. Pavyzdžiui, diagnostiką galite atlikti naudodami naviko vaizdus – tokiu atveju duomenų mokslo specialistai greičiausiai naudos neuroninius tinklus. Diagnostikai, remiantis analizės rezultatais, bus parinktas vienas iš mašininio mokymosi metodų, kuris geriau tinka konkrečiai užduočiai atlikti. Taip pat yra specifinių algoritmų, naudojamų, pavyzdžiui, analizuoti DNR duomenis, gautus iš pavienių ląstelių. Tokie duomenys dažniausiai analizuojami naudojant grafų algoritmus. Tačiau tai greičiau taisyklės išimtis.

Be to, yra keli metodaipagerinti vaizdus ir pagerinti rezultato tikslumą. Didelės duomenų platformos (pvz., „Hadoop“) naudoja, pavyzdžiui, „MapReduce“, kad surastų parametrus, kuriuos galima naudoti atliekant įvairias užduotis. Tiems, kurie ketina kurti savo produktą šioje srityje, ar tiesiog entuziastams, yra keletas atvirų smegenų vaizdavimo duomenų rinkinių: „BrainWeb“, „IXI Dataset“, „fastMRI“ ir „OASIS“.

Kitas atvejis yra organų modeliavimasžmogaus, viena iš sunkiausių techninių užduočių. Be to, kurdamas tą ar kitą sprendimą, specialistas turi tiksliai suprasti, kodėl ir kokio sudėtingumo lygiu organas yra modeliuojamas. Pvz., Galite sukurti konkretaus naviko modelį genų raiškos ir signalo būdų lygyje. Šiandien bendrovė „Insilico Medicine“ sprendžia tokias problemas. Šis metodas naudojamas siekiant nustatyti terapijos tikslą, įskaitant duomenų mokslo metodus. Tokie modeliai daugiausia naudojami moksliniams tyrimams, jie dar nėra toli nuo praktinio taikymo.

Genų sekos analizė - visamedicinos kryptis, kurios plėtra be duomenų mokslo tiesiog neįmanoma. Jei „Python“ programavimo įgūdžiai yra nepaprastai svarbūs duomenų moksle, tai, norint dirbti su genais, reikia žinoti ir R programavimo kalbą bei specifines bioinformatikos priemones - programas, skirtas darbui su DNR ir baltymų sekomis. Dauguma šių programų veikia „Unix“ operacinėje sistemoje ir nėra labai patogios vartotojui. Norėdami juos įvaldyti, turite bent jau suprasti molekulinės biologijos ir genetikos pagrindus. Deja, net ir medicinos mokyklose šiandien kyla didelių problemų, ir dauguma gydytojų menkai įsivaizduoja, kaip veikia genų sekos. Rusijoje šioje srityje užsiima dvi įmonės - „Atlas“ ir „Genotech“. Šiuo metu taip pat populiari atskirų genų mutacijų analizė. Tokias paslaugas teikia dauguma didžiųjų medicininės analizės įmonių. Pavyzdžiui, pacientai gali sužinoti, ar jie turi polinkį sirgti krūties vėžiu tais pačiais genais kaip ir Angelina Jolie. Šiai sričiai būdingas personalo trūkumas, nes tik keliose vietose galite gauti tinkamą išsilavinimą. Be to, daugelis arba lieka dirbti mokslo srityje, arba išvyksta į užsienį. Yra nedaug internetinių šaltinių rusų kalba, kur galite sužinoti tokią analizę. Paprastai jie skirti gydytojams ar biologams ir moko tik programavimo ir pagrindinių manipuliavimo duomenimis. Norėdami gauti labiau į praktiką orientuotą išsilavinimą, turintį prieigą prie šios srities, galite baigti kursą Medicinos duomenų mokslo fakultete „GeekBrains“.

Šiandien rinkoje yra keletasšios srities duomenų analizės įrankiai: MapReduce, SQL, Galaxy, Bioconductor. „MapReduce“ apdoroja genetinius duomenis ir sumažina laiką, reikalingą genetinėms sekoms apdoroti.

SQL yra reliacinė duomenų bazės kalba, kurią mesyra naudojami norint pateikti užklausas ir gauti duomenis iš genomo duomenų bazių. „Galaxy“ yra atvirojo šaltinio GUI paremta biomedicininių tyrimų programa. Tai leidžia atlikti įvairias operacijas su genomais.

Galiausiai „Bioconductor“ yra atvirojo kodo programinė įranga, skirta genominiams duomenims analizuoti.

Svarbi komercinė ir kartutyrimų kryptis – naujos kartos vaistų kūrimas. Farmacijos specialistai naudoja mašininį mokymąsi terapinių taikinių ir biologinių žymenų paieškai. Nei pirmas, nei antras, žinoma, nėra patys vaistai. Taikiniai yra organizmo molekulės, su kuriomis sąveikauja vaistas, o biomarkeriai yra molekulės, kurios nurodo gydytojui, kas turėtų vartoti vaistą. Todėl beveik visos įmonės, kuriančios vaistus nuo ligų, kurių taikiniai ir biologiniai žymenys nežinomi – Novartis, Merck, Roche ir Rusijos BIOCAD – naudoja mašininį mokymąsi. Tai visų pirma vėžys ir autoimuninės ligos, Alzheimerio liga. Tai taip pat apima naujų antibiotikų paiešką.

Kodėl gydytojai neremia duomenų mokslo diegimo

Pastarieji metai parodė, kad duomenų mokslasyra medicinos prognozuojamų ir analitinių modelių pramonės variklis, pavyzdžiui, taikant neuroninius tinklus baltymų erdvinei struktūrai nustatyti. Tačiau pandemija daugelyje šalių atskleidė pasaulinę problemą, susijusią su klinikų išteklių optimizavimu ir darbuotojų trūkumu. Per pastaruosius metus daugelis kompanijų pradėjo siūlyti šių problemų sprendimus naudodami „Data Science“. Duomenų naudojimas tapo dideliu proveržiu privačioms klinikoms, nes tai atpigina medicinos paslaugas. Pandemijos fone padidėjo ir telemedicinos paslaugų, kuriose plačiai naudojami mašininio mokymosi algoritmai, paklausa. Telemedicinos paslaugos yra reikalingos preliminariai diagnozuoti, dirbti su analize ir kurti pokalbių robotus.

Kalbant apie technologinius apribojimuskompiuterinio matymo ir mašininio mokymosi taikymas praktiškai neturi kliūčių. Gilesnis algoritmų ir paslaugų diegimas priklauso nuo klinikų ir gydytojų noro taikyti Data Science metodus. Taip pat labai trūksta mokymo duomenų, ir tai aktualu ne tik komercinėms sveikatos priežiūros įstaigoms, bet ir valstybei: vyriausybės turėtų demokratizuoti prieigą prie viešųjų ligoninių duomenų, kad plėtros įmonės galėtų kurti modernius produktus.

Išmokti net vieną programą reikia daugkokybės duomenys. Norint sužinoti, kaip atskirti naviką rėmelyje, programai reikia tūkstančių rankiniu būdu analizuotų pacientų vaizdų, o į analizę turėtų būti įtraukti patyrę gydytojai.

Pirmiausia gydytojas turi rasti naviką, o tadaparodyk, kur ji yra. Kaip galite įsivaizduoti, patyrę gydytojai turi padaryti daug kitų dalykų. Tačiau pandemija, kaip bebūtų keista, padėjo kai kurioms vietovėms. Pavyzdžiui, „DiagnoCat“, rusiškas startuolis, kuris kompiuterinę viziją naudoja vaizdų analizavimui odontologijoje, sugebėjo pritraukti neužimtus gydytojus analizuoti vaizdus užrakinimo metu. Kalbant apie klinikų ir gydytojų nenorą, gydytojai tiesiog nepasitiki tokiomis technologijomis. Geras gydytojas tikrai ras tokį atvejį, kai programa nustatys neteisingą diagnozę, nepatyręs gydytojas bijo, kad programa viską padarys geriau nei jis. Todėl visada galite pasiteisinti rūpindamiesi paciento ir teisiniais aspektais.

Duomenų mokslo ir medicinos technologijų sinergijajau leido mums žengti šuolį į priekį kuriant vėžio, autoimuninių ir neurodegeneracinių ligų diagnostikos sprendimus. Duomenų analizės ir mašininio mokymosi varomos paslaugos gali numatyti virusų plitimą ir ieškoti naujos kartos narkotikų. Nepaisant to, kad klasikinis medicinos išsilavinimas atsilieka nuo iššūkių, su kuriais šiandien susiduria pramonė, realu tapti moderniu specialistu, dirbančiu dviejų mokslo sričių - duomenų mokslo ir medicinos - sandūroje. Vienas iš būdų yra internetiniai kursai, skirti „GeekBrains“ medicinos duomenų fakultete.

Taip pat žiūrėkite:

Ūkai, kometos ir žvaigždžių darželiai: rodoma geriausia metų astrofotografija

Šnipinėjimo palydovų duomenys padėjo išsiaiškinti ledynų tirpimo Azijoje priežastis

Koronavirusas urve: viskas apie kinų kalnakasius, 2012 m