Datu zinātne medicīnā: kas, kā un kāpēc apstrādā datus

Neskatoties uz to, ka no metodoloģiskā viedokļa IT un medicīna ir diezgan tālu viena no otras.draugs, tas ir

Bioloģija un medicīniskie pētījumi virzīja uz priekšu datu analīzi un dažādu analītisko modeļu pielietošanu.Šodien, pat medicīnas institūtos, medicīnas statistikas kursos tiek pētīti datu zinātnes pamati.Un, lai gan medicīnas universitātēs šīs metodes sauc atšķirīgi, ārstiem ir diezgan grūti tos piemērot, jo trūkst pieredzes programmēšanā.Spēja programmēt ir pirmā lieta, kas nepieciešama speciālistam šajā jomā.Ir jāsaprot mūsdienu datu analīzes algoritmi – neironu tīkli.Un ne tikai, lai teorētiski saprastu, kā algoritms darbojas, bet, lai to izdarītu, jums ir jābūt labām augstākās matemātikas zināšanām un jāspēj izmantot šos algoritmus reāliem medicīniskiem datiem.Tas savukārt prasa zināšanas par īpašiem datu zinātnes rīkiem, piemēram, Python bibliotēkām un datu priekšapstrādes metodēm.

Kā koronavīruss kļuva par datu zinātnes katalizatoru medicīnā

Šodien ir divi galvenie virzieniDatu zinātnes pielietojums medicīnā – veselības aprūpē un farmācijā. Pirmais virziens ietver diagnostikas uzdevumus, klīniku un ārstu darba optimizāciju, medikamentu un ārstēšanas metožu izvēli, pamatojoties uz diagnozi. Risinājumi, kas tiek izmantoti katrā no šīm globālajām problēmām, ir balstīti uz datu analīzi un mašīnmācīšanās algoritmiem. Uzkrātie medicīniskie dati tiek aktīvi izmantoti zāļu izstrādē. Runa ir gan par izmantošanu aktīvo vielu meklējumos, gan par zāļu testēšanu uz dzīvniekiem un cilvēkiem.

Īpaša loma datu zinātnes tehnoloģiju attīstībāspēlē koronavīrusa pandēmija. Nepieciešamība pēc prognozēšanas modeļiem, kas varētu sniegt precīzākus datus par koronavīrusa izplatību nākotnē, ir strauji palielinājusies: lai prognozētu hospitalizācijas skaitu, noteiktu ierobežojošu pasākumu un vakcināciju ietekmi uz COVID-19. Un, ja klasiskajā epidemioloģijā šādas prognozes balstās uz salīdzinoši vienkāršiem epidemioloģiskiem modeļiem, tad patiesībā šie modeļi ir sevi parādījuši ārkārtīgi slikti, savukārt mūsdienu Datu zinātnes metodes spēj tās aizstāt un uzlabot pareģojumu precizitāti.

Galvenās datu zinātnes izmantošanas jomas 2005zāles pandēmijas laikā palika nemainīgas, taču datu apjoms un paredzamais laiks problēmas risināšanai ir ievērojami mainījies. Piemēram, ilgu laiku tika pētīts uzdevums diagnosticēt slimību ar plaušu CT, tirgū ir pietiekams skaits darba risinājumu. Bet, pateicoties pandēmijas globālajam raksturam, pastāvīgai datu apmaiņai un to pieejamībai, pēc iespējas ātrāk tika atrisināts CT automātiskās COVID-19 diagnostikas uzdevums. Tas pats attiecas uz slimības iznākuma smaguma prognozēšanu, kas varētu palīdzēt prognozēt pieejamo slimnīcas gultu skaitu. Lai atrisinātu šo problēmu, vairākās valstīs paralēli tiek savākts un analizēts milzīgs datu apjoms. Bet medicīnas specifika ir tāda, ka praktiski nav iespējams ieviest jaunus risinājumus. Tāpat kā vakcīnu gadījumā, pirms jebkura medicīniska lēmuma pieņemšanas ir nepieciešama rūpīga jebkura modeļa pārbaude.

Kādas pamatzināšanas ir nepieciešamas darbam datu zinātnē:

  • Augstākā matemātika: lineārā algebra, matemātiskā analīze, statistika.
  • Kā darbojas mašīnmācīšanās metodes.

Kā datu zinātne palīdz cīnīties ar vēzi, Alcheimera slimību un jaunām zālēm

Apskatīsim dažādas pielietojuma jomasDatu zinātne medicīnā. Viena no daudzsološākajām ir vēža diagnoze. Mūsdienās datu zinātnieki izmanto veselu virkni algoritmu, lai izstrādātu risinājumus šajā jomā: konkrētas metodes izvēle ir atkarīga no veicamā uzdevuma, pieejamajiem datiem un tā apjoma. Piemēram, diagnostiku var veikt, izmantojot audzēja attēlus – šajā gadījumā datu zinātnes speciālisti, visticamāk, izmantos neironu tīklus. Diagnostikai, pamatojoties uz analīzes rezultātiem, tiks izvēlēta viena no mašīnmācīšanās metodēm, kas ir labāk piemērota konkrētam uzdevumam. Ir arī īpaši algoritmi, ko izmanto, piemēram, lai analizētu DNS datus, kas iegūti no atsevišķām šūnām. Šādus datus visbiežāk analizē, izmantojot grafu algoritmus. Bet tas drīzāk ir noteikuma izņēmums.

Turklāt tiek izmantotas vairākas metodeslai uzlabotu attēlus un uzlabotu rezultāta precizitāti. Lielo datu platformas (piemēram, Hadoop) izmanto, piemēram, MapReduce, lai atrastu parametrus, kurus var izmantot dažādos uzdevumos. Tiem, kas gatavojas izstrādāt savu produktu šajā jomā, vai vienkārši entuziastiem, ir vairākas atvērtas smadzeņu attēlveidošanas datu kopas: BrainWeb, IXI datu kopa, fastMRI un OASIS.

Vēl viens gadījums ir orgānu modelēšanacilvēks, viens no visgrūtākajiem tehniskajiem uzdevumiem. Turklāt, izstrādājot šo vai citu risinājumu, speciālistam precīzi jāsaprot, kāpēc un kādā sarežģītības pakāpē orgāns tiek modelēts. Piemēram, jūs varat izveidot konkrēta audzēja modeli gēnu ekspresijas un signālu ceļu līmenī. Šodien šādas problēmas risina uzņēmums Insilico Medicine. Šo pieeju izmanto, lai atrastu terapijas mērķi, tostarp izmantojot Data Science metodes. Šādus modeļus galvenokārt izmanto zinātniskiem pētījumiem, un tie joprojām ir tālu no praktiskā pielietojuma.

Gēnu secības analīze - veselamedicīnas virziens, kura attīstība bez Datu zinātnes ir vienkārši neiespējama. Ja Datu zinātnē Python programmēšanas prasmes ir ārkārtīgi svarīgas, tad, strādājot ar gēniem, nepieciešamas arī zināšanas par R programmēšanas valodu un specifiskiem bioinformātikas rīkiem - programmām darbam ar DNS un olbaltumvielu secībām. Lielākā daļa šo programmu darbojas Unix operētājsistēmā un nav ļoti lietotājam draudzīgas. Lai tos apgūtu, jums vismaz jāsaprot molekulārās bioloģijas un ģenētikas pamati. Diemžēl pat medicīnas skolās šodien ir lielas problēmas, un lielākajai daļai ārstu patiesībā ir slikta ideja par gēnu sekvences darbību. Krievijā šajā jomā nodarbojas divi uzņēmumi - Atlas un Genotech. Pašlaik ir populāra arī atsevišķu gēnu mutāciju analīze. Šādus pakalpojumus sniedz lielākā daļa lielo medicīniskās analīzes uzņēmumu. Piemēram, pacienti var uzzināt, vai viņiem ir nosliece uz krūts vēzi tādos pašos gēnos kā Andželīna Džolija. Šai teritorijai raksturīgs personāla trūkums, jo ir tikai dažas vietas, kur iegūt atbilstošu izglītību. Turklāt daudzi vai nu paliek strādāt zinātnē, vai dodas uz ārzemēm. Ir maz tiešsaistes resursu krievu valodā, kur jūs varat uzzināt šādu analīzi. Parasti tie ir vērsti uz ārstiem vai biologiem un māca tikai programmēšanu un pamata datu manipulēšanu. Lai iegūtu vairāk uz praksi orientētu izglītību ar piekļuvi šai jomai, jūs varat pabeigt kursu GeekBrains Medicīnas datu zinātņu fakultātē.

Mūsdienās tirgū ir vairākirīki datu analīzei šajā jomā: MapReduce, SQL, Galaxy, Bioconductor. MapReduce apstrādā ģenētiskos datus un samazina laiku, kas nepieciešams ģenētisko secību apstrādei.

SQL ir relāciju datu bāzes valoda, kuru mēs izmantojamtiek izmantoti, lai vaicātu un izgūtu datus no genomu datu bāzēm. Galaxy ir atvērtā koda GUI balstīta biomedicīnas pētījumu programma. Tas ļauj veikt dažādas operācijas ar genomiem.

Visbeidzot, Bioconductor ir atvērtā koda programmatūra, kas paredzēta genomisko datu analīzei.

Svarīga komerciāla un tajā pašā laikāpētniecības virziens - jaunas paaudzes medikamentu radīšana. Farmācijas speciālisti izmanto mašīnmācīšanos, lai meklētu terapeitiskos mērķus un biomarķierus. Ne pirmais, ne otrais, protams, nav pašas zāles. Mērķi ir ķermeņa molekulas, ar kurām zāles mijiedarbojas, un biomarķieri ir molekulas, kas ārstam norāda, kam zāles jālieto. Tāpēc gandrīz visi uzņēmumi, kas izstrādā zāles slimībām ar nezināmiem mērķiem un biomarķieriem – Novartis, Merck, Roche un Krievijas BIOCAD – izmanto mašīnmācīšanos. Tie, pirmkārt, ir vēzis un autoimūnas slimības, Alcheimera slimība. Tas ietver arī jaunu antibiotiku meklēšanu.

Kāpēc ārsti neveicina datu zinātnes ieviešanu

Pēdējie gadi ir parādījuši, ka Datu zinātneir prognozējošo un analītisko modeļu nozares dzinējs medicīnā, piemēram, neironu tīklu pielietošanā, lai noteiktu olbaltumvielu telpisko struktūru. Bet pandēmija daudzās valstīs ir atklājusi globālu problēmu, kas saistīta ar klīniku resursu optimizāciju un personāla trūkumu. Pēdējā gada laikā daudzi uzņēmumi ir izveidojuši risinājumus šīm problēmām, izmantojot Data Science. Datu izmantošana ir kļuvusi par lielu sasniegumu privātajām klīnikām, jo ​​tas padara medicīnas pakalpojumus lētākus. Uz pandēmijas fona ir pieaudzis arī pieprasījums pēc telemedicīnas pakalpojumiem, kuros tiek plaši izmantoti mašīnmācīšanās algoritmi. Telemedicīnas pakalpojumi ir pieprasīti pēc sākotnējas diagnostikas, kas strādā ar analīzēm un izveido tērzēšanas robotus.

Runājot par tehnoloģiskajiem ierobežojumiemdatorredzes un mašīnmācības pielietošanai praktiski nav šķēršļu. Algoritmu un pakalpojumu dziļāka ieviešana ir atkarīga no klīniku un ārstu vēlmes pielietot datu zinātnes metodes. Tāpat ir akūts apmācību datu trūkums, un tas ir jautājums ne tikai komerciālām veselības aprūpes iestādēm, bet arī valstij: valdībām vajadzētu demokratizēt piekļuvi valsts slimnīcu datiem, lai attīstības uzņēmumi varētu radīt modernus produktus.

Lai iemācītos pat vienu programmu, ir nepieciešams daudzkvalitātes dati. Lai uzzinātu, kā atšķirt audzēju kadrā, programmai nepieciešami tūkstošiem manuāli analizētu pacientu attēlu, un analīzē jāiesaista pieredzējuši ārsti.

Ārstam vispirms jāatrod audzējs, un pēc tamparādi, kur viņa ir. Kā jūs varat iedomāties, pieredzējušiem ārstiem ir daudz citu lietu. Bet dīvainā kārtā pandēmija ir palīdzējusi dažām jomām. Piemēram, Krievijas jaunuzņēmums DiagnoCat, kas izmanto datora redzi, lai analizētu attēlus zobārstniecībā, bloķēšanas laikā spēja piesaistīt neaizņemtus ārstus, lai analizētu attēlus. Kas attiecas uz klīniku un ārstu nevēlēšanos, ārsti vienkārši neuzticas šādām tehnoloģijām. Labs ārsts noteikti atradīs šādu gadījumu, kad programma nosaka nepareizu diagnozi, nepieredzējis ārsts baidās, ka programma visu darīs labāk nekā viņš. Tā rezultātā jūs vienmēr varat attaisnot sevi, rūpējoties par pacientu un juridiskajiem aspektiem.

Datu zinātnes un medicīnas tehnoloģiju sinerģijajau ir ļāvis spert soli uz priekšu, izstrādājot risinājumus vēža, autoimūnu un neirodeģeneratīvu slimību diagnostikai. Pakalpojumi, kuru pamatā ir datu analīze un mašīnmācīšanās, spēj paredzēt vīrusu izplatību un meklēt jaunas narkotiku paaudzes. Neskatoties uz to, ka klasiskā medicīnas izglītība atpaliek no nozares izaicinājumiem šodien, ir reāli kļūt par mūsdienīgu speciālistu, kas strādā divu zinātnisko jomu - datu zinātnes un medicīnas - krustojumā. Un viens veids ir tiešsaistes kurss GeekBrains Medicīnas datu zinātnes fakultātē.

Skatiet arī:

Miglāji, komētas un zvaigžņu audzētavas: tiek rādīta gada labākā astrofotogrāfija

Spiegu satelītu dati palīdzēja noskaidrot ledāju kušanas cēloni Āzijā

Koronavīruss alā: viss par ķīniešu kalnračiem, kuri 2012. gadā cieta no dīvainas pneimonijas