의학의 데이터 과학: 누가, 어떻게, 왜 데이터를 처리합니까?

방법론적 관점에서 IT와 의학은 서로 상당히 멀리 떨어져 있음에도 불구하고.친구여, 그것은이다

생물학 및 의학 연구는 데이터 분석과 다양한 분석 모델의 적용을 발전시켰습니다.오늘날 의료 기관에서도 의료 통계 과정에서 데이터 과학의 기초를 공부합니다.그리고 이러한 방법은 의과 대학에서 다르게 불리지만 의사가 프로그래밍 경험이 부족하기 때문에 적용하기가 매우 어렵습니다.프로그래밍 능력은 이 분야의 전문가에게 가장 먼저 요구되는 것입니다.최신 데이터 분석 알고리즘인 신경망을 이해해야 합니다.그리고 알고리즘이 어떻게 작동하는지 이론적으로 이해할 수 있을 뿐만 아니라 이를 위해서는 고등 수학에 대한 좋은 구사력이 있어야 하고 이러한 알고리즘을 실제 의료 데이터에 사용할 수 있어야 합니다.이를 위해서는 전문가가 Python 라이브러리 및 데이터 전처리 방법과 같은 특수 데이터 과학 도구에 대한 지식이 있어야 합니다.

코로나바이러스가 의학 데이터 과학의 촉매제가 된 방법

오늘은 두 가지 핵심 방향이 있습니다.의학(의료 및 제약)에 데이터 과학을 적용합니다. 첫 번째 방향에는 진단 작업, 진료소 및 의사의 작업 최적화, 진단에 따른 약물 및 치료법 선택이 포함됩니다. 이러한 각 글로벌 문제에 사용되는 솔루션은 데이터 분석 및 기계 학습 알고리즘을 기반으로 합니다. 축적된 의료데이터는 신약개발에 적극적으로 활용됩니다. 우리는 활성 물질 검색에 사용하고 동물과 인간에 대한 약물 테스트에 대해 이야기하고 있습니다.

데이터 과학 기술 개발의 특별한 역할코로나 바이러스 전염병에 의해 재생되었습니다. 코로나바이러스의 미래 확산에 대한 보다 정확한 데이터를 제공할 수 있는 예측 모델의 필요성이 급격히 증가했습니다. 입원 건수, 특정 제한 조치 및 백신 접종이 COVID-19에 미치는 영향을 예측하기 위해서입니다. 그리고 고전적 역학에서 그러한 예측이 비교적 단순한 역학 모델을 기반으로 한다면 실제로 이러한 모델은 그 자체로 매우 열악한 것으로 나타났지만 현대 데이터 과학 방법은 이를 대체하고 예측의 정확성을 향상시킬 수 있습니다.

데이터 과학의 주요 응용 분야대유행 기간 동안 의료는 그대로 유지되었지만 문제를 해결하는 데 필요한 데이터의 양과 예상 시간이 크게 변경되었습니다. 예를 들어, 폐 CT로 질병을 진단하는 작업은 오랫동안 연구되어 왔으며 시장에는 충분한 수의 작업 솔루션이 있습니다. 그러나 전염병의 세계적 특성, 지속적인 데이터 교환 및 가용성 덕분에 CT를 통한 COVID-19의 자동 진단 작업은 가능한 한 빨리 해결되었습니다. 질병 결과의 심각성을 예측하는 경우에도 마찬가지이며, 이는 이용 가능한 병상 수를 예측하는 데 도움이 될 수 있습니다. 이 문제를 해결하기 위해 여러 국가에서 방대한 양의 데이터를 병렬로 수집하고 분석합니다. 그러나 의학의 특수성으로 인해 새로운 솔루션의 도입이 사실상 불가능합니다. 백신과 마찬가지로 의학적 결정이 모델에 의존하기 전에 모든 모델에 대한 신중한 테스트가 필요합니다.

데이터 과학에서 일하기 위해 필요한 기본 지식:

  • 고등 수학: 선형 대수학, 수학적 분석, 통계.
  • 기계 학습 방법이 작동하는 방식.

데이터 과학이 암, 알츠하이머 병과 싸우고 신약을 찾는 데 도움이 되는 방법

다양한 적용분야를 살펴보겠습니다의학의 데이터 과학. 가장 유망한 것 중 하나는 암 진단입니다. 오늘날 데이터 과학자들은 이 분야의 솔루션을 개발하기 위해 다양한 알고리즘을 사용합니다. 특정 방법의 선택은 현재 작업, 사용 가능한 데이터 및 그 양에 따라 달라집니다. 예를 들어 종양 이미지를 사용하여 진단을 수행할 수 있습니다. 이 경우 데이터 과학 전문가는 신경망을 사용할 가능성이 높습니다. 진단의 경우 분석 결과를 바탕으로 특정 작업에 더 적합한 기계 학습 방법 중 하나를 선택합니다. 예를 들어 단일 세포에서 얻은 DNA 데이터를 분석하는 데 사용되는 특정 알고리즘도 있습니다. 이러한 데이터는 그래프 알고리즘을 사용하여 분석되는 경우가 가장 많습니다. 그러나 이것은 오히려 규칙의 예외입니다.

이 외에도 여러 가지 방법이 적용되어이미지를 개선하고 결과의 정확도를 개선합니다. 빅 데이터 플랫폼(예: Hadoop)은 예를 들어 MapReduce를 사용하여 다양한 작업에 사용할 수 있는 매개변수를 찾습니다. 이 분야에서 자신의 제품을 개발하려는 사람들이나 단순히 열광적인 사람들을 위해 BrainWeb, IXI Dataset, fastMRI 및 OASIS와 같은 몇 가지 개방형 뇌 영상 데이터 세트가 있습니다.

또 다른 사례는 장기 모델링입니다.가장 어려운 기술 작업 중 하나인 인간. 또한 특정 솔루션을 개발할 때 전문가는 기관이 모델링되는 이유와 복잡성 수준을 정확히 이해해야 합니다. 예를 들어 유전자 발현 및 신호 전달 경로 수준에서 특정 종양의 모델을 만들 수 있습니다. 오늘날 Insilico Medicine이라는 회사는 이러한 문제를 해결하고 있습니다. 이 접근 방식은 데이터 과학 방법을 포함하여 치료 대상을 찾는 데 사용됩니다. 이러한 모델은 주로 과학적 연구에 사용되며 실제 적용과는 거리가 멀다.

유전자 서열 분석 - 전체데이터 과학 없이는 개발이 불가능한 의학의 방향. Python 프로그래밍 기술이 데이터 과학에서 매우 중요하다면 유전자 작업에는 R 프로그래밍 언어에 대한 지식과 특정 생물정보학 도구(DNA 및 단백질 서열 작업을 위한 프로그램)도 필요합니다. 이러한 프로그램의 대부분은 Unix 운영 체제에서 실행되며 사용자 친화적이지 않습니다. 그것들을 마스터하려면 최소한 분자 생물학과 유전학의 기초를 이해해야 합니다. 불행히도 오늘날 의과 대학에서도 이에 대한 큰 문제가 있으며 대부분의 의사는 실제로 유전자 서열이 어떻게 작동하는지 잘 모릅니다. 러시아에서는 Atlas와 Genotech의 두 회사가 이 분야에 종사하고 있습니다. 개별 유전자의 돌연변이에 대한 분석도 현재 인기가 있습니다. 대부분의 대형 의료 분석 회사는 이러한 서비스를 제공합니다. 예를 들어 환자들은 안젤리나 졸리와 같은 유전자에서 유방암 소인이 있는지 알아낼 수 있습니다. 이 지역은 적절한 교육을 받을 수 있는 곳이 소수에 불과하기 때문에 인력이 부족한 것이 특징입니다. 또한 많은 사람들이 과학 분야에서 일하거나 해외로 갑니다. 그러한 분석을 배울 수 있는 러시아어 온라인 리소스는 거의 없습니다. 일반적으로 의사나 생물학자를 대상으로 하며 프로그래밍 및 기본 데이터 조작만 가르칩니다. 이 영역에 대한 액세스를 통해 보다 실습 중심의 교육을 받으려면 GeekBrains의 의학 데이터 과학 학부에서 과정을 완료할 수 있습니다.

오늘날 시장에는 여러 가지가 있습니다.이 분야의 데이터 분석 도구: MapReduce, SQL, Galaxy, Bioconductor. MapReduce는 유전자 데이터를 처리하고 유전자 서열을 처리하는 데 필요한 시간을 줄여줍니다.

SQL은 우리가 사용하는 관계형 데이터베이스 언어입니다.게놈 데이터베이스에서 데이터를 쿼리하고 검색하는 데 사용됩니다. Galaxy는 오픈 소스 GUI 기반 생물 의학 연구 응용 프로그램입니다. 게놈으로 다양한 작업을 수행할 수 있습니다.

마지막으로 Bioconductor는 게놈 데이터 분석을 위해 설계된 오픈 소스 소프트웨어입니다.

중요한 상업성과 동시에연구 방향 - 차세대 약물 개발. 제약 전문가들은 기계 학습을 사용하여 치료 표적과 바이오마커를 검색합니다. 물론 첫 번째나 두 번째는 약물 자체가 아닙니다. 표적은 약물이 상호작용하는 체내 분자이고, 바이오마커는 의사에게 해당 약물을 사용해야 하는 사람을 알려주는 분자입니다. 따라서 Novartis, Merck, Roche 및 Russian BIOCAD 등 표적과 바이오마커가 알려지지 않은 질병에 대한 약물을 개발하는 거의 모든 회사는 기계 학습을 사용합니다. 우선 암과자가 면역 질환, 알츠하이머 병이 있습니다. 여기에는 새로운 항생제를 찾는 것도 포함됩니다.

의사가 데이터 과학 구현을 장려하지 않는 이유

최근 몇 년 동안 데이터 과학은예를 들어, 신경망을 적용하여 단백질의 공간 구조를 결정하는 등 의학 분야의 예측 및 분석 모델 산업의 엔진입니다. 그러나 팬데믹은 많은 국가에서 클리닉 자원의 최적화 및 직원 부족과 관련된 세계적인 문제를 노출시켰습니다. 지난 1년 동안 많은 기업이 데이터 과학을 통해 이러한 문제에 대한 솔루션을 제공하기 시작했습니다. 데이터 사용은 의료 서비스를 더 저렴하게 만들어주기 때문에 개인 병원에 큰 돌파구가 되었습니다. 대유행을 배경으로 머신러닝 알고리즘이 널리 사용되는 원격진료 서비스에 대한 수요도 증가하고 있다. 원격 의료 서비스는 사전 진단, 분석 작업 및 챗봇 생성에 대한 수요가 있습니다.

기술적 한계로 보면컴퓨터 비전과 머신러닝의 적용에는 사실상 장벽이 없습니다. 알고리즘과 서비스의 심층적인 구현은 데이터 과학 방법을 적용하려는 진료소와 의사의 욕구에 달려 있습니다. 또한 훈련 데이터가 급격히 부족하며 이는 상업용 의료 기관뿐만 아니라 국가에게도 문제가 됩니다. 정부는 개발 회사가 최신 제품을 만들 수 있도록 공공 병원 데이터에 대한 접근을 민주화해야 합니다.

하나의 프로그램을 배우는데도 많은 것이 필요하다품질 데이터. 프레임에서 종양을 구별하는 방법을 배우기 위해서는 프로그램에 수동으로 분석된 수천 개의 환자 이미지가 필요하며 숙련된 의사가 분석에 참여해야 합니다.

의사는 먼저 종양을 찾은 다음그녀가 어디에 있는지 보여줍니다. 상상할 수 있듯이 경험이 풍부한 의사는 다른 많은 일을 해야 합니다. 그러나 전염병은 이상하게도 일부 영역에 도움이 되었습니다. 예를 들어, 치과에서 컴퓨터 비전을 사용하여 이미지를 분석하는 러시아 스타트업인 DiagnoCat은 폐쇄 기간 동안 비어 있는 의사를 끌어들여 이미지를 분석할 수 있었습니다. 클리닉과 의사의 꺼림칙함에 관해서는 의사는 단순히 그러한 기술을 신뢰하지 않습니다. 좋은 의사는 프로그램이 잘못된 진단을 내릴 때 그러한 경우를 반드시 찾을 것이며 경험이없는 의사는 프로그램이 모든 것을 자신보다 더 잘 할 것이라고 두려워합니다. 결과적으로 환자 및 법적 측면을 돌보면서 항상 자신을 정당화할 수 있습니다.

데이터 과학과 의료 기술의 시너지이미 암, 자가면역질환, 신경퇴행성질환 진단을 위한 솔루션 개발에 앞장서고 있습니다. 데이터 분석 및 기계 학습으로 구동되는 서비스는 바이러스의 확산을 예측하고 새로운 세대의 약물을 찾을 수 있습니다. 고전 의학 교육이 오늘날 업계가 직면한 도전보다 뒤처져 있다는 사실에도 불구하고 데이터 과학과 의학이라는 두 과학 분야의 교차점에서 일하는 현대 전문가가 되는 것은 현실입니다. 그리고 한 가지 방법은 GeekBrains의 의학 데이터 과학 학부의 온라인 과정입니다.

참조 :

성운, 혜성 및 항성 보육원 : 올해 최고의 천체 사진을 보여줍니다

스파이 인공위성의 데이터는 아시아에서 빙하가 녹는 원인을 찾는 데 도움이되었습니다.

동굴 속의 코로나바이러스: 2012년 이상한 폐렴에 걸린 중국 광부에 관한 모든 것