医学におけるデータサイエンス:誰が、どのように、そしてなぜデータを処理するか

方法論的な観点から見ると、ITと医療はかなり遠いものであるにもかかわらず、

生物学と医学の研究が推進データを分析し、さまざまな分析モデルを今後に適用します。現在では医療機関でも医療統計学の講座でデータサイエンスの基礎が学ばれています。これらの方法は医科大学によって呼び方が異なりますが、プログラミングの経験が不足しているため、医師がこれらの方法を使用するのは非常に困難です。この分野のスペシャリストに求められるのは、まずプログラミング能力です。最新のデータ分析アルゴリズム、つまりニューラルネットワークを理解する必要があります。さらに、アルゴリズムがどのように機能するかを理論的に理解するだけではなく、高等数学を熟知し、実際の医療データに対してこれらのアルゴリズムを使用できる必要があります。そのため、専門家は特別なデータ サイエンス ツール、つまり Python ライブラリやデータ前処理方法に関する知識を持っている必要があります。

コロナウイルスが医学におけるデータサイエンスの触媒になった経緯

今日では 2 つの重要な方向性があります医療におけるデータサイエンスの応用 - ヘルスケアと製薬。最初の方向には、診断タスク、診療所と医師の業務の最適化、診断に基づく薬剤と治療の選択が含まれます。これらのグローバルな問題のそれぞれに使用されるソリューションは、データ分析と機械学習アルゴリズムに基づいています。蓄積された医療データは創薬に積極的に活用されています。私たちは、活性物質の探索における使用と、動物や人間に対する薬物の試験の両方について話しています。

データサイエンス技術の開発における特別な役割コロナウイルスのパンデミックによって再生されます。コロナウイルスの将来の広がりに関するより正確なデータを提供できる予測モデルの必要性が急激に高まっています。入院数、特定の制限措置およびワクチン接種がCOVID-19に及ぼす影響を予測するためです。そして、古典的な疫学において、そのような予測が比較的単純な疫学モデルに基づいている場合、実際にはこれらのモデルは非常に貧弱に見えますが、現代のデータサイエンス手法はそれらを置き換えて予測の精度を向上させることができます。

データサイエンスの主な応用分野パンデミック時の薬は同じままでしたが、データの量と問題を解決するために予想される時間は大幅に変更されました。たとえば、肺のCTによって病気を診断するタスクは、長い間研究されてきました。市場には十分な数の実用的なソリューションがあります。しかし、パンデミックのグローバルな性質、データの絶え間ない交換、およびそれらの可用性のおかげで、CTによるCOVID-19の自動診断のタスクはできるだけ早く解決されました。同じことが病気の結果の重症度の予測にも当てはまり、利用可能な病床の数を予測するのに役立つ可能性があります。この問題を解決するために、膨大な量のデータが複数の国で並行して収集および分析されています。しかし、医学の特異性は、新しい解決策の導入が事実上不可能であるようなものです。ワクチンと同様に、医学的決定がそれに依存する前に、モデルの注意深いテストが必要です。

データサイエンスで働くために必要な基本的な知識は何ですか?

  • 高等数学:線形代数、数学的分析、統計。
  • 機械学習手法の仕組み。

データサイエンスが癌、アルツハイマー病、新薬との闘いにどのように役立つか

さまざまな応用分野を見てみましょう医学におけるデータサイエンス。最も有望なものの 1 つは癌の診断です。現在、データ サイエンティストは、この分野のソリューションを開発するためにさまざまなアルゴリズムを使用しています。具体的な方法の選択は、当面のタスク、利用可能なデータ、およびその量によって異なります。たとえば、腫瘍画像を使用して診断を行うことができます。この場合、データ サイエンスの専門家はニューラル ネットワークを使用する可能性が高くなります。診断では、分析結果に基づいて、特定のタスクにより適した機械学習手法の 1 つが選択されます。たとえば、単一細胞から得られた DNA データを分析するために使用される特定のアルゴリズムもあります。このようなデータは、グラフ アルゴリズムを使用して分析されることがほとんどです。しかし、これはむしろ例外です。

さらに、適用されるいくつかの方法があります画像を改善し、結果の精度を向上させるため。ビッグデータプラットフォーム(Hadoopなど)は、たとえばMapReduceを使用して、さまざまなタスクで使用できるパラメーターを検索します。この分野で独自の製品を開発しようとしている人、または単に愛好家のために、BrainWeb、IXIデータセット、fastMRI、OASISなどのいくつかのオープンブレインイメージングデータセットがあります。

別のケースは臓器モデリングです人間、最も難しい技術的タスクの1つ。さらに、特定のソリューションを開発する場合、専門家は、臓器がモデル化されている理由と複雑さのレベルを正確に理解する必要があります。たとえば、遺伝子発現とシグナル伝達経路のレベルで特定の腫瘍のモデルを作成できます。今日、InsilicoMedicine社はそのような問題を解決しています。このアプローチは、データサイエンスの方法を含め、治療のターゲットを見つけるために使用されます。このようなモデルは主に科学研究に使用されており、まだ実用化にはほど遠いです。

遺伝子配列分析-全体医学の方向性。その開発はデータサイエンスなしでは不可能です。 Pythonプログラミングスキルがデータサイエンスで非常に重要である場合、遺伝子を操作するには、Rプログラミング言語と特定のバイオインフォマティクスツール(DNAおよびタンパク質配列を操作するためのプログラム)の知識も必要です。これらのプログラムのほとんどはUnixオペレーティングシステムで実行され、あまりユーザーフレンドリーではありません。それらを習得するには、少なくとも分子生物学と遺伝学の基礎を理解する必要があります。残念ながら、今日の医学部でさえ、これには大きな問題があり、ほとんどの医師は実際には遺伝子配列がどのように機能するかについてよくわかっていません。ロシアでは、AtlasとGenotechの2つの企業がこの分野に従事しています。個々の遺伝子の突然変異の分析も現在人気があります。ほとんどの大規模な医療分析会社がそのようなサービスを提供しています。たとえば、患者は、アンジェリーナ・ジョリーと同じ遺伝子に乳がんの素因があるかどうかを知ることができます。この地域は、適切な教育を受けることができる場所が少ないため、人員が不足しているのが特徴です。さらに、多くは科学で働くためにとどまるか、海外に行きます。このような分析を学ぶことができるロシア語のオンラインリソースはほとんどありません。彼らは通常、医師または生物学者を対象としており、プログラミングと基本的なデータ操作のみを教えています。この分野へのアクセスを備えたより実践指向の教育を受けるために、GeekBrainsの医学のデータサイエンス学部でコースを完了することができます。

現在市場にはいくつかありますが、この分野のデータ分析用ツール: MapReduce、SQL、Galaxy、Bioconductor。 MapReduce は遺伝子データを処理し、遺伝子配列の処理に必要な時間を短縮します。

SQLは私たちが使用するリレーショナルデータベース言語ですゲノムデータベースからデータを照会および取得するために使用されます。 Galaxyは、オープンソースのGUIベースの生物医学研究アプリケーションです。ゲノムを使ってさまざまな操作を行うことができます。

最後に、Bioconductorは、ゲノムデータの分析用に設計されたオープンソースソフトウェアです。

重要な商業的であると同時に研究の方向性 - 新世代の医薬品の創出。製薬の専門家は、機械学習を使用して治療標的とバイオマーカーを検索します。もちろん、1 つ目も 2 つ目も、薬物そのものではありません。ターゲットは薬物が相互作用する体内の分子であり、バイオマーカーは誰がその薬物を使用すべきかを医師に伝える分子です。したがって、ノバルティス、メルク、ロシュ、ロシアの BIOCAD など、未知の標的やバイオマーカーを持つ病気の治療薬を開発しているほぼすべての企業は、機械学習を使用しています。これらは、まず第一に、がんと自己免疫疾患、アルツハイマー病です。これには、新しい抗生物質の探索も含まれます。

医師がデータサイエンスの実装を促進していない理由

近年、データサイエンスはは、たとえば、タンパク質の空間構造を決定するためのニューラルネットワークのアプリケーションにおける、医学における予測および分析モデルの業界のエンジンです。しかし、パンデミックは、診療所のリソースの最適化とスタッフの不足に関連する多くの国で世界的な問題を露呈させました。過去1年間で、多くの企業がデータサイエンスに関するこれらの問題の解決策を提供するようになりました。データの使用は、医療サービスを安価にするため、民間クリニックにとって大きな進歩となっています。パンデミックを背景に、機械学習アルゴリズムが広く使用されている遠隔医療サービスの需要も高まっています。遠隔医療サービスは、予備診断、分析の操作、チャットボットの作成に求められています。

技術的な限界という点ではコンピューター ビジョンと機械学習の応用には、事実上何の障壁もありません。アルゴリズムとサービスをより深く実装できるかどうかは、データ サイエンス手法を適用したいというクリニックと医師の要望にかかっています。また、トレーニング データの深刻な不足もあり、これは商業医療機関だけでなく州にとっても問題です。開発会社が最新の製品を作成できるように、政府は公立病院のデータへのアクセスを民主化する必要があります。

1つのプログラムでも学ぶには多くのことが必要です品質データ。フレーム内の腫瘍を区別する方法を学ぶために、プログラムは患者の何千もの手動で分析された画像を必要とし、経験豊富な医師が分析に関与する必要があります。

医師は最初に腫瘍を見つけ、次に腫瘍を見つける必要があります彼女がどこにいるかを示します。ご想像のとおり、経験豊富な医師には他にもやるべきことがたくさんあります。しかし、奇妙なことに、パンデミックはいくつかの分野を助けました。たとえば、コンピュータービジョンを使用して歯科の画像を分析するロシアの新興企業であるDiagnoCatは、封鎖中に空いている医師を引き付けて画像を分析することができました。診療所や医師の嫌悪感に関しては、医師は単にそのような技術を信頼していません。プログラムが間違った診断を下すとき、良い医者は確かにそのようなケースを見つけるでしょう、経験の浅い医者はプログラムが彼より良いすべてをすることを恐れています。その結果、あなたは常に患者と法的側面の世話をすることによってあなた自身を正当化することができます。

データサイエンスと医療技術の相乗効果すでに、癌、自己免疫疾患、神経変性疾患の診断のためのソリューションの開発を飛躍的に前進させることができました。データ分析と機械学習を活用したサービスは、ウイルスの拡散を予測し、新世代の薬を探すことができます。古典的な医学教育が今日の業界が直面している課題に遅れをとっているという事実にもかかわらず、データサイエンスと医学という2つの科学分野の交差点で働く現代の専門家になることは現実的です。そして1つの方法は、GeekBrainsの医学のデータサイエンス学部でのオンラインコースです。

また見なさい:

星雲、彗星、恒星の保育園:今年の最高の天体写真を示しています

スパイ衛星からのデータは、アジアの氷河が溶ける原因を見つけるのに役立ちました

洞窟の中のコロナウイルス:2012年に奇妙な肺炎に苦しんだ中国人鉱山労働者について