علم البيانات في الطب: من وكيف ولماذا يعالج البيانات

على الرغم من حقيقة أنه من وجهة نظر منهجية، فإن تكنولوجيا المعلومات والطب بعيدان تماما عن بعضهما البعض، فهو كذلك

قادت الأبحاث البيولوجية والطبيةتحليل البيانات وتطبيق النماذج التحليلية المختلفة للأمام. اليوم، حتى في المعاهد الطبية، يتم دراسة أساسيات علم البيانات في دورات الإحصاء الطبي. وعلى الرغم من أن هذه الأساليب تسمى بشكل مختلف في الجامعات الطبية، إلا أنه من الصعب جدًا على الأطباء استخدامها - بسبب نقص الخبرة في البرمجة. القدرة على البرمجة هي أول ما يطلب من المتخصص في هذا المجال. من الضروري فهم خوارزميات تحليل البيانات الحديثة - الشبكات العصبية. علاوة على ذلك، لا يقتصر الأمر على مجرد فهم نظري لكيفية عمل الخوارزمية، ولهذا يجب أن يكون لديك إتقان جيد للرياضيات العليا وأن تكون قادرًا على استخدام هذه الخوارزميات على بيانات طبية حقيقية. وهذا بدوره يتطلب أن يكون لدى المتخصص معرفة بأدوات علوم البيانات الخاصة - مكتبات بايثون وطرق المعالجة المسبقة للبيانات.

كيف أصبح فيروس كورونا محفزًا لعلوم البيانات في الطب

اليوم هناك اتجاهان رئيسيانالتطبيق التطبيقي لعلم البيانات في الطب - الرعاية الصحية والمستحضرات الصيدلانية. يشمل الاتجاه الأول المهام التشخيصية، وتحسين عمل العيادات والأطباء، واختيار الأدوية والعلاجات على أساس التشخيص. تعتمد الحلول المستخدمة في كل من هذه المشكلات العالمية على تحليل البيانات وخوارزميات التعلم الآلي. يتم استخدام البيانات الطبية المتراكمة بنشاط في تطوير الأدوية. نحن نتحدث عن الاستخدام في البحث عن المواد الفعالة واختبار الأدوية على الحيوانات والبشر.

دور خاص في تطوير تقنيات علوم البياناتلعبت من قبل جائحة الفيروس التاجي. ازدادت بشكل حاد الحاجة إلى نماذج تنبؤية يمكن أن توفر بيانات أكثر دقة عن الانتشار المستقبلي لفيروس كورونا: للتنبؤ بعدد حالات الاستشفاء وتأثير بعض الإجراءات التقييدية واللقاحات على COVID-19. وإذا كانت هذه التنبؤات في علم الأوبئة الكلاسيكي تستند إلى نماذج وبائية بسيطة نسبيًا ، فإن هذه النماذج في الواقع قد أظهرت نفسها بشكل سيئ للغاية ، في حين أن طرق علم البيانات الحديثة قادرة على استبدالها وتحسين دقة التنبؤات.

المجالات الرئيسية لتطبيق علوم البيانات فيظل الدواء على حاله خلال الجائحة ، ولكن تغيرت كمية البيانات والوقت المتوقع لحل المشكلة بشكل كبير. على سبيل المثال ، تمت دراسة مهمة تشخيص المرض عن طريق التصوير المقطعي للرئتين لفترة طويلة ؛ هناك عدد كافٍ من حلول العمل في السوق. ولكن بفضل الطبيعة العالمية للوباء ، والتبادل المستمر للبيانات وتوافرها ، تم حل مهمة التشخيص التلقائي لـ COVID-19 عن طريق التصوير المقطعي في أسرع وقت ممكن. الأمر نفسه ينطبق على التنبؤ بخطورة نتيجة المرض ، مما قد يساعد في التنبؤ بعدد أسرة المستشفيات المتاحة. لحل هذه المشكلة ، يتم جمع كمية هائلة من البيانات وتحليلها في عدة بلدان بالتوازي. لكن خصوصية الطب تجعل إدخال حلول جديدة أمرًا مستحيلًا عمليًا. كما هو الحال مع اللقاحات ، يلزم إجراء اختبار دقيق لأي نموذج قبل أن تعتمد عليه القرارات الطبية.

ما هي المعرفة الأساسية المطلوبة للعمل في علوم البيانات:

  • الرياضيات العليا: الجبر الخطي ، التحليل الرياضي ، الإحصاء.
  • كيف تعمل طرق التعلم الآلي.

كيف يساعد علم البيانات في مكافحة السرطان ومرض الزهايمر والأدوية الجديدة

دعونا نلقي نظرة على مجالات التطبيق المختلفةعلم البيانات في الطب. واحدة من أكثر الواعدة هو تشخيص السرطان. اليوم، يستخدم علماء البيانات مجموعة كاملة من الخوارزميات لتطوير الحلول في هذا المجال: يعتمد اختيار طريقة معينة على المهمة المطروحة، والبيانات المتوفرة، وحجمها. على سبيل المثال، يمكنك إجراء التشخيص باستخدام صور الورم - في هذه الحالة، من المرجح أن يستخدم متخصصو علوم البيانات الشبكات العصبية. بالنسبة للتشخيص، بناءً على نتائج التحليل، سيتم اختيار إحدى طرق التعلم الآلي الأكثر ملاءمة لمهمة محددة. هناك أيضًا خوارزميات محددة تُستخدم، على سبيل المثال، لتحليل بيانات الحمض النووي التي تم الحصول عليها من الخلايا المفردة. غالبًا ما يتم تحليل هذه البيانات باستخدام خوارزميات الرسم البياني. لكن هذا بالأحرى استثناء للقاعدة.

بالإضافة إلى ذلك ، هناك عدة طرق مطبقةلتحسين الصور وتحسين دقة النتيجة. تستخدم منصات البيانات الضخمة (مثل Hadoop) ، على سبيل المثال ، MapReduce للعثور على المعلمات التي يمكن استخدامها في مهام مختلفة. بالنسبة لأولئك الذين يخططون لتطوير منتجهم الخاص في هذا المجال ، أو المتحمسين فقط ، هناك العديد من مجموعات بيانات تصوير الدماغ المفتوحة: BrainWeb و IXI Dataset و fastMRI و OASIS.

حالة أخرى هي نمذجة الأعضاءالإنسان ، من أصعب المهام الفنية. علاوة على ذلك ، عند تطوير هذا الحل أو ذاك ، يجب على الأخصائي أن يفهم بالضبط لماذا وعلى أي مستوى من التعقيد يتم نمذجة العضو. على سبيل المثال ، يمكنك عمل نموذج لورم معين على مستوى التعبير الجيني ومسارات الإشارات. اليوم شركة Insilico Medicine تحل مثل هذه المشاكل. يتم استخدام هذا النهج للعثور على هدف العلاج ، بما في ذلك طرق علوم البيانات. تستخدم مثل هذه النماذج بشكل أساسي في البحث العلمي ؛ فهي لا تزال بعيدة عن التطبيق العملي.

تحليل تسلسل الجينات - كاملاتجاه الطب ، الذي يكون تطويره مستحيلًا بدون علم البيانات. إذا كانت مهارات برمجة Python مهمة للغاية في علوم البيانات ، فإن العمل مع الجينات يتطلب أيضًا معرفة لغة برمجة R وأدوات معلوماتية حيوية محددة - برامج للعمل مع تسلسل الحمض النووي والبروتين. تعمل معظم هذه البرامج على نظام التشغيل Unix وليست سهلة الاستخدام للغاية. لإتقانها ، تحتاج على الأقل إلى فهم أساسيات البيولوجيا الجزيئية وعلم الوراثة. لسوء الحظ ، حتى في كليات الطب اليوم ، هناك مشاكل كبيرة مع هذا ، ومعظم الأطباء في الواقع لديهم فكرة سيئة عن كيفية عمل التسلسل الجيني. في روسيا ، تعمل شركتان في هذا المجال - أطلس وجينوتيك. إن تحليل طفرات الجينات الفردية أمر شائع أيضًا في الوقت الحاضر. تقدم معظم شركات التحليل الطبي الكبيرة مثل هذه الخدمات. يمكن للمرضى ، على سبيل المثال ، معرفة ما إذا كان لديهم استعداد للإصابة بسرطان الثدي في نفس جينات أنجلينا جولي. تتميز هذه المنطقة بنقص الموظفين ، حيث لا يوجد سوى عدد قليل من الأماكن حيث يمكنك الحصول على تعليم مناسب. بالإضافة إلى ذلك ، يبقى الكثير منهم للعمل في مجال العلوم أو السفر إلى الخارج. يوجد عدد قليل من الموارد المتوفرة على الإنترنت باللغة الروسية حيث يمكنك تعلم مثل هذا التحليل. عادة ما تكون موجهة للأطباء أو علماء الأحياء وتعلم فقط البرمجة ومعالجة البيانات الأساسية. من أجل الحصول على تعليم أكثر توجهاً نحو الممارسة مع إمكانية الوصول إلى هذا المجال ، يمكنك إكمال دورة في كلية علوم البيانات في الطب في GeekBrains.

هناك العديد منها في السوق اليومأدوات تحليل البيانات في هذا المجال: MapReduce، SQL، Galaxy، Bioconductor. يعالج MapReduce البيانات الجينية ويقلل الوقت اللازم لمعالجة التسلسلات الجينية.

SQL هي لغة قاعدة البيانات العلائقية التي نستخدمهاتستخدم للاستعلام عن البيانات واسترجاعها من قواعد البيانات الجينومية. Galaxy هو تطبيق بحثي طبي حيوي مفتوح المصدر يعتمد على واجهة المستخدم الرسومية. يسمح لك بإجراء عمليات مختلفة باستخدام الجينوم.

أخيرًا ، Bioconductor هو برنامج مفتوح المصدر مصمم لتحليل البيانات الجينية.

تجاري مهم وفي نفس الوقتاتجاه البحث - إنشاء أدوية الجيل الجديد. يستخدم المتخصصون الصيدلانيون التعلم الآلي للبحث عن الأهداف العلاجية والمؤشرات الحيوية. وبطبيعة الحال، لا الأول ولا الثاني هما المخدرات بحد ذاتها. الأهداف هي جزيئات في الجسم يتفاعل معها الدواء، والمؤشرات الحيوية هي جزيئات تخبر الطبيب بمن يجب عليه استخدام الدواء. ولذلك، فإن جميع الشركات التي تطور أدوية لأمراض ذات أهداف ومؤشرات حيوية غير معروفة - نوفارتيس، وميرك، وروش، وبيوكاد الروسية - تستخدم التعلم الآلي. هذه هي في المقام الأول أمراض السرطان والمناعة الذاتية ومرض الزهايمر. وهذا يشمل أيضًا البحث عن مضادات حيوية جديدة.

لماذا لا يعزز الأطباء تطبيق علوم البيانات

أظهرت السنوات الأخيرة أن علم البياناتهو محرك صناعة النماذج التنبؤية والتحليلية في الطب ، على سبيل المثال ، في تطبيق الشبكات العصبية لتحديد التركيب المكاني للبروتينات. لكن الوباء كشف عن مشكلة عالمية في العديد من البلدان تتعلق بتحسين موارد العيادات ونقص الموظفين. على مدار العام الماضي ، ظهرت العديد من الشركات لتقديم حلول لهذه المشكلات باستخدام Data Science. أصبح استخدام البيانات طفرة كبيرة للعيادات الخاصة ، لأنها تجعل الخدمات الطبية أرخص. على خلفية الوباء ، ازداد الطلب على خدمات التطبيب عن بعد ، حيث تُستخدم خوارزميات التعلم الآلي على نطاق واسع. خدمات التطبيب عن بعد مطلوبة للتشخيص الأولي ، والعمل مع التحليلات وإنشاء روبوتات الدردشة.

من حيث القيود التكنولوجيةإن تطبيق رؤية الكمبيوتر والتعلم الآلي ليس له أي عوائق تقريبًا. يعتمد التنفيذ الأعمق للخوارزميات والخدمات على رغبة العيادات والأطباء في تطبيق أساليب علم البيانات. وهناك أيضا نقص حاد في بيانات التدريب، وهذه مشكلة ليس فقط بالنسبة لمؤسسات الرعاية الصحية التجارية، بل وأيضا للدولة: ينبغي للحكومات أن تعمل على إضفاء الطابع الديمقراطي على الوصول إلى بيانات المستشفيات العامة حتى تتمكن شركات التطوير من إنشاء منتجات حديثة.

يتطلب تعلم حتى برنامج واحد الكثيربيانات الجودة. من أجل معرفة كيفية التمييز بين الورم في إطار ، يتطلب البرنامج آلاف الصور التي تم تحليلها يدويًا للمرضى ، ويجب إشراك الأطباء ذوي الخبرة في التحليل.

يجب أن يكتشف الطبيب الورم أولاً ، ثم بعد ذلكتظهر أين هي. كما يمكنك أن تتخيل ، فإن الأطباء ذوي الخبرة لديهم العديد من الأشياء الأخرى للقيام بها. لكن الغريب أن الوباء ساعد بعض المناطق. على سبيل المثال ، تمكنت شركة DiagnoCat ، وهي شركة روسية ناشئة تستخدم رؤية الكمبيوتر لتحليل الصور في طب الأسنان ، من جذب الأطباء غير المشغولين لتحليل الصور أثناء الإغلاق. أما فيما يتعلق بتردد العيادات والأطباء ، فإن الأطباء ببساطة لا يثقون في مثل هذه التقنيات. سيجد الطبيب الجيد بالتأكيد مثل هذه الحالة عندما يقوم البرنامج بتشخيص خاطئ ، ويخشى الطبيب عديم الخبرة أن يقوم البرنامج بكل شيء أفضل منه. نتيجة لذلك ، يمكنك دائمًا تبرير نفسك من خلال الاهتمام بالمريض والجوانب القانونية.

تآزر علوم البيانات والتقنيات الطبيةلقد سمح بالفعل بقفزة إلى الأمام في تطوير حلول لتشخيص السرطان وأمراض المناعة الذاتية والأمراض التنكسية العصبية. الخدمات المدعومة بتحليل البيانات والتعلم الآلي قادرة على التنبؤ بانتشار الفيروسات والبحث عن أجيال جديدة من الأدوية. على الرغم من حقيقة أن التعليم الطبي الكلاسيكي يتخلف عن التحديات التي تواجه الصناعة اليوم ، فمن الواقعي أن تصبح متخصصًا حديثًا يعمل عند تقاطع مجالين علميين - علم البيانات والطب. وإحدى الطرق هي الدورة التدريبية عبر الإنترنت في كلية علوم البيانات في الطب في GeekBrains.

انظر أيضا:

السدم والمذنبات والمشاتل النجمية: تُظهر أفضل تصوير فلكي لهذا العام

ساعدت البيانات من أقمار التجسس الصناعية في معرفة سبب ذوبان الأنهار الجليدية في آسيا

فيروس كورونا في كهف: كل شيء عن عمال المناجم الصينيين الذين عانوا من التهاب رئوي غريب في عام 2012