Data Science in Medicine: ใคร อย่างไร และทำไมจึงประมวลผลข้อมูล

แม้ว่าจากมุมมองของระเบียบวิธีแล้วไอทีและการแพทย์ก็ค่อนข้างห่างไกลจากกัน

ชีววิทยาและการวิจัยทางการแพทย์ขับเคลื่อนวิเคราะห์ข้อมูลและประยุกต์ใช้แบบจำลองการวิเคราะห์ต่างๆ ต่อไป ทุกวันนี้ แม้แต่ในสถาบันทางการแพทย์ ในหลักสูตรสถิติทางการแพทย์ ก็มีการศึกษาพื้นฐานของวิทยาศาสตร์ข้อมูล และแม้ว่าวิธีการเหล่านี้จะถูกเรียกแตกต่างกันในมหาวิทยาลัยการแพทย์ แต่แพทย์ก็ค่อนข้างยากที่จะใช้ - เนื่องจากขาดประสบการณ์ในการเขียนโปรแกรม ความสามารถในการเขียนโปรแกรมเป็นสิ่งแรกที่ต้องการจากผู้เชี่ยวชาญในสาขานี้ จำเป็นต้องเข้าใจอัลกอริธึมการวิเคราะห์ข้อมูลสมัยใหม่ - โครงข่ายประสาทเทียม ยิ่งไปกว่านั้น ไม่ใช่แค่ความเข้าใจเชิงทฤษฎีเกี่ยวกับวิธีการทำงานของอัลกอริทึมเท่านั้น ด้วยเหตุนี้ คุณจึงต้องมีความรู้ทางคณิตศาสตร์ขั้นสูงเป็นอย่างดี และสามารถใช้อัลกอริทึมเหล่านี้กับข้อมูลทางการแพทย์จริงได้ ในทางกลับกัน ผู้เชี่ยวชาญจะต้องมีความรู้เกี่ยวกับเครื่องมือ Data Science พิเศษ - ไลบรารี Python และวิธีการประมวลผลข้อมูลล่วงหน้า

วิธีที่ Coronavirus กลายเป็นตัวเร่งปฏิกิริยาสำหรับวิทยาศาสตร์ข้อมูลในการแพทย์

วันนี้มีสองทิศทางหลักการประยุกต์ใช้ Data Science ในการแพทย์-การดูแลสุขภาพและเภสัชกรรม ทิศทางแรกรวมถึงงานวินิจฉัย การเพิ่มประสิทธิภาพการทำงานของคลินิกและแพทย์ การเลือกยาและการรักษาตามการวินิจฉัย แนวทางแก้ไขที่ใช้ในแต่ละปัญหาระดับโลกเหล่านี้จะขึ้นอยู่กับการวิเคราะห์ข้อมูลและอัลกอริธึมการเรียนรู้ของเครื่อง ข้อมูลทางการแพทย์ที่สะสมไว้จะถูกนำไปใช้อย่างแข็งขันในการพัฒนายา เรากำลังพูดถึงทั้งการใช้เพื่อค้นหาสารออกฤทธิ์และการทดสอบยาในสัตว์และมนุษย์

บทบาทพิเศษในการพัฒนาเทคโนโลยี Data Scienceเล่นโดยการระบาดใหญ่ของ coronavirus ความต้องการแบบจำลองการคาดการณ์ที่สามารถให้ข้อมูลที่แม่นยำยิ่งขึ้นเกี่ยวกับการแพร่กระจายของ coronavirus ในอนาคตได้เพิ่มขึ้นอย่างรวดเร็ว: เพื่อคาดการณ์จำนวนการรักษาในโรงพยาบาล ผลกระทบของมาตรการจำกัดบางอย่าง และการฉีดวัคซีนต่อ COVID-19 และหากในระบาดวิทยาแบบคลาสสิก การคาดการณ์ดังกล่าวอิงจากแบบจำลองทางระบาดวิทยาที่ค่อนข้างง่าย ในความเป็นจริง โมเดลเหล่านี้แสดงตัวเองได้แย่มาก ในขณะที่วิธีการทางวิทยาศาสตร์ข้อมูลสมัยใหม่สามารถแทนที่และปรับปรุงความแม่นยำของการทำนาย

พื้นที่หลักของการประยุกต์ใช้ Data Science ในยาในช่วงการระบาดใหญ่ยังคงเหมือนเดิม แต่ปริมาณข้อมูลและเวลาที่คาดว่าจะแก้ปัญหาได้เปลี่ยนไปอย่างมาก ตัวอย่างเช่นมีการศึกษางานการวินิจฉัยโรคด้วย CT ของปอดมาเป็นเวลานาน มีวิธีแก้ปัญหาการทำงานที่เพียงพอในตลาด แต่ด้วยธรรมชาติของการระบาดใหญ่ทั่วโลก การแลกเปลี่ยนข้อมูลและความพร้อมใช้งานอย่างต่อเนื่อง ทำให้งานการวินิจฉัยอัตโนมัติของ COVID-19 โดย CT ได้รับการแก้ไขโดยเร็วที่สุด เช่นเดียวกับการทำนายความรุนแรงของผลลัพธ์ของโรค ซึ่งจะช่วยทำนายจำนวนเตียงในโรงพยาบาลที่มีอยู่ได้ เพื่อแก้ปัญหานี้ มีการรวบรวมและวิเคราะห์ข้อมูลจำนวนมากในหลายประเทศพร้อมกัน แต่ความจำเพาะของยานั้นแทบจะเป็นไปไม่ได้เลยที่จะแนะนำวิธีแก้ปัญหาใหม่ เช่นเดียวกับวัคซีน จำเป็นต้องมีการทดสอบแบบจำลองใดๆ อย่างรอบคอบ ก่อนที่การตัดสินใจทางการแพทย์จะขึ้นอยู่กับสิ่งนั้น

ความรู้พื้นฐานใดบ้างที่จำเป็นสำหรับการทำงานใน Data Science:

  • คณิตศาสตร์ชั้นสูง: พีชคณิตเชิงเส้น การวิเคราะห์ทางคณิตศาสตร์ สถิติ
  • วิธีการทำงานของแมชชีนเลิร์นนิง

วิทยาศาสตร์ข้อมูลช่วยต่อสู้กับโรคมะเร็ง อัลไซเมอร์ และค้นหายาใหม่ๆ ได้อย่างไร

มาดูการใช้งานด้านต่างๆ กันวิทยาศาสตร์ข้อมูลในการแพทย์ หนึ่งในสิ่งที่มีแนวโน้มมากที่สุดคือการวินิจฉัยโรคมะเร็ง ปัจจุบัน นักวิทยาศาสตร์ข้อมูลใช้อัลกอริธึมทั้งหมดเพื่อพัฒนาโซลูชันในด้านนี้: การเลือกวิธีการเฉพาะขึ้นอยู่กับงานที่ทำอยู่ ข้อมูลที่มีอยู่ และปริมาณของข้อมูล ตัวอย่างเช่น คุณสามารถวินิจฉัยโดยใช้ภาพเนื้องอกได้ ในกรณีนี้ ผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลมักจะใช้โครงข่ายประสาทเทียม สำหรับการวินิจฉัย ขึ้นอยู่กับผลการวิเคราะห์ จะมีการเลือกวิธีการเรียนรู้ของเครื่องวิธีใดวิธีหนึ่งที่เหมาะกับงานเฉพาะเจาะจงมากกว่า นอกจากนี้ยังมีอัลกอริธึมเฉพาะที่ใช้ในการวิเคราะห์ข้อมูล DNA ที่ได้รับจากเซลล์เดี่ยวอีกด้วย ข้อมูลดังกล่าวมักถูกวิเคราะห์โดยใช้อัลกอริธึมกราฟ แต่นี่เป็นข้อยกเว้นของกฎมากกว่า

นอกจากนี้ยังมีวิธีการหลายวิธีที่ใช้เพื่อปรับปรุงภาพและปรับปรุงความถูกต้องของผลลัพธ์ แพลตฟอร์มข้อมูลขนาดใหญ่ (เช่น Hadoop) ใช้ MapReduce เพื่อค้นหาพารามิเตอร์ที่สามารถนำไปใช้ในงานต่างๆ สำหรับผู้ที่กำลังจะพัฒนาผลิตภัณฑ์ของตนเองในด้านนี้ หรือเพียงแค่ผู้ที่ชื่นชอบ มีชุดข้อมูลการสร้างภาพสมองแบบเปิดหลายชุด: BrainWeb, ชุดข้อมูล IXI, fastMRI และ OASIS

อีกกรณีหนึ่งคือการสร้างแบบจำลองอวัยวะมนุษย์ หนึ่งในงานด้านเทคนิคที่ยากที่สุด ยิ่งไปกว่านั้น เมื่อพัฒนาสิ่งนี้หรือวิธีแก้ปัญหานั้น ผู้เชี่ยวชาญต้องเข้าใจอย่างถ่องแท้ว่าทำไมและระดับความซับซ้อนของอวัยวะที่กำลังถูกจำลอง ตัวอย่างเช่น คุณสามารถสร้างแบบจำลองของเนื้องอกที่ระดับการแสดงออกของยีนและเส้นทางการส่งสัญญาณ วันนี้บริษัท Insilico Medicine กำลังแก้ปัญหาดังกล่าว วิธีนี้ใช้เพื่อค้นหาเป้าหมายของการบำบัด ซึ่งรวมถึงวิธี Data Science โมเดลดังกล่าวส่วนใหญ่ใช้สำหรับการวิจัยทางวิทยาศาสตร์และยังห่างไกลจากการใช้งานจริง

การวิเคราะห์ลำดับยีน - ทั้งหมดทิศทางของยา การพัฒนาที่เป็นไปไม่ได้เลยหากไม่มี Data Science หากทักษะการเขียนโปรแกรม Python มีความสำคัญอย่างยิ่งใน Data Science การทำงานกับยีนก็ต้องการความรู้เกี่ยวกับภาษาการเขียนโปรแกรม R และเครื่องมือชีวสารสนเทศเฉพาะ - โปรแกรมสำหรับการทำงานกับลำดับ DNA และโปรตีน โปรแกรมเหล่านี้ส่วนใหญ่ทำงานบนระบบปฏิบัติการ Unix และไม่เป็นมิตรกับผู้ใช้มากนัก อย่างน้อยคุณต้องเข้าใจพื้นฐานของอณูชีววิทยาและพันธุศาสตร์ น่าเสียดายที่แม้แต่ในโรงเรียนแพทย์ทุกวันนี้ก็ยังมีปัญหาใหญ่ในเรื่องนี้ และแพทย์ส่วนใหญ่มีความคิดที่ไม่ดีจริงๆ ว่าลำดับยีนทำงานอย่างไร ในรัสเซีย มีบริษัท 2 แห่งที่ทำธุรกิจด้านนี้ ได้แก่ Atlas และ Genotech การวิเคราะห์การกลายพันธุ์ของยีนแต่ละตัวก็เป็นที่นิยมเช่นกันในปัจจุบัน บริษัทวิเคราะห์ทางการแพทย์ขนาดใหญ่ส่วนใหญ่ให้บริการดังกล่าว ตัวอย่างเช่น ผู้ป่วยสามารถค้นหาว่าพวกเขามีความโน้มเอียงที่จะเป็นมะเร็งเต้านมในยีนเดียวกันกับ Angelina Jolie พื้นที่นี้มีลักษณะการขาดแคลนบุคลากรเนื่องจากมีเพียงไม่กี่แห่งที่คุณสามารถได้รับการศึกษาที่เหมาะสม นอกจากนี้ หลายคนยังคงทำงานด้านวิทยาศาสตร์หรือเดินทางไปต่างประเทศ มีแหล่งข้อมูลออนไลน์ภาษารัสเซียไม่กี่แห่งที่คุณสามารถเรียนรู้การวิเคราะห์ดังกล่าวได้ พวกเขามักจะมุ่งเป้าไปที่แพทย์หรือนักชีววิทยาและสอนเฉพาะการเขียนโปรแกรมและการจัดการข้อมูลพื้นฐาน เพื่อให้ได้การศึกษาเชิงปฏิบัติมากขึ้นพร้อมการเข้าถึงพื้นที่นี้ คุณสามารถเรียนจบหลักสูตรที่คณะ Data Science in Medicine ที่ GeekBrains

วันนี้มีหลายตลาดเครื่องมือสำหรับการวิเคราะห์ข้อมูลในพื้นที่นี้: MapReduce, SQL, Galaxy, Bioconductor MapReduce ประมวลผลข้อมูลทางพันธุกรรมและลดเวลาที่ต้องใช้ในการประมวลผลลำดับทางพันธุกรรม

SQL เป็นภาษาฐานข้อมูลเชิงสัมพันธ์ที่เราใช้ในการสืบค้นและดึงข้อมูลจากฐานข้อมูลจีโนม Galaxy เป็นแอปพลิเคชันการวิจัยชีวการแพทย์ที่ใช้ GUI แบบโอเพ่นซอร์ส ช่วยให้คุณสามารถดำเนินการต่างๆกับจีโนมได้

สุดท้าย Bioconductor เป็นซอฟต์แวร์โอเพ่นซอร์สที่ออกแบบมาสำหรับการวิเคราะห์ข้อมูลจีโนม

ที่สำคัญทางการค้าและในขณะเดียวกันทิศทางการวิจัย-การสร้างยารุ่นใหม่ ผู้เชี่ยวชาญด้านเภสัชกรรมใช้การเรียนรู้ของเครื่องเพื่อค้นหาเป้าหมายในการรักษาและตัวชี้วัดทางชีวภาพ แน่นอนว่าทั้งตัวแรกและตัวที่สองไม่ใช่ตัวยาเอง เป้าหมายคือโมเลกุลในร่างกายที่ยาทำปฏิกิริยาด้วย และไบโอมาร์คเกอร์คือโมเลกุลที่บอกแพทย์ว่าใครควรใช้ยานั้น ดังนั้น เกือบทุกบริษัทที่พัฒนายาสำหรับโรคโดยไม่ทราบเป้าหมายและตัวชี้วัดทางชีวภาพ เช่น Novartis, Merck, Roche และ Russian BIOCAD จึงใช้การเรียนรู้ของเครื่อง ประการแรกคือ มะเร็งและโรคแพ้ภูมิตนเอง โรคอัลไซเมอร์ รวมถึงการค้นหายาปฏิชีวนะชนิดใหม่ด้วย

เหตุใดแพทย์จึงไม่สนับสนุนการนำวิทยาศาสตร์ข้อมูลไปปฏิบัติ

ปีที่ผ่านมาได้แสดงให้เห็นว่า Data Scienceเป็นกลไกของอุตสาหกรรมแบบจำลองการคาดการณ์และการวิเคราะห์ในทางการแพทย์ เช่น การประยุกต์ใช้โครงข่ายประสาทเทียมเพื่อกำหนดโครงสร้างเชิงพื้นที่ของโปรตีน แต่การระบาดใหญ่ได้เปิดโปงปัญหาระดับโลกในหลายประเทศที่เกี่ยวข้องกับการเพิ่มประสิทธิภาพของทรัพยากรคลินิกและการขาดบุคลากร ในปีที่ผ่านมา หลายบริษัทได้เสนอวิธีแก้ปัญหาเหล่านี้ด้วย Data Science การใช้ข้อมูลได้กลายเป็นความก้าวหน้าครั้งใหญ่สำหรับคลินิกเอกชน เนื่องจากทำให้บริการทางการแพทย์มีราคาถูกลง เมื่อเทียบกับฉากหลังของการระบาดใหญ่ ความต้องการบริการการแพทย์ทางไกลก็เพิ่มขึ้นเช่นกัน ซึ่งอัลกอริธึมการเรียนรู้ของเครื่องถูกใช้อย่างแพร่หลาย บริการ Telemedicine เป็นที่ต้องการสำหรับการวินิจฉัยเบื้องต้น โดยทำงานกับการวิเคราะห์และสร้างแชทบอท

ในแง่ของข้อจำกัดทางเทคโนโลยีการประยุกต์ใช้คอมพิวเตอร์วิทัศน์และการเรียนรู้ของเครื่องแทบไม่มีอุปสรรคใดๆ การใช้งานอัลกอริธึมและบริการในเชิงลึกยิ่งขึ้นนั้นขึ้นอยู่กับความต้องการของคลินิกและแพทย์ในการใช้วิธีการด้านวิทยาศาสตร์ข้อมูล นอกจากนี้ยังมีการขาดแคลนข้อมูลการฝึกอบรมอย่างมาก และนี่ไม่ใช่ปัญหาเฉพาะสำหรับสถาบันดูแลสุขภาพเชิงพาณิชย์เท่านั้น แต่ยังรวมถึงรัฐด้วย รัฐบาลควรทำให้การเข้าถึงข้อมูลโรงพยาบาลของรัฐเป็นประชาธิปไตย เพื่อให้บริษัทพัฒนาสามารถสร้างผลิตภัณฑ์ที่ทันสมัยได้

การเรียนรู้แม้แต่โปรแกรมเดียวก็ต้องใช้จำนวนมากข้อมูลคุณภาพ เพื่อเรียนรู้วิธีแยกแยะเนื้องอกในเฟรม โปรแกรมต้องใช้ภาพของผู้ป่วยที่วิเคราะห์ด้วยตนเองหลายพันภาพ และแพทย์ที่มีประสบการณ์ควรมีส่วนร่วมในการวิเคราะห์

หมอต้องหาเนื้องอกก่อนแล้วค่อยแสดงว่าเธออยู่ที่ไหน อย่างที่คุณจินตนาการได้ แพทย์ผู้มีประสบการณ์มีหลายสิ่งหลายอย่างที่ต้องทำ แต่การแพร่ระบาดอย่างผิดปกติสามารถช่วยได้ในบางพื้นที่ ตัวอย่างเช่น DiagnoCat ซึ่งเป็นบริษัทสตาร์ทอัพชาวรัสเซียที่ใช้คอมพิวเตอร์วิทัศน์ในการวิเคราะห์ภาพทางทันตกรรม สามารถดึงดูดแพทย์ที่ว่างงานให้มาวิเคราะห์ภาพในระหว่างการล็อกดาวน์ สำหรับความไม่เต็มใจของคลินิกและแพทย์ แพทย์ไม่ไว้วางใจเทคโนโลยีดังกล่าว แพทย์ที่ดีจะพบกรณีดังกล่าวอย่างแน่นอนเมื่อโปรแกรมทำการวินิจฉัยผิดพลาด แพทย์ที่ไม่มีประสบการณ์กลัวว่าโปรแกรมจะทำทุกอย่างได้ดีกว่าเขา ด้วยเหตุนี้ คุณจึงสามารถพิสูจน์ตัวเองได้เสมอโดยการดูแลผู้ป่วยและแง่มุมทางกฎหมาย

การทำงานร่วมกันของวิทยาศาสตร์ข้อมูลและเทคโนโลยีการแพทย์ได้ช่วยให้เราก้าวไปข้างหน้าในการพัฒนาโซลูชันสำหรับการวินิจฉัยโรคมะเร็ง โรคภูมิต้านตนเอง และโรคทางระบบประสาท บริการที่ขับเคลื่อนโดยการวิเคราะห์ข้อมูลและการเรียนรู้ของเครื่องสามารถทำนายการแพร่กระจายของไวรัสและค้นหายารุ่นใหม่ได้ แม้ว่าการศึกษาทางการแพทย์แบบคลาสสิกจะล้าหลังความท้าทายที่อุตสาหกรรมเผชิญอยู่ในปัจจุบัน แต่การเป็นผู้เชี่ยวชาญสมัยใหม่ที่ทำงานบนจุดเชื่อมต่อของสองสาขาวิทยาศาสตร์ - วิทยาศาสตร์ข้อมูลและการแพทย์ และวิธีหนึ่งคือหลักสูตรออนไลน์ที่คณะ Data Science in Medicine ที่ GeekBrains

ดูเพิ่มเติมที่:

เนบิวลา ดาวหาง และเรือนเพาะชำดาว: แสดงภาพถ่ายดาราศาสตร์ที่ดีที่สุดแห่งปี

ข้อมูลจากดาวเทียมสอดแนมช่วยในการค้นหาสาเหตุของการละลายของธารน้ำแข็งในเอเชีย

Coronavirus ในถ้ำ: ทั้งหมดเกี่ยวกับคนงานเหมืองชาวจีนที่ป่วยด้วยโรคปอดบวมแปลก ๆ ในปี 2555