Ciência de dados na medicina: quem, como e por que processa dados

Apesar de, do ponto de vista metodológico, as TI e a medicina estarem bastante distantes uma da outra, é

biologia e pesquisa médica impulsionaramanalisando dados e aplicando vários modelos analíticos adiante. Hoje, até nos institutos médicos, nos cursos de estatística médica, estudam-se os fundamentos da Ciência de Dados. E embora esses métodos tenham nomes diferentes nas universidades médicas, é bastante difícil para os médicos utilizá-los - devido à falta de experiência em programação. A capacidade de programar é a primeira coisa que se exige de um especialista na área. É necessário compreender os algoritmos modernos de análise de dados - redes neurais. Além disso, não se trata apenas de uma compreensão teórica de como o algoritmo funciona; para isso, é necessário ter um bom domínio da matemática superior e ser capaz de usar esses algoritmos em dados médicos reais. Isso, por sua vez, exige que o especialista tenha conhecimento de ferramentas especiais de Ciência de Dados – bibliotecas Python e métodos de pré-processamento de dados.

Como o coronavírus se tornou um catalisador para a ciência de dados na medicina

Hoje existem duas direções principaisaplicação aplicada de Data Science em medicina - saúde e farmacêutica. A primeira direção inclui tarefas diagnósticas, otimização do trabalho de clínicas e médicos, seleção de medicamentos e tratamentos com base no diagnóstico. As soluções utilizadas em cada um desses problemas globais são baseadas em análise de dados e algoritmos de aprendizado de máquina. Os dados médicos acumulados são usados ​​ativamente no desenvolvimento de medicamentos. Estamos a falar tanto da utilização na procura de substâncias activas como dos testes de medicamentos em animais e humanos.

Um papel especial no desenvolvimento de tecnologias de Ciência de Dadosdesempenhado pela pandemia do coronavírus. A necessidade de modelos preditivos que possam fornecer dados mais precisos sobre a disseminação futura do coronavírus tem aumentado significativamente: para prever o número de hospitalizações, o impacto de certas medidas restritivas e vacinações no COVID-19. E se na epidemiologia clássica tais previsões são baseadas em modelos epidemiológicos relativamente simples, na realidade esses modelos se mostraram extremamente pobres, enquanto os métodos modernos de ciência de dados são capazes de substituí-los e melhorar a precisão das previsões.

As principais áreas de aplicação da Ciência de Dados emmedicamentos durante a pandemia permaneceram os mesmos, mas a quantidade de dados e o tempo esperado para resolver o problema mudaram significativamente. Por exemplo, a tarefa de diagnosticar uma doença por tomografia computadorizada de pulmão é estudada há muito tempo, há um número suficiente de soluções eficazes no mercado. Mas, graças à natureza global da pandemia, à troca constante de dados e à sua disponibilidade, a tarefa de diagnóstico automático de COVID-19 por TC foi resolvida o mais rápido possível. O mesmo se aplica à previsão da gravidade do desfecho da doença, o que poderia ajudar a prever o número de leitos hospitalares disponíveis. Para resolver este problema, uma grande quantidade de dados é coletada e analisada em vários países em paralelo. Mas a especificidade da medicina é tal que a introdução de novas soluções é praticamente impossível. Tal como acontece com as vacinas, é necessário um teste cuidadoso de qualquer modelo antes de as decisões médicas dependerem dele.

Quais conhecimentos básicos são necessários para trabalhar em Ciência de Dados:

  • Matemática superior: álgebra linear, análise matemática, estatística.
  • Como funcionam os métodos de aprendizado de máquina.

Como a ciência de dados ajuda a combater o câncer, o mal de Alzheimer e novos medicamentos

Vejamos várias áreas de aplicaçãoCiência de Dados em Medicina. Um dos mais promissores é o diagnóstico de câncer. Hoje, os cientistas de dados utilizam toda uma gama de algoritmos para desenvolver soluções nesta área: a escolha de um método específico depende da tarefa em questão, dos dados disponíveis e do seu volume. Por exemplo, você pode fazer diagnósticos usando imagens de tumores - neste caso, os especialistas em Ciência de Dados provavelmente usarão redes neurais. Para o diagnóstico, com base nos resultados da análise, será selecionado um dos métodos de aprendizado de máquina mais adequados para uma tarefa específica. Existem também algoritmos específicos usados, por exemplo, para analisar dados de DNA obtidos de células individuais. Esses dados são mais frequentemente analisados ​​usando algoritmos gráficos. Mas esta é uma exceção à regra.

Além disso, existem vários métodos aplicadospara melhorar as imagens e melhorar a precisão do resultado. As plataformas de big data (como Hadoop) usam, por exemplo, MapReduce para localizar parâmetros que podem ser usados ​​em várias tarefas. Para quem vai desenvolver o seu próprio produto nesta área, ou apenas para entusiastas, existem vários conjuntos de dados de imagens cerebrais abertos: BrainWeb, IXI Dataset, fastMRI e OASIS.

Outro caso é a modelagem de órgãoshumano, uma das tarefas técnicas mais difíceis. Além disso, ao desenvolver esta ou aquela solução, o especialista deve entender exatamente por que e em que nível de complexidade o órgão está sendo modelado. Por exemplo, você pode fazer um modelo de um tumor específico no nível da expressão gênica e das vias de sinalização. Hoje a empresa Insilico Medicine está resolvendo esses problemas. Essa abordagem é usada para encontrar o alvo da terapia, inclusive por métodos de Data Science. Esses modelos são usados ​​principalmente para pesquisas científicas, mas ainda estão longe de serem aplicados na prática.

Análise de sequência gênica - todouma direção da medicina, o desenvolvimento da qual é simplesmente impossível sem Data Science. Se as habilidades de programação Python são extremamente importantes na Ciência de Dados, trabalhar com genes também requer conhecimento da linguagem de programação R e ferramentas de bioinformática específicas - programas para trabalhar com sequências de DNA e proteínas. A maioria desses programas é executada no sistema operacional Unix e não é muito amigável. Para dominá-los, você precisa pelo menos entender os conceitos básicos de biologia molecular e genética. Infelizmente, mesmo nas escolas de medicina de hoje, existem grandes problemas com isso, e a maioria dos médicos não tem uma ideia muito boa de como as sequências de genes funcionam. Na Rússia, duas empresas atuam nesta área - Atlas e Genotech. A análise de mutações de genes individuais também é popular atualmente. A maioria das grandes empresas de análises médicas fornece esses serviços. Os pacientes, por exemplo, podem descobrir se têm predisposição ao câncer de mama nos mesmos genes de Angelina Jolie. Esta área é caracterizada por uma carência de pessoal, visto que são poucos os locais onde se pode obter uma educação adequada. Além disso, muitos permanecem para trabalhar com ciências ou vão para o exterior. Existem poucos recursos online em russo onde você pode aprender tal análise. Eles geralmente são direcionados a médicos ou biólogos e ensinam apenas programação e manipulação de dados básicos. A fim de obter uma educação mais orientada para a prática com acesso a esta área, você pode concluir um curso na Faculdade de Ciência de Dados em Medicina da GeekBrains.

Existem vários no mercado hojeferramentas para análise de dados nesta área: MapReduce, SQL, Galaxy, Bioconductor. MapReduce processa dados genéticos e reduz o tempo necessário para processar sequências genéticas.

SQL é a linguagem de banco de dados relacional que nóssão usados ​​para consultar e recuperar dados de bancos de dados genômicos. Galaxy é um aplicativo de pesquisa biomédica baseado em GUI de código aberto. Ele permite que você execute várias operações com genomas.

Por fim, Bioconductor é um software de código aberto desenvolvido para a análise de dados genômicos.

Comercial importante e ao mesmo tempodireção de pesquisa - a criação de medicamentos de nova geração. Especialistas farmacêuticos usam aprendizado de máquina para procurar alvos terapêuticos e biomarcadores. Nem o primeiro nem o segundo, é claro, são as próprias drogas. Os alvos são moléculas no corpo com as quais um medicamento interage, e os biomarcadores são moléculas que informam ao médico quem deve usar o medicamento. Portanto, quase todas as empresas que desenvolvem medicamentos para doenças com alvos e biomarcadores desconhecidos – Novartis, Merck, Roche e a russa BIOCAD – utilizam aprendizado de máquina. Trata-se, em primeiro lugar, do cancro e das doenças autoimunes, a doença de Alzheimer. Isso também inclui a busca por novos antibióticos.

Por que os médicos não estão promovendo a implementação da ciência de dados

Os últimos anos mostraram que Data Scienceé o motor da indústria de modelos preditivos e analíticos em medicina, por exemplo, na aplicação de redes neurais para determinar a estrutura espacial de proteínas. Mas a pandemia expôs um problema global em muitos países relacionado à otimização dos recursos clínicos e à falta de pessoal. No ano passado, muitas empresas surgiram oferecendo soluções para esses problemas com Data Science. O uso de dados tornou-se um grande avanço para as clínicas privadas, pois barateou os serviços médicos. No contexto da pandemia, a demanda por serviços de telemedicina também aumentou, nos quais algoritmos de aprendizado de máquina são amplamente utilizados. Os serviços de telemedicina são solicitados para um diagnóstico preliminar, trabalhando com análises e criando bots de chat.

Em termos de limitações tecnológicasa aplicação da visão computacional e do aprendizado de máquina praticamente não tem barreiras. A implementação mais profunda de algoritmos e serviços depende do desejo de clínicas e médicos de aplicar métodos de Ciência de Dados. Há também uma escassez aguda de dados de formação, e este é um problema não só para as instituições comerciais de saúde, mas também para o Estado: os governos devem democratizar o acesso aos dados hospitalares públicos para que as empresas de desenvolvimento possam criar produtos modernos.

Aprender até mesmo um programa exige muitodados de qualidade. Para aprender a distinguir um tumor em um quadro, o programa requer milhares de imagens de pacientes analisadas manualmente, e médicos experientes devem estar envolvidos na análise.

O médico deve primeiro encontrar o tumor e depoismostre onde ela está. Como você pode imaginar, os médicos experientes têm muitas outras coisas a fazer. Mas a pandemia, por incrível que pareça, ajudou algumas áreas. Por exemplo, DiagnoCat, uma startup russa que usa visão computacional para analisar imagens em odontologia, foi capaz de atrair médicos desocupados para analisar imagens durante um bloqueio. Quanto à relutância de clínicas e médicos, os médicos simplesmente não confiam em tais tecnologias. Um bom médico certamente encontrará tal caso quando o programa fizer um diagnóstico errado, um médico inexperiente teme que o programa faça tudo melhor do que ele. Como resultado, você sempre pode se justificar cuidando do paciente e dos aspectos legais.

Sinergia de Ciência de Dados e Tecnologias Médicasjá permitiu um salto no desenvolvimento de soluções para o diagnóstico de câncer, doenças autoimunes e neurodegenerativas. Serviços movidos por análise de dados e aprendizado de máquina são capazes de prever a propagação de vírus e procurar novas gerações de medicamentos. Apesar de a educação médica clássica ficar aquém dos desafios que a indústria enfrenta hoje, é real tornar-se um especialista moderno trabalhando na junção de dois campos científicos - Ciência de Dados e Medicina. E uma forma é o curso online na Faculdade de Ciência de Dados em Medicina da GeekBrains.

Veja também:

Nebulosas, cometas e berçários estelares: mostrando a melhor astrofotografia do ano

Dados de satélites espiões ajudaram a descobrir a causa do derretimento de geleiras na Ásia

Coronavírus em uma caverna: tudo sobre mineiros chineses que sofreram de uma estranha pneumonia em 2012