Filtragem e diagnóstico de conteúdo: como a IA é ensinada a realizar tarefas complexas sem dados

Não são necessários grandes conjuntos de dados

A história do aprendizado de máquina começou no início do século XX. Durante esse tempo os modelos passaram

partir de algoritmos simples que poderiamfiltrar e-mails e encontrar malware, até a mineração de dados que pode prever a progressão de doenças em pacientes e vencer jogadores de xadrez de classe mundial.

Seja qual for o propósito do modelo, seu propósito—prever o resultado a partir dos dados de entrada. Quanto mais diversificado for o conjunto de dados (o conjunto de dados que “alimenta” os modelos), mais fácil será para o algoritmo encontrar padrões e, portanto, mais preciso será o resultado de saída.

O modelo precisa de dois componentes principais para funcionar:dados e algoritmo. Dados significam informações já rotuladas, onde a cada exemplo de dados de entrada (por exemplo, fotografias de uma rua com pedestres) é atribuído o resultado esperado da rede neural (os contornos das figuras de pedestres que a rede neural deve destacar).

O mundo do aprendizado de máquina é atualmente dominado poruma abordagem centrada no modelo, e é por isso que os engenheiros de ML gastam muito tempo em algoritmos – o segundo componente importante do desempenho do modelo. A velocidade e precisão do trabalho dependem da escolha do algoritmo. Mas, apesar de essa abordagem ser mais simples e interessante para os engenheiros, não se esqueça do simples princípio de entrada de lixo, saída de lixo. Se os dados coletados não forem representativos, nenhum truque algorítmico ajudará a melhorar a qualidade do modelo. Portanto, o foco dos engenheiros está mudando gradualmente para os dados.

Os engenheiros de ML estão olhando cada vez mais para o ladoIA centrada em dados, cuja ideia é coletar menos dados, mas de melhor qualidade. Isso é mais eficiente: o desenvolvimento de algoritmos melhora o desempenho do modelo em 0-10% e trabalha com qualidade de dados - em 10-30%.

Tudo começa com dados.

Em um mundo ideal, uma empresa que usaa tecnologia de aprendizado de máquina respeita a cultura de coleta de dados. Mas a coleta de dados é apenas o começo. Em seguida, vem o processo de marcação demorado e caro. Seguindo o conceito de IA orientada a dados, os engenheiros de ML podem obter um desempenho de modelo muito maior em comparação com a rotulagem de dados “o mais barato possível”. Aqui estão os principais princípios desta abordagem:

  • Diretrizes de marcação de alta qualidade

Você pode pensar:por que formalizar cada ponto do processo de definição e solução de um problema quando ele pode ser formulado em uma frase. Digamos que estamos falando de marcação de dados para o piloto automático, pode soar assim: "selecione todos os pedestres nas fotos". Mas os anotadores rapidamente encontrarão casos ambíguos - seja para destacar um ciclista, uma pessoa em uma scooter ou um passageiro em um corpo aberto como pedestre? Cada anotador apresentará uma resposta por conta própria, mas será diferente e destruirá a homogeneidade dos dados. Portanto, é necessário inserir todos os exemplos complexos em um banco de dados, onde os anotadores, em caso de dificuldades, podem recorrer. Mas para que tal documento apareça, você precisa de feedback dos anotadores.

  • Feedback

Um banco de dados não pode aparecer do nada.Isto requer duas condições: uma cultura de respeito pelo feedback dos anotadores e funcionários responsáveis ​​por manter esta base de dados atualizada. Via de regra, este é o mais experiente dos marcadores ou o próprio cientista de dados.

Os recursos precisam estar conectados à medida que o núcleo da equipe é formado, que sente toda a responsabilidade e importância do processo, ajudando os recém-chegados a se envolverem nele.

Banco de dados não pode aparecer do nada

  • Validação cruzada

A empresa geralmente emprega mais de umanotador com diferentes níveis de habilidade. Portanto, o mesmo conjunto de dados pode ser rotulado de maneiras diferentes. Portanto, os resultados do trabalho devem ser verificados periodicamente. Isso dará uma compreensão de onde os especialistas encontram dificuldades que devem ser inseridas no banco de dados - isso reduzirá o fator de erro humano.

  • Passando dados por meio de um cientista de dados

Antes de fornecer aos anotadores os dados a serem marcados, é útil que o cientista de dados mergulhe nos dados e marque os primeiros duzentos exemplos. Isso permitirá que você entenda como o problema pode ser resolvido para o modelo.

Embora a divisão do trabalho seja atraente do ponto de vistaEm termos de custo de trabalho, não se deve esperar o mesmo nível de trabalho com dados de anotadores e cientistas de dados - os marcadores não podem e não devem identificar problemas de aprendizado de máquina.

Se você tiver que trabalhar comdados, você precisa de conhecimento do setor. Por exemplo, se o algoritmo deve reconhecer imagens de raios X com um tumor, o modelo pode ser treinado corretamente apenas se especialistas vivos tiverem certeza de que há neoplasias em cada fragmento marcado e a imagem estiver com defeito.

  • Exemplos de "fronteiras" são importantes

O princípio principal da marcação manual é que ela deveseja inteligente. Durante o processo de treinamento, a rede neural pode adivinhar em quais exemplos do conjunto de treinamento ela tem maior probabilidade de “tropeçar”. É melhor entregá-los para marcação manual; isso melhorará a qualidade do trabalho do modelo mais do que milhões de exemplos marcados, treinamento no qual o modelo não cometerá erros.

  • Aumento ou síntese de dados

Se houver poucos dados ou marcação de dados coletadosmuito caro - você pode propagá-los. Por exemplo, se os dados forem textuais, as mesmas chamadas do usuário podem ser reformuladas. Se forem imagens, você pode alterar o brilho, cortar e inverter algumas das imagens.

No aumento da quantidade de dados, há outraabordagem é sintetizá-los. Mas esses dados nem sempre podem substituir os dados reais, especialmente se a rede neural produzir o mesmo tipo ou dados idealizados. Nesse caso, você pode usar dados sintéticos apenas em determinadas etapas do modelo.

Da teoria à prática

  • Redes sociais

Para proteger os usuários e protegê-los denegativo, as maiores redes sociais estão integrando um detector de conteúdo tóxico baseado em aprendizado de máquina. No processo de trabalho, o principal problema não é a seleção de um modelo, mas a coleta e análise dos dados. O problema é que há menos conteúdo tóxico do que o conteúdo normal, então a equipe precisa coletar um banco de dados desse conteúdo na plataforma, o que não pode ser feito sem um algoritmo. Portanto, a coleta de dados leva até 90% do tempo dos cientistas de dados. Mas a qualidade do modelo final é melhorada.

  • Varejo on-line

Ao treinar um modelo que transforma a receitaa uma lista de compras baseada em 2 milhões de exemplos, o modelo previsivelmente mostrou uma qualidade de 97%. Em escala, o modelo funcionou muito bem, mas no caso de um varejista específico, com produtos atípicos, a qualidade caiu drasticamente para inaceitáveis ​​70%. Para resolver esse problema, a equipe de anotação se concentrou em garantir que os novos dados não fossem perdidos no plano de fundo do conjunto de dados maduro. Foi o suficiente para treinar o modelo em alguns milhares de exemplos e a qualidade aumentou novamente para 97%.

A IA também ajuda no varejo, e não apenas selecionando produtos preferidos

  • Produção de transportadores

Uma empresa que usou inteligência artificialpara detectar defeitos em peças em uma correia transportadora, obteve 90% de precisão do modelo após trabalho inicial com os dados. Mas tais indicadores não atendiam aos requisitos do cliente.

Na tentativa de melhorar o desempenho do modelo, os engenheiros de ML“poliram” o trabalho dos algoritmos sem trabalhar com os dados, o que melhorou o resultado em apenas 0,4%. Depois de reanalisar os dados, limpar o conjunto de dados de exemplos mal rotulados e rotular novamente os dados recém-coletados, o resultado aumentou 8%.

  • sistema de recomendação

Sistema de recomendação de aplicativos de receitamostrou consistentemente uma baixa taxa de cliques de 5%. Trabalhar com algoritmos não ajudou, e a análise de dados indicou que os clientes cujos dados foram usados ​​para treinar o modelo eram em sua maioria vegetarianos, e a população geral de usuários comia principalmente carne. Um sistema voltado para vegetarianos era pobre em capturar os interesses dos outros e era altamente influenciado pelas preferências dos usuários vegetarianos. O balanceamento de dados de treinamento melhorou as conversões em até 11%.

No passado, o campo da inteligência artificial emfocado principalmente em big data - o treinamento foi realizado em um extenso conjunto de dados. Embora ainda haja progresso na criação de tais modelos, o foco está gradualmente mudando para pequenos dados e para trabalhar com eles. Isto expande o limiar de entrada no campo da IA ​​– soluções complexas já podem ser criadas mesmo com uma pequena quantidade de dados.

Consulte Mais informação:

Um buraco negro na galáxia provou que Einstein estava certo. A coisa principal

O espaço destrói os ossos e muda sua estrutura: os cientistas não sabem como as pessoas voarão para Marte

Astrônomos encontraram planetas diferentes da Terra, mas adequados para a vida