Filtrado y diagnóstico de contenido: cómo se enseña a la IA a realizar tareas complejas sin datos

No se necesitan grandes conjuntos de datos

La historia del aprendizaje automático comenzó a principios del siglo XX. Durante este tiempo pasaron los modelos.

lejos de algoritmos simples que podríanfiltrar correos electrónicos y detectar malware, hasta la extracción de datos que puede predecir la progresión de enfermedades en pacientes y vencer a jugadores de ajedrez de talla mundial.

Cualquiera que sea el propósito del modelo, su propósito— predecir el resultado a partir de los datos de entrada. Cuanto más diverso sea el conjunto de datos (el conjunto de datos que “alimenta” los modelos), más fácil será para el algoritmo encontrar patrones y, por tanto, más preciso será el resultado.

El modelo necesita dos componentes principales para funcionar:datos y algoritmo. Datos significa información ya etiquetada, donde a cada ejemplo de datos de entrada (por ejemplo, fotografías de una calle con peatones) se le asigna el resultado esperado de la red neuronal (los contornos de las figuras de peatones que debe resaltar la red neuronal).

El mundo del aprendizaje automático está actualmente dominado porun enfoque centrado en el modelo, razón por la cual los ingenieros de ML dedican mucho tiempo a los algoritmos, el segundo componente importante del rendimiento del modelo. La velocidad y precisión del trabajo dependen de la elección del algoritmo. Pero, a pesar de que este enfoque es más simple e interesante para los ingenieros, no se olvide del simple principio de que la basura entra, la basura sale. Si los datos recopilados no son representativos, ningún truco algorítmico ayudará a mejorar la calidad del modelo. Por lo tanto, el enfoque de los ingenieros se está desplazando gradualmente hacia los datos.

Los ingenieros de ML miran cada vez más hacia un ladoIA centrada en datos, cuya idea es recopilar menos datos, pero de mejor calidad. Esto es más eficiente: el desarrollo de algoritmos mejora el rendimiento del modelo en un 0-10% y trabaja con la calidad de los datos en un 10-30%.

Todo comienza con los datos.

En un mundo ideal, una empresa que utilizaLa tecnología de aprendizaje automático respeta la cultura de recopilación de datos. Pero la recopilación de datos es solo el comienzo. Luego viene el lento y costoso proceso de marcado. Siguiendo el concepto de IA basada en datos, los ingenieros de ML pueden lograr un rendimiento del modelo mucho mayor en comparación con el etiquetado de datos "lo más barato posible". Estos son los principios fundamentales de este enfoque:

Pautas de marcado de alta calidad

Tú puedes pensar:¿Por qué formalizar cada punto del proceso de plantear y resolver un problema cuando se puede formular en una frase? Digamos que estamos hablando de marcado de datos para el piloto automático, podría sonar así: "seleccionar todos los peatones en las fotos". Pero los anotadores se encontrarán rápidamente con casos ambiguos, ya sea para señalar a un ciclista, una persona en un scooter o un pasajero en un cuerpo abierto como peatón. Cada anotador dará una respuesta por su cuenta, pero será diferente y destruirá la homogeneidad de los datos. Por lo tanto, es necesario ingresar todos los ejemplos complejos en una base de datos, donde los anotadores, en caso de dificultades, pueden acudir. Pero para que aparezca un documento de este tipo, necesita comentarios de los anotadores.

Retroalimentación

Una base de datos no puede aparecer de la nada.Esto requiere dos condiciones: una cultura de respeto por los comentarios de los anotadores y empleados responsables de mantener actualizada esta base de datos. Como regla general, este es el marcador más experimentado o el propio científico de datos.

Es necesario conectar los recursos a medida que se forma el núcleo del equipo, que siente toda la responsabilidad e importancia del proceso, ayudando a los recién llegados a involucrarse en él.

La base de datos no puede aparecer de la nada

Validación cruzada

La empresa a menudo emplea a más de unanotador con diferentes niveles de habilidad. Por lo tanto, el mismo conjunto de datos se puede etiquetar de diferentes maneras. Por lo tanto, los resultados del trabajo deben verificarse periódicamente. Esto dará una idea de dónde los especialistas encuentran dificultades que deben ingresarse en la base de datos; esto reducirá el factor de error humano.

Pasar datos a través de un científico de datos

Antes de dar a los anotadores los datos para marcar, es útil que el científico de datos se sumerja en los datos y marque los primeros doscientos ejemplos. Esto le permitirá comprender cómo se puede resolver el problema para el modelo.

Aunque la división del trabajo es atractiva desde el puntoEn términos del costo del trabajo, no se debe esperar el mismo nivel de trabajo con datos de anotadores que de científicos de datos: los marcadores no pueden y no deben identificar problemas de aprendizaje automático.

Si tiene que trabajar condatos, necesita conocimiento de la industria. Por ejemplo, si el algoritmo debe reconocer imágenes de rayos X con un tumor, el modelo puede entrenarse correctamente solo si los especialistas vivos están seguros de que hay neoplasias en cada fragmento marcado y que la imagen es defectuosa.

Los ejemplos de "frontera" son importantes

El principio fundamental del marcado manual es que debese inteligente. Durante el proceso de entrenamiento, la red neuronal puede adivinar con qué ejemplos del conjunto de entrenamiento es más probable "tropezar". Es mejor entregarlos para marcarlos manualmente; esto mejorará la calidad del trabajo del modelo en más que millones de ejemplos marcados, entrenamiento en el que el modelo no cometerá errores.

Aumento o síntesis de datos.

Si hay pocos datos o marcado de datos recopiladosdemasiado caro - puedes propagarlos. Por ejemplo, si los datos son textuales, las mismas llamadas de usuario se pueden reformular. Si se trata de imágenes, puede cambiar el brillo, cortar y voltear algunas de las imágenes.

En el aumento de la cantidad de datos, hay otraenfoque es sintetizarlos. Pero tales datos no siempre pueden reemplazar los datos reales, especialmente si la red neuronal produce el mismo tipo o datos idealizados. En este caso, puede usar datos sintéticos solo en ciertos pasos del modelo.

De la teoría a la práctica

Redes sociales

Para proteger a los usuarios y protegerlos denegativo, las redes sociales más grandes están integrando un detector de contenido tóxico basado en aprendizaje automático. En el proceso de trabajo, el principal problema no es la selección de un modelo, sino la recopilación y análisis de datos. El problema es que hay menos contenido tóxico que el contenido normal, por lo que el equipo necesita recopilar una base de datos de dicho contenido en la plataforma, lo que no se puede hacer sin un algoritmo. Por lo tanto, la recopilación de datos ocupa hasta el 90% del tiempo de los científicos de datos. Pero se mejora la calidad del modelo final.

Ventas en línea

Al entrenar un modelo que convierte la recetaA una lista de compras basada en 2 millones de ejemplos, como era de esperar, el modelo mostró una calidad del 97%. A escala, el modelo funcionó muy bien, pero en el caso de un minorista específico, con productos atípicos, la calidad cayó drásticamente a un inaceptable 70%. Para resolver este problema, el equipo de anotaciones se centró en garantizar que no se perdieran datos nuevos en el fondo del conjunto de datos maduro. Fue suficiente entrenar el modelo con un par de miles de ejemplares y la calidad volvió a aumentar al 97%.

La IA también ayuda en el comercio minorista, y no solo al seleccionar los productos preferidos

Producción de transportadores

Una empresa que utilizó inteligencia artificialpara detectar defectos en piezas de una cinta transportadora, obtuvo una precisión del 90% del modelo después del trabajo inicial con los datos. Pero tales indicadores no cumplían con los requisitos del cliente.

En un intento por mejorar el rendimiento del modelo, los ingenieros de ML“pulió” el trabajo de los algoritmos sin trabajar con los datos, lo que mejoró el resultado solo en un 0,4%. Después de volver a analizar los datos, limpiar el conjunto de datos de ejemplos mal etiquetados y volver a etiquetar los datos recién recopilados, el resultado aumentó en un 8 %.

sistema de recomendación

Sistema de recomendación de aplicaciones de recetasmostró constantemente una baja tasa de clics del 5%. Trabajar con algoritmos no ayudó, y el análisis de datos indicó que los clientes cuyos datos se usaron para entrenar el modelo eran en su mayoría vegetarianos, y la población general de usuarios en su mayoría comía carne. Un sistema dirigido a los vegetarianos era pobre para captar los intereses de los demás y estaba muy influenciado por las preferencias de los usuarios vegetarianos. El equilibrio de datos de entrenamiento mejoró las conversiones hasta en un 11 %.

En el pasado, el campo de la inteligencia artificial enSe centró principalmente en big data: la capacitación se llevó a cabo en un extenso conjunto de datos. Aunque todavía hay avances en la creación de este tipo de modelos, la atención se está desplazando gradualmente hacia los datos pequeños y el trabajo con ellos. Esto amplía el umbral de entrada en el campo de la IA: ya se pueden crear soluciones complejas incluso con una pequeña cantidad de datos.

Lee mas:

Un agujero negro en la galaxia le dio la razón a Einstein. Lo principal

El espacio destruye huesos y cambia su estructura: los científicos no saben cómo la gente volará a Marte

Los astrónomos han encontrado planetas que son diferentes a la Tierra, pero aptos para la vida

Tecnología geek en línea

Todo sobre tecnología y gadgets.

Filtrado y diagnóstico de contenido: cómo se enseña a la IA a realizar tareas complejas sin datos

No se necesitan grandes conjuntos de datos

Todo comienza con los datos.

De la teoría a la práctica