Lagos, vitrinas y almacenamiento
Imaginemos que una empresa tiene acceso a información inagotable
El término lago de datos en sí fue introducido por James Dixon,fundador de la plataforma Pentaho. Comparó los mercados de datos con los lagos de datos: los primeros son como agua embotellada que ha sido purificada, filtrada y envasada. Los lagos son cuerpos de agua abiertos a los que fluye agua de diferentes fuentes. Puede sumergirse en ellos o tomar muestras de la superficie. También hay almacenamientos de datos que realizan tareas específicas y sirven a intereses específicos. Los repositorios de Lakeside, por otro lado, pueden beneficiar a muchos jugadores si se usan con prudencia.
Parecería que el flujo de información solo complicatrabajo para los analistas, porque la información no está estructurada, y además, hay demasiados. Pero si la empresa sabe cómo trabajar con datos y obtener valor de ellos, el lago no se convierte en un pantano.
Extrayendo datos del "búnker"
Aún así, ¿cuáles son los beneficios de los lagos de datos?¿empresas? Su principal ventaja es la abundancia. El repositorio recibe información de diferentes equipos y departamentos, que generalmente no están relacionados entre sí. Tome una escuela en línea, por ejemplo. Los diferentes departamentos mantienen sus estadísticas y persiguen sus propios objetivos: un equipo monitorea las métricas de retención de usuarios, el segundo estudia el recorrido del cliente de los nuevos clientes y el tercero recopila información sobre los graduados. Nadie tiene acceso a la imagen completa. Pero si acumula información dispar en un solo repositorio, puede encontrar patrones interesantes. Por ejemplo, resulta que los usuarios que vienen a diseñar cursos y vieron al menos dos webinars tienen más probabilidades de llegar al final del programa y construir una carrera exitosa en el mercado. Esta información ayudará a la empresa a retener a los estudiantes y crear un producto más atractivo.
A menudo, los patrones inesperados se descubren por accidente, por ejemplo, un lago de datos ayuda aLos analistas de datos pueden "cruzar" experimentalmente diferentes flujos de información y encontrar paralelismos que de otro modo no encontrarían.
Las fuentes de datos pueden ser cualquiera:una escuela en línea tendrá estadísticas de diferentes canales de promoción, una fábrica tendrá indicadores de sensores de IoT, un cronograma de uso de la máquina herramienta y tasas de desgaste de los equipos, un mercado tendrá información sobre la disponibilidad de productos en stock, estadísticas de ventas y datos sobre los métodos de pago más populares. Los lagos solo ayudan a recopilar y estudiar conjuntos de información que generalmente no se cruzan de ninguna manera y entran en el campo de atención de diferentes departamentos.
Otra ventaja de los lagos de datos es la extracción de datos.desde repositorios dispares y subsistemas cerrados. A menudo, la información se almacena en una especie de "búnker" de información, al que sólo tiene acceso un departamento. Es difícil o imposible transferir materiales desde él; hay demasiadas restricciones. Los lagos resuelven este problema.
Por lo tanto, existen al menos ocho ventajas de los lagos de datos:
- Ayude a los analistas de datos a obtener información valiosa.
- Permite a la empresa tomar decisiones rápidas basadas en estadísticas y hechos.
- Le permite experimentar con diferentes tipos de datos de diferentes fuentes.
- Democratizar el proceso de análisis y eliminar las barreras entre departamentos.
- Proporcione un alto nivel de centralización y granularidad de datos: esto le permite encontrar una "aguja en un pajar".
- Adecuado para empresas de todos los tamaños: en una etapa temprana, puede comenzar con mini-lagos y aumentar gradualmente los volúmenes.
- Simplifican los procesos comerciales; por ejemplo, le permiten realizar consultas entre dominios y crear informes de productos complejos.
- Son más baratos que el almacenamiento porque los datos no necesitan procesarse previamente.
Los lagos son necesarios principalmente para equipos distribuidos y ramificados.Por ejemplo, sólo las transacciones financieras se almacenaban en 25 bases de datos diferentes, que se organizaban de diferentes maneras.Esto creó confusión e inconvenientes, y el lago ayudó a reunir todos los materiales en un solo lugar e instalar un sistema unificado de protección de datos.Ahora, los analistas de datos y negocios, los desarrolladores y los directores de tecnología podían tomar los componentes que necesitaban y procesarlos utilizando diferentes herramientas y tecnologías.Y el aprendizaje automático ha ayudado a los analistas de Amazon a hacer pronósticos ultraprecisos: ahora saben cuántas cajas de cierto tamaño se necesitarán para los paquetes en Texas en noviembre.
Cuatro pasos para los lagos de datos
Pero los lagos de datos también tienen desventajas.En primer lugar, requieren recursos adicionales y un alto nivel de experiencia; solo los analistas altamente calificados pueden beneficiarse realmente de ellos. También necesitará herramientas de inteligencia empresarial adicionales para ayudar a transformar sus conocimientos en una estrategia coherente.
Otro problema es el uso de tercerossistemas para mantener lagos de datos. En este caso, la empresa depende del proveedor. Si se produce un fallo del sistema o una fuga de datos, puede provocar grandes pérdidas económicas. Sin embargo, el principal problema de los lagos es la exageración en torno a la tecnología. A menudo, las empresas adoptan este formato siguiendo la moda, pero no saben por qué realmente lo necesitan. Como resultado, gastan grandes sumas, pero no obtienen retorno de la inversión. Por lo tanto, los expertos aconsejan, incluso en la etapa de preparación para el lanzamiento, para determinar qué tareas comerciales resolverán los lagos.
Los expertos de McKinsey identifican cuatro etapas para crear lagos de datos:
- Creación de una plataforma para la recolección de datos brutos. En esta etapa, es importante aprender a recuperar y almacenar información.
- Desarrollo de plataforma y primeros experimentos. Los analistas de datos ya están comenzando a analizar datos y a construir prototipos analíticos.
- Estrecha integración con el almacenamiento de datos. En esta etapa, se recopilan cada vez más grandes cantidades de datos en los lagos y se simplifica el proceso de navegación.
- El lago de datos se vuelve clavearquitectura. Se están desarrollando nuevos escenarios de aplicaciones, aparecen nuevos complementos y servicios con una interfaz fácil de usar, la empresa comienza a utilizar el modelo de negocio Data-as-a-Service.
Algoritmos analíticos
No hay nada fundamentalmente nuevo en la acumulación de datos en sí, pero gracias al desarrollo de sistemas en la nube, plataformas de código abierto y, en general, un aumento en el poder de cómputo, es posible trabajar con arquitectura de lago hoy en díaincluso startups.
Otro impulsor de la industria es el aprendizaje automático: la tecnología facilita latrabajo de los analistas y darles más herramientas para el post-procesamiento.se estaría ahogando en la cantidad de archivos, resúmenes y tablas que ahora puede"alimentarlos" con el algoritmo y construir un modelo analítico más rápido.
El uso de lagos de datos junto con la IA ayuda no solo a analizar las estadísticas de forma centralizada, sino también a realizar un seguimiento de las tendencias a lo largo de la historia de la empresa.Por ejemplo, una de las universidades estadounidenses recopiló información sobre los solicitantes durante los últimos 60 años.Se tuvieron en cuenta los datos sobre el número de nuevos estudiantes, así como los indicadores de empleo y la situación económica general del país.Como resultado, la universidad ajustó el programa para que los estudiantes terminaran sus estudios en lugar de abandonarlos a mitad de camino.
¿Qué otras tareas comerciales pueden resolver los lagos de datos?
- Asigne recursos de manera eficiente para evitar desabastecimientos durante los períodos de máxima demanda.
- Cree pronósticos más precisos y anticipe tendencias, y lance productos innovadores antes que sus competidores.
- Segmenta tu audiencia e identifica los intereses de incluso los grupos más especializados.
- Cree informes más detallados y precisos para ayudar a mejorar las métricas y aumentar la productividad.
- Personalice de manera más eficiente los algoritmos de promoción y los sistemas de recomendación.
- Ahorre recursos en la producción o en el laboratorio, incluso si se trata de una estructura compleja como el CERN.
Sin embargo, los lagos no solo se utilizan en entornos empresariales: por ejemplo, al comienzo de la pandemia, AWS recopiló información sobre la COVID-19 en un único repositorio: datos de investigación, artículos y resúmenes estadísticos.La información se actualizaba regularmente y el acceso a ella era gratuito: solo tenía que pagar por las herramientas de análisis.
Los lagos de datos no pueden considerarse universalesherramienta y panacea, pero en una era en la que los datos se consideran el nuevo petróleo, es importante que las empresas busquen diferentes formas de investigar y aplicar big data. La tarea principal es centralizar y consolidar información dispar. En la era de los microservicios y los equipos distribuidos, a menudo surgen situaciones en las que un departamento no sabe en qué está trabajando otro. Debido a esto, la empresa desperdicia recursos y diferentes especialistas realizan las mismas tareas, muchas veces sin darse cuenta. En última instancia, esto reduce la eficiencia y sobrecarga el "sistema operativo" de la empresa. Las encuestas muestran que la mayoría de las empresas invierten en lagos de datos para mejorar la eficiencia operativa. Pero los resultados superan las expectativas: los primeros en adoptar la tecnología aumentan los ingresos y las ganancias más rápido que los que se quedan atrás y, lo que es más importante, llevan nuevos productos y servicios al mercado más rápido.
Ver tambien
El Ministerio de Salud de Argentina divulgó datos sobre efectos secundarios en quienes recibieron "Sputnik V"
El ornitorrinco resultó ser una mezcla genética de mamíferos, aves y reptiles
Aborto y ciencia: que pasará con los niños que darán a luz