Lacs de données: comment fonctionnent les lacs de données et pourquoi ils sont nécessaires

Lacs, vitrines et stockage

Imaginez qu'une entreprise ait accès à des informations inépuisables

ressource - s'y plongeant, les analystes régulièrementobtenez des informations commerciales précieuses et lancez de nouveaux et meilleurs produits. Les lacs de données fonctionnent approximativement sur ce principe. Il s'agit d'un type relativement nouveau d'architecture de données qui vous permet de rassembler des informations brutes et dispersées provenant de différentes sources, puis d'en trouver une utilisation efficace. Des géants comme Oracle, Amazon et Microsoft ont été les premiers à expérimenter cette technologie ; ils ont également développé des services pratiques pour la construction de lacs.

Le terme data lake lui-même a été introduit par James Dixon,fondateur de la plateforme Pentaho. Il a comparé les data marts aux data lake: les premiers sont comme de l'eau embouteillée qui a été purifiée, filtrée et conditionnée. Les lacs sont des plans d'eau ouverts dans lesquels l'eau s'écoule de différentes sources. Vous pouvez y plonger ou prélever des échantillons de la surface. Il existe également des stockages de données qui effectuent des tâches spécifiques et servent des intérêts spécifiques. Les dépôts au bord du lac, en revanche, peuvent bénéficier à de nombreux joueurs s'ils sont utilisés à bon escient.

Il semblerait que le flux d'informations ne fait que compliquertravailler pour les analystes, car les informations ne sont pas structurées, et en plus, il y en a trop. Mais si l'entreprise sait travailler avec les données et en tirer de la valeur, le lac ne devient pas un marais.

Extraction des données du "bunker"

Pourtant, quels sont les avantages des lacs de données?entreprises? Leur principal avantage est l'abondance. Le référentiel reçoit des informations de différentes équipes et départements, qui ne sont généralement pas liés les uns aux autres. Prenons par exemple une école en ligne. Différents services conservent leurs statistiques et poursuivent leurs propres objectifs: une équipe surveille les mesures de fidélisation des utilisateurs, la seconde étudie le parcours client des nouveaux clients et la troisième collecte des informations sur les diplômés. Personne n'a accès à l'image complète. Mais si vous accumulez des informations disparates dans un seul référentiel, vous pouvez trouver des modèles intéressants. Par exemple, il s'avère que les utilisateurs qui viennent suivre des cours de conception et ont regardé au moins deux webinaires sont plus susceptibles d'atteindre la fin du programme et de se bâtir une carrière réussie sur le marché. Ces informations aideront l'entreprise à retenir les étudiants et à créer un produit plus convaincant.

Des modèles souvent inattendus sont découvertspar hasard - ainsi, un lac de données aide les analystes de données à « croiser » expérimentalement différents flux d'informations et à trouver des parallèles qu'ils n'auraient guère découverts dans d'autres circonstances.

Les sources de données peuvent être:une école en ligne aura des statistiques de différents canaux de promotion, une usine aura des indicateurs de capteur IoT, un calendrier d'utilisation des machines-outils et des taux d'usure des équipements, une place de marché aura des informations sur la disponibilité des marchandises en stock, des statistiques de ventes et des données sur les méthodes de paiement les plus populaires. Les lacs aident simplement à collecter et à étudier des tableaux d'informations, qui ne se recoupent généralement d'aucune façon et sont portés à l'attention de différents départements.

L'extraction de données est un autre avantage des lacs de donnéesà partir de référentiels disparates et de sous-systèmes fermés. Souvent, les informations sont stockées dans une sorte de "bunker" d'informations, accès auquel un seul département a accès. Il est difficile voire impossible d'en transférer des matériaux - il y a trop de restrictions. Les lacs résolvent ce problème.

Ainsi, les lacs de données présentent au moins huit avantages:

  • Aidez les analystes de données à obtenir des informations précieuses.
  • Permet à l'entreprise de prendre des décisions rapides basées sur des statistiques et des faits.
  • Vous permet d'expérimenter différents types de données provenant de différentes sources.
  • Rendre le processus d'analyse plus démocratique et éliminer les barrières entre les services.
  • Fournissez un niveau élevé de centralisation et de granularité des données - cela vous permet de trouver une «aiguille dans une botte de foin».
  • Convient aux entreprises de toutes tailles - à un stade précoce, vous pouvez commencer avec des mini-lacs et augmenter progressivement les volumes.
  • Ils simplifient les processus métier - par exemple, ils vous permettent d'effectuer des requêtes entre domaines et de créer des rapports produits complexes.
  • Ils sont moins chers que le stockage car les données n'ont pas besoin d'être prétraitées.

Les lacs sont principalement nécessaires aux populations distribuées etéquipes ramifiées. Un exemple classique est Amazon. La société a accumulé des données provenant de milliers de sources différentes. Ainsi, les seules transactions financières étaient stockées dans 25 bases de données différentes, conçues et organisées de différentes manières. Cela a créé de la confusion et des désagréments. Le lac a permis de rassembler tous les matériaux en un seul endroit et d'établir un système unifié de protection des données. Désormais, les spécialistes (analystes de données et analystes commerciaux, développeurs et CTO) pouvaient prendre les composants dont ils avaient besoin et les traiter à l'aide de différents outils et technologies. Et l'apprentissage automatique a aidé les analystes d'Amazon à faire des prévisions ultra précises : ils savent désormais combien de cartons d'une certaine taille seront nécessaires pour les colis au Texas en novembre.

Quatre étapes vers des lacs de données

Mais les lacs de données présentent également des inconvénients.Tout d'abord, ils nécessitent des ressources supplémentaires et un haut niveau d'expertise - seuls des analystes hautement qualifiés peuvent réellement en bénéficier. Vous aurez également besoin d'outils de Business Intelligence supplémentaires pour vous aider à transformer vos connaissances en une stratégie cohérente.

Un autre problème est l'utilisation de tierssystèmes pour maintenir les lacs de données. Dans ce cas, l'entreprise dépend du fournisseur. En cas de panne du système ou de fuite de données, cela peut entraîner des pertes financières importantes. Cependant, le principal problème des lacs est le battage médiatique autour de la technologie. Souvent, les entreprises adoptent ce format à la mode, mais ne savent pas pourquoi elles en ont réellement besoin. En conséquence, ils dépensent des sommes importantes, mais n'obtiennent pas de retour sur investissement. Par conséquent, les experts conseillent, même au stade de la préparation du lancement, de déterminer les tâches commerciales que les lacs vont résoudre.

Les experts de McKinsey identifient quatre étapes de création de lacs de données:

  1. Création d'une plateforme de collecte de données brutes. À ce stade, il est important d'apprendre à récupérer et à stocker des informations.
  2. Développement de la plateforme et premières expériences. Les analystes de données commencent déjà à analyser les données et à construire des prototypes analytiques.
  3. Intégration étroite avec le stockage de données. À ce stade, de plus en plus de données circulent dans les lacs et le processus de navigation est simplifié.
  4. Le lac de données devient cléarchitecture. De nouveaux scénarios d'application se développent, de nouveaux modules complémentaires et services avec une interface conviviale apparaissent, la société commence à utiliser le modèle commercial Data-as-a-Service.

Algorithmes analytiques

Il n'y a rien dans l'accumulation de données elle-mêmefondamentalement nouveau, mais grâce au développement des systèmes cloud, des plates-formes open source et à l'augmentation générale de la puissance des ordinateurs, même les startups peuvent aujourd'hui travailler avec l'architecture lacustre.

Un autre moteur de l'industrie était la machineformation - la technologie simplifie en partie le travail des analystes et leur donne plus d'outils de post-traitement. Si auparavant un spécialiste était noyé sous le nombre de fichiers, de résumés et de tableaux, il peut désormais les « alimenter » en algorithme et construire rapidement un modèle analytique.

L’utilisation de lacs de données en combinaison avec l’IA aidenon seulement analyser les statistiques de manière centralisée, mais également suivre les tendances tout au long de l'histoire de l'entreprise. Ainsi, l'un des collèges américains a collecté des informations sur les candidats au cours des 60 dernières années. Les données sur le nombre de nouveaux étudiants, ainsi que les indicateurs de l'emploi et la situation économique générale du pays ont été pris en compte. En conséquence, l’université a adapté le programme afin que les étudiants terminent leurs études plutôt que d’abandonner les cours à mi-parcours.

Quelles autres tâches métier les lacs de données peuvent-ils résoudre:

  • Allouez les ressources efficacement pour éviter les ruptures de stock pendant les périodes de pointe.
  • Construisez des prévisions plus précises et prévoyez les tendances, et lancez des produits innovants avant vos concurrents.
  • Segmentez votre public et identifiez les intérêts des groupes les plus spécialisés.
  • Créez des rapports plus détaillés et précis qui aideront à améliorer les métriques et à augmenter la productivité.
  • Personnalisez plus efficacement les algorithmes de promotion et les systèmes de recommandation.
  • Économisez des ressources en production ou en laboratoire - même s'il s'agit d'une structure complexe comme le CERN.

Cependant, les lacs ne sont pas utilisés uniquement pourenvironnement commercial - par exemple, au début de la pandémie, AWS a collecté des informations sur le COVID-19 dans un référentiel unique : données de recherche, articles, rapports statistiques. Les informations étaient régulièrement mises à jour et l'accès était gratuit : il suffisait de payer pour les outils d'analyse.

Les lacs de données ne peuvent pas être considérés comme universelsoutil et panacée, mais à une époque où les données sont considérées comme le nouveau pétrole, il est important pour les entreprises de rechercher différentes façons de rechercher et d'appliquer les mégadonnées. La tâche principale est de centraliser et de consolider des informations disparates. À l'ère des microservices et des équipes distribuées, des situations surviennent souvent où un département ne sait pas sur quoi un autre travaille. Pour cette raison, l'entreprise gaspille des ressources et différents spécialistes effectuent les mêmes tâches, souvent sans le savoir. Cela réduit finalement l'efficacité et surcharge le «système d'exploitation» de l'entreprise. Les enquêtes montrent que la plupart des entreprises investissent dans des lacs de données pour améliorer leur efficacité opérationnelle. Mais les résultats dépassent les attentes: les premiers utilisateurs de la technologie augmentent leurs revenus et leurs bénéfices plus rapidement que ceux qui sont à la traîne, et surtout, ils commercialisent plus rapidement de nouveaux produits et services.

Voir aussi:

Le ministère de la Santé de l'Argentine a divulgué des données sur les effets secondaires chez ceux qui ont reçu "Spoutnik V"

Platypus s'est avéré être un mélange génétique de mammifères, d'oiseaux et de reptiles

Avortement et science: qu'arrivera-t-il aux enfants qui accoucheront