Lacuri de date: cum funcționează lacurile de date și de ce sunt necesare

Lacuri, vitrine și depozitare

Imaginați-vă că o companie are acces la informații inepuizabile

Cufundându-se în ea, analiștii obțin în mod regulat informații valoroase despre afaceri și lanseazăAcesta este modul în care funcționează lacurile de date.Acesta este un tip relativ nou de arhitectură de date care vă permite să colectați informații brute și disparate din diferite surse și apoi să găsiți o utilizare eficientă pentru aceasta.Giganți precum Oracle, Amazon și Microsoft au fost primii care au experimentat tehnologia și au dezvoltat, de asemenea, servicii convenabile pentru construirea lacurilor.

Termenul lac de date în sine a fost introdus de James Dixon,fondator al platformei Pentaho. El a comparat stocurile de date cu lacurile de date: primele sunt ca apa îmbuteliată care a fost purificată, filtrată și ambalată. Lacurile sunt corpuri de apă deschise în care apa curge din diferite surse. Vă puteți scufunda în ele sau puteți lua mostre de la suprafață. Există, de asemenea, stocări de date care îndeplinesc sarcini specifice și servesc interese specifice. Pe de altă parte, repozitele Lakeside pot beneficia de mulți jucători dacă sunt folosiți cu înțelepciune.

S-ar părea că fluxul de informații nu face decât să se complicelucrează pentru analiști, deoarece informațiile nu sunt structurate și, în plus, există prea multe dintre ele. Dar dacă compania știe să lucreze cu date și să extragă valoare din acestea, lacul nu devine o „mlaștină”.

Extragerea datelor din „buncăr”

Totuși, care sunt beneficiile lacurilor de date?companii? Principalul lor avantaj este abundența. Depozitul primește informații de la diferite echipe și departamente, care de obicei nu sunt legate între ele. Luați de exemplu o școală online. Diferite departamente își păstrează statisticile și își urmăresc propriile obiective - o echipă monitorizează valorile de păstrare a utilizatorilor, a doua studiază călătoria clienților noilor clienți, iar a treia colectează informații despre absolvenți. Nimeni nu are acces la imaginea completă. Dar dacă acumulați informații disparate într-un singur depozit, puteți găsi modele interesante. De exemplu, se pare că utilizatorii care vin la cursuri de proiectare și au urmărit cel puțin două seminare web au mai multe șanse să ajungă la sfârșitul programului și să își construiască o carieră de succes pe piață. Aceste informații vor ajuta compania să rețină studenții și să creeze un produs mai convingător.

Adesea, modele neașteptate sunt descoperite accidental – de exemplu, un lac de date ajutăAnaliștii de date pot "traversa" experimental diferite fluxuri de informații și pot găsi paralele pe care altfel nu le-ar putea găsi.

Sursele de date pot fi oricare:o școală online va avea statistici de la diferite canale de promovare, o fabrică va avea indicatori senzori IoT, un program de utilizare a mașinilor-unelte și rate de uzură a echipamentelor, o piață va avea informații despre disponibilitatea bunurilor în stoc, statistici de vânzări și date despre cele mai populare metode de plată. Lacurile ajută doar la colectarea și studierea matricilor de informații care, de obicei, nu se intersectează în niciun fel și intră în domeniul atenției diferitelor departamente.

Un alt plus al lacurilor de date este extragerea datelordin depozite diferite și subsisteme închise. Adesea informațiile sunt stocate într-un fel de „buncăr” informațional, acces la care are un singur departament. Este dificil sau imposibil să transferați materiale din acesta - există prea multe restricții. Lacurile rezolvă această problemă.

Deci, există cel puțin opt avantaje ale lacurilor de date:

  • Ajutați analiștii de date să obțină informații valoroase.
  • Permite companiei să ia decizii rapide bazate pe statistici și fapte.
  • Vă permite să experimentați diferite tipuri de date din diferite surse.
  • Faceți procesul de analiză mai democratic și eliminați barierele dintre departamente.
  • Oferiți un nivel ridicat de centralizare și granularitate a datelor - acest lucru vă permite să găsiți un „ac într-un fân”.
  • Potrivit pentru companii de toate dimensiunile - într-un stadiu incipient, puteți începe cu mini-lacuri și să construiți treptat volume.
  • Acestea simplifică procesele de afaceri - de exemplu, vă permit să faceți interogări între domenii și să creați rapoarte complexe despre produse.
  • Sunt mai ieftine decât stocarea, deoarece datele nu trebuie prelucrate în prealabil.

Lacurile sunt necesare în primul rând echipelor distribuite și ramificate.De exemplu, numai tranzacțiile financiare au fost stocate în 25 de baze de date diferite, care au fost aranjate și organizate în moduri diferite.Acest lucru a creat confuzie și inconveniente, iar lacul a ajutat la adunarea tuturor materialelor într-un singur loc și la instalarea unui sistem unificat de protecție a datelor.Acum, analiștii de date și de afaceri, dezvoltatorii și CTO-urile ar putea lua componentele de care au nevoie și le pot procesa folosind diferite instrumente și tehnologii.Iar învățarea automată i-a ajutat pe analiștii Amazon să facă prognoze ultra-precise – acum știu câte cutii de o anumită dimensiune vor fi necesare pentru pachetele din Texas în noiembrie.

Patru pași către lacurile de date

Dar și lacurile de date au dezavantaje.În primul rând, necesită resurse suplimentare și un nivel ridicat de expertiză - doar analiști cu înaltă calificare pot beneficia cu adevărat de acestea. De asemenea, veți avea nevoie de instrumente de Business Intelligence suplimentare pentru a vă ajuta să vă transformați perspectivele într-o strategie coerentă.

O altă problemă este utilizarea terțilorsisteme de întreținere a lacurilor de date. În acest caz, compania depinde de furnizor. Dacă are loc un accident de sistem sau o scurgere de date, acesta poate duce la pierderi financiare mari. Cu toate acestea, principala problemă a lacurilor este hype în jurul tehnologiei. Adesea, companiile adoptă acest format urmând moda, dar nu știu de ce au nevoie de el. Drept urmare, cheltuiesc sume mari, dar nu obțin profit din investiții. Prin urmare, experții sfătuiesc, chiar și în etapa de pregătire pentru lansare, să stabilească ce sarcini de afaceri vor rezolva lacurile.

Experții McKinsey identifică patru etape ale creării lacurilor de date:

  1. Crearea unei platforme de colectare a datelor brute. În această etapă, este important să învățați cum să preluați și să stocați informații.
  2. Dezvoltarea platformei și primele experimente. Analiștii de date încep deja să analizeze datele și să construiască prototipuri analitice.
  3. Integrare strânsă cu stocarea datelor. În acest stadiu, tot mai multe seturi de date se adună la lacuri, iar procesul de navigație este simplificat.
  4. Data Lake devine cheiaarhitectură. Se dezvoltă noi scenarii de aplicații, apar noi programe de completare și servicii cu o interfață ușor de utilizat, compania începe să utilizeze modelul de afaceri „Data-as-a-Service”.

Algoritmi analitici

Nu este nimic fundamental nou în acumularea de date în sine, dar datorită dezvoltării sistemelor cloud, platformelor open-source și, în general, creșterii puterii de calcul, este posibil să lucrăm astăzi cu arhitectura laculuichiar și startup-uri.

Un alt motor al industriei este învățarea automată – tehnologia faciliteazămunca analiștilor și să le ofere mai multe instrumente pentru post-procesare.s-ar îneca în numărul de fișiere, rezumate și tabele acum poate"Alimentați-le" algoritmului și construiți mai repede un model analitic.

Utilizarea lacurilor de date împreună cu AI ajută nu numai la analiza centralizată a statisticilor, ci și la urmărirea tendințelor de-a lungul istoriei companiei.De exemplu, unul dintre colegiile americane a colectat informații despre solicitanți în ultimii 60 de ani.Au fost luate în considerare datele privind numărul de studenți noi, precum și indicatorii ocupării forței de muncă și situația economică generală din țară.Ca urmare, universitatea a ajustat programul astfel încât studenții să-și termine studiile în loc să renunțe la jumătatea drumului.

Ce alte sarcini de afaceri pot rezolva lacurile de date:

  • Alocați resursele în mod eficient pentru a evita stocurile în perioadele de cerere de vârf.
  • Строить более точные прогнозы и предугадывать тренды, а также запускать инновационные продукты раньше конкурентов.
  • Segmentați-vă publicul și identificați interesele chiar și celor mai grupuri de nișă.
  • Creați rapoarte mai detaliate și precise, care vor ajuta la îmbunătățirea valorilor și la creșterea productivității.
  • Personalizați mai eficient algoritmii de promovare și sistemele de recomandare.
  • Economisiți resurse în producție sau în laborator - chiar dacă este o structură complexă precum CERN.

Cu toate acestea, lacurile nu sunt utilizate doar în mediile de afaceri - de exemplu, la începutul pandemiei, AWS a colectat informații despre COVID-19 într-un singur depozit: date de cercetare, articole și rezumate statistice.Informațiile erau actualizate periodic, iar accesul la acestea era oferit gratuit – trebuia să plătești doar pentru instrumentele de analiză.

Lacurile de date nu pot fi considerate universaleinstrument și panaceu, dar într-o eră în care datele sunt considerate noul petrol, este important ca companiile să caute diferite modalități de cercetare și de aplicare a datelor mari. Sarcina principală este centralizarea și consolidarea informațiilor disparate. În era microserviciilor și a echipelor distribuite, apar adesea situații în care un departament nu știe la ce lucrează altul. Din această cauză, afacerea risipește resurse, iar diferiți specialiști îndeplinesc aceleași sarcini, adesea neștiind de aceasta. Aceasta reduce în cele din urmă eficiența și suprasolicită „sistemul de operare” al companiei. Sondajele arată că majoritatea companiilor investesc în lacuri de date pentru a îmbunătăți eficiența operațională. Dar rezultatele depășesc așteptările: adoptatorii timpurii de tehnologie cresc veniturile și profiturile mai repede decât cei care rămân în urmă și, cel mai important, aduc noi produse și servicii pe piață mai repede.

Vezi și:

Ministerul Sănătății din Argentina a dezvăluit date despre efectele secundare la cei care au primit „Sputnik V”

Ornitorincul s-a dovedit a fi un amestec genetic de mamifere, păsări și reptile

Avortul și știința: ce se va întâmpla cu copiii care vor naște