Data lake: come funzionano i data lake e perché sono necessari

Laghi, vetrine e rimessaggio

Immagina che un'azienda abbia accesso a informazioni inesauribili

risorsa: immergendosi in essa, gli analisti regolarmenteottenere preziose informazioni aziendali e lanciare prodotti nuovi e migliori. I data Lake funzionano approssimativamente su questo principio. Si tratta di un tipo relativamente nuovo di architettura dei dati che consente di riunire informazioni grezze e sparse provenienti da diverse fonti e quindi trovarne un utilizzo efficace. Giganti come Oracle, Amazon e Microsoft sono stati i primi a sperimentare la tecnologia e hanno anche sviluppato comodi servizi per la costruzione dei laghi.

Il termine data lake stesso è stato introdotto da James Dixon,fondatore della piattaforma Pentaho. Ha paragonato i data mart ai data lake: i primi sono come l'acqua in bottiglia che è stata purificata, filtrata e confezionata. I laghi sono corpi idrici aperti in cui l'acqua scorre da diverse fonti. Puoi tuffarti in loro o puoi prelevare campioni dalla superficie. Esistono anche archivi di dati che svolgono compiti specifici e servono interessi specifici. I pronti contro termine sul lago, d'altra parte, possono avvantaggiare molti giocatori se usati con saggezza.

1 SEMBRA che il flusso di informazioni complichi sololavora per gli analisti, perché le informazioni non sono strutturate, e poi ce ne sono troppe. Ma se l'azienda sa lavorare con i dati e ricavarne valore, il lago non diventa una palude.

Estrazione dei dati dal "bunker"

Tuttavia, quali sono i vantaggi dei data lake?aziende? Il loro principale vantaggio è l'abbondanza. Il repository riceve informazioni da diversi team e dipartimenti, che di solito non sono correlati tra loro. Prendiamo ad esempio una scuola online. Diversi reparti conservano le proprie statistiche e perseguono i propri obiettivi: un team monitora le metriche di fidelizzazione degli utenti, il secondo studia il percorso del cliente di nuovi clienti e il terzo raccoglie informazioni sui laureati. Nessuno ha accesso al quadro completo. Ma se accumuli informazioni disparate in un unico repository, puoi trovare modelli interessanti. Ad esempio, risulta che gli utenti che vengono a corsi di progettazione e hanno guardato almeno due webinar hanno maggiori probabilità di raggiungere la fine del programma e costruire una carriera di successo nel mercato. Queste informazioni aiuteranno l'azienda a trattenere gli studenti e a creare un prodotto più convincente.

Spesso vengono scoperti modelli inaspettatiper caso: quindi, un data Lake aiuta gli analisti di dati a “incrociare” sperimentalmente diversi flussi di informazioni e a trovare paralleli che difficilmente avrebbero scoperto in altre circostanze.

Le origini dati possono essere qualsiasi:una scuola online disporrà di statistiche da diversi canali di promozione, una fabbrica disporrà di indicatori di sensori IoT, un programma di utilizzo di macchine utensili e tassi di usura delle apparecchiature, un mercato avrà informazioni sulla disponibilità di merci in magazzino, statistiche di vendita e dati sui metodi di pagamento più diffusi. I laghi aiutano solo a raccogliere e studiare matrici di informazioni che di solito non si intersecano in alcun modo e cadono nel campo dell'attenzione dei diversi dipartimenti.

Un altro vantaggio dei data lake è l'estrazione dei datida archivi disparati e sottosistemi chiusi. Spesso le informazioni sono immagazzinate in una sorta di "bunker" informativo, di cui ha accesso un solo dipartimento. È difficile o impossibile trasferire materiali da esso: ci sono troppe restrizioni. I laghi risolvono questo problema.

Quindi, ci sono almeno otto vantaggi dei data lake:

  • Aiuta gli analisti di dati a ottenere informazioni preziose.
  • Consente all'azienda di prendere decisioni rapide in base a statistiche e fatti.
  • Consente di sperimentare diversi tipi di dati da diverse fonti.
  • Rendi il processo di analisi più democratico e rimuovi le barriere tra i reparti.
  • Fornire un alto livello di centralizzazione e granularità dei dati: ciò consente di trovare un "ago in un pagliaio".
  • Adatto ad aziende di tutte le dimensioni: in una fase iniziale, puoi iniziare con mini-laghi e aumentare gradualmente i volumi.
  • Semplificano i processi aziendali, ad esempio consentono di eseguire query tra domini e creare report sui prodotti complessi.
  • Sono più economici dell'archiviazione perché i dati non devono essere pre-elaborati.

I laghi sono necessari principalmente per distribuiti esquadre ramificate. Un classico esempio è Amazon. La società ha accumulato dati da migliaia di fonti diverse. Pertanto, solo le transazioni finanziarie sono state archiviate in 25 database diversi, progettati e organizzati in modi diversi. Ciò ha creato confusione e disagi. Il lago ha contribuito a raccogliere tutti i materiali in un unico posto e a istituire un sistema unificato di protezione dei dati. Ora gli specialisti - analisti di dati e aziendali, sviluppatori e CTO - potevano prendere i componenti di cui avevano bisogno ed elaborarli utilizzando diversi strumenti e tecnologie. E l'apprendimento automatico ha aiutato gli analisti di Amazon a fare previsioni estremamente accurate: ora sanno quante scatole di una certa dimensione saranno necessarie per i pacchi in Texas a novembre.

Quattro passaggi per i data lake

Ma i data lake hanno anche degli svantaggi.Prima di tutto, richiedono risorse aggiuntive e un alto livello di competenza: solo analisti altamente qualificati possono trarne vantaggio. Avrai anche bisogno di ulteriori strumenti di Business Intelligence per trasformare le tue intuizioni in una strategia coerente.

Un altro problema è l'uso di terze partisistemi per mantenere i data lake. In questo caso, l'azienda dipende dal provider. Se si verifica un arresto anomalo del sistema o una perdita di dati, possono verificarsi ingenti perdite finanziarie. Tuttavia, il problema principale dei laghi è il clamore intorno alla tecnologia. Spesso le aziende adottano questo formato seguendo la moda, ma non sanno perché ne hanno effettivamente bisogno. Di conseguenza, spendono somme ingenti, ma non ottengono un ritorno sull'investimento. Pertanto, gli esperti consigliano, anche nella fase di preparazione per il lancio, di determinare quali compiti aziendali risolveranno i laghi.

Gli esperti di McKinsey identificano quattro fasi della creazione di data lake:

  1. Creazione di una piattaforma per la raccolta di dati grezzi. In questa fase, è importante imparare a recuperare e memorizzare le informazioni.
  2. Sviluppo della piattaforma e primi esperimenti. Gli analisti di dati stanno già iniziando ad analizzare i dati e costruire prototipi analitici.
  3. Stretta integrazione con l'archiviazione dei dati. In questa fase, sempre più set di dati affollano i laghi e il processo di navigazione è semplificato.
  4. Il data lake diventa fondamentalearchitettura. Nuovi scenari applicativi si sviluppano, compaiono nuovi componenti aggiuntivi e servizi con un'interfaccia user-friendly, l'azienda inizia a utilizzare il modello di business Data-as-a-Service.

Algoritmi analitici

Non c'è nulla nell'accumulo di dati in séfondamentalmente nuovo, ma grazie allo sviluppo di sistemi cloud, piattaforme open source e un aumento generale della potenza informatica, oggi anche le startup possono lavorare con l’architettura del lago.

Un altro motore del settore era la macchinaformazione: la tecnologia semplifica in parte il lavoro degli analisti e fornisce loro più strumenti per la post-elaborazione. Se prima uno specialista sarebbe stato sommerso dal numero di file, riassunti e tabelle, ora può “darli in pasto” all’algoritmo e costruire rapidamente un modello analitico.

L’uso dei data Lake in combinazione con l’intelligenza artificiale aiutanon solo analizzare centralmente le statistiche, ma anche monitorare le tendenze nel corso della storia dell'azienda. Pertanto, uno dei college americani ha raccolto informazioni sui candidati negli ultimi 60 anni. Sono stati presi in considerazione i dati sul numero di nuovi studenti, nonché gli indicatori occupazionali e la situazione economica generale del paese. Di conseguenza, l'università ha adattato il programma in modo che gli studenti completassero i loro studi anziché abbandonarli a metà.

Quali altre attività aziendali possono risolvere i data lake:

  • Allocare le risorse in modo efficiente per evitare la scorta di scorte durante i periodi di picco della domanda.
  • Crea previsioni più accurate e anticipa le tendenze e lancia prodotti innovativi prima della concorrenza.
  • Segmenta il tuo pubblico e identifica gli interessi anche dei gruppi più di nicchia.
  • Crea rapporti più dettagliati e accurati che aiuteranno a migliorare le metriche e aumentare la produttività.
  • Personalizza in modo più efficiente algoritmi di promozione e sistemi di raccomandazione.
  • Risparmia risorse in produzione o in laboratorio, anche se si tratta di una struttura complessa come il CERN.

Tuttavia, i laghi non vengono utilizzati solo percontesto aziendale: ad esempio, all'inizio della pandemia, AWS ha raccolto informazioni su COVID-19 in un unico repository: dati di ricerca, articoli, rapporti statistici. Le informazioni venivano aggiornate regolarmente e l'accesso era gratuito: dovevi pagare solo per gli strumenti di analisi.

I data lake non possono essere considerati universalistrumento e panacea, ma in un'epoca in cui i dati sono considerati il ​​nuovo petrolio, è importante per le aziende cercare modi diversi per ricercare e applicare i big data. Il compito principale è centralizzare e consolidare informazioni disparate. Nell'era dei microservizi e dei team distribuiti, spesso si verificano situazioni in cui un reparto non sa su cosa sta lavorando un altro. Per questo motivo, l'azienda spreca risorse e diversi specialisti svolgono le stesse attività, spesso inconsapevoli. Ciò alla fine riduce l'efficienza e sovraccarica il "sistema operativo" dell'azienda. I sondaggi mostrano che la maggior parte delle aziende investe in data lake per migliorare l'efficienza operativa. Ma i risultati superano le aspettative: i primi utenti della tecnologia aumentano i ricavi e i profitti più velocemente di quelli che sono in ritardo e, soprattutto, portano sul mercato nuovi prodotti e servizi più velocemente.

Vedi anche:

Il Ministero della Salute dell'Argentina ha divulgato i dati sugli effetti collaterali in coloro che hanno ricevuto "Sputnik V"

L'ornitorinco si è rivelato una miscela genetica di mammiferi, uccelli e rettili

Aborto e scienza: cosa succederà ai bambini che partoriranno