Datasjøer: hvordan datasjøer fungerer og hvorfor de er nødvendige

Innsjøer, utstillingsvinduer og lagring

Tenk deg at en bedrift har tilgang til uuttømmelig informasjon

ressurs - fordyper seg i det, analytikere regelmessigfå verdifull forretningsinnsikt og lansere nye, bedre produkter. Datainnsjøer fungerer omtrent etter dette prinsippet. Dette er en relativt ny type dataarkitektur som lar deg samle rå og spredt informasjon fra forskjellige kilder, og deretter finne effektiv bruk for den. Kjemper som Oracle, Amazon og Microsoft var de første som eksperimenterte med teknologien de utviklet også praktiske tjenester for å bygge innsjøer.

Begrepet data lake selv ble introdusert av James Dixon,grunnlegger av Pentaho-plattformen. Han sammenlignet datamarts med datasjøer: førstnevnte er som flaskevann som er renset, filtrert og pakket. Innsjøer er åpne vannmasser der vann strømmer fra forskjellige kilder. Du kan dykke ned i dem, eller du kan ta prøver fra overflaten. Det er også datalagre som utfører spesifikke oppgaver og tjener spesifikke interesser. Lakeside repos, derimot, kan være til fordel for mange spillere hvis de brukes klokt.

Det ser ut til at informasjonsflyten bare komplisererjobbe for analytikere, fordi informasjonen ikke er strukturert, og dessuten er det for mange av dem. Men hvis selskapet vet å jobbe med data og få verdi av det, blir ikke innsjøen et sump.

Henter ut data fra "bunkeren"

Likevel, hva er fordelene med datasjøer?selskaper? Deres største fordel er overflod. Datalageret mottar informasjon fra forskjellige team og avdelinger, som vanligvis ikke er relatert til hverandre. Ta en online skole for eksempel. Ulike avdelinger fører statistikken og forfølger sine egne mål - det ene teamet overvåker beregningene for brukeroppbevaring, det andre studerer kundereisen til nye kunder, og det tredje samler informasjon om kandidater. Ingen har tilgang til hele bildet. Men hvis du samler ulik informasjon i et enkelt depot, kan du finne interessante mønstre. For eksempel viser det seg at brukere som kommer på designkurs og så minst to webinarer, er mer sannsynlig å komme til slutten av programmet og bygge en vellykket karriere i markedet. Denne informasjonen vil hjelpe selskapet å beholde studenter og skape et mer overbevisende produkt.

Ofte oppdages uventede mønstreved en tilfeldighet - dermed hjelper en datainnsjø dataanalytikere eksperimentelt å "krysse" forskjellige strømmer av informasjon og finne paralleller som de neppe ville ha oppdaget under andre omstendigheter.

Datakilder kan være hvilke som helst:en nettskole vil ha statistikk fra forskjellige kampanjekanaler, en fabrikk vil ha IoT-sensorindikatorer, en tidsplan for bruk av maskinverktøy og slitasjehastigheter, en markedsplass vil ha informasjon om tilgjengeligheten av varer på lager, salgsstatistikk og data om de mest populære betalingsmåtene. Innsjøer hjelper bare til å samle og studere matriser med informasjon som vanligvis ikke krysser på noen måte og faller inn under oppmerksomheten til forskjellige avdelinger.

Et annet pluss med datasjøer er datautvinningfra forskjellige arkiver og lukkede undersystemer. Ofte lagres informasjon i en slags informasjons "bunker", tilgang som bare en avdeling har. Det er vanskelig eller umulig å overføre materiale fra det - det er for mange begrensninger. Innsjøer løser dette problemet.

Så det er minst åtte fordeler med datasjøer:

  • Hjelp dataanalytikere med å få verdifull innsikt.
  • Tillater selskapet å ta raske beslutninger basert på statistikk og fakta.
  • Lar deg eksperimentere med forskjellige typer data fra forskjellige kilder.
  • Gjør analyseprosessen mer demokratisk og fjern barrierer mellom avdelingene.
  • Gi et høyt nivå av datasentralisering og granularitet - dette lar deg finne en "nål i en høstak".
  • Passer for selskaper i alle størrelser - på et tidlig stadium kan du starte med minisjøer og gradvis bygge opp volumer.
  • De forenkler forretningsprosesser - for eksempel lar de deg gjøre spørsmål på tvers av domener og lage komplekse produktrapporteringer.
  • De er billigere enn lagring fordi dataene ikke trenger å bli behandlet på forhånd.

Innsjøer trengs primært av distribuert ogforgrenede lag. Et klassisk eksempel er Amazon. Selskapet har samlet data fra tusenvis av forskjellige kilder. Dermed ble økonomiske transaksjoner alene lagret i 25 ulike databaser, som ble designet og organisert på ulike måter. Dette skapte forvirring og ubehag. Innsjøen bidro til å samle alt materiale på ett sted og etablere et enhetlig databeskyttelsessystem. Nå kunne spesialister - data- og forretningsanalytikere, utviklere og CTOer - ta komponentene de trengte og behandle dem ved hjelp av forskjellige verktøy og teknologier. Og maskinlæring har hjulpet Amazon-analytikere med å lage ultranøyaktige prognoser – nå vet de hvor mange bokser av en viss størrelse som vil være nødvendig for pakker i Texas i november.

Fire trinn til datasjøer

Men datasjøer har også ulemper.Først og fremst krever de ekstra ressurser og høy kompetanse - bare høyt kvalifiserte analytikere kan virkelig ha nytte av dem. Du trenger også flere Business Intelligence-verktøy for å transformere innsikten din til en sammenhengende strategi.

Et annet problem er bruken av tredjepartsystemer for å opprettholde datasjøer. I dette tilfellet er selskapet avhengig av leverandøren. Hvis det oppstår et systemkrasj eller datalekkasje, kan det føre til store økonomiske tap. Imidlertid er det største problemet med innsjøene sprøytenarkoman rundt teknologien. Ofte bruker selskaper dette formatet etter mote, men vet ikke hvorfor de virkelig trenger det. Som et resultat bruker de store summer, men oppnår ikke avkastning på investeringen. Derfor anbefaler eksperter, selv i forberedelsesfasen for lanseringen, å bestemme hvilke forretningsoppgaver innsjøene skal løse.

McKinsey-eksperter identifiserer fire trinn for å lage datasjøer:

  1. Opprettelse av en plattform for innsamling av rådata. På dette stadiet er det viktig å lære å hente og lagre informasjon.
  2. Plattformutvikling og første eksperimenter. Dataanalytikere begynner allerede å analysere data og bygge analytiske prototyper.
  3. Tett integrasjon med datalagring. På dette stadiet strømmer flere og flere datasett til innsjøene, og navigasjonsprosessen forenkles.
  4. Data lake blir nøkkelenarkitektur. Nye applikasjonsscenarier er under utvikling, nye tillegg og tjenester med et brukervennlig grensesnitt dukker opp, selskapet begynner å bruke forretningsmodellen Data-as-a-Service.

Analytiske algoritmer

Det er ingenting i selve akkumuleringen av datafundamentalt nytt, men takket være utviklingen av skysystemer, åpen kildekode-plattformer og en generell økning i datakraft, kan i dag til og med startups jobbe med innsjøarkitektur.

En annen driver av industrien var maskinopplæring - teknologi forenkler delvis arbeidet til analytikere og gir dem flere verktøy for etterbehandling. Hvis en spesialist tidligere ville blitt druknet i antall filer, sammendrag og tabeller, kan han nå "mate" dem til algoritmen og raskt bygge en analytisk modell.

Å bruke datainnsjøer i kombinasjon med AI hjelperikke bare analysere statistikk sentralt, men også spore trender gjennom selskapets historie. Dermed har en av de amerikanske høyskolene samlet inn informasjon om søkere de siste 60 årene. Data om antall nye studenter, samt sysselsettingsindikatorer og den generelle økonomiske situasjonen i landet ble tatt i betraktning. Som et resultat justerte universitetet programmet slik at studentene fullførte studiene i stedet for å droppe ut av kurs halvveis.

Hvilke andre forretningsoppgaver kan datasjøer løse:

  • Tildel ressurser effektivt for å unngå lagring i perioder med topp etterspørsel.
  • Bygg mer nøyaktige prognoser og forutse trender, og lanser innovative produkter foran konkurrentene.
  • Segmenter publikum og identifiser interessene til selv de mest nisjegruppene.
  • Bygg mer detaljerte og nøyaktige rapporter som vil bidra til å forbedre beregninger og øke produktiviteten.
  • Mer effektivt tilpasse markedsføringsalgoritmer og anbefalingssystemer.
  • Spar ressurser i produksjonen eller i laboratoriet - selv om det er en kompleks struktur som CERN.

Men innsjøer brukes ikke bare tilforretningsmiljø - for eksempel, i begynnelsen av pandemien, samlet AWS informasjon om COVID-19 i et enkelt depot: forskningsdata, artikler, statistiske rapporter. Informasjonen ble jevnlig oppdatert, og tilgang til den ble gitt gratis – du måtte bare betale for analyseverktøy.

Datasjøer kan ikke betraktes som universelleverktøy og universalmiddel, men i en tid da data regnes som den nye oljen, er det viktig for selskaper å se etter forskjellige måter å undersøke og bruke store data på. Hovedoppgaven er å sentralisere og konsolidere ulik informasjon. I en tid med mikrotjenester og distribuerte team oppstår ofte situasjoner der en avdeling ikke vet hva en annen jobber med. På grunn av dette kaster virksomheten ressurser, og forskjellige spesialister utfører de samme oppgavene, ofte uvitende om det. Dette reduserer til slutt effektiviteten og overbelaster selskapets "operativsystem". Undersøkelser viser at de fleste selskaper investerer i datasjøer for å forbedre driftseffektiviteten. Men resultatene overgår forventningene: Tidlige brukere av teknologi øker inntektene og fortjenesten raskere enn de som henger etter, og viktigst av alt, de bringer nye produkter og tjenester raskere til markedet.

Se også:

Helsedepartementet i Argentina avslørte data om bivirkninger hos de som fikk Sputnik V

Platypus viste seg å være en genetisk blanding av pattedyr, fugler og reptiler

Abort og vitenskap: hva vil skje med barna som skal føde