Datasøer: hvordan datasøer fungerer, og hvorfor de er nødvendige

Søer, udstillingsvinduer og opbevaring

Forestil dig, at en virksomhed har adgang til uudtømmelig information

ressource - fordyber sig i det, analytikere regelmæssigtfå værdifuld forretningsindsigt og lancere nye, bedre produkter. Datasøer arbejder omtrent efter dette princip. Dette er en relativt ny type dataarkitektur, der giver dig mulighed for at samle rå og spredt information fra forskellige kilder og derefter finde effektiv brug for den. Kæmper som Oracle, Amazon og Microsoft var de første til at eksperimentere med teknologien; de udviklede også praktiske tjenester til at bygge søer.

Udtrykket data lake selv blev introduceret af James Dixon,grundlægger af Pentaho-platformen. Han sammenlignede datamarter med datasøer: de førstnævnte er som flaskevand, der er renset, filtreret og pakket. Søer er åbne vandområder, hvor vand strømmer fra forskellige kilder. Du kan dykke ned i dem, eller du kan tage prøver fra overfladen. Der er også datalagre, der udfører specifikke opgaver og tjener specifikke interesser. Lakeside repos kan derimod være til fordel for mange spillere, hvis de bruges klogt.

Det ser ud til, at informationsstrømmen kun komplicererarbejde for analytikere, fordi informationen ikke er struktureret, desuden er der for mange af dem. Men hvis virksomheden ved, hvordan man arbejder med data og får værdi af dem, bliver søen ikke en sump.

Uddrag af data fra "bunkeren"

Hvad er alligevel fordelene ved datasøer?virksomheder? Deres største fordel er overflod. Datalageret modtager information fra forskellige teams og afdelinger, som normalt ikke er relateret til hinanden. Tag en online skole for eksempel. Forskellige afdelinger opbevarer deres statistik og forfølger deres egne mål - det ene hold overvåger måling af brugeropbevaring, det andet studerer nye kunders kunderejse, og det tredje indsamler oplysninger om kandidater. Ingen har adgang til det fulde billede. Men hvis du akkumulerer forskellige oplysninger i et enkelt arkiv, kan du finde interessante mønstre. For eksempel viser det sig, at brugere, der kommer til at designe kurser og har set mindst to webinars, er mere tilbøjelige til at nå slutningen af programmet og opbygge en succesrig karriere på markedet. Disse oplysninger hjælper virksomheden med at fastholde studerende og skabe et mere overbevisende produkt.

Ofte opdages uventede mønstreved et tilfælde - således hjælper en datasø dataanalytikere med eksperimentelt at "krydse" forskellige informationsstrømme og finde paralleller, som de næppe ville have opdaget under andre omstændigheder.

Datakilder kan være hvilke som helst:en online skole vil have statistik fra forskellige forfremmelseskanaler, en fabrik vil have IoT-sensorindikatorer, en maskinudnyttelsesplan og udstyrsslitage, en markedsplads vil have oplysninger om tilgængeligheden af varer på lager, salgsstatistikker og data om de mest populære betalingsmetoder. Søer hjælper bare med at indsamle og studere matrixer med information, der normalt ikke skærer sig på nogen måde og falder inden for forskellige afdelingers opmærksomhedsfelt.

Et andet plus af datasøer er dataudvindingfra forskellige arkiver og lukkede undersystemer. Ofte lagres information i en slags informations "bunker", som kun en afdeling har adgang til. Det er vanskeligt eller umuligt at overføre materialer fra det - der er for mange begrænsninger. Søer løser dette problem.

Så der er mindst otte fordele ved datasøer:

Hjælp dataanalytikere med at få værdifuld indsigt.
Tillader virksomheden at træffe hurtige beslutninger baseret på statistik og fakta.
Giver dig mulighed for at eksperimentere med forskellige typer data fra forskellige kilder.
Gør analyseprocessen mere demokratisk og fjern barrierer mellem afdelinger.
Giv et højt niveau af datacentralisering og granularitet - dette giver dig mulighed for at finde en "nål i en høstak".
Velegnet til virksomheder i alle størrelser - på et tidligt tidspunkt kan du starte med mini-søer og gradvist opbygge volumener.
De forenkler forretningsprocesser - for eksempel giver de dig mulighed for at stille spørgsmål på tværs af domæner og oprette komplekse produktrapporteringer.
De er billigere end opbevaring, fordi dataene ikke behøver at blive forbehandlet.

Søer behøves primært af distribuerede ogforgrenede hold. Et klassisk eksempel er Amazon. Selskabet har akkumuleret data fra tusindvis af forskellige kilder. Således blev økonomiske transaktioner alene gemt i 25 forskellige databaser, som var designet og organiseret på forskellige måder. Dette skabte forvirring og besvær. Søen hjalp med at samle alle materialer på ét sted og etablere et samlet databeskyttelsessystem. Nu kunne specialister - data- og forretningsanalytikere, udviklere og CTO'er - tage de komponenter, de havde brug for, og behandle dem ved hjælp af forskellige værktøjer og teknologier. Og maskinlæring har hjulpet Amazon-analytikere med at lave ultrapræcise prognoser – nu ved de, hvor mange kasser af en vis størrelse, der skal bruges til pakker i Texas i november.

Fire trin til datasøer

Men datasøer har også ulemper.Først og fremmest kræver de ekstra ressourcer og et højt niveau af ekspertise - kun højt kvalificerede analytikere kan virkelig drage fordel af dem. Du har også brug for yderligere Business Intelligence-værktøjer, der hjælper med at omdanne din indsigt til en sammenhængende strategi.

Et andet problem er brugen af tredjepartsystemer til vedligeholdelse af datasøer. I dette tilfælde afhænger virksomheden af udbyderen. Hvis der opstår et systemnedbrud eller datalækage, kan det føre til store økonomiske tab. Dog er det største problem med søerne hype omkring teknologi. Ofte vedtager virksomheder dette format efter mode, men ved ikke, hvorfor de faktisk har brug for det. Som et resultat bruger de store summer, men opnår ikke investeringsafkast. Derfor rådgiver eksperter, selv i forberedelsesfasen for lanceringen, at afgøre, hvilke forretningsopgaver søerne løser.

McKinsey-eksperter identificerer fire faser i oprettelse af datasøer:

Oprettelse af en platform til indsamling af rådata. På dette tidspunkt er det vigtigt at lære at hente og gemme information.
Platformsudvikling og første eksperimenter. Dataanalytikere er allerede begyndt at analysere data og opbygge analytiske prototyper.
Tæt integration med datalagring. På dette stadium strømmer flere og flere datasæt til søerne, og navigationsprocessen forenkles.
Data lake bliver nøglenarkitektur. Nye applikationsscenarier udvikler sig, nye tilføjelser og tjenester med en brugervenlig grænseflade vises, virksomheden begynder at bruge Data-as-a-Service-forretningsmodellen.

Analytiske algoritmer

Der er intet i selve akkumuleringen af datafundamentalt nyt, men takket være udviklingen af cloud-systemer, open source-platforme og en generel stigning i computerkraft, kan selv startups i dag arbejde med søarkitektur.

En anden driver af industrien var maskinenuddannelse - teknologi forenkler dels analytikernes arbejde og giver dem flere værktøjer til efterbehandling. Hvis en specialist tidligere ville være druknet i antallet af filer, oversigter og tabeller, kan han nu "føde" dem til algoritmen og hurtigt bygge en analytisk model.

Brug af datasøer i kombination med AI hjælperikke bare analysere statistik centralt, men også spore tendenser gennem virksomhedens historie. Således har et af de amerikanske colleges indsamlet oplysninger om ansøgere gennem de seneste 60 år. Data om antallet af nye studerende samt beskæftigelsesindikatorer og den generelle økonomiske situation i landet blev taget i betragtning. Det resulterede i, at universitetet tilpassede uddannelsen, så de studerende gennemførte deres studier i stedet for at droppe ud af kurser halvvejs.

Hvilke andre forretningsopgaver kan datasøer løse:

Tildel ressourcer effektivt for at undgå lagre i perioder med høj efterspørgsel.
Byg mere nøjagtige prognoser og forvent tendenser, og lancer innovative produkter foran konkurrenterne.
Segmenter dit publikum og identificer interesserne for selv de mest nichegrupper.
Byg mere detaljerede og nøjagtige rapporter, der hjælper med at forbedre metrics og øge produktiviteten.
Mere effektivt tilpasse salgsfremmende algoritmer og anbefalingssystemer.
Spar ressourcer i produktionen eller i laboratoriet - selvom det er en kompleks struktur som CERN.

Søer bruges dog ikke kun tilforretningsmiljø - for eksempel, i begyndelsen af pandemien, indsamlede AWS oplysninger om COVID-19 i et enkelt depot: forskningsdata, artikler, statistiske rapporter. Oplysningerne blev regelmæssigt opdateret, og adgang til dem blev givet gratis – du skulle kun betale for analyseværktøjer.

Datasøer kan ikke betragtes som universelleværktøj og universalmiddel, men i en tid, hvor data betragtes som den nye olie, er det vigtigt for virksomhederne at kigge efter forskellige måder at undersøge og anvende big data på. Hovedopgaven er at centralisere og konsolidere forskellige oplysninger. I en periode med mikrotjenester og distribuerede teams opstår der ofte situationer, hvor en afdeling ikke ved, hvad en anden arbejder på. På grund af dette spilder virksomheden ressourcer, og forskellige specialister udfører de samme opgaver, ofte uvidende om det. Dette reducerer i sidste ende effektiviteten og overbelaster virksomhedens "operativsystem". Undersøgelser viser, at de fleste virksomheder investerer i datasøer for at forbedre driftseffektiviteten. Men resultaterne overgår forventningerne: tidlige adoptere af teknologi øger indtægterne og fortjenesten hurtigere end dem, der halter bagefter, og vigtigst af alt bringer de nye produkter og tjenester hurtigere på markedet.

Se også:

Sundhedsministeriet i Argentina afslørede data om bivirkninger hos dem, der fik Sputnik V

Platypus viste sig at være en genetisk blanding af pattedyr, fugle og krybdyr

Abort og videnskab: hvad vil der ske med de børn, der føder

Geek Tech Online

Alt om teknologi og gadgets

Datasøer: hvordan datasøer fungerer, og hvorfor de er nødvendige

Søer, udstillingsvinduer og opbevaring

Uddrag af data fra "bunkeren"

Fire trin til datasøer

Analytiske algoritmer