Sjöar, montrar och förvaring
Föreställ dig att ett företag har tillgång till outtömlig information
Termen data sjön själv introducerades av James Dixon,grundare av Pentaho-plattformen. Han jämförde datamärken med datasjöar: de förra är som vatten på flaska som har renats, filtrerats och förpackats. Sjöar är öppna vattenmassor i vilka vatten rinner från olika källor. Du kan dyka in i dem, eller så kan du ta prover från ytan. Det finns också datalager som utför specifika uppgifter och tjänar specifika intressen. Lakeside repos, å andra sidan, kan gynna många spelare om de används klokt.
Det verkar som om informationsflödet bara komplicerararbeta för analytiker, eftersom informationen inte är strukturerad, och dessutom finns det för många av dem. Men om företaget vet hur man arbetar med data och får värde av det blir sjön inte ett träsk.
Extrahera data från "bunkeren"
Vilka är fördelarna med datasjöar ändå?företag? Deras främsta fördel är överflöd. Förvaret tar emot information från olika team och avdelningar, som vanligtvis inte är relaterade till varandra. Ta till exempel en online-skola. Olika avdelningar behåller sin statistik och strävar efter sina egna mål - ett team övervakar mätvärden för användarhållning, det andra studerar nya kunders kundresa och det tredje samlar information om akademiker. Ingen har tillgång till hela bilden. Men om du samlar olika information i ett enda arkiv kan du hitta intressanta mönster. Till exempel visar det sig att användare som kommer på designkurser och tittat på minst två webinar är mer benägna att nå slutet på programmet och bygga en framgångsrik karriär på marknaden. Denna information hjälper företaget att behålla studenter och skapa en mer övertygande produkt.
Ofta upptäcks oväntade mönster av en slump – till exempel hjälper en datasjö tillDataanalytiker kan experimentellt "korsa" olika informationsströmmar och hitta paralleller som de annars inte skulle hitta.
Datakällor kan vara vilken som helst:en online-skola kommer att ha statistik från olika marknadsföringskanaler, en fabrik kommer att ha IoT-sensorindikatorer, ett schema för verktygsmaskinsanvändning och utrustningens slitagång, en marknadsplats kommer att ha information om tillgängligheten av varor i lager, försäljningsstatistik och data om de mest populära betalningsmetoderna. Sjöar hjälper bara till att samla in och studera matriser med information som vanligtvis inte skär varandra och faller inom olika avdelnings uppmärksamhet.
Ett annat plus med datasjöar är extraktion av datafrån olika förvar och slutna delsystem. Ofta lagras information i ett slags informations "bunker", som endast en avdelning har tillgång till. Det är svårt eller omöjligt att överföra material från det - det finns för många begränsningar. Sjöar löser detta problem.
Så det finns minst åtta fördelar med datasjöar:
- Hjälp dataanalytiker att få värdefull insikt.
- Tillåter företaget att fatta snabba beslut baserat på statistik och fakta.
- Låter dig experimentera med olika typer av data från olika källor.
- Gör analysprocessen mer demokratisk och ta bort hinder mellan avdelningar.
- Ge en hög nivå av datacentralisering och granularitet - detta gör att du kan hitta en "nål i en höstack".
- Lämplig för företag i alla storlekar - i ett tidigt skede kan du börja med minisjöar och gradvis bygga upp volymer.
- De förenklar affärsprocesser - till exempel låter de dig göra frågor över flera domäner och skapa komplex produktrapportering.
- De är billigare än lagring eftersom data inte behöver förbehandlas.
Sjöar behövs främst av distribuerade och förgrenade team.Till exempel lagrades enbart finansiella transaktioner i 25 olika databaser, som ordnades och organiserades på olika sätt.Detta skapade förvirring och besvär, och sjön hjälpte till att samla allt material på ett ställe och installera ett enhetligt dataskyddssystem.Nu kan data- och affärsanalytiker, utvecklare och CTO:er ta de komponenter de behövde och bearbeta dem med hjälp av olika verktyg och tekniker.Och maskininlärning har hjälpt Amazon-analytiker att göra extremt exakta prognoser – de vet nu hur många lådor av en viss storlek som kommer att behövas för paket i Texas i november.
Fyra steg till datasjöar
Men datasjöar har också nackdelar.Först och främst kräver de ytterligare resurser och hög kompetens - endast högt kvalificerade analytiker kan verkligen dra nytta av dem. Du kommer också att behöva ytterligare Business Intelligence-verktyg för att omvandla dina insikter till en sammanhängande strategi.
Ett annat problem är användningen av tredje partsystem för att underhålla datasjöar. I detta fall beror företaget på leverantören. Om en systemkrasch eller dataläckage inträffar kan det leda till stora ekonomiska förluster. Sjöarnas största problem är dock hype kring teknik. Ofta använder företagen det här formatet enligt mode, men vet inte varför de faktiskt behöver det. Som ett resultat spenderar de stora summor men uppnår inte avkastning på investeringen. Därför rekommenderar experter, även i förberedelsestadiet för lanseringen, att avgöra vilka affärsuppgifter sjöarna kommer att lösa.
McKinsey-experter identifierar fyra steg för att skapa datasjöar:
- Skapande av en plattform för insamling av rådata. I detta skede är det viktigt att lära sig att hämta och lagra information.
- Plattformsutveckling och första experiment. Dataanalytiker börjar redan analysera data och bygga analytiska prototyper.
- Tät integration med datalagring. I detta skede strömmar fler och fler datamängder till sjöarna och navigationsprocessen förenklas.
- Data lake blir nyckelnarkitektur. Nya applikationsscenarier utvecklas, nya tillägg och tjänster med ett användarvänligt gränssnitt dyker upp, företaget börjar använda affärsmodellen Data-as-a-Service.
Analytiska algoritmer
Det finns inget fundamentalt nytt i själva dataackumuleringen, men tack vare utvecklingen av molnsystem, plattformar med öppen källkod och i allmänhet en ökning av datorkraften är det möjligt att arbeta med sjöarkitektur idagtill och med nystartade företag.
En annan drivkraft för branschen är maskininlärning – tekniken gör det lättare attanalytikernas arbete och ge dem fler verktyg för efterbearbetning.skulle drunkna i antalet filer, sammanfattningar och tabeller nu kan det"mata" dem till algoritmen och bygga en analytisk modell snabbare.
Användningen av datasjöar i kombination med AI hjälper inte bara till att analysera statistik centralt, utan också att spåra trender genom företagets historia.Till exempel samlade en av de amerikanska högskolorna in information om sökande under de senaste 60 åren.Uppgifter om antalet nya studerande beaktades, liksom sysselsättningsindikatorer och den allmänna ekonomiska situationen i landet.Som ett resultat av detta justerade universitetet programmet så att studenterna avslutar sina studier istället för att hoppa av halvvägs.
Vilka andra affärsuppgifter kan datasjöar lösa:
- Tilldela resurser effektivt för att undvika lager under perioder med hög efterfrågan.
- Bygg mer exakta prognoser och förutse trender och lansera innovativa produkter före konkurrenterna.
- Segmentera din publik och identifiera intressen för även de mest nischade grupperna.
- Skapa mer detaljerade och korrekta rapporter som hjälper till att förbättra mätvärden och öka produktiviteten.
- Mer effektivt anpassa marknadsföringsalgoritmer och rekommendationssystem.
- Spara resurser i produktionen eller i laboratoriet - även om det är en komplex struktur som CERN.
Sjöar används dock inte bara i affärsmiljöer – i början av pandemin samlade AWS till exempel in information om covid-19 i ett enda arkiv: forskningsdata, artiklar och statistiska sammanfattningar.Informationen uppdaterades regelbundet och tillgången till den var gratis – du behövde bara betala för analysverktyg.
Datasjöar kan inte betraktas som universellaverktyg och universalmedel, men i en tid då data anses vara den nya oljan är det viktigt för företag att leta efter olika sätt att undersöka och tillämpa stora data. Huvuduppgiften är att centralisera och konsolidera olik information. Under mikrotjänster och distribuerade team uppstår ofta situationer där en avdelning inte vet vad en annan arbetar med. På grund av detta slösar verksamheten resurser och olika specialister utför samma uppgifter, ofta omedvetna om det. Detta minskar i slutändan effektiviteten och överbelastar företagets "operativsystem". Undersökningar visar att de flesta företag investerar i datasjöar för att förbättra operativ effektivitet. Men resultaten överträffar förväntningarna: tidigt införande av teknik ökar intäkterna och vinsterna snabbare än de som släpar efter, och viktigast av allt, de ger nya produkter och tjänster snabbare.
Se även:
Argentinas hälsovårdsministerium avslöjade uppgifter om biverkningar hos dem som fick "Sputnik V"
Platypus visade sig vara en genetisk blandning av däggdjur, fåglar och reptiler
Abort och vetenskap: vad kommer att hända med barnen som kommer att föda