Duomenų ežerai: kaip veikia duomenų ežerai ir kodėl jie reikalingi

Ežerai, vitrinos ir sandėliavimas

Įsivaizduokite, kad įmonė turi prieigą prie neišsemiamos informacijos

resursas – pasinerti į jį, analitikai reguliariaigauti vertingų verslo įžvalgų ir pristatyti naujus, geresnius produktus. Duomenų ežerai veikia maždaug tokiu principu. Tai palyginti naujo tipo duomenų architektūra, leidžianti sujungti neapdorotą ir išsklaidytą informaciją iš skirtingų šaltinių ir efektyviai ją panaudoti. Tokie milžinai kaip „Oracle“, „Amazon“ ir „Microsoft“ pirmieji eksperimentavo su šia technologija, taip pat sukūrė patogias ežerų statybos paslaugas.

Pats duomenų ežero terminą įvedė Jamesas Dixonas,„Pentaho“ platformos įkūrėjas. Jis palygino duomenų rinkinius su duomenų ežerais: pirmieji yra tarsi vanduo buteliuose, kuris buvo išvalytas, filtruotas ir supakuotas. Ežerai yra atviri vandens telkiniai, į kuriuos vanduo teka iš skirtingų šaltinių. Galite pasinerti į juos arba paimti mėginius iš paviršiaus. Taip pat yra duomenų saugyklų, kurios atlieka konkrečias užduotis ir tarnauja konkretiems interesams. Kita vertus, ežero paketai gali būti naudingi daugeliui žaidėjų, jei jie naudojami protingai.

Atrodytų, informacijos srautas tik apsunkinadarbas analitikams, nes informacija nėra struktūrizuota, be to, jų yra per daug. Bet jei įmonė moka dirbti su duomenimis ir iš jų išgauti vertę, ežeras netampa „pelke“.

Išgaunami duomenys iš „bunkerio“

Vis dėlto koks yra duomenų ežerų pranašumas?įmonės? Pagrindinis jų privalumas yra gausa. Saugykla gauna informaciją iš skirtingų komandų ir padalinių, kurie paprastai nėra susiję vienas su kitu. Paimkime, pavyzdžiui, internetinę mokyklą. Skirtingi padaliniai tvarko savo statistiką ir siekia savo tikslų - viena komanda stebi vartotojų išlaikymo metriką, antra tiria naujų klientų klientų kelionę, trečioji renka informaciją apie absolventus. Niekas neturi prieigos prie viso vaizdo. Bet jei kaupiate skirtingą informaciją vienoje saugykloje, galite rasti įdomių modelių. Pavyzdžiui, paaiškėja, kad vartotojai, kurie ateina į dizaino kursus ir stebi bent du internetinius seminarus, greičiausiai pasiekia programos pabaigą ir sėkmingai kuria karjerą rinkoje. Ši informacija padės įmonei išlaikyti studentus ir sukurti patrauklesnį produktą.

Dažnai atrandami netikėti modeliaiatsitiktinai – taigi duomenų ežeras padeda duomenų analitikams eksperimentiškai „peržengti“ skirtingus informacijos srautus ir rasti paralelių, kurias vargu ar būtų atradę kitomis aplinkybėmis.

Duomenų šaltiniai gali būti bet kokie:internetinėje mokykloje bus įvairių reklamos kanalų statistika, gamykloje bus daiktų interneto jutiklių indikatoriai, staklių naudojimo grafikas ir įrangos nusidėvėjimo rodikliai, turgavietėje bus informacijos apie prekių atsargas, pardavimo statistiką ir duomenis apie populiariausius atsiskaitymo būdus. Ežerai tiesiog padeda rinkti ir tirti informacijos masyvus, kurie paprastai niekaip nesikerta ir patenka į skirtingų departamentų dėmesio lauką.

Kitas duomenų ežerų pliusas yra duomenų gavybaiš skirtingų saugyklų ir uždarų posistemių. Dažnai informacija kaupiama savotiškame informaciniame „bunkeryje“, prie kurio prieigą turi tik vienas skyrius. Medžiagas iš jos perkelti sunku arba neįmanoma - yra per daug apribojimų. Ežerai išsprendžia šią problemą.

Taigi yra bent aštuoni duomenų lakų pranašumai:

  • Padėkite duomenų analitikams įgyti vertingų įžvalgų.
  • Leidžia įmonei greitai priimti sprendimus, pagrįstus statistika ir faktais.
  • Leidžia eksperimentuoti su skirtingų tipų duomenimis iš skirtingų šaltinių.
  • Padarykite analizės procesą demokratiškesniu ir pašalinkite barjerus tarp padalinių.
  • Pateikite aukšto lygio duomenų centralizavimą ir detalumą - tai leidžia jums rasti „adatą šieno kupetoje“.
  • Tinka visų dydžių įmonėms - ankstyvoje stadijoje galite pradėti nuo mini ežerų ir palaipsniui kaupti tūrį.
  • Jie supaprastina verslo procesus - pavyzdžiui, leidžia jums pateikti užklausas tarp domenų ir kurti sudėtingas produktų ataskaitas.
  • Jie yra pigesni nei saugykla, nes duomenų nereikia iš anksto apdoroti.

Ežerai pirmiausia reikalingi paskirstytiems irišsišakojusios komandos. Klasikinis pavyzdys yra „Amazon“. Korporacija sukaupė duomenis iš tūkstančių skirtingų šaltinių. Taigi vien finansinės operacijos buvo saugomos 25 skirtingose ​​duomenų bazėse, kurios buvo kuriamos ir organizuojamos skirtingai. Tai sukėlė sumaištį ir nepatogumų. Ežeras padėjo surinkti visą medžiagą į vieną vietą ir sukurti vieningą duomenų apsaugos sistemą. Dabar specialistai – duomenų ir verslo analitikai, kūrėjai ir CTO – galėtų paimti jiems reikalingus komponentus ir juos apdoroti naudodami skirtingus įrankius ir technologijas. O mašininis mokymasis padėjo „Amazon“ analitikams sudaryti itin tikslias prognozes – dabar jie žino, kiek tam tikro dydžio dėžučių pakams prireiks lapkritį Teksase.

Keturi žingsniai iki duomenų ežerų

Tačiau duomenų ežerai taip pat turi trūkumų.Visų pirma, jiems reikia papildomų išteklių ir aukšto lygio žinių - iš jų tikrai gali pasinaudoti tik aukštos kvalifikacijos analitikai. Jums taip pat reikės papildomų verslo žvalgybos įrankių, kurie padėtų jūsų įžvalgas paversti darna strategija.

Kita problema yra trečiųjų šalių naudojimasduomenų ežerų priežiūros sistemos. Šiuo atveju įmonė priklauso nuo teikėjo. Jei įvyksta sistemos gedimas ar duomenų nutekėjimas, tai gali sukelti didelių finansinių nuostolių. Tačiau pagrindinė ežerų problema yra ažiotažas dėl technologijų. Dažnai įmonės šį formatą taiko laikydamosi mados, tačiau nežino, kodėl joms to tikrai reikia. Todėl jie išleidžia dideles sumas, tačiau nepasiekia investicijų grąžos. Todėl ekspertai pat pasirengimo startui metu pataria nustatyti, kokias verslo užduotis ežerai spręs.

„McKinsey“ ekspertai nustato keturis duomenų ežerų kūrimo etapus:

  1. Neapdorotų duomenų rinkimo platformos sukūrimas. Šiame etape svarbu išmokti gauti ir išsaugoti informaciją.
  2. Platformos kūrimas ir pirmieji eksperimentai. Duomenų analitikai jau pradeda analizuoti duomenis ir kurti analitinius prototipus.
  3. Glaudus integravimas su duomenų saugojimu. Šiame etape į ežerus plūsta vis daugiau duomenų rinkinių, todėl navigacijos procesas yra supaprastintas.
  4. Duomenų ežeras tampa pagrindiniuarchitektūra. Kuriami nauji taikymo scenarijai, atsiranda nauji priedai ir paslaugos su patogia sąsaja, įmonė pradeda naudoti „Data-as-a-Service“ verslo modelį.

Analitiniai algoritmai

Pačiame duomenų kaupime nėra niekoiš esmės nauja, tačiau dėl debesų sistemų, atvirojo kodo platformų plėtros ir bendro kompiuterio galios padidėjimo šiandien net startuoliai gali dirbti su ežero architektūra.

Kitas pramonės variklis buvo mašinosmokymai – technologijos iš dalies supaprastina analitikų darbą ir suteikia jiems daugiau įrankių tolesniam apdorojimui. Jei anksčiau specialistas būtų paskęstas failų, suvestinių ir lentelių skaičiuje, dabar jis gali juos „pamaitinti“ algoritmu ir greitai sukurti analitinį modelį.

Duomenų ežerų naudojimas kartu su AI padedane tik centralizuotai analizuoti statistiką, bet ir sekti tendencijas per visą įmonės istoriją. Taigi viena iš Amerikos kolegijų rinko informaciją apie kandidatus per pastaruosius 60 metų. Atsižvelgta į duomenis apie naujų studentų skaičių, užimtumo rodiklius ir bendrą šalies ekonominę situaciją. Dėl to universitetas pakoregavo programą taip, kad studentai mokslus baigtų, o ne įpusėję kursų metė.

Kokias kitas verslo užduotis duomenų ežerai gali išspręsti:

  • Efektyviai paskirstykite išteklius, kad išvengtumėte atsargų per didžiausią paklausą.
  • Kurkite tikslesnes prognozes ir numatykite tendencijas, o naujoviškus produktus pristatykite prieš konkurentus.
  • Segmentuokite auditoriją ir nustatykite net pačių nišiausių grupių interesus.
  • Kurkite išsamesnes ir tikslesnes ataskaitas, kurios padės pagerinti metriką ir padidinti produktyvumą.
  • Efektyviau pritaikykite reklamos algoritmus ir rekomendacijų sistemas.
  • Taupykite išteklius gamyboje ar laboratorijoje, net jei tai sudėtinga struktūra, tokia kaip CERN.

Tačiau ežerai naudojami ne tikverslo aplinka – pavyzdžiui, pandemijos pradžioje AWS informaciją apie COVID-19 rinko vienoje saugykloje: tyrimų duomenis, straipsnius, statistines ataskaitas. Informacija buvo reguliariai atnaujinama, o prieiga prie jos buvo suteikta nemokamai – reikėjo mokėti tik už analizės įrankius.

Duomenų ežerai negali būti laikomi universaliaispriemonė ir panacėja, tačiau laikmetyje, kai duomenys laikomi nauja nafta, įmonėms svarbu ieškoti skirtingų būdų tirti ir taikyti didžiuosius duomenis. Pagrindinis uždavinys yra centralizuoti ir konsoliduoti skirtingą informaciją. Mikroservikų ir paskirstytų komandų eroje dažnai pasitaiko situacijų, kai vienas skyrius nežino, ką dirba kitas. Dėl to verslas eikvoja išteklius, o skirtingi specialistai atlieka tas pačias užduotis, dažnai to nežinodami. Tai galiausiai sumažina efektyvumą ir perkrauna įmonės „operacinę sistemą“. Apklausos rodo, kad dauguma įmonių investuoja į duomenų lakus, kad pagerintų veiklos efektyvumą. Tačiau rezultatai pranoksta lūkesčius: ankstyvieji technologijų vartotojai pajamas ir pelną auga greičiau nei atsiliekantys, o svarbiausia - jie greičiau pateikia į rinką naujus produktus ir paslaugas.

Taip pat žiūrėkite:

Argentinos sveikatos ministerija atskleidė duomenis apie šalutinį poveikį tiems, kurie gavo Sputnik V

Paaiškėjo, kad Platypus yra genetinis žinduolių, paukščių ir roplių mišinys

Abortas ir mokslas: kas nutiks gimdantiems vaikams