Jezera podataka: kako rade jezera podataka i zašto su potrebna

Jezera, vitrine i spremište

Zamislite da tvrtka ima pristup neiscrpnim informacijama

resurs - uranjajući u njega, analitičari redovitosteći vrijedne poslovne uvide i lansirati nove, bolje proizvode. Podatkovna jezera rade otprilike na ovom principu. Ovo je relativno nova vrsta podatkovne arhitekture koja vam omogućuje spajanje sirovih i raspršenih informacija iz različitih izvora, a zatim njihovu učinkovitu upotrebu. Divovi poput Oraclea, Amazona i Microsofta prvi su eksperimentirali s tehnologijom; također su razvili praktične usluge za izgradnju jezera.

Sam pojam podatkovno jezero uveo je James Dixon,osnivač platforme Pentaho. Usporedio je podatke s jezicima: prva su poput flaširane vode koja je pročišćena, filtrirana i pakirana. Jezera su otvorena vodna tijela u koja se voda ulijeva iz različitih izvora. Možete zaroniti u njih ili možete uzeti uzorke s površine. Postoje i skladišta podataka koja obavljaju određene zadatke i služe određenim interesima. S druge strane, repo poslovi uz jezero mogu koristiti mnogim igračima ako se pametno koriste.

Čini se da protok informacija samo komplicirarade za analitičare, jer informacije nisu strukturirane, a osim toga, ima ih previše. Ali ako tvrtka zna raditi s podacima i dobiti na njima vrijednost, jezero ne postaje močvara.

Izdvajanje podataka iz "bunkera"

Ipak, koje su prednosti podatkovnih jezera?tvrtke? Njihova glavna prednost je obilje. Spremište prima informacije od različitih timova i odjela koji obično nisu međusobno povezani. Uzmimo za primjer internetsku školu. Različiti odjeli vode svoju statistiku i slijede vlastite ciljeve - jedan tim nadgleda metriku zadržavanja korisnika, drugi proučava putovanje novih kupaca, a treći prikuplja informacije o diplomcima. Nitko nema pristup punoj slici. Ali ako akumulirate različite informacije u jednom spremištu, možete pronaći zanimljive obrasce. Primjerice, ispada da će korisnici koji dođu na tečajeve dizajna i pogledali najmanje dva webinara vjerojatnije doći do kraja programa i izgraditi uspješnu karijeru na tržištu. Ovi će podaci pomoći tvrtki da zadrži studente i stvori uvjerljiviji proizvod.

Često se otkrivaju neočekivani obrascislučajno - dakle, podatkovno jezero pomaže analitičarima podataka eksperimentalno "prijeći" različite tokove informacija i pronaći paralele koje teško da bi otkrili u drugim okolnostima.

Izvori podataka mogu biti bilo koji:internetska škola imat će statistiku iz različitih promocijskih kanala, tvornica će imati indikatore IoT senzora, raspored korištenja alatnih strojeva i stope trošenja opreme, tržište će imati informacije o dostupnosti robe na zalihama, statistiku prodaje i podatke o najpopularnijim načinima plaćanja. Jezera samo pomažu u prikupljanju i proučavanju niza informacija koji se obično ne prepliću na bilo koji način i dođu do pozornosti različitih odjela.

Još jedan plus podatkovnih jezera je izdvajanje podatakaiz različitih spremišta i zatvorenih podsustava. Informacije se često pohranjuju u neku vrstu informacijskog "bunkera", čiji pristup ima samo jedan odjel. Iz njega je teško ili nemoguće prenijeti materijale - previše je ograničenja. Jezera rješavaju ovaj problem.

Dakle, najmanje je osam prednosti podatkovnih jezera:

  • Pomozite analitičarima podataka da steknu vrijedne uvide.
  • Omogućuje tvrtki donošenje brzih odluka na temelju statistika i činjenica.
  • Omogućuje vam eksperimentiranje s različitim vrstama podataka iz različitih izvora.
  • Učinite analitički proces demokratičnijim i uklonite zapreke između odjela.
  • Osigurajte visoku razinu centralizacije podataka i granularnosti - to vam omogućuje da pronađete "iglu u plastu sijena".
  • Pogodno za tvrtke svih veličina - u ranoj fazi možete započeti s mini jezerima i postupno povećavati količine.
  • Oni pojednostavljuju poslovne procese - na primjer, omogućuju vam postavljanje upita između različitih domena i stvaranje složenih izvješća o proizvodima.
  • Jeftiniji su od pohrane jer podatke ne treba prethodno obrađivati.

Jezera su prije svega potrebna raspodijeljenim irazgranati timovi. Klasičan primjer je Amazon. Korporacija je prikupila podatke iz tisuća različitih izvora. Tako su samo financijske transakcije pohranjene u 25 različitih baza podataka, koje su dizajnirane i organizirane na različite načine. To je stvorilo zabunu i neugodnosti. Jezero je pomoglo prikupljanju svih materijala na jednom mjestu i uspostavljanju jedinstvenog sustava zaštite podataka. Sada stručnjaci - analitičari podataka i poslovanja, programeri i tehnički direktori - mogu uzeti komponente koje su im potrebne i obraditi ih pomoću različitih alata i tehnologija. A strojno učenje pomoglo je Amazonovim analitičarima da naprave ultraprecizne prognoze - sada znaju koliko će kutija određene veličine biti potrebno za pakete u Teksasu u studenom.

Četiri koraka do podatkovnih jezera

Ali podatkovna jezera imaju i nedostataka.Prije svega, trebaju dodatna sredstva i visoku razinu stručnosti - samo visokokvalificirani analitičari mogu uistinu imati koristi od njih. Također će vam trebati dodatni alati za poslovnu inteligenciju koji će vam pomoći preobraziti vaše uvide u koherentnu strategiju.

Drugi je problem upotreba treće stranesustavi za održavanje jezera podataka. U ovom slučaju, tvrtka ovisi o davatelju usluga. Ako se dogodi pad sustava ili curenje podataka, to može dovesti do velikih financijskih gubitaka. Međutim, glavni problem jezera je hiper oko tehnologije. Često tvrtke prihvaćaju ovaj format slijedeći modu, ali ne znaju zašto im je zapravo potreban. Kao rezultat, troše velike svote, ali ne postižu povrat ulaganja. Stoga stručnjaci savjetuju, čak i u fazi pripreme za lansiranje, da odrede koje će poslovne zadatke riješiti jezera.

Stručnjaci McKinsey identificiraju četiri faze stvaranja podatkovnih jezera:

  1. Izrada platforme za prikupljanje sirovih podataka. U ovoj je fazi važno naučiti kako doći do podataka i pohraniti ih.
  2. Razvoj platforme i prvi eksperimenti. Analitičari podataka već počinju analizirati podatke i stvarati analitičke prototipove.
  3. Uska integracija sa pohranom podataka. U ovoj fazi sve više i više skupova podataka hrli na jezera, a postupak navigacije je pojednostavljen.
  4. Jezero podataka postaje ključnoarhitektura. Razvijaju se novi scenariji aplikacija, pojavljuju se novi dodaci i usluge s user-friendly sučeljem, tvrtka počinje koristiti poslovni model Data-as-a-Service.

Analitički algoritmi

Nema ništa u samom gomilanju podatakatemeljno nova, ali zahvaljujući razvoju sustava u oblaku, platformi otvorenog koda i općem porastu računalne snage, danas čak i startupi mogu raditi s lake arhitekturom.

Drugi pokretač industrije bio je strojobuka - tehnologija djelomično pojednostavljuje rad analitičara i daje im više alata za naknadnu obradu. Ako bi se prethodno stručnjak utopio u broju datoteka, sažetaka i tablica, sada ih može "nahraniti" algoritmom i brzo izgraditi analitički model.

Korištenje podatkovnih jezera u kombinaciji s umjetnom inteligencijom pomažene samo da centralno analizira statistiku, već i prati trendove kroz povijest tvrtke. Tako je jedan od američkih koledža prikupljao podatke o kandidatima u proteklih 60 godina. U obzir su uzeti podaci o broju novih studenata, kao i pokazatelji zaposlenosti te opća gospodarska situacija u zemlji. Kao rezultat toga, sveučilište je prilagodilo program tako da su studenti završili studij umjesto da napuštaju kolegije na pola puta.

Koje druge poslovne zadatke mogu riješiti podatkovna jezera:

  • Učinkovito rasporedite resurse kako biste izbjegli zalihe tijekom razdoblja najveće potražnje.
  • Izradite preciznije prognoze i predvidite trendove te lansirajte inovativne proizvode ispred konkurenata.
  • Segmentirajte svoju publiku i identificirajte interese čak i većine nišnih grupa.
  • Izradite detaljnija i preciznija izvješća koja će vam pomoći poboljšati mjerne podatke i povećati produktivnost.
  • Učinkovitije prilagodite algoritme za promociju i sustave preporuka.
  • Uštedite resurse u proizvodnji ili u laboratoriju - čak i ako je riječ o složenoj strukturi poput CERN-a.

Međutim, jezera se koriste ne samo zaposlovno okruženje - primjerice, na početku pandemije, AWS je prikupljao informacije o COVID-19 u jednom repozitoriju: podaci istraživanja, članci, statistička izvješća. Podaci su se redovito ažurirali, a pristup im je bio besplatan - morali ste samo platiti alate za analizu.

Podatkovna jezera ne mogu se smatrati univerzalnimaalata i panaceje, ali u eri kada se podaci smatraju novim uljem, važno je da tvrtke potraže različite načine za istraživanje i primjenu velikih podataka. Glavni je zadatak centralizirati i konsolidirati različite informacije. U eri mikro usluga i distribuiranih timova često se javljaju situacije kada jedan odjel ne zna na čemu drugi radi. Zbog toga poduzeće troši resurse, a različiti stručnjaci obavljaju iste zadatke, često nesvjesni toga. To u konačnici smanjuje učinkovitost i preopterećuje "operativni sustav" tvrtke. Istraživanja pokazuju da većina tvrtki ulaže u podatkovna jezera kako bi poboljšala operativnu učinkovitost. No, rezultati premašuju očekivanja: rani usvojitelji tehnologija brže rastu prihod i dobit od onih koji zaostaju, i što je najvažnije, brže donose nove proizvode i usluge na tržište.

Pogledajte i:

Ministarstvo zdravlja Argentine otkrilo je podatke o nuspojavama kod onih koji su dobili "Sputnik V"

Ispostavilo se da je Platypus genetska mješavina sisavaca, ptica i gmazova

Pobačaj i znanost: što će se dogoditi s djecom koja će roditi