Dátové jazerá: ako fungujú dátové jazerá a prečo sú potrebné

Jazerá, vitríny a skladovacie priestory

Predstavte si, že spoločnosť má prístup k nevyčerpateľným informáciám

Ponorením sa do nej analytici pravidelne získavajú cenné obchodné poznatky a spúšťajú saTakto fungujú dátové jazerá.Ide o relatívne nový typ dátovej architektúry, ktorá vám umožňuje zhromažďovať surové a rôznorodé informácie z rôznych zdrojov a potom pre ne nájsť efektívne využitie.Giganti ako Oracle, Amazon a Microsoft boli prví, ktorí experimentovali s touto technológiou, a tiež vyvinuli pohodlné služby na stavbu jazier.

Samotný termín dátové jazero predstavil James Dixon,zakladateľ platformy Pentaho. Porovnal dátové trhy s dátovými jazerami: prvé sú ako balená voda, ktorá bola vyčistená, filtrovaná a zabalená. Jazerá sú otvorené vodné plochy, do ktorých prúdi voda z rôznych zdrojov. Môžete sa do nich ponoriť alebo môžete odobrať vzorky z povrchu. Existujú aj dátové úložiská, ktoré vykonávajú konkrétne úlohy a slúžia konkrétnym záujmom. Repasie pri jazere, na druhej strane, môžu byť prospešné pre mnohých hráčov, ak sú využívané rozumne.

Zdalo by sa, že tok informácií iba komplikujepráca pre analytikov, pretože informácie nie sú štruktúrované a okrem toho ich je príliš veľa. Pokiaľ ale spoločnosť vie, ako pracovať s dátami a vyťažiť z nich hodnotu, z jazera sa nestane „močiar“.

Extrahovanie údajov z „bunkra“

Aké sú výhody dátových jazier?spoločnosti? Ich hlavnou výhodou je hojnosť. Úložisko prijíma informácie od rôznych tímov a oddelení, ktoré zvyčajne navzájom nesúvisia. Zoberme si napríklad školu online. Rôzne oddelenia vedú svoje štatistiky a sledujú svoje vlastné ciele - jeden tím sleduje metriky zadržiavania používateľov, druhý študuje cestu zákazníkov k novým zákazníkom a tretí zhromažďuje informácie o absolventoch. Nikto nemá prístup k úplnému obrázku. Ak však nahromadíte rôznorodé informácie v jednom úložisku, môžete nájsť zaujímavé vzory. Ukázalo sa napríklad, že u používateľov, ktorí prídu na kurzy dizajnu a sledujú najmenej dva webináre, je vyššia pravdepodobnosť, že sa dostanú na koniec programu a vybudujú si úspešnú kariéru na trhu. Tieto informácie pomôžu spoločnosti udržať si študentov a vytvoriť pôsobivejší produkt.

Neočakávané vzorce sú často objavené náhodou - napríklad dátové jazero pomáhaDátoví analytici môžu experimentálne "krížiť" rôzne toky informácií a nájsť paralely, ktoré by inak pravdepodobne nenašli.

Zdroje údajov môžu byť akékoľvek:online škola bude mať štatistiku z rôznych propagačných kanálov, továreň bude mať indikátory senzorov IoT, harmonogram používania obrábacích strojov a mieru opotrebenia vybavenia, trh bude mať informácie o dostupnosti tovaru na sklade, štatistiku predaja a údaje o najpopulárnejších spôsoboch platby. Jazerá len pomáhajú zhromažďovať a študovať pole informácií, ktoré sa zvyčajne nijako nepretínajú a spadajú do oblasti pozornosti rôznych oddelení.

Ďalším plusom dátových jazier je extrakcia dátz nesúrodých úložísk a uzavretých subsystémov. Informácie sú často uložené v akomsi informačnom „bunkri“, ku ktorému má prístup iba jedno oddelenie. Je ťažké alebo nemožné z neho prenášať materiály - existuje príliš veľa obmedzení. Jazerá tento problém riešia.

Existuje teda najmenej osem výhod dátových jazier:

  • Pomôžte analytikom údajov získať cenné poznatky.
  • Umožňuje spoločnosti prijímať rýchle rozhodnutia na základe štatistík a faktov.
  • Umožňuje experimentovať s rôznymi typmi údajov z rôznych zdrojov.
  • Zvýšiť demokratickosť analytického procesu a odstrániť bariéry medzi oddeleniami.
  • Poskytnite vysokú úroveň centralizácie a zrnitosti údajov - to vám umožní nájsť „ihlu v kope sena“.
  • Vhodné pre spoločnosti všetkých veľkostí - v počiatočnom štádiu môžete začať s mini jazerami a postupne zvyšovať objemy.
  • Zjednodušujú obchodné procesy - umožňujú napríklad uskutočňovať dotazy naprieč doménami a vytvárať komplexné prehľady produktov.
  • Sú lacnejšie ako úložisko, pretože údaje nie je potrebné predbežne spracovávať.

Jazerá potrebujú predovšetkým distribuované a rozvetvené tímy.Napríklad samotné finančné transakcie boli uložené v 25 rôznych databázach, ktoré boli usporiadané a organizované rôznymi spôsobmi.To spôsobilo zmätok a nepríjemnosti a jazero pomohlo zhromaždiť všetky materiály na jednom mieste a nainštalovať jednotný systém ochrany údajov.Teraz by dátoví a obchodní analytici, vývojári a technickí riaditelia mohli vziať komponenty, ktoré potrebovali, a spracovať ich pomocou rôznych nástrojov a technológií.A strojové učenie pomohlo analytikom spoločnosti Amazon robiť ultrapresné predpovede – teraz vedia, koľko škatúľ určitej veľkosti bude potrebných na balíky v Texase v novembri.

Štyri kroky k údajovým jazerám

Dátové jazerá majú ale aj nevýhody.V prvom rade vyžadujú ďalšie zdroje a vysokú úroveň odbornosti - iba vysokokvalifikovaní analytici z nich môžu skutočne ťažiť. Budete tiež potrebovať ďalšie nástroje Business Intelligence, ktoré vám pomôžu premeniť vaše postrehy na ucelenú stratégiu.

Ďalším problémom je použitie tretích stránsystémy na údržbu dátových jazier. V takom prípade je spoločnosť závislá od poskytovateľa. Ak dôjde k zlyhaniu systému alebo k úniku údajov, môže to viesť k veľkým finančným stratám. Hlavným problémom jazier je však humbuk okolo technológií. Spoločnosti si tento formát často osvojujú podľa módy, ale nevedia, prečo ho vlastne potrebujú. Výsledkom je, že míňajú vysoké sumy, ale nedosahujú návratnosť investícií. Odborníci preto radia, a to už vo fáze prípravy uvedenia na trh, určiť, aké obchodné úlohy budú jazerá riešiť.

Odborníci spoločnosti McKinsey identifikujú štyri fázy vytvárania dátových jazier:

  1. Vytvorenie platformy na zber nespracovaných údajov. V tejto fáze je dôležité naučiť sa, ako vyhľadávať a ukladať informácie.
  2. Vývoj platformy a prvé experimenty. Analytici údajov už začínajú analyzovať údaje a vytvárať analytické prototypy.
  3. Úzka integrácia s ukladaním údajov. V tejto fáze sa k jazerám hrnie čoraz viac súborov údajov a proces navigácie je zjednodušený.
  4. Dátové jazero sa stáva kľúčovýmarchitektúry. Vyvíjajú sa nové aplikačné scenáre, objavujú sa nové doplnky a služby s užívateľsky prívetivým rozhraním, spoločnosť začína využívať obchodný model Data-as-a-Service.

Analytické algoritmy

V samotnej akumulácii dát nie je nič zásadne nové, ale vďaka vývoju cloudových systémov, open-source platforiem a všeobecne nárastu výpočtového výkonu je dnes možné pracovať s jazernou architektúroudokonca aj startupy.

Ďalšou hnacou silou odvetvia je strojové učenie – táto technológia uľahčujepráce analytikov a poskytnúť im viac nástrojov na následné spracovanie.by sa topil v počte súborov, zhrnutí a tabuliek, ktoré teraz môže"Vložte" ich do algoritmu a rýchlejšie vytvorte analytický model.

Využitie dátových jazier v spojení s AI pomáha nielen centrálne analyzovať štatistiky, ale aj sledovať trendy v celej histórii spoločnosti.Napríklad jedna z amerických vysokých škôl zhromaždila informácie o uchádzačoch za posledných 60 rokov.Zohľadnili sa údaje o počte nových študentov, ako aj ukazovatele zamestnanosti a všeobecná hospodárska situácia v krajine.V dôsledku toho univerzita upravila program tak, aby študenti dokončili štúdium namiesto toho, aby odišli do polovice.

Aké ďalšie obchodné úlohy môžu dátové jazerá vyriešiť:

  • Efektívne prideľujte zdroje, aby ste sa vyhli vypredaniu zásob v obdobiach špičkového dopytu.
  • Vytváranie presnejších predpovedí a predvídanie trendov a uvádzanie inovatívnych produktov na trh pred konkurenciou.
  • Segmentujte svoje publikum a identifikujte záujmy aj tých najuznávanejších skupín.
  • Vytvárajte podrobnejšie a presnejšie prehľady, ktoré pomôžu vylepšiť metriky a zvýšiť produktivitu.
  • Efektívnejšie prispôsobenie propagačných algoritmov a odporúčacích systémov.
  • Ušetrite zdroje vo výrobe alebo v laboratóriu - aj keď ide o zložitú štruktúru ako CERN.

Jazerá sa však nepoužívajú iba v podnikateľskom prostredí – napríklad na začiatku pandémie spoločnosť AWS zhromaždila informácie o COVID-19 v jednom úložisku: výskumné údaje, články a štatistické súhrny.Informácie boli pravidelne aktualizované a prístup k nim bol poskytovaný bezplatne - museli ste platiť iba za analytické nástroje.

Dátové jazerá nemožno považovať za univerzálnenástroj a všeliek, ale v dobe, keď sa dáta považujú za nový olej, je dôležité, aby spoločnosti hľadali rôzne spôsoby výskumu a aplikácie veľkých dát. Hlavnou úlohou je centralizovať a konsolidovať rôznorodé informácie. V ére mikroslužieb a distribuovaných tímov často vznikajú situácie, keď jedno oddelenie nevie, na čom iné pracuje. Z tohto dôvodu podnik zbytočne míňa zdroje a rôzni špecialisti vykonávajú rovnaké úlohy, často o tom ani netušia. To v konečnom dôsledku znižuje efektivitu a preťažuje „operačný systém“ spoločnosti. Prieskumy ukazujú, že väčšina spoločností investuje do dátových jazier na zlepšenie prevádzkovej efektívnosti. Výsledky však prekračujú očakávania: prvodarcovia v technológii zvyšujú príjmy a zisky rýchlejšie ako tí, ktorí zaostávajú, a čo je najdôležitejšie, rýchlejšie prinášajú nové produkty a služby na trh.

Pozri tiež:

Ministerstvo zdravotníctva Argentíny zverejnilo údaje o vedľajších účinkoch u tých, ktorí dostávali Sputnik V.

Platypus sa ukázal byť genetickou zmesou cicavcov, vtákov a plazov

Potraty a veda: čo sa stane s deťmi, ktoré budú rodiť