Datová jezera: jak fungují datová jezera a proč jsou potřebná

Jezera, vitríny a úložiště

Představte si, že firma má přístup k nevyčerpatelným informacím

zdroj - ponoří se do něj, analytici pravidelnězískat cenné obchodní poznatky a uvést na trh nové, lepší produkty. Přibližně na tomto principu fungují datová jezera. Jedná se o relativně nový typ datové architektury, který vám umožňuje spojit hrubé a rozptýlené informace z různých zdrojů a následně pro ně najít efektivní využití. Giganti jako Oracle, Amazon a Microsoft byli první, kdo s touto technologií experimentoval a také vyvinuli pohodlné služby pro stavbu jezer.

Samotný termín datové jezero představil James Dixon,zakladatel platformy Pentaho. Porovnal datové trhy s datovými jezery: první jsou jako balená voda, která byla čištěna, filtrována a zabalena. Jezera jsou otevřené vodní útvary, do kterých proudí voda z různých zdrojů. Můžete se do nich ponořit nebo můžete odebrat vzorky z povrchu. K dispozici jsou také datová úložiště, která provádějí konkrétní úkoly a slouží konkrétním zájmům. Lakeside repos, na druhé straně, může být přínosem pro mnoho hráčů, pokud je používán rozumně.

Zdálo by se, že tok informací jen komplikujepráce pro analytiky, protože informace nejsou strukturované a kromě toho je jich příliš mnoho. Ale pokud společnost ví, jak pracovat s daty a získat z nich hodnotu, jezero se nestane bažinou.

Extrakce dat z „bunkru“

Jaké jsou výhody datových jezer?společnosti? Jejich hlavní výhodou je hojnost. Úložiště přijímá informace od různých týmů a oddělení, které obvykle nesouvisí. Vezměme si například školu online. Různá oddělení uchovávají své statistiky a sledují své vlastní cíle - jeden tým sleduje metriky retence uživatelů, druhý studuje cestu zákazníků k novým zákazníkům a třetí shromažďuje informace o absolventech. Nikdo nemá přístup k úplnému obrázku. Pokud však nahromadíte různorodé informace v jednom úložišti, můžete najít zajímavé vzory. Ukázalo se například, že u uživatelů, kteří navštěvují kurzy designu a sledují alespoň dva webináře, je větší pravděpodobnost, že se dostanou na konec programu a vytvoří si úspěšnou kariéru na trhu. Tyto informace pomohou společnosti udržet si studenty a vytvořit působivější produkt.

Často se objeví neočekávané vzorcenáhodou – datové jezero tak pomáhá datovým analytikům experimentálně „křížit“ různé proudy informací a nacházet paralely, které by za jiných okolností jen stěží objevili.

Zdroje dat mohou být jakékoli:online škola bude mít statistiky z různých propagačních kanálů, továrna bude mít indikátory senzorů IoT, plán používání obráběcích strojů a míru opotřebení zařízení, tržiště bude mít informace o dostupnosti zboží na skladě, statistiky prodeje a údaje o nejpopulárnějších platebních metodách. Jezera jen pomáhají shromažďovat a studovat pole informací, které se obvykle nijak neprotínají a spadají do oblasti pozornosti různých oddělení.

Další výhodou datových jezer je extrakce datz různorodých úložišť a uzavřených subsystémů. Informace jsou často uloženy v jakémsi informačním „bunkru“, ke kterému má přístup pouze jedno oddělení. Přenášet materiály z něj je obtížné nebo nemožné - existuje příliš mnoho omezení. Jezera tento problém řeší.

Existuje tedy nejméně osm výhod datových jezer:

  • Pomozte analytikům dat získat cenné poznatky.
  • Umožňuje společnosti rychle se rozhodovat na základě statistik a faktů.
  • Umožňuje experimentovat s různými typy dat z různých zdrojů.
  • Zvyšte demokratičnost analytického procesu a odstraňte překážky mezi odděleními.
  • Zajistěte vysokou úroveň centralizace a členění dat - to vám umožní najít „jehlu v kupce sena“.
  • Vhodné pro společnosti všech velikostí - v rané fázi můžete začít s mini jezery a postupně budovat objemy.
  • Zjednodušují obchodní procesy - například vám umožňují provádět dotazy napříč doménami a vytvářet komplexní přehledy produktů.
  • Jsou levnější než úložiště, protože data nemusí být předem zpracována.

Jezera potřebují především distribuované arozvětvené týmy. Klasickým příkladem je Amazon. Společnost shromáždila data z tisíců různých zdrojů. Samotné finanční transakce tak byly uloženy ve 25 různých databázích, které byly navrženy a organizovány různými způsoby. To způsobilo zmatek a nepříjemnosti. Jezero pomohlo shromáždit všechny materiály na jednom místě a vytvořit jednotný systém ochrany dat. Nyní mohou specialisté – datoví a obchodní analytici, vývojáři a CTO – vzít potřebné komponenty a zpracovat je pomocí různých nástrojů a technologií. A strojové učení pomohlo analytikům Amazonu vytvářet velmi přesné předpovědi – nyní vědí, kolik krabic určité velikosti bude potřeba pro balíčky v Texasu v listopadu.

Čtyři kroky k datovým jezerům

Ale datová jezera mají také nevýhody.Nejprve vyžadují další zdroje a vysokou úroveň odbornosti - pouze vysoce kvalifikovaní analytici z nich mohou skutečně těžit. Budete také potřebovat další nástroje Business Intelligence, které vám pomohou transformovat vaše postřehy do soudržné strategie.

Dalším problémem je použití třetí stranysystémy pro údržbu datových jezer. V tomto případě společnost závisí na poskytovateli. Pokud dojde k selhání systému nebo úniku dat, může to vést k velkým finančním ztrátám. Hlavním problémem jezer je však humbuk kolem technologie. Společnosti často přijímají tento formát podle módy, ale nevědí, proč ho vlastně potřebují. Ve výsledku utrácejí velké částky, ale nedosahují návratnosti investic. Odborníci proto radí, a to již ve fázi přípravy na spuštění, určit, jaké obchodní úkoly budou jezera řešit.

Odborníci společnosti McKinsey identifikují čtyři fáze vytváření datových jezer:

  1. Vytvoření platformy pro sběr nezpracovaných dat. V této fázi je důležité se naučit, jak načítat a ukládat informace.
  2. Vývoj platformy a první experimenty. Analytici dat již začínají analyzovat data a vytvářet analytické prototypy.
  3. Těsná integrace s úložištěm dat. V této fázi se k jezerům hromadí stále více datových sad a proces navigace je zjednodušený.
  4. Datové jezero se stává klíčovýmarchitektura. Vyvíjejí se nové scénáře aplikací, objevují se nové doplňky a služby s uživatelsky přívětivým rozhraním, společnost začíná používat obchodní model Data-as-a-Service.

Analytické algoritmy

V samotném hromadění dat není niczásadně nové, ale díky rozvoji cloudových systémů, open source platforem a obecnému nárůstu výkonu počítače dnes mohou s jezerní architekturou pracovat i startupy.

Dalším hnacím motorem průmyslu byly stroješkolení - technologie částečně zjednodušuje práci analytiků a dává jim více nástrojů pro post-processing. Pokud by se dříve specialista utopil v množství souborů, přehledů a tabulek, nyní je může „nakrmit“ algoritmem a rychle sestavit analytický model.

Používání datových jezer v kombinaci s AI pomáhánejen centrálně analyzovat statistiky, ale také sledovat trendy v historii společnosti. Jedna z amerických vysokých škol tak sbírala informace o uchazečích za posledních 60 let. Zohledněny byly údaje o počtu nových studentů, dále ukazatele zaměstnanosti a celková ekonomická situace v zemi. V důsledku toho univerzita upravila program tak, aby studenti dokončili studium, než aby v polovině kurzy opustili.

Jaké další obchodní úkoly mohou datová jezera vyřešit:

  • Efektivně alokujte zdroje, abyste zabránili vyprodání zásob během období špičkové poptávky.
  • Vytvářejte přesnější předpovědi a předvídejte trendy a zavádějte inovativní produkty před konkurenty.
  • Segmentujte své publikum a identifikujte zájmy i těch nejvíce specializovaných skupin.
  • Vytvářejte podrobnější a přesnější zprávy, které pomohou zlepšit metriky a zvýšit produktivitu.
  • Efektivněji přizpůsobte propagační algoritmy a systémy doporučení.
  • Ušetřete zdroje ve výrobě nebo v laboratoři - i když jde o složitou strukturu, jako je CERN.

Jezera však slouží nejen kpodnikatelské prostředí – například na začátku pandemie AWS shromažďovala informace o COVID-19 v jediném úložišti: výzkumná data, články, statistické zprávy. Informace byly pravidelně aktualizovány a přístup k nim byl poskytován zdarma – museli jste platit pouze za analytické nástroje.

Datová jezera nelze považovat za univerzálnínástroj a všelék, ale v době, kdy se data považují za nový olej, je důležité, aby společnosti hledaly různé způsoby výzkumu a používání velkých objemů dat. Hlavním úkolem je centralizovat a konsolidovat různorodé informace. V éře mikroslužeb a distribuovaných týmů často vznikají situace, kdy jedno oddělení neví, na čem jiné pracuje. Z tohoto důvodu podnik plýtvá prostředky a různí odborníci provádějí stejné úkoly, často o nich nevědí. To v konečném důsledku snižuje účinnost a přetíží „operační systém“ společnosti. Průzkumy ukazují, že většina společností investuje do datových jezer za účelem zlepšení provozní efektivity. Výsledky však předčily očekávání: první uživatelé technologie rostou rychleji a rychleji než ti, kteří zaostávají, a co je nejdůležitější, přinášejí na trh nové produkty a služby rychleji.

Viz také:

Ministerstvo zdravotnictví Argentiny zveřejnilo údaje o vedlejších účincích u těch, kteří dostali „Sputnik V“

Ptakopysk se ukázal být genetickou směsí savců, ptáků a plazů

Potrat a věda: co se stane s dětmi, které porodí