Datová jezera: jak fungují datová jezera a proč jsou potřebná

Jezera, vitríny a úložiště

Představte si, že společnost má přístup k nevyčerpatelným informacím

zdroj - ponoření se do něj, analytici pravidelnězískejte cenné obchodní informace a zavádějte nové, lepší produkty. Datová jezera fungují podobně jako tento princip. Jedná se o relativně nový typ datové architektury, který umožňuje shromažďovat společně nezpracované a různorodé informace z různých zdrojů a poté najít jejich efektivní využití. Jako první experimentovali s touto technologií giganti jako Oracle, Amazon a Microsoft - vyvinuli také pohodlné služby pro stavbu jezer.

Samotný termín datové jezero představil James Dixon,zakladatel platformy Pentaho. Porovnal datové trhy s datovými jezery: první jsou jako balená voda, která byla čištěna, filtrována a zabalena. Jezera jsou otevřené vodní útvary, do kterých proudí voda z různých zdrojů. Můžete se do nich ponořit nebo můžete odebrat vzorky z povrchu. K dispozici jsou také datová úložiště, která provádějí konkrétní úkoly a slouží konkrétním zájmům. Lakeside repos, na druhé straně, může být přínosem pro mnoho hráčů, pokud je používán rozumně.

Zdálo by se, že tok informací jen komplikujepráce pro analytiky, protože informace nejsou strukturované a kromě toho je jich příliš mnoho. Ale pokud společnost ví, jak pracovat s daty a získat z nich hodnotu, jezero se nestane bažinou.

Extrakce dat z „bunkru“

Jaké jsou výhody datových jezer?společnosti? Jejich hlavní výhodou je hojnost. Úložiště přijímá informace od různých týmů a oddělení, které obvykle nesouvisí. Vezměme si například školu online. Různá oddělení uchovávají své statistiky a sledují své vlastní cíle - jeden tým sleduje metriky retence uživatelů, druhý studuje cestu zákazníků k novým zákazníkům a třetí shromažďuje informace o absolventech. Nikdo nemá přístup k úplnému obrázku. Pokud však nahromadíte různorodé informace v jednom úložišti, můžete najít zajímavé vzory. Ukázalo se například, že u uživatelů, kteří navštěvují kurzy designu a sledují alespoň dva webináře, je větší pravděpodobnost, že se dostanou na konec programu a vytvoří si úspěšnou kariéru na trhu. Tyto informace pomohou společnosti udržet si studenty a vytvořit působivější produkt.

Často se vyskytují neočekávané vzorcenáhodně - například datové jezero pomáhá analytikům dat experimentálně „překračovat“ různé proudy informací a najít paralely, které by za jiných okolností těžko našli.

Zdroje dat mohou být jakékoli:online škola bude mít statistiky z různých propagačních kanálů, továrna bude mít indikátory senzorů IoT, plán používání obráběcích strojů a míru opotřebení zařízení, tržiště bude mít informace o dostupnosti zboží na skladě, statistiky prodeje a údaje o nejpopulárnějších platebních metodách. Jezera jen pomáhají shromažďovat a studovat pole informací, které se obvykle nijak neprotínají a spadají do oblasti pozornosti různých oddělení.

Další výhodou datových jezer je extrakce datz různorodých úložišť a uzavřených subsystémů. Informace jsou často uloženy v jakémsi informačním „bunkru“, ke kterému má přístup pouze jedno oddělení. Přenášet materiály z něj je obtížné nebo nemožné - existuje příliš mnoho omezení. Jezera tento problém řeší.

Existuje tedy nejméně osm výhod datových jezer:

  • Pomozte analytikům dat získat cenné poznatky.
  • Umožňuje společnosti rychle se rozhodovat na základě statistik a faktů.
  • Umožňuje experimentovat s různými typy dat z různých zdrojů.
  • Zvyšte demokratičnost analytického procesu a odstraňte překážky mezi odděleními.
  • Zajistěte vysokou úroveň centralizace a členění dat - to vám umožní najít „jehlu v kupce sena“.
  • Vhodné pro společnosti všech velikostí - v rané fázi můžete začít s mini jezery a postupně budovat objemy.
  • Zjednodušují obchodní procesy - například vám umožňují provádět dotazy napříč doménami a vytvářet komplexní přehledy produktů.
  • Jsou levnější než úložiště, protože data nemusí být předem zpracována.

Jezera jsou primárně potřebná pro distribuovaná arozvětvené týmy. Amazon je klasický příklad. Společnost shromáždila data z tisíců různých zdrojů. Samotné finanční transakce byly tedy uloženy ve 25 různých databázích, které byly různě uspořádány a uspořádány. To vyvolalo zmatek a nepříjemnosti. Jezero pomohlo shromáždit všechny materiály na jednom místě a zavést jednotný systém ochrany údajů. Profesionálové - datoví a obchodní analytici, vývojáři a CTO - nyní mohou převzít potřebné komponenty a zpracovat je pomocí různých nástrojů a technologií. A strojové učení pomohlo analytikům Amazonu vytvářet velmi přesné předpovědi - nyní vědí, kolik krabic určité velikosti bude pro balíčky v Texasu v listopadu zapotřebí.

Čtyři kroky k datovým jezerům

Ale datová jezera mají také nevýhody.Nejprve vyžadují další zdroje a vysokou úroveň odbornosti - pouze vysoce kvalifikovaní analytici z nich mohou skutečně těžit. Budete také potřebovat další nástroje Business Intelligence, které vám pomohou transformovat vaše postřehy do soudržné strategie.

Dalším problémem je použití třetí stranysystémy pro údržbu datových jezer. V tomto případě společnost závisí na poskytovateli. Pokud dojde k selhání systému nebo úniku dat, může to vést k velkým finančním ztrátám. Hlavním problémem jezer je však humbuk kolem technologie. Společnosti často přijímají tento formát podle módy, ale nevědí, proč ho vlastně potřebují. Ve výsledku utrácejí velké částky, ale nedosahují návratnosti investic. Odborníci proto radí, a to již ve fázi přípravy na spuštění, určit, jaké obchodní úkoly budou jezera řešit.

Odborníci společnosti McKinsey identifikují čtyři fáze vytváření datových jezer:

  1. Vytvoření platformy pro sběr nezpracovaných dat. V této fázi je důležité se naučit, jak načítat a ukládat informace.
  2. Vývoj platformy a první experimenty. Analytici dat již začínají analyzovat data a vytvářet analytické prototypy.
  3. Těsná integrace s úložištěm dat. V této fázi se k jezerům hromadí stále více datových sad a proces navigace je zjednodušený.
  4. Datové jezero se stává klíčovýmarchitektura. Vyvíjejí se nové scénáře aplikací, objevují se nové doplňky a služby s uživatelsky přívětivým rozhraním, společnost začíná používat obchodní model Data-as-a-Service.

Analytické algoritmy

Na samotném hromadění dat není niczásadně nový, ale díky vývoji cloudových systémů, platforem otevřeného zdroje a obecně zvýšení výkonu počítače dnes mohou s architekturou jezera pracovat i startupy.

Dalším řidičem v oboru byl strojškolení - technologie poněkud zjednodušuje práci analytiků a poskytuje jim více nástrojů pro následné zpracování. Pokud by se dříve specialista utopil v počtu souborů, souhrnů a tabulek, nyní je může „krmit“ algoritmem a rychleji vytvářet analytický model.

Použití datových jezer v kombinaci s AI pomáhánejen centrálně analyzovat statistiky, ale také sledovat trendy v celé historii společnosti. Jedna z amerických vysokých škol tedy za posledních 60 let shromáždila informace o uchazečích. Byly zohledněny údaje o počtu nových studentů, jakož i ukazatele zaměstnanosti a obecné ekonomické situace v zemi. Výsledkem bylo, že univerzita upravila učební osnovy tak, aby studenti spíše v polovině studia promovali, než aby z kurzů odcházeli.

Jaké další obchodní úkoly mohou datová jezera vyřešit:

  • Efektivně alokujte zdroje, abyste zabránili vyprodání zásob během období špičkové poptávky.
  • Vytvářejte přesnější předpovědi a předvídejte trendy a zavádějte inovativní produkty před konkurenty.
  • Segmentujte své publikum a identifikujte zájmy i těch nejvíce specializovaných skupin.
  • Vytvářejte podrobnější a přesnější zprávy, které pomohou zlepšit metriky a zvýšit produktivitu.
  • Efektivněji přizpůsobte propagační algoritmy a systémy doporučení.
  • Ušetřete zdroje ve výrobě nebo v laboratoři - i když jde o složitou strukturu, jako je CERN.

Jezera se však využívají nejen vpodnikatelské prostředí - například na začátku pandemie shromáždila AWS informace o COVID-19 v jediném úložišti: výzkumná data, články, statistické souhrny. Informace byly pravidelně aktualizovány a přístup k nim byl poskytován bezplatně - bylo nutné platit pouze za analytické nástroje.

Datová jezera nelze považovat za univerzálnínástroj a všelék, ale v době, kdy se data považují za nový olej, je důležité, aby společnosti hledaly různé způsoby výzkumu a používání velkých objemů dat. Hlavním úkolem je centralizovat a konsolidovat různorodé informace. V éře mikroslužeb a distribuovaných týmů často vznikají situace, kdy jedno oddělení neví, na čem jiné pracuje. Z tohoto důvodu podnik plýtvá prostředky a různí odborníci provádějí stejné úkoly, často o nich nevědí. To v konečném důsledku snižuje účinnost a přetíží „operační systém“ společnosti. Průzkumy ukazují, že většina společností investuje do datových jezer za účelem zlepšení provozní efektivity. Výsledky však předčily očekávání: první uživatelé technologie rostou rychleji a rychleji než ti, kteří zaostávají, a co je nejdůležitější, přinášejí na trh nové produkty a služby rychleji.

Viz také:

Ministerstvo zdravotnictví Argentiny zveřejnilo údaje o vedlejších účincích u těch, kteří dostali „Sputnik V“

Ptakopysk se ukázal být genetickou směsí savců, ptáků a plazů

Potrat a věda: co se stane s dětmi, které porodí