Jeziora danych: jak działają jeziora danych i dlaczego są potrzebne

Jeziora, gabloty i przechowywanie

Wyobraźmy sobie, że firma ma dostęp do niewyczerpanych informacji

Zanurzając się w nim, analitycy regularnie zdobywają cenne informacje biznesowe i uruchamiająTak działają jeziora danych.Jest to stosunkowo nowy rodzaj architektury danych, który pozwala zbierać surowe i rozbieżne informacje z różnych źródeł, a następnie znaleźć dla nich efektywne zastosowanie.Giganci tacy jak Oracle, Amazon i Microsoft jako pierwsi eksperymentowali z tą technologią, a także opracowali wygodne usługi do budowy jezior.

Sam termin jezioro danych został wprowadzony przez Jamesa Dixona,założyciel platformy Pentaho. Porównał zbiorniki danych do jezior danych: te pierwsze są jak woda butelkowana, która została oczyszczona, przefiltrowana i zapakowana. Jeziora to otwarte zbiorniki wodne, do których wpływa woda z różnych źródeł. Możesz w nich zanurkować lub pobrać próbki z powierzchni. Istnieją również magazyny danych, które wykonują określone zadania i służą określonym interesom. Z drugiej strony, repozytoria Lakeside mogą przynieść korzyści wielu graczom, jeśli są mądrze używane.

Wydawałoby się, że przepływ informacji tylko komplikujepracują dla analityków, bo informacje nie są ustrukturyzowane, a poza tym jest ich za dużo. Ale jeśli firma wie, jak pracować z danymi i czerpać z nich wartość, jezioro nie zamieni się w bagno.

Pobieranie danych z „bunkra”

Jakie są jednak zalety jezior danych?firmy? Ich główną zaletą jest obfitość. Repozytorium otrzymuje informacje od różnych zespołów i działów, które zwykle nie są ze sobą powiązane. Weźmy na przykład szkołę internetową. Różne działy prowadzą statystyki i dążą do własnych celów - jeden zespół monitoruje wskaźniki utrzymania użytkowników, drugi bada podróże nowych klientów, a trzeci zbiera informacje o absolwentach. Nikt nie ma dostępu do pełnego obrazu. Ale jeśli zgromadzisz odmienne informacje w jednym repozytorium, możesz znaleźć interesujące wzorce. Na przykład okazuje się, że użytkownicy, którzy przyszli projektować kursy i obejrzeli co najmniej dwa webinary, z większym prawdopodobieństwem dotrą do końca programu i zbudują karierę na rynku. Informacje te pomogą firmie zatrzymać uczniów i stworzyć bardziej atrakcyjny produkt.

Często nieoczekiwane wzorce są wykrywane przypadkowo — na przykład usługa Data Lake pomagaAnalitycy danych mogą eksperymentalnie "krzyżować" różne strumienie informacji i znajdować podobieństwa, których w przeciwnym razie nie byliby w stanie znaleźć.

Źródła danych mogą być dowolne:szkoła internetowa będzie miała statystyki z różnych kanałów promocji, fabryka będzie miała wskaźniki czujników IoT, harmonogram użytkowania maszyn i wskaźniki zużycia sprzętu, rynek będzie miał informacje o dostępności towarów na magazynie, statystyki sprzedaży i dane o najpopularniejszych metodach płatności. Jeziora po prostu pomagają zbierać i badać tablice informacji, które zwykle nie przecinają się w żaden sposób i zwracają uwagę różnych działów.

Kolejną zaletą jezior danych jest ekstrakcja danychz różnych repozytoriów i zamkniętych podsystemów. Często informacje są przechowywane w swego rodzaju „bunkrze” informacyjnym, do którego dostęp ma tylko jeden dział. Przeniesienie z niego materiałów jest trudne lub niemożliwe - jest zbyt wiele ograniczeń. Jeziora rozwiązują ten problem.

Tak więc istnieje co najmniej osiem zalet jezior danych:

  • Pomóż analitykom danych uzyskać cenne informacje.
  • Pozwala firmie na szybkie podejmowanie decyzji na podstawie statystyk i faktów.
  • Umożliwia eksperymentowanie z różnymi typami danych z różnych źródeł.
  • Uczyń proces analityczny bardziej demokratycznym i usuń bariery między działami.
  • Zapewnij wysoki poziom centralizacji i ziarnistości danych - pozwala to znaleźć „igłę w stogu siana”.
  • Odpowiedni dla firm różnej wielkości - na wczesnym etapie można zacząć od mini jezior i stopniowo zwiększać objętości.
  • Upraszczają procesy biznesowe - na przykład umożliwiają wykonywanie zapytań międzydomenowych i tworzenie złożonych raportów dotyczących produktów.
  • Są tańsze niż przechowywanie, ponieważ dane nie muszą być wstępnie przetwarzane.

Jeziora są potrzebne przede wszystkim zespołom rozproszonym i rozgałęzionym.Na przykład same transakcje finansowe były przechowywane w 25 różnych bazach danych, które były uporządkowane i zorganizowane na różne sposoby.Spowodowało to zamieszanie i niedogodności, a jezioro pomogło zebrać wszystkie materiały w jednym miejscu i zainstalować ujednolicony system ochrony danych.Teraz analitycy danych i biznesowi, programiści i CTO mogą pobierać potrzebne komponenty i przetwarzać je przy użyciu różnych narzędzi i technologii.Uczenie maszynowe pomogło analitykom Amazona w tworzeniu ultradokładnych prognoz — teraz wiedzą, ile pudełek o określonym rozmiarze będzie potrzebnych do pakowania paczek w Teksasie w listopadzie.

Cztery kroki do jezior danych

Ale jeziora danych mają również wady.Przede wszystkim wymagają dodatkowych zasobów i wysokiego poziomu wiedzy - tylko wysoko wykwalifikowani analitycy mogą na nich naprawdę skorzystać. Będziesz także potrzebować dodatkowych narzędzi Business Intelligence, które pomogą przekształcić spostrzeżenia w spójną strategię.

Kolejnym problemem jest korzystanie z osób trzecichsystemy utrzymania jezior danych. W takim przypadku firma zależy od dostawcy. Jeśli dojdzie do awarii systemu lub wycieku danych, może to doprowadzić do dużych strat finansowych. Jednak głównym problemem jezior jest szum wokół technologii. Często firmy przyjmują ten format zgodnie z modą, ale nie wiedzą, dlaczego faktycznie go potrzebują. W rezultacie wydają duże sumy pieniędzy, ale nie uzyskują zwrotu. Dlatego eksperci doradzają, już na etapie przygotowań do wodowania, określić, jakie zadania biznesowe jeziora rozwiążą.

Eksperci McKinsey identyfikują cztery etapy tworzenia jezior danych:

  1. Stworzenie platformy do zbierania surowych danych. Na tym etapie ważne jest, aby nauczyć się pobierać i przechowywać informacje.
  2. Rozwój platformy i pierwsze eksperymenty. Analitycy danych już zaczynają analizować dane i budować analityczne prototypy.
  3. Ścisła integracja z przechowywaniem danych. Na tym etapie do jezior napływa coraz więcej zbiorów danych, a nawigacja jest uproszczona.
  4. Jezioro danych staje się kluczowearchitektura. Powstają nowe scenariusze aplikacji, pojawiają się nowe dodatki i usługi z przyjaznym interfejsem, firma zaczyna wykorzystywać model biznesowy Data-as-a-Service.

Algorytmy analityczne

W samym gromadzeniu danych nie ma nic zasadniczo nowego, ale dzięki rozwojowi systemów chmurowych, platform open-source i ogólnie wzrostowi mocy obliczeniowej, możliwa jest dziś praca z architekturą jezioranawet startupy.

Kolejnym motorem napędzającym branżę jest uczenie maszynowe — technologia ta ułatwiapracy analityków i dać im więcej narzędzi do post-processingu.utonęłaby w liczbie plików, podsumowań i tabel, które teraz może"Nakarmić" je algorytmem i szybciej zbudować model analityczny.

Wykorzystanie jezior danych w połączeniu ze sztuczną inteligencją pomaga nie tylko centralnie analizować statystyki, ale także śledzić trendy w całej historii firmy.Na przykład jedna z amerykańskich uczelni zbierała informacje o kandydatach w ciągu ostatnich 60 lat.Pod uwagę wzięto dane dotyczące liczby nowych studentów, a także wskaźniki zatrudnienia i ogólną sytuację gospodarczą w kraju.W rezultacie uczelnia dostosowała program tak, aby studenci kończyli studia, a nie rezygnowali w połowie.

Jakie inne zadania biznesowe mogą rozwiązać Data Lake:

  • Efektywnie przydzielaj zasoby, aby uniknąć braku zapasów w okresach szczytowego zapotrzebowania.
  • Twórz dokładniejsze prognozy i przewiduj trendy oraz wprowadzaj innowacyjne produkty przed konkurencją.
  • Podziel odbiorców na segmenty i zidentyfikuj zainteresowania nawet najbardziej niszowych grup.
  • Twórz bardziej szczegółowe i dokładne raporty, które pomogą poprawić wskaźniki i zwiększyć produktywność.
  • Efektywniej dostosowuj algorytmy promocji i systemy rekomendacji.
  • Oszczędzaj zasoby w produkcji lub w laboratorium - nawet jeśli jest to złożona konstrukcja, taka jak CERN.

Jeziora są jednak wykorzystywane nie tylko w środowiskach biznesowych – na przykład na początku pandemii AWS gromadził informacje o COVID-19 w jednym repozytorium: dane badawcze, artykuły i podsumowania statystyczne.Informacje były regularnie aktualizowane, a dostęp do nich był bezpłatny – trzeba było jedynie zapłacić za narzędzia analityczne.

Jezior danych nie można uznać za uniwersalnenarzędzie i panaceum, ale w erze, w której dane są uważane za nową ropę naftową, ważne jest, aby firmy szukały różnych sposobów badania i stosowania big data. Głównym zadaniem jest centralizacja i konsolidacja różnych informacji. W dobie mikrousług i rozproszonych zespołów często zdarzają się sytuacje, w których jeden dział nie wie, nad czym pracuje inny. Z tego powodu biznes marnuje zasoby, a różni specjaliści wykonują te same zadania, często o tym nie wiedząc. To ostatecznie zmniejsza wydajność i przeciąża „system operacyjny” firmy. Badania pokazują, że większość firm inwestuje w jeziora danych, aby poprawić wydajność operacyjną. Ale wyniki przekraczają oczekiwania: pierwsi użytkownicy technologii zwiększają przychody i zyski szybciej niż ci, którzy pozostają w tyle, a co najważniejsze, szybciej wprowadzają nowe produkty i usługi na rynek.

Zobacz także:

Ministerstwo Zdrowia Argentyny ujawniło dane dotyczące skutków ubocznych osób, które otrzymały „Sputnik V”

Dziobak okazał się genetyczną mieszanką ssaków, ptaków i gadów

Aborcja i nauka: co stanie się z dziećmi, które będą rodzić