Озера даних: як влаштовані data lakes і навіщо вони потрібні

Озера, вітрини і сховища

Уявіть, що компанія має доступ до невичерпного інформаційного

ресурсу - поринаючи в нього, аналітики регулярноотримують цінні бізнес-інсайти та запускають нові, більш досконалі продукти. Приблизно за таким принципом працюють озера даних – data lakes. Це відносно новий вид data-архітектури, що дозволяє воєдино збирати сирі та розрізнені відомості з різних джерел, а потім знаходити їм ефективне застосування. Першими з технологією почали експериментувати такі гіганти, як Oracle, Amazon і Microsoft, вони ж розробили зручні сервіси для побудови озер.

Сам термін data lake ввів Джеймс Діксон,засновник платформи Pentaho. Він порівнював вітрини даних з озерами даних: перші схожі на бутильовану воду, яку очистили, відфільтрували і упакували. Озера - це відкриті водойми, в які вода надходить з різних джерел. У них можна занурюватися, а можна брати зразки з поверхні. Існують ще дата-сховища, які виконують конкретні завдання і слугують певним інтересам. Озерні репозиторії, навпаки, можуть принести користь багатьом гравцям, якщо їх грамотно використовувати.

Здавалося б, потоки відомостей тільки ускладнюютьроботу аналітикам, адже відомості не структуровані, до того ж їх дуже багато. Але якщо компанія вміє працювати з даними і витягати з них користь, озеро чи не перетворюється в «болото».

Витягуємо дані з «бункера»

І все-таки якусь користь приносять data lakesкомпаніям? Їх головна перевага - це достаток. У репозиторій потрапляють відомості від різних команд і підрозділів, які зазвичай ніяк між собою не пов'язані. Візьмемо для прикладу онлайн-школу. Різні відділи ведуть свою статистику і переслідують свої цілі - одна команда стежить за метриками утримання користувачів, друга вивчає customer journey нових клієнтів, а третя збирає інформацію про випускників. Доступу до повної картини немає ні у кого. Але якщо акумулювати розрізнені відомості в єдиному репозиторії, то можна виявити цікаві закономірності. Наприклад, виявиться, що користувачі, які прийшли на курси дизайну та переглянули хоча б два вебінару, частіше за інших доходять до кінця програми і будують успішну кар'єру на ринку. Ця інформація допоможе компанії утримати студентів і створити більш привабливий продукт.

Часто несподівані закономірності виявляютьсявипадково — так, озеро даних допомагає дата-аналітикам експериментально «схрещувати» різні потоки відомостей та знаходити паралелі, які за інших обставин вони навряд чи виявили б.

Джерела даних можуть бути будь-якими:у онлайн-школи це буде статистика з різних каналів просування, у фабрики - показники IoT-датчиків, графік використання верстатів і показники зносу обладнання, у маркетплейса - відомості про наявність товарів в стоці, статистика продажів і дані про найпопулярніші платіжних методах. Озера якраз допомагають збирати і вивчати масиви інформації, які зазвичай ніяк не перетинаються і потрапляють в поле уваги різних відділів.

Ще один плюс дата-озер - це вилучення данихз розрізнених репозиторіїв і закритих підсистем. Часто відомості зберігаються в подобі інформаційного «бункера», доступ до якого є тільки у одного підрозділу. Перенести з нього матеріали складно або неможливо - надто багато обмежень. Озера цю проблему вирішують.

Отже, можна виділити як мінімум вісім переваг озер даних:

  • Допомагають дата-аналітикам отримувати цінні інсайти.
  • Дозволяють компанії швидко приймати рішення, спираючись на статистику і факти.
  • Дають можливість експериментувати з різними типами даних з різних джерел.
  • Роблять процес аналітики більш демократичним і перуть бар'єри між підрозділами.
  • Забезпечують високий рівень централізації і деталізації даних - це дозволяє знайти «голку в стозі сіна».
  • Підходять компаніям різного розміру - на ранній стадії можна почати з міні-озер і поступово нарощувати обсяги.
  • Спрощують бізнес-процеси - наприклад, дозволяють робити cross-domain запити і створювати комплексну продуктову звітність.
  • Обходяться дешевше, ніж сховища, тому що дані не потребують попередньої обробки.

Озера в першу чергу потрібні розподіленим тарозгалуженим командам. Класичний приклад - Amazon. Корпорація акумулювала дані із тисячі різних джерел. Так, лише фінансові транзакції зберігалися в 25 різних базах, які були по-різному влаштовані і організовані. Це створювало плутанину та незручності. Озеро допомогло зібрати всі матеріали в одному місці та встановити єдину систему захисту даних. Тепер фахівці – дата- та бізнес-аналітики, розробники та CTO – могли брати потрібні їм компоненти та обробляти їх, використовуючи різні інструменти та технології. А машинне навчання допомогло аналітикам Amazon будувати надточні прогнози - тепер вони знають, скільки коробок певного розміру знадобиться для посилок в умовному Техасі в листопаді.

Чотири кроки до дата-озерам

Але у data lakes є і недоліки.В першу чергу вони вимагають додаткових ресурсів і високого рівня експертизи - по-справжньому витягти з них користь можуть тільки висококваліфіковані аналітики. Також будуть потрібні додаткові інструменти Business Intelligence, які допоможуть перетворити інсайти в послідовну стратегію.

Інша проблема - це використання сторонніхсистем для підтримки data lakes. У цьому випадку компанія залежить від провайдера. Якщо в системі відбудеться збій або витік даних, це може привести до великих фінансових втрат. Однак головна проблема озер - це хайп навколо технології. Часто компанії впроваджують цей формат, слідуючи моді, але не знають, навіщо насправді їм це потрібно. В результаті вони витрачають великі суми, але не досягають окупності. Тому експерти радять ще на стадії підготовки до запуску визначити, які бізнес-завдання вирішуватимуть озера.

Експерти McKinsey виділяють чотири стадії створення data lakes:

  1. Створення платформи для збору сирих даних. На цьому етапі важливо навчитися отримувати і зберігати відомості.
  2. Розвиток платформи і перші експерименти. Дата-аналітики вже починають аналізувати дані і будувати прототипи аналітичних моделей.
  3. Тісна інтеграція з дата-сховищами. На цій стадії в озера стікаються всі великі масиви даних, а процес навігації спрощується.
  4. Дата-озеро стає ключовим елементомархітектури. Розвиваються нові сценарії застосування, з'являються нові надбудови і сервіси з зручними інтерфейсом, компанія починає використовувати бізнес-модель Data-as-a-Service.

Алгоритми-аналітики

У самому акумулюванні даних немає нічогопринципово нового, але завдяки розвитку хмарних систем, платформ з відкритим кодом та загалом збільшенню комп'ютерних потужностей працювати з озерною архітектурою сьогодні можуть навіть стартапи.

Ще одним драйвером галузі стало машинненавчання – технологія частково спрощує роботу аналітиків і дає їм більше інструментів для постобробки. Якщо раніше фахівець потонув би у кількості файлів, зведень та таблиць, тепер він може «годувати» їхній алгоритм і швидше побудувати аналітичну модель.

Використання дата-озер у комплексі з ІІ допомагаєне просто централізовано аналізувати статистику, а й відстежувати тренди протягом усієї історії роботи компанії. Так, один із американських коледжів зібрав відомості про абітурієнтів за останні 60 років. Враховувалися дані про кількість нових студентів, а також показники працевлаштування та загальна економічна ситуація в країні. В результаті виш скоригував програму так, щоб студенти закінчували навчання, а не кидали курси на півдорозі.

Які ще бізнес-завдання можуть вирішувати дата-озера:

  • Ефективно розподіляти ресурси, щоб уникнути дефіциту товару в періоди пікового попиту.
  • Будувати більш точні прогнози і передбачати тренди, а також запускати інноваційні продукти раніше конкурентів.
  • Сегментувати аудиторію і визначати інтереси навіть самих нішевих груп.
  • Будувати більш докладні і точні звіти, які допоможуть поліпшити показники і підвищити продуктивність.
  • Більш ефективно налаштовувати алгоритми просування і рекомендаційні системи.
  • Економити ресурси на виробництві або в лабораторії - навіть якщо це комплексна структура на кшталт ЦЕРНу.

Втім, озера використовують не тільки вбізнес-середовищі - наприклад, на початку пандемії AWS зібрала в єдиному репозиторії відомості про COVID-19: дані досліджень, статті, статистичні зведення. Інформацію регулярно оновлювали, а доступ до неї надали безкоштовно – платити треба було лише за інструменти для аналітики.

Data lakes не можна вважати універсальнимінструментом і панацеєю, але в епоху, коли дані вважаються новою нафтою, компаніям важливо шукати різні шляхи дослідження і застосування big data. Головне завдання - це централізація і консолідація розрізнених відомостей. В епоху мікросервісов і розподілених команд часто виникають ситуації, коли один відділ не знає, над чим працює інший. Через це бізнес витрачає ресурси, а різні фахівці виконують однакові завдання, часто не підозрюючи про це. В кінцевому підсумку це знижує ефективність і перевантажує «оперативну систему» ​​компанії. Як показують опитування, більшість компаній інвестує в озера даних якраз для підвищення операційної ефективності. Але результати перевершують очікування: у ранніх адептів технології виручка і прибуток зростають швидше, ніж у тих, що відстають, а головне, вони швидше виводять на ринок нові продукти і послуги.

Читайте також:

МОЗ Аргентини розкрив дані про побічні ефекти у отримали «Супутник V»

Качконіс виявився генетичної сумішшю ссавців, птахів і рептилій

Аборти і наука: що буде з дітьми, яких народять