Озера, вітрини і сховища
Уявіть, що компанія має доступ до невичерпного інформаційного
Сам термін data lake ввів Джеймс Діксон,засновник платформи Pentaho. Він порівнював вітрини даних з озерами даних: перші схожі на бутильовану воду, яку очистили, відфільтрували і упакували. Озера - це відкриті водойми, в які вода надходить з різних джерел. У них можна занурюватися, а можна брати зразки з поверхні. Існують ще дата-сховища, які виконують конкретні завдання і слугують певним інтересам. Озерні репозиторії, навпаки, можуть принести користь багатьом гравцям, якщо їх грамотно використовувати.
Здавалося б, потоки відомостей тільки ускладнюютьроботу аналітикам, адже відомості не структуровані, до того ж їх дуже багато. Але якщо компанія вміє працювати з даними і витягати з них користь, озеро чи не перетворюється в «болото».
Витягуємо дані з «бункера»
І все-таки якусь користь приносять data lakesкомпаніям? Їх головна перевага - це достаток. У репозиторій потрапляють відомості від різних команд і підрозділів, які зазвичай ніяк між собою не пов'язані. Візьмемо для прикладу онлайн-школу. Різні відділи ведуть свою статистику і переслідують свої цілі - одна команда стежить за метриками утримання користувачів, друга вивчає customer journey нових клієнтів, а третя збирає інформацію про випускників. Доступу до повної картини немає ні у кого. Але якщо акумулювати розрізнені відомості в єдиному репозиторії, то можна виявити цікаві закономірності. Наприклад, виявиться, що користувачі, які прийшли на курси дизайну та переглянули хоча б два вебінару, частіше за інших доходять до кінця програми і будують успішну кар'єру на ринку. Ця інформація допоможе компанії утримати студентів і створити більш привабливий продукт.
Часто несподівані закономірності виявляютьсявипадково — так, озеро даних допомагає дата-аналітикам експериментально «схрещувати» різні потоки відомостей та знаходити паралелі, які за інших обставин вони навряд чи виявили б.
Джерела даних можуть бути будь-якими:у онлайн-школи це буде статистика з різних каналів просування, у фабрики - показники IoT-датчиків, графік використання верстатів і показники зносу обладнання, у маркетплейса - відомості про наявність товарів в стоці, статистика продажів і дані про найпопулярніші платіжних методах. Озера якраз допомагають збирати і вивчати масиви інформації, які зазвичай ніяк не перетинаються і потрапляють в поле уваги різних відділів.
Ще один плюс дата-озер - це вилучення данихз розрізнених репозиторіїв і закритих підсистем. Часто відомості зберігаються в подобі інформаційного «бункера», доступ до якого є тільки у одного підрозділу. Перенести з нього матеріали складно або неможливо - надто багато обмежень. Озера цю проблему вирішують.
Отже, можна виділити як мінімум вісім переваг озер даних:
- Допомагають дата-аналітикам отримувати цінні інсайти.
- Дозволяють компанії швидко приймати рішення, спираючись на статистику і факти.
- Дають можливість експериментувати з різними типами даних з різних джерел.
- Роблять процес аналітики більш демократичним і перуть бар'єри між підрозділами.
- Забезпечують високий рівень централізації і деталізації даних - це дозволяє знайти «голку в стозі сіна».
- Підходять компаніям різного розміру - на ранній стадії можна почати з міні-озер і поступово нарощувати обсяги.
- Спрощують бізнес-процеси - наприклад, дозволяють робити cross-domain запити і створювати комплексну продуктову звітність.
- Обходяться дешевше, ніж сховища, тому що дані не потребують попередньої обробки.
Озера в першу чергу потрібні розподіленим тарозгалуженим командам. Класичний приклад - Amazon. Корпорація акумулювала дані із тисячі різних джерел. Так, лише фінансові транзакції зберігалися в 25 різних базах, які були по-різному влаштовані і організовані. Це створювало плутанину та незручності. Озеро допомогло зібрати всі матеріали в одному місці та встановити єдину систему захисту даних. Тепер фахівці – дата- та бізнес-аналітики, розробники та CTO – могли брати потрібні їм компоненти та обробляти їх, використовуючи різні інструменти та технології. А машинне навчання допомогло аналітикам Amazon будувати надточні прогнози - тепер вони знають, скільки коробок певного розміру знадобиться для посилок в умовному Техасі в листопаді.
Чотири кроки до дата-озерам
Але у data lakes є і недоліки.В першу чергу вони вимагають додаткових ресурсів і високого рівня експертизи - по-справжньому витягти з них користь можуть тільки висококваліфіковані аналітики. Також будуть потрібні додаткові інструменти Business Intelligence, які допоможуть перетворити інсайти в послідовну стратегію.
Інша проблема - це використання сторонніхсистем для підтримки data lakes. У цьому випадку компанія залежить від провайдера. Якщо в системі відбудеться збій або витік даних, це може привести до великих фінансових втрат. Однак головна проблема озер - це хайп навколо технології. Часто компанії впроваджують цей формат, слідуючи моді, але не знають, навіщо насправді їм це потрібно. В результаті вони витрачають великі суми, але не досягають окупності. Тому експерти радять ще на стадії підготовки до запуску визначити, які бізнес-завдання вирішуватимуть озера.
Експерти McKinsey виділяють чотири стадії створення data lakes:
- Створення платформи для збору сирих даних. На цьому етапі важливо навчитися отримувати і зберігати відомості.
- Розвиток платформи і перші експерименти. Дата-аналітики вже починають аналізувати дані і будувати прототипи аналітичних моделей.
- Тісна інтеграція з дата-сховищами. На цій стадії в озера стікаються всі великі масиви даних, а процес навігації спрощується.
- Дата-озеро стає ключовим елементомархітектури. Розвиваються нові сценарії застосування, з'являються нові надбудови і сервіси з зручними інтерфейсом, компанія починає використовувати бізнес-модель Data-as-a-Service.
Алгоритми-аналітики
У самому акумулюванні даних немає нічогопринципово нового, але завдяки розвитку хмарних систем, платформ з відкритим кодом та загалом збільшенню комп'ютерних потужностей працювати з озерною архітектурою сьогодні можуть навіть стартапи.
Ще одним драйвером галузі стало машинненавчання – технологія частково спрощує роботу аналітиків і дає їм більше інструментів для постобробки. Якщо раніше фахівець потонув би у кількості файлів, зведень та таблиць, тепер він може «годувати» їхній алгоритм і швидше побудувати аналітичну модель.
Використання дата-озер у комплексі з ІІ допомагаєне просто централізовано аналізувати статистику, а й відстежувати тренди протягом усієї історії роботи компанії. Так, один із американських коледжів зібрав відомості про абітурієнтів за останні 60 років. Враховувалися дані про кількість нових студентів, а також показники працевлаштування та загальна економічна ситуація в країні. В результаті виш скоригував програму так, щоб студенти закінчували навчання, а не кидали курси на півдорозі.
Які ще бізнес-завдання можуть вирішувати дата-озера:
- Ефективно розподіляти ресурси, щоб уникнути дефіциту товару в періоди пікового попиту.
- Будувати більш точні прогнози і передбачати тренди, а також запускати інноваційні продукти раніше конкурентів.
- Сегментувати аудиторію і визначати інтереси навіть самих нішевих груп.
- Будувати більш докладні і точні звіти, які допоможуть поліпшити показники і підвищити продуктивність.
- Більш ефективно налаштовувати алгоритми просування і рекомендаційні системи.
- Економити ресурси на виробництві або в лабораторії - навіть якщо це комплексна структура на кшталт ЦЕРНу.
Втім, озера використовують не тільки вбізнес-середовищі - наприклад, на початку пандемії AWS зібрала в єдиному репозиторії відомості про COVID-19: дані досліджень, статті, статистичні зведення. Інформацію регулярно оновлювали, а доступ до неї надали безкоштовно – платити треба було лише за інструменти для аналітики.
Data lakes не можна вважати універсальнимінструментом і панацеєю, але в епоху, коли дані вважаються новою нафтою, компаніям важливо шукати різні шляхи дослідження і застосування big data. Головне завдання - це централізація і консолідація розрізнених відомостей. В епоху мікросервісов і розподілених команд часто виникають ситуації, коли один відділ не знає, над чим працює інший. Через це бізнес витрачає ресурси, а різні фахівці виконують однакові завдання, часто не підозрюючи про це. В кінцевому підсумку це знижує ефективність і перевантажує «оперативну систему» компанії. Як показують опитування, більшість компаній інвестує в озера даних якраз для підвищення операційної ефективності. Але результати перевершують очікування: у ранніх адептів технології виручка і прибуток зростають швидше, ніж у тих, що відстають, а головне, вони швидше виводять на ринок нові продукти і послуги.
Читайте також:
МОЗ Аргентини розкрив дані про побічні ефекти у отримали «Супутник V»
Качконіс виявився генетичної сумішшю ссавців, птахів і рептилій
Аборти і наука: що буде з дітьми, яких народять