Езера, витрини и складове
Представете си, че една компания има достъп до неизчерпаема информация
Самият термин езеро с данни е въведен от Джеймс Диксън,основател на платформата Pentaho. Той сравнява данните до езерата с данни: първите са като бутилирана вода, която е пречистена, филтрирана и опакована. Езерата са отворени водни тела, в които водата се влива от различни източници. Можете да се потопите в тях или да вземете проби от повърхността. Съществуват и хранилища за данни, които изпълняват конкретни задачи и обслужват специфични интереси. Репо-сделките край езерото, от друга страна, могат да бъдат от полза за много играчи, ако се използват разумно.
Изглежда, че потокът от информация само усложняваработа за анализатори, тъй като информацията не е структурирана, освен това има твърде много от тях. Но ако компанията знае как да работи с данни и да получи стойност от тях, езерото не се превръща в блато.
Извличане на данни от "бункера"
И все пак, какви са ползите от езерата на данни?компании? Основното им предимство е изобилието. Хранилището получава информация от различни екипи и отдели, които обикновено не са свързани помежду си. Да вземем например онлайн училище. Различните отдели водят статистиката си и преследват собствените си цели - единият екип следи показателите за задържане на потребителите, вторият изследва пътуването на клиентите на нови клиенти, а третият събира информация за завършилите. Никой няма достъп до пълната картина. Но ако натрупвате разнородна информация в едно хранилище, можете да намерите интересни модели. Например, оказва се, че потребителите, които идват на курсове по дизайн и са гледали поне два уеб семинара, са по-склонни да стигнат до края на програмата и да изградят успешна кариера на пазара. Тази информация ще помогне на компанията да задържи учениците и да създаде по-завладяващ продукт.
Често се откриват неочаквани моделислучайно - по този начин езерото от данни помага на анализаторите на данни експериментално да „пресичат“ различни потоци от информация и да намерят паралели, които едва ли биха открили при други обстоятелства.
Източниците на данни могат да бъдат всякакви:онлайн училище ще разполага със статистика от различни канали за промоция, фабрика ще има индикатори на сензори за IoT, график за използване на металорежещи машини и износване на оборудването, пазар ще има информация за наличността на стоки на склад, статистика за продажбите и данни за най-популярните методи на плащане. Езерата просто помагат за събирането и изучаването на масиви от информация, които обикновено не се пресичат по никакъв начин и попадат в полето на вниманието на различните отдели.
Друг плюс на езерата на данни е извличането на данниот различни хранилища и затворени подсистеми. Често информацията се съхранява във вид информационен "бункер", достъп до който има само един отдел. Прехвърлянето на материали от него е трудно или невъзможно - има твърде много ограничения. Езерата решават този проблем.
И така, има поне осем предимства на езерата с данни:
- Помогнете на анализаторите на данни да получат ценна информация.
- Позволява на компанията да взема бързи решения въз основа на статистически данни и факти.
- Позволява ви да експериментирате с различни видове данни от различни източници.
- Направете аналитичния процес по-демократичен и премахнете бариерите между отделите.
- Осигурете високо ниво на централизация и детайлност на данните - това ви позволява да намерите „игла в купа сено“.
- Подходящ за компании от всякакъв размер - на ранен етап можете да започнете с мини-езера и постепенно да натрупвате обеми.
- Те опростяват бизнес процесите - например ви позволяват да правите междудоменни заявки и да създавате сложни отчети за продукти.
- Те са по-евтини от съхранението, тъй като данните не се нуждаят от предварителна обработка.
Езерата са необходими предимно на разпределени иразклонени екипи. Класически пример е Amazon. Корпорацията е натрупала данни от хиляди различни източници. Така само финансовите транзакции се съхраняват в 25 различни бази данни, които са проектирани и организирани по различни начини. Това създаде объркване и неудобство. Езерото помогна да се съберат всички материали на едно място и да се създаде единна система за защита на данните. Сега специалистите – анализатори на данни и бизнес, разработчици и технически директори – могат да вземат компонентите, от които се нуждаят, и да ги обработват с помощта на различни инструменти и технологии. И машинното обучение помогна на анализаторите на Amazon да направят свръхточни прогнози - сега те знаят колко кутии с определен размер ще са необходими за пакети в Тексас през ноември.
Четири стъпки към езерата с данни
Но езерата на данни също имат недостатъци.На първо място, те изискват допълнителни ресурси и високо ниво на експертиза - само висококвалифицирани анализатори могат наистина да се възползват от тях. Ще ви трябват и допълнителни инструменти за бизнес разузнаване, които да ви помогнат да трансформирате вашите прозрения в последователна стратегия.
Друг проблем е използването на трета странасистеми за поддържане на езера на данни. В този случай компанията зависи от доставчика. Ако възникне срив на системата или изтичане на данни, това може да доведе до големи финансови загуби. Основният проблем на езерата обаче е шумът около технологиите. Често компаниите приемат този формат по мода, но не знаят защо наистина се нуждаят от него. В резултат на това те харчат големи суми, но не постигат възвръщаемост на инвестициите. Затова експертите съветват още на етапа на подготовка за изстрелването да определят какви бизнес задачи ще решат езерата.
Експертите на McKinsey идентифицират четири етапа от създаването на езера с данни:
- Създаване на платформа за събиране на сурови данни. На този етап е важно да се научите как да извличате и съхранявате информация.
- Разработване на платформа и първи експерименти. Анализаторите на данни вече започват да анализират данни и да изграждат аналитични прототипи.
- Тясна интеграция със съхранение на данни. На този етап все повече набори от данни се стичат към езерата и навигационният процес е опростен.
- Езерото за данни става ключовоархитектура. Разработват се нови сценарии за приложения, появяват се нови добавки и услуги с удобен за потребителя интерфейс, компанията започва да използва бизнес модела Data-as-a-Service.
Аналитични алгоритми
В самото натрупване на данни няма нищофундаментално нов, но благодарение на развитието на облачните системи, платформите с отворен код и общото нарастване на компютърната мощност, днес дори стартиращи компании могат да работят с езерна архитектура.
Друг двигател на индустрията беше машинатаобучение – технологията отчасти опростява работата на анализаторите и им предоставя повече инструменти за последваща обработка. Ако по-рано специалистът би се удавил в броя на файловете, резюметата и таблиците, сега той може да ги „захрани“ с алгоритъма и бързо да изгради аналитичен модел.
Използването на езера от данни в комбинация с AI помагане само централизирано анализиране на статистики, но и проследяване на тенденциите през цялата история на компанията. Така един от американските колежи събра информация за кандидатите през последните 60 години. Взети са предвид данните за броя на новите студенти, както и показателите за заетостта и общата икономическа ситуация в страната. В резултат на това университетът коригира програмата така, че студентите да завършат обучението си, вместо да се откажат от курсовете по средата.
Какви други бизнес задачи могат да решат езерата с данни:
- Разпределете ефективно ресурсите, за да избегнете запасите в периоди на пиково търсене.
- Изграждайте по-точни прогнози и предвиждайте тенденции и пускайте иновативни продукти пред конкурентите.
- Сегментирайте аудиторията си и идентифицирайте интересите дори на най-нишовите групи.
- Изградете по-подробни и точни отчети, които ще помогнат за подобряване на показателите и увеличаване на производителността.
- По-ефективно персонализирайте алгоритмите за промоция и системите за препоръки.
- Спестете ресурси в производството или в лабораторията - дори ако това е сложна структура като CERN.
Езерата обаче се използват не само забизнес среда - например в началото на пандемията AWS събра информация за COVID-19 в едно хранилище: данни от изследвания, статии, статистически отчети. Информацията се актуализира редовно и достъпът до нея се предоставя безплатно - трябваше да платите само за инструменти за анализ.
Езерните данни не могат да се считат за универсалниинструмент и панацея, но в епоха, когато данните се считат за новото масло, е важно компаниите да търсят различни начини за изследване и прилагане на големи данни. Основната задача е да се централизира и консолидира разнородна информация. В ерата на микроуслугите и разпределените екипи често възникват ситуации, при които един отдел не знае върху какво работи друг. Поради това бизнесът губи ресурси и различни специалисти изпълняват едни и същи задачи, често не подозирайки за това. Това в крайна сметка намалява ефективността и претоварва "операционната система" на компанията. Проучванията показват, че повечето компании инвестират в езера, за да подобрят оперативната ефективност. Но резултатите надхвърлят очакванията: ранните внедряващи технологии растат приходи и печалби по-бързо от тези, които изостават и най-важното е, че те предлагат нови продукти и услуги на пазара по-бързо.
Вижте също:
Министерството на здравеопазването на Аржентина разкри данни за странични ефекти при тези, които са получили "Sputnik V"
Платипът се оказа генетична смес от бозайници, птици и влечуги
Аборт и наука: какво ще се случи с децата, които ще раждат