데이터 레이크 : 데이터 레이크의 작동 방식과 필요한 이유-Geek Tech Online

호수, 진열장 및 창고

회사가 무궁무진한 정보에 액세스할 수 있다고 상상해 보십시오

분석가는 IT에 몰두함으로써 정기적으로 귀중한 비즈니스 통찰력을 얻고 출시할 수 있습니다이것이 데이터 레이크가 작동하는 방식입니다.이것은 비교적 새로운 유형의 데이터 아키텍처로, 다양한 소스에서 원시 및 이질적인 정보를 수집한 다음 효과적인 용도를 찾을 수 있습니다.오라클, 아마존, 마이크로소프트와 같은 거대 기업들이 이 기술을 최초로 실험했으며, 호수를 만들기 위한 편리한 서비스도 개발했다.

데이터 레이크라는 용어는 James Dixon에 의해 도입되었습니다.Pentaho 플랫폼의 설립자. 그는 데이터 마트를 데이터 레이크와 비교했습니다. 전자는 정수, 여과 및 포장 된 생수와 같습니다. 호수는 다른 원천에서 물이 흘러 들어가는 열린 수역입니다. 다이빙을하거나 수면에서 샘플을 채취 할 수 있습니다. 특정 작업을 수행하고 특정 관심사를 제공하는 데이터 저장소도 있습니다. 반면 Lakeside repos는 현명하게 사용하면 많은 플레이어에게 도움이 될 수 있습니다.

정보의 흐름이 복잡해 보일뿐정보가 구조화되지 않았기 때문에 분석가를 위해 일합니다. 게다가 정보가 너무 많습니다. 그러나 회사가 데이터로 작업하고 그로부터 가치를 얻는 방법을 알고 있다면 호수는 늪이되지 않습니다.

"벙커"에서 데이터 추출

그래도 데이터 레이크의 이점은 무엇입니까?компаниям? Их главное преимущество — это изобилие. В репозиторий попадают сведения от разных команд и подразделений, которые обычно никак между собой не связаны. Возьмем для примера онлайн-школу. Разные отделы ведут свою статистику и преследуют свои цели — одна команда следит за метриками удержания пользователей, вторая изучает customer journey новых клиентов, а третья собирает информацию о выпускниках. Доступа к полной картине нет ни у кого. Но если аккумулировать разрозненные сведения в едином репозитории, то можно обнаружить интересные закономерности. Например, окажется, что пользователи, которые пришли на курсы дизайна и просмотрели хотя бы два вебинара, чаще других доходят до конца программы и строят успешную карьеру на рынке. Эта информация поможет компании удержать студентов и создать более привлекательный продукт.

예상치 못한 패턴이 우연히 발견되는 경우가 많은데, 예를 들어 데이터 레이크가 도움이 됩니다데이터 분석가는 실험적으로 다양한 정보 스트림을 "교차"하고 다른 방법으로는 찾을 수 없는 유사점을 찾을 수 있습니다.

데이터 소스는 다음과 같을 수 있습니다.온라인 학교에는 다양한 프로모션 채널의 통계가 있고, 공장에는 IoT 센서 표시기, 공작 기계 사용 일정 및 장비 마모율이 있으며, 시장에는 재고 재고, 판매 통계 및 가장 인기있는 결제 방법에 대한 데이터가 있습니다. 호수는 정보의 배열을 수집하고 연구하는 데 도움이되며, 일반적으로 어떤 방식으로도 교차하지 않고 다른 부서의 관심을받습니다.

데이터 레이크의 또 다른 장점은 데이터 추출입니다.서로 다른 리포지토리 및 폐쇄 된 하위 시스템에서 종종 정보는 한 부서 만 액세스 할 수있는 일종의 정보 "벙커"에 저장됩니다. 자료를 옮기는 것이 어렵거나 불가능합니다-너무 많은 제한이 있습니다. 호수는이 문제를 해결합니다.

따라서 데이터 레이크에는 다음과 같은 8 가지 이상의 이점이 있습니다.

데이터 분석가가 귀중한 통찰력을 얻을 수 있도록 지원합니다.
회사가 통계 및 사실을 기반으로 빠른 결정을 내릴 수 있습니다.
다양한 소스의 다양한 데이터 유형을 실험 할 수 있습니다.
분석 프로세스를보다 민주적으로 만들고 부서 간의 장벽을 제거하십시오.
높은 수준의 데이터 중앙 집중화 및 세분화를 제공하여 "건초 더미에서 바늘"을 찾을 수 있습니다.
모든 규모의 회사에 적합합니다. 초기 단계에서 미니 호수로 시작하여 점차 볼륨을 늘릴 수 있습니다.
비즈니스 프로세스를 단순화합니다. 예를 들어 교차 도메인 쿼리를 작성하고 복잡한 제품보고를 작성할 수 있습니다.
데이터를 사전 처리 할 필요가 없기 때문에 스토리지보다 저렴합니다.

호수는 주로 분산되고 분기된 팀에 필요합니다.예를 들어, 금융 거래만 해도 25개의 서로 다른 데이터베이스에 저장되었으며, 이 데이터베이스는 서로 다른 방식으로 배열되고 구성되었습니다.이로 인해 혼란과 불편이 발생했고, 호수는 모든 자료를 한 곳에 모아 통합 데이터 보호 시스템을 설치하는 데 도움이 되었습니다.이제 데이터 및 비즈니스 분석가, 개발자 및 CTO는 필요한 구성 요소를 선택하고 다양한 도구와 기술을 사용하여 처리할 수 있습니다.그리고 기계 학습은 Amazon 분석가들이 매우 정확한 예측을 하는 데 도움이 되었으며, 이제 그들은 11월에 텍사스에서 패키지를 위해 특정 크기의 상자가 몇 개나 필요한지 알고 있습니다.

데이터 레이크를위한 4 단계

그러나 데이터 레이크에는 단점도 있습니다.우선 추가 리소스와 높은 수준의 전문 지식이 필요합니다. 자격을 갖춘 분석가 만이 진정한 혜택을 누릴 수 있습니다. 또한 통찰력을 일관된 전략으로 변환하는 데 도움이되는 추가 비즈니스 인텔리전스 도구가 필요합니다.

또 다른 문제는 타사의 사용입니다.데이터 레이크를 유지하는 시스템. 이 경우 회사는 공급자에 따라 다릅니다. 시스템 충돌이나 데이터 유출이 발생하면 막대한 재정적 손실이 발생할 수 있습니다. 그러나 호수의 주요 문제는 기술에 대한 과대 광고입니다. 종종 회사는이 형식을 유행에 따라 채택하고 있지만 실제로 필요한 이유를 모릅니다. 결과적으로 그들은 많은 금액을 지출하지만 투자 수익을 얻지 못합니다. 따라서 전문가들은 발사 준비 단계에서 호수가 해결할 비즈니스 작업을 결정하도록 조언합니다.

McKinsey 전문가는 데이터 레이크 생성의 네 단계를 식별합니다.

원시 데이터 수집을위한 플랫폼 생성. 이 단계에서 정보를 검색하고 저장하는 방법을 배우는 것이 중요합니다.
플랫폼 개발 및 첫 번째 실험. 데이터 분석가는 이미 데이터를 분석하고 분석 프로토 타입을 만들기 시작했습니다.
데이터 스토리지와 긴밀하게 통합됩니다. 이 단계에서 점점 더 많은 데이터 세트가 호수로 몰려 들고 탐색 프로세스가 단순화됩니다.
데이터 레이크가 핵심이 됨건축물. 새로운 애플리케이션 시나리오가 개발되고 있으며 사용자 친화적 인 인터페이스를 갖춘 새로운 애드온 및 서비스가 등장하며, 회사는 서비스로서의 데이터 비즈니스 모델을 사용하기 시작했습니다.

분석 알고리즘

데이터 축적 자체에는 근본적으로 새로운 것이 없지만 클라우드 시스템, 오픈 소스 플랫폼의 개발 및 일반적으로 컴퓨팅 성능의 증가 덕분에 오늘날 레이크 아키텍처로 작업할 수 있습니다심지어 신생 기업도.

이 산업의 또 다른 동인은 기계 학습으로, 이 기술을 통해 다음을 더 쉽게 수행할 수 있습니다.분석가의 작업을 수행하고 사후 처리를 위한 더 많은 도구를 제공합니다.이제 할 수 있는 파일, 요약 및 테이블의 수에 빠져 죽을 것입니다.알고리즘에 "공급"하고 분석 모델을 더 빠르게 구축합니다.

데이터 레이크를 AI와 함께 사용하면 통계를 중앙에서 분석할 수 있을 뿐만 아니라 회사 역사 전반에 걸쳐 추세를 추적하는 데 도움이 됩니다.예를 들어, 미국 대학 중 한 곳은 지난 60년 동안 지원자에 대한 정보를 수집했습니다.신입생 수에 대한 데이터와 고용 지표 및 국가의 일반적인 경제 상황이 고려되었습니다.그 결과 대학은 학생들이 중도에 중퇴하는 대신 학업을 마칠 수 있도록 프로그램을 조정했습니다.

데이터 레이크로 해결할 수있는 다른 비즈니스 작업 :

리소스를 효율적으로 할당하여 수요가 가장 많은 기간에 재고 부족을 방지합니다.
보다 정확한 예측을 작성하고 추세를 예측하며 경쟁사보다 먼저 혁신적인 제품을 출시하십시오.
청중을 세분화하고 가장 틈새 그룹의 관심사를 식별하십시오.
메트릭을 개선하고 생산성을 높이는 데 도움이되는보다 상세하고 정확한 보고서를 작성하십시오.
프로모션 알고리즘 및 추천 시스템을보다 효율적으로 사용자 정의합니다.
CERN과 같은 복잡한 구조라도 생산 또는 실험실에서 리소스를 절약 할 수 있습니다.

그러나 레이크는 비즈니스 환경에서만 사용되는 것이 아닙니다(예: 팬데믹 초기에 AWS는 연구 데이터, 기사 및 통계 요약과 같은 단일 리포지토리에서 COVID-19에 대한 정보를 수집했습니다).정보는 정기적으로 업데이트되었으며 무료로 액세스할 수 있었으며 분석 도구에 대한 비용만 지불하면 되었습니다.

데이터 레이크는 보편적으로 간주 될 수 없습니다.도구와 만병 통치약이 있지만 데이터가 새로운 석유로 간주되는 시대에 기업은 빅 데이터를 연구하고 적용 할 다양한 방법을 찾는 것이 중요합니다. 주요 작업은 서로 다른 정보를 중앙 집중화하고 통합하는 것입니다. 마이크로 서비스와 분산 된 팀의 시대에는 한 부서가 다른 부서가 어떤 작업을하고 있는지 모르는 상황이 종종 발생합니다. 이로 인해 비즈니스는 자원을 낭비하고 다른 전문가는 종종 인식하지 못하는 동일한 작업을 수행합니다. 이는 궁극적으로 효율성을 감소시키고 회사의 "운영 체제"에 과부하를줍니다. 설문 조사에 따르면 대부분의 기업은 운영 효율성을 개선하기 위해 데이터 레이크에 투자합니다. 그러나 그 결과는 기대를 뛰어 넘습니다. 기술의 얼리 어답터는 뒤처진 사람들보다 더 빨리 수익과 이익을 늘리고, 가장 중요한 것은 새로운 제품과 서비스를 시장에 더 빨리 출시한다는 것입니다.

참조 :

아르헨티나 보건부는 "Sputnik V"를받은 사람들의 부작용에 대한 데이터를 공개했습니다.

오리너구리는 포유류, 새 및 파충류의 유전 적 혼합물로 밝혀졌습니다.

낙태와 과학 : 출산 할 아이들에게 일어날 일

긱 테크 온라인

기술 및 장치에 관한 모든 것

데이터 레이크 : 데이터 레이크의 작동 방식과 필요한 이유

호수, 진열장 및 창고

"벙커"에서 데이터 추출

데이터 레이크를위한 4 단계

분석 알고리즘