湖、ショーケース、保管
企業が無尽蔵の情報にアクセスできると想像してください。
データレイクという用語自体は、JamesDixonによって導入されました。Pentahoプラットフォームの創設者。彼はデータマートをデータレイクと比較しました。前者は、精製、ろ過、包装されたボトル入りの水のようなものです。湖は、さまざまな水源から水が流入する開放的な水域です。それらに飛び込むか、表面からサンプルを採取することができます。特定のタスクを実行し、特定の利益を提供するデータストレージもあります。一方、レイクサイドリポジトリは、賢明に使用すれば多くのプレーヤーに利益をもたらすことができます。
情報の流れは複雑になるだけのようです情報が構造化されておらず、その上、それらの数が多すぎるため、アナリストのために働きます。しかし、会社がデータを処理してそこから価値を引き出す方法を知っていれば、湖は「沼」にはなりません。
「バンカー」からのデータの抽出
それでも、データレイクの利点は何ですか?企業?彼らの主な利点は豊富さです。リポジトリは、通常は相互に関連していないさまざまなチームや部門から情報を受け取ります。オンラインスクールを例にとってみましょう。さまざまな部門が統計を保持し、独自の目標を追求しています。1つのチームはユーザー維持指標を監視し、2つ目は新規顧客のカスタマージャーニーを調査し、3つ目は卒業生に関する情報を収集します。誰も全体像にアクセスできません。しかし、1つのリポジトリに異なる情報を蓄積すると、興味深いパターンを見つけることができます。たとえば、デザインコースに来て、少なくとも2つのウェビナーを視聴したユーザーは、プログラムの最後に到達し、市場で成功するキャリアを築く可能性が高いことがわかりました。この情報は、会社が学生を維持し、より魅力的な製品を作成するのに役立ちます。
予期せぬパターンが発見されることもよくあるしたがって、データ レイクは、データ アナリストがさまざまな情報ストリームを実験的に「横断」し、他の状況ではほとんど発見できなかった類似点を見つけるのに役立ちます。
データソースは次のいずれかになります。オンラインスクールにはさまざまなプロモーションチャネルからの統計があり、工場にはIoTセンサーインジケーター、機械の使用スケジュールと機器の摩耗率があり、マーケットプレイスには在庫のある商品の入手可能性に関する情報、販売統計、最も人気のある支払い方法に関するデータがあります。湖は、通常は決して交差せず、さまざまな部門の注目の分野に分類される一連の情報を収集して調査するのに役立ちます。
データレイクのもう1つの利点は、データ抽出です。異種のリポジトリと閉じたサブシステムから。多くの場合、情報は一種の情報「バンカー」に保存され、アクセスできるのは1つの部門だけです。そこから資料を転送することは困難または不可能です-制限が多すぎます。湖はこの問題を解決します。
したがって、データレイクには少なくとも8つの利点があります。
- データアナリストが貴重な洞察を得るのを助けます。
- 会社が統計と事実に基づいて迅速な決定を下せるようにします。
- さまざまなソースからのさまざまなタイプのデータを試すことができます。
- 分析プロセスをより民主的にし、部門間の障壁を取り除きます。
- 高レベルのデータ集中化と粒度を提供します。これにより、「干し草の山の中の針」を見つけることができます。
- あらゆる規模の企業に適しています。早い段階で、ミニレイクから始めて、徐々にボリュームを増やすことができます。
- これらはビジネスプロセスを簡素化します。たとえば、クロスドメインクエリを実行したり、複雑な製品レポートを作成したりできます。
- データを前処理する必要がないため、ストレージよりも安価です。
レイクは主に分散型および分岐したチーム。典型的な例はアマゾンです。同社は、何千もの異なるソースからデータを蓄積しています。したがって、金融取引だけでも、さまざまな方法で設計および編成された 25 の異なるデータベースに保存されました。これにより混乱と不便が生じました。レイクは、すべての資料を 1 か所に収集し、統一されたデータ保護システムを確立するのに役立ちました。データおよびビジネス アナリスト、開発者、CTO などの専門家は、必要なコンポーネントを取得し、さまざまなツールやテクノロジーを使用して処理できるようになりました。また、機械学習は、Amazon アナリストが非常に正確な予測を立てるのに役立ちました。現在では、11 月にテキサス州で荷物に特定のサイズの箱が何個必要になるかがわかります。
湖をデータ化するための4つのステップ
しかし、データレイクにも欠点があります。まず第一に、それらは追加のリソースと高度な専門知識を必要とします-高度な資格を持つアナリストだけがそれらから真に利益を得ることができます。また、洞察を一貫した戦略に変換するのに役立つ追加のビジネスインテリジェンスツールも必要になります。
別の問題は、サードパーティの使用ですデータレイクを維持するためのシステム。この場合、会社はプロバイダーに依存します。システムのクラッシュやデータ漏洩が発生した場合、大きな経済的損失につながる可能性があります。しかし、湖の主な問題は技術をめぐる誇大宣伝です。多くの場合、企業は流行に合わせてこの形式を採用していますが、なぜ実際にそれが必要なのかわかりません。その結果、彼らは多額のお金を費やしますが、見返りは得られません。したがって、専門家は、打ち上げの準備の段階でさえ、湖が解決するビジネスタスクを決定するようにアドバイスします。
マッキンジーの専門家は、データレイクを作成する4つの段階を特定しています。
- 生データを収集するためのプラットフォームの作成。この段階では、情報を取得して保存する方法を学ぶことが重要です。
- プラットフォーム開発と最初の実験。データアナリストはすでにデータの分析と分析プロトタイプの作成を開始しています。
- データストレージとの緊密な統合。この段階では、ますます多くのデータセットが湖に集まり、ナビゲーションプロセスが簡素化されます。
- データレイクが鍵となる建築。新しいアプリケーションシナリオが開発され、ユーザーフレンドリーなインターフェイスを備えた新しいアドオンとサービスが登場し、同社はData-as-a-Serviceビジネスモデルの使用を開始しています。
分析アルゴリズム
データの蓄積自体には何もないこれは根本的に新しいものですが、クラウド システム、オープン ソース プラットフォームの開発、コンピューター能力の全般的な向上のおかげで、今日ではスタートアップ企業でもレイク アーキテクチャを使用できるようになりました。
業界のもう一つの推進力は機械でしたトレーニング - テクノロジーはアナリストの作業を部分的に簡素化し、後処理のためのより多くのツールを提供します。以前であれば専門家がファイル、概要、テーブルの数に圧倒されていたとしても、今ではそれらをアルゴリズムに「フィード」し、分析モデルを迅速に構築できるようになりました。
データレイクを AI と組み合わせて使用すると便利です統計を一元的に分析するだけでなく、会社の歴史全体にわたる傾向を追跡します。そこで、アメリカの大学の 1 つは、過去 60 年間にわたる志願者に関する情報を収集しました。新入生の数、雇用指標、国内の一般的な経済状況に関するデータが考慮されました。その結果、大学は学生が途中でコースを退学するのではなく、学習を完了できるようにプログラムを調整しました。
データレイクが解決できる他のビジネスタスク:
- 需要のピーク時に在庫切れが発生しないように、リソースを効率的に割り当てます。
- より正確な予測を作成して傾向を予測し、競合他社に先駆けて革新的な製品を発売します。
- 視聴者をセグメント化し、最もニッチなグループの関心を特定します。
- 指標の改善と生産性の向上に役立つ、より詳細で正確なレポートを作成します。
- プロモーションアルゴリズムと推奨システムをより効率的にカスタマイズします。
- CERNのような複雑な構造であっても、生産または実験室でリソースを節約します。
しかし、湖の利用目的はそれだけではありません。ビジネス環境 - たとえば、パンデミックの初期に、AWS は研究データ、論文、統計レポートなど、新型コロナウイルス感染症に関する情報を 1 つのリポジトリに収集しました。情報は定期的に更新され、情報へのアクセスは無料で提供され、分析ツールの料金のみを支払う必要がありました。
データレイクは普遍的とは見なされませんツールと万能薬ですが、データが新しいオイルと見なされる時代では、企業がビッグデータを調査して適用するためのさまざまな方法を探すことが重要です。主なタスクは、異種の情報を一元化して統合することです。マイクロサービスと分散チームの時代では、ある部門が別の部門が何に取り組んでいるのかわからないという状況がしばしば発生します。このため、ビジネスはリソースを浪費し、さまざまなスペシャリストが同じタスクを実行しますが、多くの場合、それに気づいていません。これは最終的に効率を低下させ、会社の「オペレーティングシステム」を過負荷にします。調査によると、ほとんどの企業は運用効率を向上させるためにデータレイクに投資しています。しかし、結果は予想を上回っています。テクノロジーの早期採用者は、遅れをとっている人よりも早く収益と利益を伸ばし、そして最も重要なことに、新しい製品とサービスをより早く市場に投入します。
また見なさい:
アルゼンチン保健省は、「スプートニクV」を受け取った人々の副作用に関するデータを開示しました
Platypusは、哺乳類、鳥、爬虫類の遺伝的混合物であることが判明しました
中絶と科学:出産する子供たちに何が起こるか