Data Lakes: Wie Data Lakes funktionieren und warum sie benötigt werden

Seen, Vitrinen und Lagerung

Stellen Sie sich vor, ein Unternehmen hätte Zugriff auf unerschöpfliche Informationen

Ressource - Analysten tauchen regelmäßig darin einGewinnen Sie wertvolle Geschäftseinblicke und bringen Sie neue, bessere Produkte auf den Markt. Data Lakes funktionieren in etwa nach diesem Prinzip. Hierbei handelt es sich um eine relativ neue Art von Datenarchitektur, die es Ihnen ermöglicht, rohe und verstreute Informationen aus verschiedenen Quellen zusammenzustellen und diese dann effektiv zu nutzen. Giganten wie Oracle, Amazon und Microsoft waren die ersten, die mit der Technologie experimentierten; sie entwickelten auch praktische Dienste für den Bau von Seen.

Der Begriff Datensee selbst wurde von James Dixon eingeführt,Gründer der Pentaho-Plattform. Er verglich Data Marts mit Data Lakes: Ersteres ist wie Wasser in Flaschen, das gereinigt, gefiltert und verpackt wurde. Seen sind offene Gewässer, in die Wasser aus verschiedenen Quellen fließt. Sie können in sie eintauchen oder Proben von der Oberfläche nehmen. Es gibt auch Datenspeicher, die bestimmte Aufgaben ausführen und bestimmten Interessen dienen. Lakeside-Repos hingegen können vielen Spielern zugute kommen, wenn sie mit Bedacht eingesetzt werden.

Es scheint, dass der Informationsfluss nur kompliziert istarbeiten für Analysten, weil die Informationen nicht strukturiert sind und es außerdem zu viele davon gibt. Wenn das Unternehmen jedoch weiß, wie man mit Daten arbeitet und daraus Wert ableitet, wird der See nicht zum Sumpf.

Daten aus dem "Bunker" extrahieren

Was sind die Vorteile von Data Lakes?Firmen? Ihr Hauptvorteil ist die Fülle. Das Repository erhält Informationen von verschiedenen Teams und Abteilungen, die normalerweise nicht miteinander verbunden sind. Nehmen Sie zum Beispiel eine Online-Schule. Verschiedene Abteilungen behalten ihre Statistiken und verfolgen ihre eigenen Ziele - ein Team überwacht die Benutzerbindungsmetriken, das zweite untersucht die Customer Journey neuer Kunden und das dritte sammelt Informationen über Absolventen. Niemand hat Zugriff auf das Gesamtbild. Wenn Sie jedoch unterschiedliche Informationen in einem einzigen Repository sammeln, können Sie interessante Muster finden. Es stellt sich beispielsweise heraus, dass Benutzer, die zu Designkursen kommen und mindestens zwei Webinare gesehen haben, eher das Ende des Programms erreichen und eine erfolgreiche Karriere auf dem Markt aufbauen. Diese Informationen helfen dem Unternehmen, Studenten zu halten und ein überzeugenderes Produkt zu entwickeln.

Oftmals werden unerwartete Muster entdecktdurch Zufall – so hilft ein Data Lake Datenanalysten dabei, verschiedene Informationsströme experimentell zu „kreuzen“ und Parallelen zu finden, die sie unter anderen Umständen kaum entdeckt hätten.

Datenquellen können beliebig sein:Eine Online-Schule verfügt über Statistiken aus verschiedenen Werbekanälen, eine Fabrik über IoT-Sensorindikatoren, einen Zeitplan für die Nutzung von Werkzeugmaschinen und Verschleißraten für Geräte, ein Marktplatz über Informationen zur Verfügbarkeit von Waren auf Lager, Verkaufsstatistiken und Daten zu den beliebtesten Zahlungsmethoden. Seen helfen nur dabei, Informationsfelder zu sammeln und zu studieren, die sich normalerweise in keiner Weise überschneiden und in den Aufmerksamkeitsbereich verschiedener Abteilungen fallen.

Ein weiteres Plus von Datenseen ist die Datenextraktionvon unterschiedlichen Repositories und geschlossenen Subsystemen. Oft werden Informationen in einer Art Informationsbunker gespeichert, zu dem nur eine Abteilung Zugang hat. Es ist schwierig oder unmöglich, Materialien daraus zu übertragen - es gibt zu viele Einschränkungen. Seen lösen dieses Problem.

Es gibt also mindestens acht Vorteile von Datenseen:

Helfen Sie Datenanalysten, wertvolle Erkenntnisse zu gewinnen.
Ermöglicht dem Unternehmen, schnelle Entscheidungen auf der Grundlage von Statistiken und Fakten zu treffen.
Ermöglicht das Experimentieren mit verschiedenen Datentypen aus verschiedenen Quellen.
Machen Sie den Analyseprozess demokratischer und beseitigen Sie Hindernisse zwischen den Abteilungen.
Bieten Sie ein hohes Maß an Datenzentralisierung und Granularität - so können Sie eine "Nadel im Heuhaufen" finden.
Geeignet für Unternehmen jeder Größe - Sie können frühzeitig mit Mini-Seen beginnen und schrittweise Volumen aufbauen.
Sie vereinfachen Geschäftsprozesse - beispielsweise können Sie domänenübergreifende Abfragen durchführen und komplexe Produktberichte erstellen.
Sie sind billiger als Speicher, da die Daten nicht vorverarbeitet werden müssen.

Seen werden hauptsächlich von verteilten und verteilten Seen benötigtverzweigte Teams. Ein klassisches Beispiel ist Amazon. Das Unternehmen hat Daten aus Tausenden verschiedener Quellen gesammelt. So wurden allein Finanztransaktionen in 25 verschiedenen Datenbanken gespeichert, die unterschiedlich gestaltet und organisiert waren. Dies führte zu Verwirrung und Unannehmlichkeiten. Der See hat dazu beigetragen, alle Materialien an einem Ort zu sammeln und ein einheitliches Datenschutzsystem einzurichten. Jetzt könnten Spezialisten – Daten- und Geschäftsanalysten, Entwickler und CTOs – die benötigten Komponenten nehmen und sie mithilfe verschiedener Tools und Technologien verarbeiten. Und maschinelles Lernen hat Amazon-Analysten dabei geholfen, äußerst genaue Prognosen zu erstellen – jetzt wissen sie, wie viele Kartons einer bestimmten Größe im November für Pakete in Texas benötigt werden.

Vier Schritte zu Datenseen

Datenseen haben aber auch Nachteile.Erstens benötigen sie zusätzliche Ressourcen und ein hohes Maß an Fachwissen - nur hochqualifizierte Analysten können wirklich davon profitieren. Sie benötigen außerdem zusätzliche Business Intelligence-Tools, um Ihre Erkenntnisse in eine kohärente Strategie umzuwandeln.

Ein weiteres Problem ist die Verwendung von DrittenSysteme zur Pflege von Datenseen. In diesem Fall ist das Unternehmen vom Anbieter abhängig. Wenn ein Systemabsturz oder ein Datenleck auftritt, kann dies zu großen finanziellen Verlusten führen. Das Hauptproblem der Seen ist jedoch der Hype um die Technologie. Oft übernehmen Unternehmen dieses Format nach der Mode, wissen aber nicht, warum sie es tatsächlich benötigen. Infolgedessen geben sie große Summen aus, erzielen jedoch keine Kapitalrendite. Daher raten Experten, in der Phase der Vorbereitung des Starts zu bestimmen, welche Geschäftsaufgaben die Seen lösen werden.

McKinsey-Experten identifizieren vier Phasen der Erstellung von Datenseen:

Schaffung einer Plattform zur Erfassung von Rohdaten. In dieser Phase ist es wichtig zu lernen, wie Informationen abgerufen und gespeichert werden.
Plattformentwicklung und erste Experimente. Datenanalysten beginnen bereits mit der Analyse von Daten und der Erstellung analytischer Prototypen.
Enge Integration in die Datenspeicherung. In dieser Phase strömen immer mehr Datensätze zu den Seen, und der Navigationsprozess wird vereinfacht.
Data Lake wird zum Schlüsseldie Architektur. Neue Anwendungsszenarien entwickeln sich, neue Add-Ons und Services mit einer benutzerfreundlichen Oberfläche werden angezeigt. Das Unternehmen beginnt mit der Verwendung des Data-as-a-Service-Geschäftsmodells.

Analytische Algorithmen

An der Anhäufung von Daten selbst liegt nichtsGrundsätzlich neu, aber dank der Entwicklung von Cloud-Systemen, Open-Source-Plattformen und einer allgemeinen Steigerung der Rechenleistung können heute auch Startups mit der Lake-Architektur arbeiten.

Ein weiterer Treiber der Branche waren MaschinenSchulung – Technologie vereinfacht teilweise die Arbeit von Analysten und gibt ihnen mehr Werkzeuge für die Nachbearbeitung. Wäre ein Spezialist früher in der Menge an Dateien, Zusammenfassungen und Tabellen ertrunken, kann er sie jetzt dem Algorithmus „füttern“ und schnell ein analytisches Modell erstellen.

Der Einsatz von Data Lakes in Kombination mit KI hilftAnalysieren Sie nicht nur zentral Statistiken, sondern verfolgen Sie auch Trends über die gesamte Unternehmensgeschichte hinweg. So sammelte eines der amerikanischen Colleges Informationen über Bewerber der letzten 60 Jahre. Berücksichtigt wurden Daten zur Zahl der Studienanfänger sowie Beschäftigungsindikatoren und die allgemeine Wirtschaftslage im Land. Infolgedessen passte die Universität das Programm so an, dass die Studierenden ihr Studium abschließen konnten, anstatt die Kurse auf halbem Weg abzubrechen.

Welche anderen Geschäftsaufgaben können Data Lakes lösen:

Weisen Sie Ressourcen effizient zu, um Lagerbestände in Zeiten hoher Nachfrage zu vermeiden.
Erstellen Sie genauere Prognosen, antizipieren Sie Trends und führen Sie innovative Produkte vor Wettbewerbern ein.
Segmentieren Sie Ihr Publikum und identifizieren Sie die Interessen selbst der meisten Nischengruppen.
Erstellen Sie detailliertere und genauere Berichte, mit denen Sie die Messdaten verbessern und die Produktivität steigern können.
Passen Sie Werbealgorithmen und Empfehlungssysteme effizienter an.
Sparen Sie Ressourcen in der Produktion oder im Labor - auch wenn es sich um eine komplexe Struktur wie CERN handelt.

Seen werden jedoch nicht nur für genutztGeschäftsumfeld – zu Beginn der Pandemie sammelte AWS beispielsweise Informationen über COVID-19 in einem einzigen Repository: Forschungsdaten, Artikel, statistische Berichte. Die Informationen wurden regelmäßig aktualisiert und der Zugriff darauf war kostenlos – Sie mussten lediglich für Analysetools bezahlen.

Datenseen können nicht als universell angesehen werdenWerkzeug und Allheilmittel, aber in einer Zeit, in der Daten als das neue Öl gelten, ist es für Unternehmen wichtig, nach verschiedenen Wegen zu suchen, um Big Data zu erforschen und anzuwenden. Die Hauptaufgabe besteht darin, unterschiedliche Informationen zu zentralisieren und zu konsolidieren. Im Zeitalter von Microservices und verteilten Teams treten häufig Situationen auf, in denen eine Abteilung nicht weiß, woran eine andere arbeitet. Aus diesem Grund verschwendet das Unternehmen Ressourcen, und verschiedene Spezialisten führen dieselben Aufgaben aus, ohne sich dessen bewusst zu sein. Dies reduziert letztendlich die Effizienz und überlastet das "Betriebssystem" des Unternehmens. Umfragen zeigen, dass die meisten Unternehmen in Datenseen investieren, um die betriebliche Effizienz zu verbessern. Die Ergebnisse übertreffen jedoch die Erwartungen: Frühanwender von Technologie steigern Umsatz und Gewinn schneller als diejenigen, die hinterherhinken, und vor allem bringen sie neue Produkte und Dienstleistungen schneller auf den Markt.

Siehe auch:

Das argentinische Gesundheitsministerium gab Daten zu Nebenwirkungen bei Personen bekannt, die "Sputnik V" erhielten.

Schnabeltier erwies sich als genetische Mischung aus Säugetieren, Vögeln und Reptilien

Abtreibung und Wissenschaft: Was wird mit den Kindern geschehen, die gebären werden?

Geek Tech Online

Alles über Technik und Gadgets

Datenseen: Wie Datenseen funktionieren und warum sie benötigt werden

Seen, Vitrinen und Lagerung

Daten aus dem "Bunker" extrahieren

Vier Schritte zu Datenseen

Analytische Algorithmen