Tavak, vitrinek és tárolás
Képzelje el, hogy egy vállalat kimeríthetetlen információhoz fér hozzá
Magát az data lake kifejezést James Dixon vezette be,a Pentaho platform alapítója. Az adatmartokat összehasonlította az adat tavakkal: az előbbiek olyanok, mint a tisztított, szűrt és csomagolt palackozott víz. A tavak nyílt víztestek, amelyekbe a víz különböző forrásokból áramlik. Merülhet beléjük, vagy mintákat vehet a felszínről. Vannak olyan adattárolók is, amelyek meghatározott feladatokat látnak el és meghatározott érdekeket szolgálnak. A tóparti repók viszont sok játékosnak profitálhatnak, ha okosan használják őket.
Úgy tűnik, hogy az információáramlás csak bonyolítjaaz elemzők munkája, mert az információk nem strukturáltak, ráadásul túl sok van belőlük. De ha a vállalat tudja, hogyan kell az adatokkal dolgozni és ezekből értéket szerezni, a tó nem válik mocsárrá.
Adatok kinyerése a "bunkerből"
Mégis, milyen előnyei vannak az adatlakóknak?társaságok? Fő előnyük a bőség. Az adattár különféle csapatoktól és osztályoktól kap információkat, amelyek általában nem kapcsolódnak egymáshoz. Vegyünk például egy online iskolát. A különböző részlegek megtartják statisztikáikat és saját céljaikat követik - az egyik csapat figyeli a felhasználók megtartási mutatóit, a második az új ügyfelek ügyfélútját tanulmányozza, a harmadik pedig információkat gyűjt a diplomásokról. Senki sem férhet hozzá a teljes képhez. De ha egyetlen adattárban különböző információkat gyűjtenek össze, érdekes mintákat találhat. Például kiderült, hogy azok a felhasználók, akik tervező tanfolyamokra érkeznek és legalább két webes szemináriumot megtekintettek, nagyobb valószínűséggel elérik a program végét és sikeres karriert hoznak létre a piacon. Ezek az információk segítenek a vállalatnak a hallgatók megtartásában és egy vonzóbb termék létrehozásában.
Gyakran váratlan mintákat fedeznek felvéletlenül – így egy adattó segít az adatelemzőknek kísérletileg „keresztezni” a különböző információfolyamokat, és olyan párhuzamokat találni, amelyeket más körülmények között aligha fedeztek volna fel.
Az adatforrások bármilyenek lehetnek:egy online iskolában különböző promóciós csatornákról lesznek statisztikák, egy gyárban IoT érzékelő indikátorok, szerszámgép használati ütemterv és felszerelések kopási aránya, a piacon információk állnak rendelkezésre a raktáron lévő áruk elérhetőségéről, értékesítési statisztikákról és a legnépszerűbb fizetési módokról. A tavak csak segítenek olyan információs tömbök összegyűjtésében és tanulmányozásában, amelyek általában nem keresztezik egymást, és a különböző részlegek figyelmébe kerülnek.
Az adattavak másik pluszja az adatkitermelésaz eltérő tárolóktól és a zárt alrendszerektől. Az információkat gyakran egyfajta információs "bunkerben" tárolják, amelyhez csak egy osztály rendelkezik hozzáféréssel. Nehéz vagy lehetetlen anyagokat átvinni belőle - túl sok a korlátozás. A tavak megoldják ezt a problémát.
Tehát az adatlakoknak legalább nyolc előnye van:
- Segítsen az adatelemzőknek értékes betekintést nyerni.
- Lehetővé teszi a vállalat számára, hogy statisztikák és tények alapján gyors döntéseket hozzon.
- Lehetővé teszi, hogy különböző forrásokból származó különböző típusú adatokkal kísérletezzen.
- Tegye demokratikusabbá az elemzési folyamatot, és távolítsa el az akadályokat a részlegek között.
- Biztosítsa az adatok magas szintű központosítását és részletességét - ez lehetővé teszi, hogy megtalálja a „tűt a szénakazalban”.
- Alkalmas minden méretű vállalat számára - korai szakaszban kezdheti a mini-tavakat, és fokozatosan növelheti a mennyiségeket.
- Leegyszerűsítik az üzleti folyamatokat - például lehetővé teszik tartományok közötti lekérdezések készítését és összetett termékjelentések készítését.
- Olcsóbbak, mint a tárolás, mert az adatokat nem kell előzetesen feldolgozni.
A tavakra elsősorban az elosztott éselágazó csapatok. Klasszikus példa az Amazon. A vállalat több ezer különböző forrásból gyűjtött össze adatokat. Így csak a pénzügyi tranzakciókat 25 különböző adatbázisban tárolták, amelyeket különböző módon terveztek és szerveztek. Ez zavart és kényelmetlenséget okozott. A tó segített minden anyagot egy helyre gyűjteni és egységes adatvédelmi rendszert kialakítani. Mostantól a szakemberek – adat- és üzleti elemzők, fejlesztők és technológiai igazgatók – megkaphatják a szükséges alkatrészeket, és különböző eszközök és technológiák segítségével feldolgozhatják azokat. A gépi tanulás pedig segített az Amazon elemzőinek rendkívül pontos előrejelzéseket készíteni – most már tudják, hogy egy bizonyos méretű dobozra hány dobozra lesz szükség a csomagokhoz novemberben Texasban.
Négy lépés az adat tavakig
De az adat tavaknak vannak hátrányai is.Mindenekelőtt további erőforrásokat és magas szintű szakértelmet igényelnek - ezekből csak a magasan képzett elemzők profitálhatnak. Szüksége lesz további üzleti intelligencia eszközökre is, amelyek segítenek átlátásait koherens stratégiává alakítani.
Egy másik probléma harmadik fél igénybevételerendszerek az adatok tavainak fenntartására. Ebben az esetben a vállalat a szolgáltatótól függ. Ha rendszer összeomlik vagy adatszivárgás történik, az nagy pénzügyi veszteségekhez vezethet. A tavak fő problémája azonban a technológia körüli felhajtás. Gyakran a vállalatok ezt a formátumot követik divat szerint, de nem tudják, miért van szükségük erre. Ennek eredményeként nagy összegeket költenek, de nem érik el a befektetés megtérülését. Ezért a szakértők azt javasolják, még az indítás előkészítésének szakaszában is meghatározzák, hogy a tavak milyen üzleti feladatokat oldanak meg.
A McKinsey szakemberei az adatlakok létrehozásának négy szakaszát azonosítják:
- Platform létrehozása a nyers adatok gyűjtésére. Ebben a szakaszban fontos megtanulni az információk visszakeresését és tárolását.
- Platformfejlesztés és első kísérletek. Az adatelemzők már most elkezdik elemezni az adatokat és elemző prototípusokat építeni.
- Szoros integráció az adattárolással. Ebben a szakaszban egyre több adatkészlet özönlik a tavakhoz, és a navigációs folyamat leegyszerűsödik.
- Data Lake válik kulcsfontosságúváépítészet. Új alkalmazási forgatókönyvek alakulnak ki, új, felhasználóbarát felületű kiegészítők és szolgáltatások jelennek meg, a vállalat elkezdi használni a Data-as-a-Service üzleti modellt.
Analitikai algoritmusok
Magában az adathalmozódásban nincs semmialapvetően új, de a felhőrendszerek, a nyílt forráskódú platformok fejlődésének és a számítógépes teljesítmény általános növekedésének köszönhetően ma már a startupok is dolgozhatnak lake architektúrával.
Az ipar másik mozgatórugója a gép voltképzés - a technológia részben leegyszerűsíti az elemzők munkáját, és több eszközt ad nekik az utófeldolgozáshoz. Ha korábban egy szakember belefulladt volna a fájlok, összefoglalók és táblázatok számába, most már „táplálhatja” ezeket az algoritmusba, és gyorsan fel tud építeni egy elemző modellt.
A Data Lake-ek AI-val kombinált használata segítnemcsak központilag elemzi a statisztikákat, hanem nyomon követi a cég történetének trendjeit is. Így az egyik amerikai főiskola információkat gyűjtött a jelentkezőkről az elmúlt 60 évben. Figyelembe vették az új hallgatók számára vonatkozó adatokat, valamint a foglalkoztatási mutatókat és az ország általános gazdasági helyzetét. Ennek eredményeként az egyetem úgy alakította át a programot, hogy a hallgatók befejezzék tanulmányaikat, ahelyett, hogy félúton lemorzsolódnának.
Milyen egyéb üzleti feladatokat oldhatnak meg az adatlakók:
- Hatékonyan ossza el az erőforrásokat a készlethiány elkerülése érdekében a csúcsigény időszakában.
- Készítsen pontosabb előrejelzéseket és előrejelezze a trendeket, és dobjon piacra innovatív termékeket a versenytársak előtt.
- Szegmentálja a közönségét, és azonosítsa a legrugalmasabb csoportok érdekeit is.
- Készítsen részletesebb és pontosabb jelentéseket, amelyek hozzájárulnak a mutatók javításához és a termelékenység növeléséhez.
- A promóciós algoritmusok és ajánlási rendszerek hatékonyabb testreszabása.
- Takarítson meg erőforrásokat a termelésben vagy a laboratóriumban - még akkor is, ha ez egy olyan összetett szerkezet, mint a CERN.
A tavakat azonban nem csak arra használjáküzleti környezet – például a világjárvány kezdetén az AWS egyetlen adattárban gyűjtötte a COVID-19-ről szóló információkat: kutatási adatokat, cikkeket, statisztikai jelentéseket. Az információkat rendszeresen frissítették, és a hozzáférés ingyenes volt – csak az elemzőeszközökért kellett fizetni.
Az adattavakat nem lehet egyetemesnek tekintenieszköz és csodaszer, de egy olyan korszakban, amikor az adatokat új olajnak tekintik, fontos, hogy a vállalatok különböző módszereket keressenek a nagy adatok kutatására és alkalmazására. A fő feladat az eltérő információk centralizálása és konszolidálása. A mikroszolgáltatások és az elosztott csapatok korában gyakran adódnak olyan helyzetek, amikor az egyik részleg nem tudja, mi más dolgozik. Emiatt az üzlet pazarolja az erőforrásokat, és a különböző szakemberek ugyanazokat a feladatokat látják el, gyakran nem is tudva erről. Ez végül csökkenti a hatékonyságot és túlterheli a vállalat "operációs rendszerét". A felmérések azt mutatják, hogy a legtöbb vállalat az adatlakokba fektet be a működési hatékonyság javítása érdekében. De az eredmények meghaladják a várakozásokat: a technológia korai alkalmazói gyorsabban növelik a bevételeket és a profitot, mint a lemaradók, és ami a legfontosabb: új termékeket és szolgáltatásokat gyorsabban hoznak piacra.
Lásd még:
Az Argentin Egészségügyi Minisztérium a Sputnik V-t kapók mellékhatásaira vonatkozó adatokat közölt
A kacsacsőrű emlősök, madarak és hüllők genetikai keverékének bizonyult
Abortusz és tudomány: mi lesz a gyerekekkel, akik szülni fognak