Data Lakes: Data Lakes ทำงานอย่างไรและเหตุใดจึงจำเป็น

ทะเลสาบตู้โชว์และที่เก็บของ

ลองนึกภาพว่าบริษัทสามารถเข้าถึงข้อมูลที่ไม่สิ้นสุด

นักวิเคราะห์จะได้รับข้อมูลเชิงลึกทางธุรกิจอันมีค่าและเปิดตัวอย่างสม่ําเสมอนี่คือวิธีการทํางานของ Data Lakeนี่เป็นสถาปัตยกรรมข้อมูลประเภทใหม่ที่ช่วยให้คุณสามารถรวบรวมข้อมูลดิบและแตกต่างกันจากแหล่งต่าง ๆ แล้วค้นหาการใช้งานที่มีประสิทธิภาพยักษ์ใหญ่เช่น Oracle, Amazon และ Microsoft เป็นคนแรกที่ทดลองใช้เทคโนโลยีนี้ และพวกเขายังพัฒนาบริการที่สะดวกสําหรับการสร้างทะเลสาบ

คำว่า data lake ได้รับการแนะนำโดย James Dixonผู้ก่อตั้งแพลตฟอร์ม Pentaho เขาเปรียบดาต้ามาร์ทกับดาต้าเลคอดีตก็เหมือนกับน้ำดื่มบรรจุขวดที่ผ่านการกรองและกรองและบรรจุขวด ทะเลสาบเป็นแหล่งน้ำเปิดซึ่งน้ำไหลมาจากแหล่งต่างๆ คุณสามารถดำน้ำลงไปหรือจะเก็บตัวอย่างจากผิวน้ำก็ได้ นอกจากนี้ยังมีการจัดเก็บข้อมูลที่ดำเนินการเฉพาะและตอบสนองความสนใจเฉพาะ ในทางกลับกันการ repos ริมทะเลสาบสามารถให้ประโยชน์กับผู้เล่นจำนวนมากหากใช้อย่างชาญฉลาด

ดูเหมือนว่าการไหลของข้อมูลจะซับซ้อนขึ้นเท่านั้นทำงานให้กับนักวิเคราะห์เนื่องจากข้อมูลไม่มีโครงสร้างและนอกจากนี้ยังมีจำนวนมากเกินไป แต่ถ้า บริษัท รู้วิธีทำงานกับข้อมูลและได้รับคุณค่าจากมันทะเลสาบจะไม่กลายเป็นบึง

การดึงข้อมูลจาก "บังเกอร์"

ถึงกระนั้นประโยชน์ของ Data Lakes คืออะไร?บริษัท ? ประโยชน์หลักของพวกเขาคือความอุดมสมบูรณ์ ที่เก็บได้รับข้อมูลจากทีมและแผนกต่างๆซึ่งโดยปกติจะไม่เกี่ยวข้องกัน ใช้โรงเรียนออนไลน์เช่น แผนกต่างๆเก็บสถิติและดำเนินการตามเป้าหมายของตนเองทีมหนึ่งจะตรวจสอบเมตริกการรักษาผู้ใช้ส่วนที่สองศึกษาเส้นทางของลูกค้าของลูกค้าใหม่และที่สามรวบรวมข้อมูลเกี่ยวกับผู้สำเร็จการศึกษา ไม่มีใครเข้าถึงภาพเต็ม แต่ถ้าคุณสะสมข้อมูลที่แตกต่างกันในที่เก็บเดียวคุณจะพบรูปแบบที่น่าสนใจ ตัวอย่างเช่นปรากฎว่าผู้ใช้ที่มาออกแบบหลักสูตรและดูการสัมมนาผ่านเว็บอย่างน้อยสองรายการมีแนวโน้มที่จะไปถึงจุดสิ้นสุดของโปรแกรมและสร้างอาชีพที่ประสบความสำเร็จในตลาด ข้อมูลนี้จะช่วยให้ บริษัท สามารถรักษานักเรียนและสร้างผลิตภัณฑ์ที่น่าสนใจยิ่งขึ้น

บ่อยครั้งที่รูปแบบที่ไม่คาดคิดถูกค้นพบโดยบังเอิญ เช่น Data Lake ช่วยได้นักวิเคราะห์ข้อมูลสามารถทดลอง "ข้าม" กระแสข้อมูลต่างๆ และค้นหาความคล้ายคลึงกันที่พวกเขาไม่น่าจะพบ

แหล่งข้อมูลสามารถเป็นได้:โรงเรียนออนไลน์จะมีสถิติจากช่องทางการส่งเสริมการขายที่แตกต่างกันโรงงานจะมีตัวบ่งชี้เซ็นเซอร์ IoT ตารางการใช้เครื่องมือเครื่องจักรและอัตราการสึกหรอของอุปกรณ์ตลาดจะมีข้อมูลเกี่ยวกับความพร้อมของสินค้าในสต็อกสถิติการขายและข้อมูลเกี่ยวกับวิธีการชำระเงินที่เป็นที่นิยมมากที่สุด Lakes ช่วยในการรวบรวมและศึกษาอาร์เรย์ของข้อมูลที่มักจะไม่ตัดกัน แต่อย่างใดและตกอยู่ในความสนใจของแผนกต่างๆ

ข้อดีอีกอย่างของ Data Lakes คือการดึงข้อมูลจากที่เก็บที่แตกต่างกันและระบบย่อยแบบปิด บ่อยครั้งที่ข้อมูลถูกจัดเก็บในลักษณะ "บังเกอร์" ซึ่งมีเพียงแผนกเดียวเท่านั้นที่มี เป็นเรื่องยากหรือเป็นไปไม่ได้ที่จะถ่ายโอนวัสดุจากมัน - มีข้อ จำกัด มากเกินไป ทะเลสาบแก้ปัญหานี้

ดังนั้นจึงมีข้อดีอย่างน้อยแปดประการของ Data Lakes:

  • ช่วยให้นักวิเคราะห์ข้อมูลได้รับข้อมูลเชิงลึกที่มีคุณค่า
  • ช่วยให้ บริษัท สามารถตัดสินใจได้อย่างรวดเร็วโดยอาศัยสถิติและข้อเท็จจริง
  • ให้คุณทดลองกับข้อมูลประเภทต่างๆจากแหล่งต่างๆ
  • ทำให้กระบวนการวิเคราะห์มีความเป็นประชาธิปไตยมากขึ้นและขจัดอุปสรรคระหว่างแผนกต่างๆ
  • จัดให้มีการรวมศูนย์และรายละเอียดข้อมูลในระดับสูงซึ่งจะช่วยให้คุณพบ "เข็มในกองหญ้า"
  • เหมาะสำหรับ บริษัท ทุกขนาดในระยะเริ่มต้นคุณสามารถเริ่มต้นด้วยทะเลสาบขนาดเล็กและค่อยๆสร้างปริมาณขึ้น
  • ช่วยลดความซับซ้อนของกระบวนการทางธุรกิจตัวอย่างเช่นช่วยให้คุณทำการสืบค้นข้ามโดเมนและสร้างการรายงานผลิตภัณฑ์ที่ซับซ้อน
  • มีราคาถูกกว่าพื้นที่เก็บข้อมูลเนื่องจากไม่จำเป็นต้องประมวลผลข้อมูลล่วงหน้า

ทะเลสาบเป็นที่ต้องการของทีมแบบกระจายและแตกแขนงเป็นหลักตัวอย่างเช่นธุรกรรมทางการเงินเพียงอย่างเดียวถูกเก็บไว้ในฐานข้อมูลที่แตกต่างกัน 25 ฐานข้อมูลซึ่งจัดเรียงและจัดระเบียบในรูปแบบที่แตกต่างกันสิ่งนี้สร้างความสับสนและความไม่สะดวกและทะเลสาบช่วยรวบรวมวัสดุทั้งหมดไว้ในที่เดียวและติดตั้งระบบป้องกันข้อมูลแบบครบวงจรตอนนี้นักวิเคราะห์ข้อมูลและธุรกิจนักพัฒนาและ CTO สามารถนําส่วนประกอบที่ต้องการและประมวลผลโดยใช้เครื่องมือและเทคโนโลยีที่แตกต่างกันและแมชชีนเลิร์นนิงช่วยให้นักวิเคราะห์ของ Amazon คาดการณ์ได้อย่างแม่นยําเป็นพิเศษ — ตอนนี้พวกเขารู้แล้วว่าต้องใช้กล่องขนาดใดขนาดหนึ่งสําหรับบรรจุภัณฑ์ในเท็กซัสในเดือนพฤศจิกายน

สี่ขั้นตอนสู่ดาต้าเลค

แต่ดาต้าเลคก็มีข้อเสียเช่นกันประการแรกพวกเขาต้องการทรัพยากรเพิ่มเติมและความเชี่ยวชาญระดับสูง - เฉพาะนักวิเคราะห์ที่มีคุณสมบัติสูงเท่านั้นที่จะได้รับประโยชน์จากพวกเขา คุณจะต้องมีเครื่องมือ Business Intelligence เพิ่มเติมเพื่อช่วยเปลี่ยนข้อมูลเชิงลึกของคุณให้เป็นกลยุทธ์ที่สอดคล้องกัน

ปัญหาอีกประการหนึ่งคือการใช้งานของบุคคลที่สามระบบรักษาดาต้าเลค ในกรณีนี้ บริษัท ขึ้นอยู่กับผู้ให้บริการ หากระบบขัดข้องหรือข้อมูลรั่วไหลอาจนำไปสู่ความสูญเสียทางการเงินจำนวนมาก อย่างไรก็ตามปัญหาหลักของทะเลสาบคือการโฆษณาเกี่ยวกับเทคโนโลยี บ่อยครั้งที่ บริษัท ต่างๆใช้รูปแบบนี้ตามแฟชั่น แต่ไม่รู้ว่าทำไมพวกเขาถึงต้องการมันจริงๆ เป็นผลให้พวกเขาใช้จ่ายเงินจำนวนมาก แต่ไม่ได้รับการคืนทุน ดังนั้นผู้เชี่ยวชาญจึงให้คำแนะนำแม้ในขั้นตอนของการเตรียมการเปิดตัวเพื่อพิจารณาว่างานธุรกิจใดที่ทะเลสาบจะแก้ไขได้

ผู้เชี่ยวชาญของ McKinsey ระบุสี่ขั้นตอนในการสร้าง Data Lakes:

  1. การสร้างแพลตฟอร์มสำหรับรวบรวมข้อมูลดิบ ในขั้นตอนนี้สิ่งสำคัญคือต้องเรียนรู้วิธีดึงและจัดเก็บข้อมูล
  2. การพัฒนาแพลตฟอร์มและการทดลองครั้งแรก นักวิเคราะห์ข้อมูลเริ่มวิเคราะห์ข้อมูลและสร้างต้นแบบการวิเคราะห์แล้ว
  3. บูรณาการอย่างแน่นหนากับการจัดเก็บข้อมูล ในขั้นตอนนี้ชุดข้อมูลจำนวนมากขึ้นเรื่อย ๆ จะแห่กันไปที่ทะเลสาบและกระบวนการการนำทางก็ง่ายขึ้น
  4. Data Lake กลายเป็นกุญแจสำคัญสถาปัตยกรรม. สถานการณ์แอปพลิเคชันใหม่กำลังพัฒนาส่วนเสริมและบริการใหม่ที่มีอินเทอร์เฟซที่ใช้งานง่ายปรากฏขึ้น บริษัท เริ่มใช้รูปแบบธุรกิจ Data-as-a-Service

อัลกอริทึมการวิเคราะห์

ไม่มีอะไรใหม่โดยพื้นฐานในการสะสมข้อมูล แต่ด้วยการพัฒนาระบบคลาวด์แพลตฟอร์มโอเพ่นซอร์สและโดยทั่วไปพลังการประมวลผลที่เพิ่มขึ้นทําให้สามารถทํางานกับสถาปัตยกรรมทะเลสาบได้ในปัจจุบันแม้แต่สตาร์ทอัพ

ตัวขับเคลื่อนอีกตัวหนึ่งของอุตสาหกรรมคือแมชชีนเลิร์นนิง — เทคโนโลยีนี้ช่วยให้ทําได้ง่ายขึ้นงานของนักวิเคราะห์และให้เครื่องมือเพิ่มเติมสําหรับการประมวลผลภายหลังจะจมอยู่ในจํานวนไฟล์สรุปและตารางตอนนี้ก็สามารถ"ป้อน" พวกเขาไปยังอัลกอริทึมและสร้างแบบจําลองการวิเคราะห์ได้เร็วขึ้น

การใช้ Data Lake ร่วมกับ AI ไม่เพียงแต่ช่วยวิเคราะห์สถิติจากส่วนกลาง แต่ยังติดตามแนวโน้มตลอดประวัติศาสตร์ของบริษัทด้วยตัวอย่างเช่น หนึ่งในวิทยาลัยอเมริกันรวบรวมข้อมูลเกี่ยวกับผู้สมัครในช่วง 60 ปีที่ผ่านมาข้อมูลเกี่ยวกับจํานวนนักเรียนใหม่ถูกนํามาพิจารณาเช่นเดียวกับตัวชี้วัดการจ้างงานและสถานการณ์ทางเศรษฐกิจทั่วไปในประเทศด้วยเหตุนี้ มหาวิทยาลัยจึงปรับโปรแกรมเพื่อให้นักศึกษาเรียนจบแทนที่จะออกกลางคัน

งานธุรกิจอื่นใดที่ Data Lakes สามารถแก้ปัญหาได้:

  • จัดสรรทรัพยากรอย่างมีประสิทธิภาพเพื่อหลีกเลี่ยงสินค้าคงคลังในช่วงที่มีความต้องการสูงสุด
  • สร้างการคาดการณ์ที่แม่นยำยิ่งขึ้นและคาดการณ์แนวโน้มและเปิดตัวผลิตภัณฑ์ที่เป็นนวัตกรรมล้ำหน้าคู่แข่ง
  • แบ่งกลุ่มผู้ชมของคุณและระบุความสนใจของกลุ่มเฉพาะส่วนใหญ่
  • สร้างรายงานที่ละเอียดและแม่นยำยิ่งขึ้นเพื่อช่วยปรับปรุงเมตริกและเพิ่มผลผลิต
  • ปรับแต่งอัลกอริทึมการส่งเสริมการขายและระบบคำแนะนำได้อย่างมีประสิทธิภาพมากขึ้น
  • ประหยัดทรัพยากรในการผลิตหรือในห้องปฏิบัติการ - แม้ว่าจะเป็นโครงสร้างที่ซับซ้อนเช่น CERN ก็ตาม

อย่างไรก็ตาม ทะเลสาบไม่ได้ใช้ในสภาพแวดล้อมทางธุรกิจเท่านั้น เช่น ในช่วงเริ่มต้นของการระบาดใหญ่ AWS รวบรวมข้อมูลเกี่ยวกับโควิด-19 ไว้ในที่เก็บเดียว ได้แก่ ข้อมูลการวิจัย บทความ และบทสรุปทางสถิติข้อมูลได้รับการอัปเดตเป็นประจําและสามารถเข้าถึงได้โดยไม่เสียค่าใช้จ่าย - คุณต้องจ่ายค่าเครื่องมือวิเคราะห์เท่านั้น

Data Lakes ไม่สามารถพิจารณาได้ว่าเป็นสากลเครื่องมือและยาครอบจักรวาล แต่ในยุคที่ข้อมูลถือเป็นน้ำมันใหม่สิ่งสำคัญสำหรับ บริษัท ต่างๆที่ต้องมองหาวิธีต่างๆในการวิจัยและใช้ข้อมูลขนาดใหญ่ ภารกิจหลักคือการรวมศูนย์และรวบรวมข้อมูลที่แตกต่างกัน ในยุคของไมโครเซอร์วิสและทีมงานแบบกระจายมักเกิดสถานการณ์ที่แผนกหนึ่งไม่รู้ว่าอีกแผนกหนึ่งกำลังทำงานอะไร ด้วยเหตุนี้ธุรกิจจึงสิ้นเปลืองทรัพยากรและผู้เชี่ยวชาญที่แตกต่างกันทำงานแบบเดียวกันโดยที่มักไม่รู้ตัว ในที่สุดสิ่งนี้จะลดประสิทธิภาพและทำให้ "ระบบปฏิบัติการ" ของ บริษัท ทำงานหนักเกินไป การสำรวจแสดงให้เห็นว่า บริษัท ส่วนใหญ่ลงทุนในดาต้าเลคเพื่อปรับปรุงประสิทธิภาพการดำเนินงาน แต่ผลลัพธ์ที่เหนือความคาดหมาย: ผู้ใช้เทคโนโลยีในระยะแรกจะสร้างรายได้และผลกำไรได้เร็วกว่าผู้ที่ล้าหลังและที่สำคัญที่สุดคือพวกเขานำผลิตภัณฑ์และบริการใหม่ ๆ ออกสู่ตลาดได้เร็วขึ้น

ดูเพิ่มเติมที่:

กระทรวงสาธารณสุขของอาร์เจนตินาเปิดเผยข้อมูลเกี่ยวกับผลข้างเคียงในผู้ที่ได้รับ Sputnik V.

ตุ่นปากเป็ดกลายเป็นส่วนผสมทางพันธุกรรมของสัตว์เลี้ยงลูกด้วยนมนกและสัตว์เลื้อยคลาน

การทำแท้งกับวิทยาศาสตร์: จะเกิดอะไรขึ้นกับเด็กที่จะคลอด