การกรองและวินิจฉัยเนื้อหา: วิธีการสอน AI ให้ทำงานที่ซับซ้อนโดยไม่มีข้อมูล

ไม่จำเป็นต้องใช้ชุดข้อมูลขนาดใหญ่

ประวัติศาสตร์ของการเรียนรู้ของเครื่องเริ่มต้นตั้งแต่รุ่งอรุณของศตวรรษที่ 20 ในช่วงเวลานี้โมเดลผ่านไป

จากอัลกอริธึมง่ายๆ ที่ทำได้กรองอีเมลและตรวจจับมัลแวร์ ไปจนถึงการขุดข้อมูลที่สามารถทำนายการลุกลามของโรคในผู้ป่วย และเอาชนะผู้เล่นหมากรุกระดับโลก

ไม่ว่าจุดประสงค์ของแบบจำลองจะเป็นเช่นไรก็ตาม— ทำนายผลลัพธ์จากข้อมูลที่ป้อน ยิ่งชุดข้อมูลมีความหลากหลายมากขึ้น (ชุดข้อมูลที่ "ป้อน" โมเดล) ยิ่งอัลกอริทึมค้นหารูปแบบได้ง่ายขึ้นเท่านั้น ดังนั้น ผลลัพธ์ที่ได้จะแม่นยำยิ่งขึ้น

โมเดลนี้ต้องการส่วนประกอบหลัก 2 ส่วนในการทำงาน:ข้อมูลและอัลกอริทึม ข้อมูล หมายถึง ข้อมูลที่มีป้ายกำกับอยู่แล้ว ซึ่งแต่ละตัวอย่างของข้อมูลที่ป้อน (เช่น ภาพถ่ายของถนนที่มีคนเดินถนน) ได้รับมอบหมายผลลัพธ์ที่คาดหวังของโครงข่ายประสาทเทียม (รูปทรงของตัวเลขของคนเดินเท้าที่โครงข่ายประสาทเทียมควรเน้น)

ปัจจุบันโลกแห่งการเรียนรู้ของเครื่องถูกครอบงำโดยแนวทางที่เน้นโมเดลเป็นศูนย์กลาง ซึ่งเป็นสาเหตุที่วิศวกร ML ใช้เวลาส่วนใหญ่กับอัลกอริธึม ซึ่งเป็นองค์ประกอบสำคัญอันดับสองของประสิทธิภาพของโมเดล ความเร็วและความแม่นยำของงานขึ้นอยู่กับการเลือกอัลกอริทึม แต่ถึงแม้ว่าแนวทางนี้จะง่ายกว่าและน่าสนใจกว่าสำหรับวิศวกร แต่อย่าลืมเกี่ยวกับหลักการง่ายๆ ของขยะเข้าและขยะออก หากข้อมูลที่รวบรวมไม่ได้เป็นตัวแทน เทคนิคอัลกอริทึมจำนวนเท่าใดก็จะช่วยปรับปรุงคุณภาพของแบบจำลองไม่ได้ ดังนั้นจุดเน้นของวิศวกรจึงค่อยๆ เปลี่ยนไปที่ข้อมูล 

วิศวกร ML มองไปด้านข้างมากขึ้นData-centric AI แนวคิดในการรวบรวมข้อมูลน้อยลง แต่มีคุณภาพดีกว่า สิ่งนี้มีประสิทธิภาพมากขึ้น: การพัฒนาอัลกอริทึมช่วยปรับปรุงประสิทธิภาพของโมเดล 0-10% และทำงานกับคุณภาพข้อมูล - 10-30%

ทุกอย่างเริ่มต้นด้วยข้อมูล 

ในโลกอุดมคติ บริษัทที่ใช้เทคโนโลยีการเรียนรู้ของเครื่องเคารพวัฒนธรรมการรวบรวมข้อมูล แต่การเก็บรวบรวมข้อมูลเป็นเพียงจุดเริ่มต้น ต่อมาคือขั้นตอนการมาร์กที่ใช้เวลานานและมีราคาแพง ตามแนวคิดของ AI ที่ขับเคลื่อนด้วยข้อมูล วิศวกร ML สามารถบรรลุประสิทธิภาพของแบบจำลองที่สูงขึ้นมาก เมื่อเทียบกับข้อมูลการติดฉลาก "อย่างถูกที่สุด" นี่คือหลักการสำคัญของแนวทางนี้:

แนวทางมาร์กอัปคุณภาพสูง

คุณอาจคิดว่า:เหตุใดจึงทำให้แต่ละจุดของกระบวนการกำหนดและแก้ปัญหาเป็นทางการในเมื่อสามารถกำหนดเป็นประโยคเดียวได้ สมมติว่าเรากำลังพูดถึงมาร์กอัปข้อมูลสำหรับออโตไพลอต อาจเป็นดังนี้: "เลือกคนเดินถนนทั้งหมดในภาพถ่าย" แต่ผู้ทำหมายเหตุประกอบจะพบกับกรณีที่คลุมเครือได้อย่างรวดเร็ว ไม่ว่าจะเป็นนักปั่นจักรยาน คนบนสกู๊ตเตอร์ หรือผู้โดยสารที่ร่างกายเปิดโล่งในฐานะคนเดินถนน ผู้ใส่คำอธิบายประกอบแต่ละคนจะคิดคำตอบขึ้นมาเอง แต่จะแตกต่างและทำลายความเป็นเนื้อเดียวกันของข้อมูล ดังนั้นจึงจำเป็นต้องป้อนตัวอย่างที่ซับซ้อนทั้งหมดลงในฐานข้อมูล โดยที่ผู้ใส่คำอธิบายประกอบสามารถเปลี่ยนได้ในกรณีที่มีปัญหา แต่เพื่อให้เอกสารดังกล่าวปรากฏขึ้น คุณต้องมีคำติชมจากผู้ทำหมายเหตุประกอบ

ข้อเสนอแนะ

ฐานข้อมูลไม่สามารถปรากฏออกมาจากที่ไหนเลยสิ่งนี้ต้องมีเงื่อนไขสองประการ: วัฒนธรรมของการเคารพความคิดเห็นของคำอธิบายประกอบและพนักงานที่รับผิดชอบในการทำให้ฐานข้อมูลนี้ทันสมัยอยู่เสมอ ตามกฎแล้ว นี่คือประสบการณ์มากที่สุดในบรรดาเครื่องหมายหรือนักวิทยาศาสตร์ข้อมูลเอง 

ทรัพยากรจำเป็นต้องเชื่อมต่อกันในขณะที่แกนหลักของทีมถูกสร้างขึ้น ซึ่งรู้สึกถึงความรับผิดชอบและความสำคัญของกระบวนการทั้งหมด ซึ่งช่วยให้ผู้มาใหม่เข้ามามีส่วนร่วม

ฐานข้อมูลไม่สามารถปรากฏจากที่ไหนเลย

การตรวจสอบข้าม

บริษัทมักมีพนักงานมากกว่าหนึ่งคนคำอธิบายประกอบที่มีระดับทักษะต่างกัน ดังนั้น ชุดข้อมูลเดียวกันจึงสามารถติดป้ายกำกับได้หลายวิธี ดังนั้นควรตรวจสอบผลงานเป็นระยะๆ ซึ่งจะทำให้เข้าใจว่าผู้เชี่ยวชาญพบปัญหาใดที่ควรป้อนลงในฐานข้อมูล ซึ่งจะช่วยลดปัจจัยความผิดพลาดของมนุษย์

ส่งข้อมูลผ่านนักวิทยาศาสตร์ข้อมูล

ก่อนที่จะให้ข้อมูลเพื่อมาร์กอัปแก่ผู้ใส่คำอธิบายประกอบ การให้นักวิทยาศาสตร์ข้อมูลเจาะลึกข้อมูลและทำเครื่องหมายตัวอย่างสองสามร้อยตัวอย่างแรกจะเป็นประโยชน์ สิ่งนี้จะช่วยให้คุณเข้าใจว่าปัญหาสามารถแก้ไขได้อย่างไรสำหรับโมเดล

แม้ว่าการแบ่งงานจะน่าดึงดูดจากจุดนั้นในแง่ของต้นทุนการทำงาน เราไม่ควรคาดหวังการทำงานระดับเดียวกันกับข้อมูลจากผู้ทำหมายเหตุประกอบเช่นเดียวกับจากนักวิทยาศาสตร์ด้านข้อมูล เครื่องหมายไม่สามารถและไม่ควรระบุปัญหาการเรียนรู้ของเครื่อง

หากต้องทำงานเฉพาะทางข้อมูลที่คุณต้องการความรู้ในอุตสาหกรรม ตัวอย่างเช่น หากอัลกอริธึมต้องจดจำภาพเอ็กซ์เรย์ที่มีเนื้องอก แบบจำลองสามารถฝึกได้อย่างถูกต้องก็ต่อเมื่อผู้เชี่ยวชาญด้านชีวิตแน่ใจว่ามีเนื้องอกในแต่ละส่วนที่ทำเครื่องหมายไว้ และภาพมีข้อบกพร่อง

ตัวอย่าง "ชายแดน" มีความสำคัญ

หลักการสำคัญของการมาร์กแบบแมนนวลคือต้องทำมีสติปัญญา ในระหว่างกระบวนการฝึกอบรม โครงข่ายประสาทเทียมสามารถเดาได้ว่าตัวอย่างใดในชุดการฝึกที่มีแนวโน้มที่จะ "สะดุด" มากที่สุด จะดีกว่าถ้าส่งมอบให้กับการมาร์กด้วยตนเอง ซึ่งจะช่วยปรับปรุงคุณภาพของงานของแบบจำลองมากกว่าตัวอย่างที่ทำเครื่องหมายไว้หลายล้านตัวอย่าง การฝึกอบรมที่แบบจำลองจะไม่ทำผิดพลาด

การเพิ่มหรือการสังเคราะห์ข้อมูล

หากมีข้อมูลหรือมาร์กอัปของข้อมูลที่รวบรวมเพียงเล็กน้อยแพงเกินไป - คุณสามารถเผยแพร่ได้ ตัวอย่างเช่น หากข้อมูลเป็นข้อความ การเรียกใช้ของผู้ใช้เดียวกันสามารถเรียบเรียงใหม่ได้ หากเป็นรูปภาพเหล่านี้ คุณสามารถเปลี่ยนความสว่าง ตัดและพลิกรูปภาพบางส่วนได้

ในการเพิ่มปริมาณข้อมูลมีอีกวิธีการคือการสังเคราะห์พวกเขา แต่ข้อมูลดังกล่าวไม่สามารถแทนที่ข้อมูลจริงได้เสมอไป โดยเฉพาะอย่างยิ่งหากโครงข่ายประสาทเทียมสร้างข้อมูลประเภทเดียวกันหรือข้อมูลในอุดมคติ ในกรณีนี้ คุณสามารถใช้ข้อมูลสังเคราะห์ได้เฉพาะในบางขั้นตอนของแบบจำลองเท่านั้น

จากทฤษฎีสู่การปฏิบัติ

สังคมออนไลน์

เพื่อปกป้องผู้ใช้และปกป้องพวกเขาจากเชิงลบ เครือข่ายโซเชียลที่ใหญ่ที่สุดกำลังรวมตัวตรวจจับเนื้อหาที่เป็นพิษตามการเรียนรู้ของเครื่อง ในกระบวนการทำงาน ปัญหาหลักไม่ใช่การเลือกแบบจำลอง แต่เป็นการรวบรวมและวิเคราะห์ข้อมูล ปัญหาคือมีเนื้อหาที่เป็นพิษน้อยกว่าเนื้อหาปกติ ดังนั้นทีมจึงต้องรวบรวมฐานข้อมูลของเนื้อหาดังกล่าวบนแพลตฟอร์ม ซึ่งไม่สามารถทำได้หากไม่มีอัลกอริธึม ดังนั้น การเก็บรวบรวมข้อมูลจึงใช้เวลาถึง 90% ของเวลาของนักวิทยาศาสตร์ข้อมูล แต่คุณภาพของรุ่นสุดท้ายก็ดีขึ้น

ขายปลีกออนไลน์

เมื่อฝึกโมเดลที่พลิกสูตรไปยังรายการช็อปปิ้งโดยอิงจากตัวอย่าง 2 ล้านตัวอย่าง โมเดลนี้คาดการณ์ได้ว่ามีคุณภาพถึง 97% โมเดลนี้ใช้งานได้ดีในวงกว้าง แต่ในกรณีของผู้ค้าปลีกรายใดรายหนึ่งซึ่งมีผลิตภัณฑ์ที่ไม่ปกติ คุณภาพก็ลดลงอย่างรวดเร็วจนเหลือ 70% ที่ยอมรับไม่ได้ เพื่อแก้ไขปัญหานี้ ทีมคำอธิบายประกอบจึงมุ่งเน้นไปที่การทำให้แน่ใจว่าข้อมูลใหม่จะไม่สูญหายไปในพื้นหลังของชุดข้อมูลที่ครบถ้วนสมบูรณ์ การฝึกฝนโมเดลด้วยตัวอย่างสองสามพันตัวอย่างก็เพียงพอแล้ว และคุณภาพก็เพิ่มขึ้นเป็น 97% อีกครั้ง

AI ช่วยในการขายปลีก ไม่ใช่แค่การเลือกสินค้าที่ต้องการเท่านั้น

การผลิตสายพานลำเลียง

บริษัทที่ใช้ปัญญาประดิษฐ์เพื่อตรวจจับข้อบกพร่องในชิ้นส่วนบนสายพานลำเลียงได้รับความแม่นยำ 90% ของแบบจำลองหลังจากเริ่มงานกับข้อมูล แต่ตัวชี้วัดดังกล่าวไม่ตรงตามความต้องการของลูกค้า 

ในความพยายามที่จะปรับปรุงประสิทธิภาพของแบบจำลอง วิศวกร MLเรา "ขัดเกลา" การทำงานของอัลกอริทึมโดยไม่ต้องทำงานกับข้อมูล ซึ่งปรับปรุงผลลัพธ์เพียง 0.4% หลังจากวิเคราะห์ข้อมูลซ้ำ ล้างชุดข้อมูลจากตัวอย่างที่ติดฉลากไม่ดี และติดป้ายกำกับข้อมูลที่รวบรวมใหม่ ผลลัพธ์เพิ่มขึ้น 8%

ระบบแนะนำ

ระบบแนะนำแอพสูตรอาหารแสดงอัตราการคลิกผ่านที่ต่ำอย่างต่อเนื่องที่ 5% การทำงานกับอัลกอริธึมไม่ได้ช่วยอะไร และการวิเคราะห์ข้อมูลระบุว่าลูกค้าที่ใช้ข้อมูลในการฝึกโมเดลนั้นส่วนใหญ่เป็นมังสวิรัติ และประชากรทั่วไปของผู้ใช้ส่วนใหญ่กินเนื้อสัตว์ ระบบที่มุ่งสู่ผู้ทานมังสวิรัตินั้นไม่สามารถดึงความสนใจของผู้อื่นได้ และได้รับอิทธิพลอย่างสูงจากความชอบของผู้ใช้มังสวิรัติ ข้อมูลการฝึกอบรมทำให้ Conversion ดีขึ้นถึง 11%

ในอดีตสาขาปัญญาประดิษฐ์ในปัจจุบันมุ่งเน้นไปที่ข้อมูลขนาดใหญ่เป็นหลัก - การฝึกอบรมดำเนินการกับชุดข้อมูลที่กว้างขวาง แม้ว่ายังคงมีความคืบหน้าในการสร้างแบบจำลองดังกล่าว แต่จุดสนใจก็ค่อยๆ เปลี่ยนไปใช้ข้อมูลขนาดเล็กและทำงานร่วมกับข้อมูลดังกล่าว สิ่งนี้จะขยายเกณฑ์การเข้าสู่สาขา AI - โซลูชันที่ซับซ้อนสามารถสร้างขึ้นได้แม้จะมีข้อมูลเพียงเล็กน้อยก็ตาม

อ่านเพิ่มเติม:

หลุมดำในดาราจักรพิสูจน์แล้วว่าไอน์สไตน์คิดถูก สิ่งหลัก

อวกาศทำลายกระดูกและเปลี่ยนโครงสร้าง: นักวิทยาศาสตร์ไม่รู้ว่าผู้คนจะบินไปยังดาวอังคารอย่างไร

นักดาราศาสตร์พบดาวเคราะห์ที่แตกต่างจากโลกแต่เหมาะสมกับชีวิต

กี๊กเทคออนไลน์

ทุกอย่างเกี่ยวกับเทคโนโลยีและอุปกรณ์

การกรองและวิเคราะห์เนื้อหา: วิธีการสอน AI ให้ทำงานที่ซับซ้อนโดยไม่มีข้อมูล

ไม่จำเป็นต้องใช้ชุดข้อมูลขนาดใหญ่

ทุกอย่างเริ่มต้นด้วยข้อมูล

จากทฤษฎีสู่การปฏิบัติ

ไม่จำเป็นต้องใช้ชุดข้อมูลขนาดใหญ่

ทุกอย่างเริ่มต้นด้วยข้อมูล&nbsp;

จากทฤษฎีสู่การปฏิบัติ

ทุกอย่างเริ่มต้นด้วยข้อมูล