تصفية المحتوى وتشخيصه: كيف يتم تعليم الذكاء الاصطناعي للقيام بمهام معقدة بدون بيانات

ليست هناك حاجة إلى مجموعات بيانات ضخمة

بدأ تاريخ التعلم الآلي في فجر القرن 20 .

المسار من الخوارزميات البسيطة التي يمكنها تصفية رسائل البريد الإلكتروني والعثور على البرامج الضارة إلى استخراج البيانات التي يمكن أن تتنبأ بتطور المرض لدى المرضى وهزيمة لاعبي الشطرنج من الطراز العالمي.

مهما كان الغرض من النموذج ، فإن الغرض منه هو التنبؤ بالنتيجةكلما كانت مجموعة البيانات أكثر تنوعا (مجموعة منالبيانات التي "تغذي" النماذج) ، كلما كان من الأسهل على الخوارزمية العثور على الأنماط ، وبالتالي كانت النتيجة أكثر دقةفي طريقه للخروج.

يحتاج النموذج إلى مكونين رئيسيين للعمل:البيانات والخوارزمية. تعني البيانات المعلومات التي تم تصنيفها بالفعل ، حيث يتم تعيين النتيجة المتوقعة للشبكة العصبية لكل مثال من بيانات الإدخال (على سبيل المثال ، صور الشارع مع المشاة) (ملامح أرقام المشاة التي يجب أن تبرزها الشبكة العصبية).

في الوقت الحالي ، يهيمن على عالم التعلم الآلي نهج يركز على النموذج ، لذلك ينفق مهندسو MLالكثير من الوقت الذي يقضيه على الخوارزميات هو المكون الثاني المهم لتشغيل النموذج.يعتمد اختيار الخوارزمية على سرعة ودقة العمل.النهج أبسط وأكثر إثارة للاهتمام للمهندسين ، لا ننسى المبدأ البسيط للقمامة في ، القمامة خارج.إذا لم تكن البيانات التي تم جمعها تمثيلية ، فلن يساعد أي قدر من الخداع الخوارزميلذلك ، يتحول تركيز المهندسين تدريجيا إلى البيانات.

يتطلع مهندسو ML بشكل متزايد إلى الجانبالذكاء الاصطناعي المرتكز على البيانات ، وتتمثل الفكرة في جمع بيانات أقل ، ولكن بجودة أفضل. هذا أكثر كفاءة: تطوير الخوارزميات يحسن أداء النموذج بنسبة 0-10٪ ، والعمل بجودة البيانات - بنسبة 10-30٪.

كل شيء يبدأ بالبيانات

في عالم مثالي ، شركة تستخدمتحترم تقنية التعلم الآلي ثقافة جمع البيانات. لكن جمع البيانات هو مجرد البداية. ثم تأتي بعد ذلك عملية وضع العلامات المكلفة والتي تستغرق وقتًا طويلاً. باتباع مفهوم الذكاء الاصطناعي المستند إلى البيانات ، يمكن لمهندسي تعلم الآلة تحقيق أداء نموذج أعلى بكثير مقارنة ببيانات التصنيف "بأقل تكلفة ممكنة". فيما يلي المبادئ الأساسية لهذا النهج:

إرشادات الترميز عالية الجودة

قد تعتقد:لماذا إضفاء الطابع الرسمي على كل نقطة من عملية تحديد وحل مشكلة عندما يمكن صياغتها في جملة واحدة. لنفترض أننا نتحدث عن ترميز البيانات للطيار الآلي ، فقد يبدو الأمر كما يلي: "حدد جميع المشاة في الصور." لكن المعلقين سرعان ما سيصادفون حالات غامضة - سواء لتمييز راكب دراجة ، أو شخص على دراجة بخارية ، أو راكب في جسم مفتوح كمشاة؟ سيأتي كل مضيف بإجابة بمفرده ، لكنها ستكون مختلفة وستدمر تجانس البيانات. لذلك ، من الضروري إدخال جميع الأمثلة المعقدة في قاعدة بيانات ، حيث يمكن للمعلقين ، في حالة وجود صعوبات ، أن يتحولوا. ولكن لكي يظهر مثل هذا المستند ، فأنت بحاجة إلى تعليقات من أصحاب التعليقات التوضيحية.

ردود الفعل

لا يمكن أن تأتي قاعدة البيانات من العدم ، فأنت بحاجة إلى شيئين: ثقافة احترام ملاحظات المعلقين والأشخاص المسؤولين عن تحديثها باستمرار.كقاعدة عامة ، هذا هو الأكثر خبرة من المتخصصين في الترميز أو عالم البيانات نفسه.

يجب أن تكون الموارد مترابطة حيث يتم تشكيل جوهر الفريق ، والذي يشعر بكل مسؤولية وأهمية العملية ، مما يساعد الوافدين الجدد على المشاركة فيها.

لا يمكن أن تظهر قاعدة البيانات من العدم

عبر المصادقة

غالبًا ما توظف الشركة أكثر من واحدالمعلق مع مستويات مهارة مختلفة. لذلك ، يمكن تسمية مجموعة البيانات نفسها بطرق مختلفة. لذلك يجب فحص نتائج العمل بشكل دوري. سيعطي هذا فهمًا للمكان الذي يواجه فيه المتخصصون الصعوبات التي يجب إدخالها في قاعدة البيانات - سيؤدي ذلك إلى تقليل عامل الخطأ البشري.

تمرير البيانات من خلال عالم البيانات

قبل إعطاء المعلقين البيانات للترميز ، من المفيد جعل عالم البيانات يتعمق في البيانات ويرمز إلى أول بضع مئات من الأمثلة. سيسمح لك ذلك بفهم كيف يمكن حل المشكلة بالنموذج.

على الرغم من أن تقسيم العمل جذاب من وجهة نظرفيما يتعلق بتكلفة العمل ، لا ينبغي للمرء أن يتوقع نفس المستوى من العمل مع البيانات من المعلقين كما هو الحال من علماء البيانات - لا يمكن للعلامات ولا ينبغي لها تحديد مشاكل التعلم الآلي.

إذا كان عليك العمل مع محددالبيانات ، فأنت بحاجة إلى معرفة الصناعة. على سبيل المثال ، إذا كان يجب على الخوارزمية التعرف على صور الأشعة السينية مع وجود ورم ، فلا يمكن تدريب النموذج بشكل صحيح إلا إذا كان المتخصصون الأحياء متأكدين من وجود أورام في كل جزء محدد ، وأن الصورة معيبة.

أمثلة "الحدود" مهمة

المبدأ الرئيسي للترميز اليدوي هو أنه يجب أن يكون intelligent.In عملية التدريب ، يمكن تخمين الشبكة العصبية أي الأمثلة في عينة التدريب من المرجح أن "تتعثر".من الأفضل منحهم الترميز اليدوي ، سيؤدي ذلك إلى تحسين جودة عمل النموذج أكثر من ملايين الأمثلة المميزة ، والتدريب الذي لن يرتكب النموذج خطأ فيه على أي حال.

زيادة البيانات أو المواد التركيبية

إذا كان هناك القليل من البيانات أو ترميز البيانات التي تم جمعهاباهظة الثمن - يمكنك نشرها. على سبيل المثال ، إذا كانت البيانات نصية ، فيمكن إعادة صياغة مكالمات المستخدم نفسها. إذا كانت هذه صور ، فيمكنك تغيير السطوع وقص بعض الصور وقلبها.

في الزيادة في كمية البيانات ، هناك شيء آخرالنهج هو تجميعها. لكن مثل هذه البيانات لا يمكن أن تحل دائمًا محل البيانات الحقيقية ، خاصة إذا كانت الشبكة العصبية تنتج نفس النوع أو البيانات المثالية. في هذه الحالة ، لا يمكنك استخدام البيانات التركيبية إلا في خطوات معينة من النموذج.

من النظرية إلى التطبيق

الشبكات الاجتماعية

لحماية المستخدمين وحمايتهم منسلبيًا ، تعمل أكبر الشبكات الاجتماعية على دمج كاشف المحتوى السام استنادًا إلى التعلم الآلي. في عملية العمل ، لا تكمن المشكلة الرئيسية في اختيار نموذج ، بل في جمع البيانات وتحليلها. تكمن المشكلة في وجود محتوى أقل سمية من المحتوى العادي ، لذلك يحتاج الفريق إلى جمع قاعدة بيانات لمثل هذا المحتوى على النظام الأساسي ، وهو أمر لا يمكن القيام به بدون خوارزمية. لذلك ، يستغرق جمع البيانات ما يصل إلى 90٪ من وقت علماء البيانات. لكن تم تحسين جودة النموذج النهائي.

البيع بالتجزئة أونلاين

عندما تم تدريب النموذج ، والذي يحول الوصفة إلى قائمة تسوق بناء على 2 مليون مثال ، أظهر النموذج بشكل متوقع جودة 97٪.على نطاق واسع ، عمل النموذج بشكل مثالي ، ولكن في حالة بائع تجزئة معين ، مع منتجات غير نمطية ، انخفضت الجودة بشكل كبير إلى 70٪ غير مقبولة.لحل هذه المشكلة ، ركز فريق التعليقات التوضيحية على ضمان عدم فقد البيانات الجديدة على خلفية مجموعة البيانات المستنفدة.كان يكفي أن يتدرب النموذج على بضعة آلاف من الأمثلة ، وزادت الجودة مرة أخرى إلى 97٪.

يساعد الذكاء الاصطناعي في البيع بالتجزئة ، وليس فقط عن طريق اختيار المنتجات المفضلة

إنتاج الناقل

حققت الشركة التي استخدمت الذكاء الاصطناعي للكشف عن العيوب في الأجزاء الموجودة على الحزام الناقل دقة 90٪ للنموذج بعد العمل في البداية مع البيانات.لكن هذه المؤشرات لم تصل إلى متطلبات العميل.

في محاولة لتحسين أداء النموذج ، قام مهندسو ML"صقل" عمل الخوارزميات دون العمل مع البيانات ، مما أدى إلى تحسين النتيجة بنسبة 0.4٪ فقط. بعد إعادة تحليل البيانات وتنظيف مجموعة البيانات من الأمثلة سيئة التسمية وإعادة تصنيف البيانات التي تم جمعها حديثًا ، زادت النتيجة بنسبة 8٪.

نظام التوصية

وصفة نظام التوصية بالتطبيقأظهر باستمرار نسبة نقر إلى ظهور منخفضة تبلغ 5٪. لم يساعد العمل مع الخوارزميات ، وأشار تحليل البيانات إلى أن العملاء الذين تم استخدام بياناتهم لتدريب النموذج كانوا في الغالب من النباتيين ، وأن عموم المستخدمين كانوا يأكلون اللحوم في الغالب. كان النظام الموجه نحو النباتيين ضعيفًا في جذب اهتمامات الآخرين وكان متأثرًا بشدة بتفضيلات المستخدمين النباتيين. تحسين موازنة بيانات التدريب التحويلات بنسبة تصل إلى 11٪.

في الماضي ، ركز مجال الذكاء الاصطناعي بشكل أساسي على البيانات الضخمة ، مع إجراء التدريب على مجموعة بيانات شاملة.بينما لا يزال هناك تقدم في إنشاء مثل هذه النماذج ، يتحول التركيز تدريجيا إلى البيانات الصغيرة والعمل معها.هذا يوسع عتبة الدخول في مجال الذكاء الاصطناعي - حتى الآن يمكن إنشاء حلول معقدة حتى مع كمية صغيرة من البيانات.

قراءة المزيد:

أثبت وجود ثقب أسود في المجرة أن أينشتاين كان على حق. الشيء الرئيسي

الفضاء يدمر العظام ويغير هيكلها: لا يعرف العلماء كيف سيطير الناس إلى المريخ

وجد علماء الفلك كواكب مختلفة عن الأرض ، لكنها مناسبة للحياة

المهوس التكنولوجيا على الانترنت

كل شيء عن التكنولوجيا والأدوات

تصفية المحتوى وتشخيصه: كيف يتم تعليم الذكاء الاصطناعي للقيام بمهام معقدة بدون بيانات

ليست هناك حاجة إلى مجموعات بيانات ضخمة

كل شيء يبدأ بالبيانات

من النظرية إلى التطبيق