סינון ואבחון תוכן: איך מלמדים AI לבצע משימות מורכבות ללא נתונים

אין צורך במערכי נתונים ענקיים

ההיסטוריה של למידת מכונה החלה בשחר המאה ה-20. בזמן הזה הדגמים עברו

דרך מאלגוריתמים פשוטים שיכוליםלסנן מיילים ולזהות תוכנות זדוניות, לכריית נתונים שיכולה לחזות את התקדמות המחלה בחולים ולנצח שחקני שחמט ברמה עולמית.

לא משנה מה מטרת המודל, מטרתו— חזה את התוצאה מנתוני הקלט. ככל שהמערך מגוון יותר (סט הנתונים ש"מזינים" את המודלים), כך קל יותר לאלגוריתם למצוא דפוסים, ולכן, תוצאת הפלט מדויקת יותר.

המודל זקוק לשני מרכיבים עיקריים כדי לעבוד:נתונים ואלגוריתם. נתונים פירושם מידע שכבר מסומן, כאשר לכל דוגמה של נתוני קלט (לדוגמה, תמונות של רחוב עם הולכי רגל) מוקצית התוצאה הצפויה של הרשת העצבית (קווי המתאר של דמויות הולכי הרגל שהרשת העצבית צריכה להדגיש).

עולם למידת המכונה נשלט כיום על ידיגישה ממוקדת מודל, וזו הסיבה שמהנדסי ML מבלים זמן רב באלגוריתמים - המרכיב החשוב השני בביצועי המודל. המהירות והדיוק של העבודה תלויים בבחירת האלגוריתם. אבל, למרות העובדה שגישה זו פשוטה ומעניינת יותר עבור מהנדסים, אל תשכח את העיקרון הפשוט של זבל פנימה, זבל החוצה. אם הנתונים שנאספו אינם מייצגים, שום כמות של טריקים אלגוריתמיים לא תעזור לשפר את איכות המודל. לכן, המיקוד של המהנדסים עובר בהדרגה לנתונים. 

מהנדסי ML מסתכלים יותר ויותר הצידהAI ממוקד נתונים, שהרעיון שלו הוא לאסוף פחות נתונים, אבל באיכות טובה יותר. זה יעיל יותר: פיתוח אלגוריתמים משפר את ביצועי המודל ב-0-10%, ועבודה עם איכות הנתונים - ב-10-30%.

הכל מתחיל בנתונים 

בעולם אידיאלי, חברה שמשתמשתטכנולוגיית למידת מכונה מכבדת את תרבות איסוף הנתונים. אבל איסוף נתונים הוא רק ההתחלה. לאחר מכן מגיע תהליך הסימון שגוזל זמן רב ויקר. בעקבות הרעיון של AI מונחה נתונים, מהנדסי ML יכולים להשיג ביצועי מודל גבוהים בהרבה בהשוואה לתיוג נתונים "בזול ככל האפשר". להלן העקרונות העיקריים של גישה זו:

הנחיות סימון איכותיות

אתה עלול לחשוב:מדוע לנסח כל נקודה בתהליך של הגדרה ופתרון בעיה כאשר ניתן לנסח אותה במשפט אחד. נניח שאנחנו מדברים על סימון נתונים עבור הטייס האוטומטי, זה עשוי להישמע כך: "בחר את כל הולכי הרגל בתמונות." אבל כותבים יתקלו במהירות במקרים מעורפלים - האם לייחד רוכב אופניים, אדם על קטנוע או נוסע בגוף פתוח כהולך רגל? כל עורך יבוא עם תשובה בעצמו, אבל היא תהיה שונה ותחריב את ההומוגניות של הנתונים. לכן, יש צורך להזין את כל הדוגמאות המורכבות למסד נתונים, שאליו יכולים לפנות כותבים במקרה של קשיים. אבל כדי שמסמך כזה יופיע, אתה צריך משוב ממגיבים.

משוב

מסד נתונים לא יכול להופיע משום מקום.זה מצריך שני תנאים: תרבות של כבוד למשוב של כותבים ועובדים האחראים לעדכן מסד נתונים זה. ככלל, זהו הסמנים המנוסים ביותר או מדען נתונים בעצמו. 

משאבים צריכים להיות מחוברים עם יצירת הליבה של הצוות, שמרגיש את כל האחריות והחשיבות של התהליך, ועוזר למצטרפים חדשים להיות מעורבים בו.

מסד נתונים לא יכול להופיע משום מקום

אימות צולב

החברה מעסיקה לעתים קרובות יותר מאחדמחבר בעל רמות מיומנות שונות. לכן, ניתן לתייג את אותו מערך נתונים בדרכים שונות. אז את תוצאות העבודה יש לבדוק מעת לעת. זה ייתן הבנה היכן נתקלים מומחים בקשיים שיש להזין למסד הנתונים - זה יפחית את גורם הטעות האנושית.

העברת נתונים דרך מדען נתונים

לפני שמספקים למגיבים את הנתונים לסימון, כדאי לבקש ממדען הנתונים לצלול לתוך הנתונים ולסמן את מאות הדוגמאות הראשונות. זה יאפשר לך להבין כיצד הבעיה ניתנת לפתרון עבור המודל.

למרות שחלוקת העבודה אטרקטיבית מהנקודה הלבנהמבחינת עלות העבודה, אין לצפות לאותה רמה של עבודה עם נתונים ממגיבים כמו מדעני נתונים – סמנים לא יכולים ולא צריכים לזהות בעיות למידת מכונה.

אם אתה צריך לעבוד עם ספציפינתונים, אתה צריך ידע בתעשייה. לדוגמה, אם האלגוריתם חייב לזהות תמונות רנטגן עם גידול, ניתן לאמן את המודל בצורה נכונה רק אם מומחים חיים בטוחים שיש ניאופלזמות בכל שבר מסומן, והתמונה פגומה.

דוגמאות ל"גבול" חשובות

העיקרון העיקרי של סימון ידני הוא שהוא חייבלהיות אינטליגנטי. במהלך תהליך האימון, הרשת העצבית יכולה לנחש באילו דוגמאות במערך האימונים היא צפויה "למעוד". עדיף למסור אותם לסימון ידני, זה ישפר את איכות עבודת הדגם יותר ממיליוני דוגמאות מסומנות, הכשרה שבהן הדגם לא יטעה.

הגדלה או סינתטי נתונים

אם יש מעט נתונים או סימון נתונים שנאספויקר מדי - אתה יכול להפיץ אותם. לדוגמה, אם הנתונים הם טקסטואליים, ניתן לנסח מחדש את אותן שיחות משתמש. אם אלו תמונות, ניתן לשנות את הבהירות, לחתוך ולהפוך חלק מהתמונות.

בגידול בכמות הנתונים, יש עוד אחדהגישה היא לסנתז אותם. אבל נתונים כאלה לא תמיד יכולים להחליף נתונים אמיתיים, במיוחד אם הרשת העצבית מייצרת אותו סוג או נתונים אידיאלים. במקרה זה, אתה יכול להשתמש בנתונים סינתטיים רק בשלבים מסוימים של המודל.

מהתיאוריה לפרקטיקה

רשתות חברתיות

כדי להגן על המשתמשים ולהגן עליהם מפנישלילי, הרשתות החברתיות הגדולות משלבות גלאי תוכן רעיל המבוסס על למידת מכונה. בתהליך העבודה, הבעיה העיקרית היא לא בחירת מודל, אלא איסוף וניתוח נתונים. הבעיה היא שיש פחות תוכן רעיל מתוכן רגיל, ולכן הצוות צריך לאסוף בסיס נתונים של תוכן כזה בפלטפורמה, מה שלא ניתן לעשות בלי אלגוריתם. לכן, איסוף הנתונים לוקח עד 90% מהזמן של מדעני נתונים. אבל איכות הדגם הסופי משופרת.

קמעונאות מקוונת

כשמאמנים דוגמנית שהופכת את המתכוןלרשימת קניות המבוססת על 2 מיליון דוגמאות המודל הראה כצפוי איכות של 97%. בקנה מידה, הדגם עבד מצוין, אבל במקרה של קמעונאי ספציפי, עם מוצרים לא טיפוסיים, האיכות ירדה בחדות ל-70% בלתי מקובל. כדי לפתור בעיה זו, צוות ההערות התמקד בלהבטיח כי נתונים חדשים לא יאבדו ברקע של מערך הנתונים הבוגר. זה היה מספיק כדי לאמן את המודל על כמה אלפי דוגמאות והאיכות שוב עלתה ל-97%.

AI עוזר בקמעונאות, ולא רק על ידי בחירת מוצרים מועדפים

ייצור מסועים

חברה שהשתמשה בבינה מלאכותיתכדי לזהות פגמים בחלקים על מסוע, השיג 90% דיוק של הדגם לאחר עבודה ראשונית עם הנתונים. אבל אינדיקטורים כאלה לא עמדו בדרישות הלקוח. 

בניסיון לשפר את ביצועי המודל, מהנדסי ML"ליטשנו" את עבודת האלגוריתמים מבלי לעבוד עם הנתונים, מה ששיפר את התוצאה ב-0.4% בלבד. לאחר ניתוח מחדש של הנתונים, ניקוי מערך הנתונים מדוגמאות שסומנו בצורה גרועה וסימון מחדש של הנתונים החדשים שנאספו, התוצאה עלתה ב-8%.

מערכת ממליצים

מערכת המלצות לאפליקציה מתכוניםהראה באופן עקבי שיעור קליקים נמוך של 5%. עבודה עם אלגוריתמים לא עזרה, וניתוח הנתונים הצביע על כך שהלקוחות שהנתונים שלהם שימשו להכשרת המודל היו בעיקר צמחונים, ואוכלוסיית המשתמשים הכללית אכלה בעיקר בשר. מערכת המיועדת לצמחונים לא הייתה טובה בלכידת האינטרסים של אחרים והושפעה מאוד מהעדפותיהם של משתמשים צמחוניים. איזון נתוני אימון שיפר את ההמרות בעד 11%.

בעבר, תחום הבינה המלאכותית בהתמקד בעיקר בביג דאטה - ההדרכה בוצעה על מערך נתונים נרחב. למרות שעדיין יש התקדמות ביצירת מודלים כאלה, ההתמקדות עוברת בהדרגה לנתונים קטנים ולעבודה איתם. זה מרחיב את סף הכניסה לתחום הבינה המלאכותית - כבר ניתן ליצור פתרונות מורכבים גם עם כמות קטנה של נתונים.

קרא עוד:

חור שחור בגלקסיה הוכיח שאיינשטיין צדק. הדבר העיקרי

החלל הורס עצמות ומשנה את המבנה שלהן: מדענים לא יודעים איך אנשים יטוסו למאדים

אסטרונומים מצאו כוכבי לכת שונים מכדור הארץ, אך מתאימים לחיים

Geek Tech Online

הכל על טכנולוגיה וגאדג'טים

סינון ואבחון תוכן: כיצד מלמדים AI לבצע משימות מורכבות ללא נתונים

אין צורך במערכי נתונים ענקיים

הכל מתחיל בנתונים

מהתיאוריה לפרקטיקה

אין צורך במערכי נתונים ענקיים

הכל מתחיל בנתונים&nbsp;

מהתיאוריה לפרקטיקה

הכל מתחיל בנתונים