המדריך למתייג המתחיל (והסובל)
טל מזרחי ודין לנגסם חושפים את הצד האפל של Data Ops — שם שבו Bounding Box "נכון טכנית" יכול להרוס מודל שלם. כי לא כל מה שנראה מסומן, באמת מובן.
ברוכים הבאים לאחורי הקלעים של עולם ה-Data Operations — המקום שבו הגלמוריות של ה-AI נגמרת ומתחילה העבודה האמיתית. טל מזרחי ודין לנגסם לוקחים אותנו למסע בתוך עולם התיוגים, ה-bounding boxes וההיררכיות העקומות שאיש לא מדבר עליהן בכנסים.
זה לא עוד סיפור על מודלים נוצצים. זה הסיפור על הדאטה שמאחוריהם — וכמה קל לבנות משהו שנראה נכון לחלוטין, אבל רחוק מאוד מהמציאות.
מה באמת קורה כשמתייגים דאטה
Bounding Boxes מול Polygons
המלבן הוא הפתרון הפשוט — אבל החיים לא מגיעים בצורת מלבן. טל ודין מסבירים למה הבחירה בין Bounding Box ל-Polygon היא לא רק שאלה טכנית, אלא שאלה של מה המודל בסוף ילמד לראות. אנוטציה שנראית מדויקת על המסך יכולה לגרום למודל להתנהג בצורה שאי אפשר לנחש — ישירות מהשדה.
פוליטיקת התיוגים
מה ההבדל בין מתייג שמבין את הקונטקסט לבין מתייג שרק ממלא תיבות? הכל. הפרק חושף איך אותה הנחיית תיוג מתפרשת בצורות שונות לחלוטין על ידי אנשים שונים — ולמה זה לא בעיה של כישורים, אלא של הבנת העולם שמסביב לדאטה.
השקר של ה-Metadata
ה-Gems וה-Mascots של חברות הטכנולוגיה הגדולות לעתים קרובות מסתירים בלגן שלא מוצג בשקפים. Metadata שנראה מסודר ומובנה יכול להיות עטיפה יפה לכאוס פנימי — וכשהמודל נפרס לפרודקשן, הבלגן הזה צץ בצורות שקשה לנפות.
צ’יוואווה או מאפין
הפסקה הקלאסית שמוכיחה שגם המוח האנושי זקוק לפעמים ל-Hotfix דחוף. המשחק שמפגיש בין ראיית מחשב לבין הטיות קוגניטיביות — וחושף כמה קל לבנות מערכת שמסווגת נכון בתנאי מעבדה, אבל מתפרקת במגע עם תמונות מהשטח.
”נכון טכנית, אבל…”
זה האתגר האמיתי: ללמוד לזהות את הפער בין אנוטציה שעוברת ולידציה אוטומטית לבין אנוטציה שמשקפת את המציאות. איך מתמודדים עם הדילמה הזו בתוך מערכות לוגיסטיקה, פינטק ו-Computer Vision — ומה קורה כשהלקוח מקבל מוצר “נכון טכנית” שלא עובד לו בשטח.
מתאים למי שעובד עם דאטה, בונה מודלי ML, או אחראי על תהליכי תיוג ואנוטציות — ולמי שפגש כבר את המשפט “זה נכון טכנית” ולא ידע מה לעשות איתו.