מיהו הרוצח השקט של פרויקטים של AI/ML?
כדי שפרויקטים כאלה יתרוממו, צריך להעביר דרך מודולי החיזוי דאטה לצורך אימון המודלים (Training Data).
הדאטה הזו צריכה לעמוד בסטנדרטים גבוהים של איכות נתונים: הדאטה צריכה להיות נכונה, מדוייקת, מתויגת (labeled) בדיוק רב, מתוקננת ואחודה, נקייה מכפילויות (de-deduped) וכך הלאה. אך הקריטריונים (הדאטה) לאימון המודלים מגיעים בד"כ ממקורות שונים, הצריכים להיות נקיים בכל המקורות המזינים את המודל וללא הטייה (unbiased).
הטיפול בבעיות איכות הנתונים אינו פעולה חד-פעמית אלא תהליך שצריך לבצע באופן שוטף, כשהדרך הנכונה היא לטפל בבעיות איכות נתונים נרחבות יותר של הארגון ולטפל בשורש הבעיה ובמקורות הנתונים.
לעיתים הקושי הוא בהבנת הגורם האנושי והמשתנים המסבירים שהובילו לקבלת החלטות בעבר על ידי אנשים ועל פיהן נבנה המודל.
על מנת להתמודד על בעיות איכות הנתונים מדעני הנתונים, משקיעים 80%-70% מזמנם בטיפול בבעיות איכות נתונים ולא במדענות נתונים. ניצול מחפיר של זמנם המאוד יקר וגם מוביל לתסכול רב בקרב רבים ממדעני הנתונים ולאחת הסיבות לעזיבת המקצוע.
כשפרויקטים בתחום ה- AI מקבלים חשיבות בתוך ארגונים, מופעל לחץ רב על צוותי מדעני נתונים לספק תוצאות, אך לעיתים קרובות הם מבינים מאוחר מידי שהמשימה הקשורה בהפקת נתונים איכותיים ומדויקים למודל הרבה יותר מורכבת מידי עבורם. וכתוצאה מכך לא מצליחים להתקדם עם הפרויקטים משלב הפיילוט לשלב הפרודקשן, כאמור תוך שחיקת התקציב שהוקדש לנושא.
מה הוא קופץ? *
בשלהי 2019, כשהאמרה היא ש"דאטה הוא הנפט החדש", ההנהלות בארגונים אינן מודעות לעומק הבור שבעיות באיכות הנתונים יוצרות עבורן במונחים כספיים שניתן למדוד בעלויות תפעוליות גבוהות, אבדן לקוחות, בעיות בשרשרת היצור ושרשרת האספקה ועוד ועוד.
ב- 50% מארגוני הענק (במונחים גלובליים) קיימת אסטרטגיית AI כלשהי ובאחרים היא פשוט לא קיימת. מדעני נתונים בתוך הארגון ברוב המקרים אינם מנוסים מספיק או שאין להם את היכולת בפנים הארגון לקבל מספיק נתונים איכותיים על מנת ליישם מודלים של למידת מכונה. משמעות הדבר היא כי הפרויקטים לא מגיעים בכלל לשלב הפרודקשן.
ארגונים אינם מטפלים גם בבעיות איכות נתונים בסיסיות ביותר – דבר שניתן לראות כמעט בכל תכנון או הטמעת מערכת מידע ארגונית – כך שהציפייה של ארגונים לבצע קפיצה לפרויקטים בתחום ה- AI וה-ML עם דאטה מזובלת (GIGO – Garbage in, garbage out) הוא כישלון ידוע מראש.
ארגונים חושבים שהדאטה שלהם טובה והם יכולים לבצע שינויים קטנים על מנת לצאת לדרך עם פרויקט AI או ML והאמת היא שבעיות בדאטה שלהם, הן שורשיות והרבה יותר עמוקות.
התעלמות מהדאטה ובעיקר מאיכותה של הדאטה היא רעה חולה שניתן לראות כמעט בכל הטמעה של מערכת מידע ארגונית.
בעיות נתונים גורמות לארגונים לשרוף במהירות את התקציב המוקדש לפרויקטים בתחום ה-AI ו-ML ולהיתקע בשל כך. זאת לפי מחקר אחר שנערך בין 227 נשאלים המעורבים כיום בפרויקטים בתחום AI ו- ML, ביניהם מדעני נתונים ומובילי העניין בצד העסקי בארגונים, הבוחנים את הבשלות של פרויקטים אלה בארגונים.
כדאי לוודא שהדאטה הקיימת מתאימה למשימה שהמודל אמור לפתור. בשלב האימון (training) כדאי לתכנן 4 חודשי אדם לטיפול באיכות הדאטה על כל חודש של פיתוח המודל.