כ- 2/3 מהפרויקטים של AI/ML נכשלים בשל בעיות איכות נתונים

אחד הבאזים הנשמעים יותר ויותר בתקופה האחרונה הם פרויקטים בתחום ה- AI ו- ML (בינה מלאכותית ולימוד מכונה).
אך מסתבר כי מרבית הפרויקטים בתחום נועדו לכישלון. מהן הסיבות וממה כדאי להיזהר כדי לא ליפול לסטטיסטיקה?

האזנה

למידת מכונה כמו בת יענה

לפי סקר שערכה חברת המחקר IDC ב- 2019 יושקעו בפרויקטים של בינה מלאכותית (AI=Artificial Intelligence) 35.8 מיליארד דולר ברחבי העולם ו-84% מהארגונים מאמינים כי השקעה ב- AI תוביל אצלם ליתרון תחרותי.

אולם, הבטחה לחוד ומציאות לחוד: לפי גרטנר 85% מהפרויקטים בתחום ה- AI וה- ML (ML=Machine Learning) אינם “מספקים את הסחורה“, ולפי הערכה זהירה (כלפי מטה) 60% נכשלים ולא יעברו את שלב הפיילוט.

הפיאסקו גדול עד כדי כך, שיש המגדירים את המימוש של AI ו- ML כעוד בועה ויש שאומרים ספק בבדיחות הדעת, כי הדבר הגדול הבא בתחום ה- AI הוא איך לתרץ את כישלונות הפרויקטים הללו…

חלק מהסיבות לכישלון, הן כאלה שניתן למצוא בכל פרויקט IT: בעיות תפעוליות, בעיות ניהוליות, בעיות טכנולוגיות, חריגות מהתקציב וכדומה.

אך הבעיה העיקרית והרוצח השקט של פרויקטים בעולמות ה- AI/ML היא זו שמתעלמים ממנה. בעיה שלא חושבים שהיא קיימת, בעיה שלא מודים בקיומה, או שפשוט טומנים את הראש בחול כמו בת יענה ומתעלמים ממנה. כמו בכל דבר, אלה הבעיות המסוכנות ביותר: מהסקר עולה כי ב- 8 מתוך 10 ארגונים בקירוב המעורבים בפרויקטים של בינה מלאכותית (AI) ולמידת מכונה מדווחים על עצירת הפרויקטים בשל בעיות איכות נתונים ותיוג מידע (data labeling) הנדרשים על מנת לאמן את המנגנונים וליצור מודל שאפשר לסמוך עליו.

מיהו הרוצח השקט של פרויקטים של AI/ML?

כדי שפרויקטים כאלה יתרוממו, צריך להעביר דרך מודולי החיזוי דאטה לצורך אימון המודלים (Training Data).

הדאטה הזו צריכה לעמוד בסטנדרטים גבוהים של איכות נתונים: הדאטה צריכה להיות נכונה, מדוייקת, מתויגת (labeled) בדיוק רב, מתוקננת ואחודה, נקייה מכפילויות (de-deduped) וכך הלאה. אך הקריטריונים (הדאטה) לאימון המודלים מגיעים בד”כ ממקורות שונים, הצריכים להיות נקיים בכל המקורות המזינים את המודל וללא הטייה (unbiased).

הטיפול בבעיות איכות הנתונים אינו פעולה חד-פעמית אלא תהליך שצריך לבצע באופן שוטף, כשהדרך הנכונה היא לטפל בבעיות איכות נתונים נרחבות יותר של הארגון ולטפל בשורש הבעיה ובמקורות הנתונים.

לעיתים הקושי הוא בהבנת הגורם האנושי והמשתנים המסבירים שהובילו לקבלת החלטות בעבר על ידי אנשים ועל פיהן נבנה המודל.

על מנת להתמודד על בעיות איכות הנתונים מדעני הנתונים, משקיעים 80%-70% מזמנם בטיפול בבעיות איכות נתונים ולא במדענות נתונים. ניצול מחפיר של זמנם המאוד יקר וגם מוביל לתסכול רב בקרב רבים ממדעני הנתונים ולאחת הסיבות לעזיבת המקצוע.

כשפרויקטים בתחום ה- AI מקבלים חשיבות בתוך ארגונים, מופעל לחץ רב על צוותי מדעני נתונים לספק תוצאות, אך לעיתים קרובות הם מבינים מאוחר מידי שהמשימה הקשורה בהפקת נתונים איכותיים ומדויקים למודל הרבה יותר מורכבת מידי עבורם. וכתוצאה מכך לא מצליחים להתקדם עם הפרויקטים משלב הפיילוט לשלב הפרודקשן, כאמור תוך שחיקת התקציב שהוקדש לנושא.

מה הוא קופץ? *

בשלהי 2019, כשהאמרה היא ש”דאטה הוא הנפט החדש“, ההנהלות בארגונים אינן מודעות לעומק הבור שבעיות באיכות הנתונים יוצרות עבורן במונחים כספיים שניתן למדוד בעלויות תפעוליות גבוהות, אבדן לקוחות, בעיות בשרשרת היצור ושרשרת האספקה ועוד ועוד.

ב- 50% מארגוני הענק (במונחים גלובליים) קיימת אסטרטגיית AI כלשהי ובאחרים היא פשוט לא קיימת. מדעני נתונים בתוך הארגון ברוב המקרים אינם מנוסים מספיק או שאין להם את היכולת בפנים הארגון לקבל מספיק נתונים איכותיים על מנת ליישם מודלים של למידת מכונה. משמעות הדבר היא כי הפרויקטים לא מגיעים בכלל לשלב הפרודקשן.

ארגונים אינם מטפלים גם בבעיות איכות נתונים בסיסיות ביותר – דבר שניתן לראות כמעט בכל תכנון או הטמעת מערכת מידע ארגונית – כך שהציפייה של ארגונים לבצע קפיצה לפרויקטים בתחום ה- AI וה-ML עם דאטה מזובלת (GIGO – Garbage in, garbage out) הוא כישלון ידוע מראש.

ארגונים חושבים שהדאטה שלהם טובה והם יכולים לבצע שינויים קטנים על מנת לצאת לדרך עם פרויקט AI או ML והאמת היא שבעיות בדאטה שלהם, הן שורשיות והרבה יותר עמוקות.

התעלמות מהדאטה ובעיקר מאיכותה של הדאטה היא רעה חולה שניתן לראות כמעט בכל הטמעה של מערכת מידע ארגונית.

בעיות נתונים גורמות לארגונים לשרוף במהירות את התקציב המוקדש לפרויקטים בתחום ה-AI ו-ML ולהיתקע בשל כך. זאת לפי מחקר אחר שנערך בין 227 נשאלים המעורבים כיום בפרויקטים בתחום AI ו- ML, ביניהם מדעני נתונים ומובילי העניין בצד העסקי בארגונים, הבוחנים את הבשלות של פרויקטים אלה בארגונים.

כדאי לוודא שהדאטה הקיימת מתאימה למשימה שהמודל אמור לפתור. בשלב האימון (training) כדאי לתכנן 4 חודשי אדם לטיפול באיכות הדאטה על כל חודש של פיתוח המודל.

פודקאסט מעניין של סת גודין בנושא

דוגמא ללימוד מכונה שדווקא הצליח

מתוך techrepublic.com

לקריאה נוספת:

דברים נוספים שכדאי לבצע.

מאמר בחמישה חלקים על סיבות לכישלון פרויקטים של AI/ML

מערכון חידון התנ”ך (מה הוא קופץ?)

שיתוף

Sella Yoffe

CEO , DATAMEDIA

Email Deliverability & Email Marketing Expert

Helping global email senders, startups, digital agencies, and ESPs with email deliverability, email authentication (SPF, DKIM, DMARC, BIMI), and email & content strategy

Podcast creator & Blogger @ CRM.BUZZ & EmailGeeks.Show

כ- 2/3 מהפרויקטים של AI/ML נכשלים בשל בעיות איכות נתונים

תוכן עניינים

האזנה

למידת מכונה כמו בת יענה

מיהו הרוצח השקט של פרויקטים של AI/ML?

מה הוא קופץ? *

פודקאסט מעניין של סת גודין בנושא

דוגמא ללימוד מכונה שדווקא הצליח

שיתוף

Sella Yoffe

אישור קבלת דיוור בהתאם לתנאי השימוש ומדיניות הפרטיות

תוכן עניינים

האזנה

למידת מכונה כמו בת יענה

מיהו הרוצח השקט של פרויקטים של AI/ML?

מה הוא קופץ? *

פודקאסט מעניין של סת גודין בנושא

דוגמא ללימוד מכונה שדווקא הצליח

שיתוף

Sella Yoffe

מאמרים קשורים

אישור קבלת דיוור בהתאם לתנאי השימוש ומדיניות הפרטיות