מקצוע "מדען נתונים" הוא מקצוע חדש, נחשק ונחשב. הוא תולדה של אינסוף המידע שהאנושות מייצרת ומאפשר לארגונים וגופי מחקר להפיק תובנות חדשות ונסתרות מתוך הררי נתונים ולשפר תהליכים וביצועים עסקיים. אך מהו התפקיד האמיתי של מדעני הנתונים? מה הופך מדען נתונים טוב למדען נתונים מצוין?
תוכן עניינים
האזנה לפודקאסט עם פרופסור רון קנת, על "התפקיד האמיתי של מדעני הנתונים"
האזנה לפודקאסט
מקצוע נחשב
מה עושה מדען נתונים?
שכר נחשק
האתגרים האמיתיים של מדעני נתונים
זהירות! דאטה!
אסור לסמוך על הדאטה עד שיוכח אחרת (“the data is not to be trusted until proven otherwise). מקורות המידע המשמשים את מדעני הנתונים יכולים להיות מקורות פנימיים ומקורות חיצוניים (שאינם בשליטת הארגון). גם המקורות הפנימיים שכביכול בשליטת הארגון סובלים מבעיות שונות. חלק מהבעיות נובעות מסילו של אינפורמציה (information silo) שגורם למידע אודות אותם נושאים (למשל נתוני לקוחות) להיות מאופיין אחרת ולהכיל נתונים שונים, מידע כפול, מידע שאינו תקני, מידע שלא עבר אימות וכדומה.
פודקאסט עם אילן אלתר, על אתגרי דאטה בערים חכמות
האזנה לפודקאסט
דוגמה פשוטה לבעיית איכות בנתונים התפעוליים הבסיסיים, שמדען נתונים ישקיע בה זמן רב ולא יפתור את כל הבעיות: נניח שכחלק ממודל LTV מדען נתונים צריך ליצור אגרגציה של הלקוחות לפי ישוב. הצרה היא ששמות הלקוחות אינם רשומים בצורה אחידה, בנתוני הלקוחות יש כפילות והמידע אודות אותם לקוחות מפוזר על פני רשומות שונות. כמו כן, שמות הישובים והרחובות בקובץ הלקוחות אינו מלא (הארגון החליט בשלב מסוים כי הוא ארגון דיגיטלי ולכן פסק מלנהל את הכתובות של הלקוחות. בשלב מסוים הבינו בארגון שזו טעות לא לדעת את הכתובת של הלקוחות וחזרו לאסוף מהם נתוני כתובת). בנוסף שמות הישובים והרחובות אינם אחידים. בעיות איכות נתונים נוספות שמפחדים מהן הן בעיות בנתונים המשמשים מודלי אימון בפרויקטי AI/ML.
מדען נתונים יעבוד קשה מאוד כדי לטפל בבעיות איכות נתונים ולהכין את הדאטה שהוא מקבל או אוסף לצורכי אנליזה. כאמור הוא (או היא) ישקיעו בנושא כ-80% מהזמן שלהם. הוא יבצע תהליכי טיוב נתונים באמצעות הכלים שעומדים לרשותו כדי לנקות, לפרק, לבצע סטנדרטיזציה וכדומה. התסכול הגדול הוא שברגע שמדען הנתונים יסיים עם הכנת הנתונים, המידע שתוקן לא חוזר בד”כ למערכות התפעוליות. יתרה מכן, מידע שגוי נוסף ימשיך לזהם את מערכות המידע. זו גם הסיבה שעל מנת לטפל בבעיות איכות, עדיף לזהות את המקור שלהן ולטפל בהן במקור.
לאיכות הדאטה יש גם משמעויות תפעוליות. בעיות איכות נתונים אחראיות לפי הערכות שונות לסדר גודל של 20% מהעלויות התפעוליות של ארגונים ובארה”ב לבדה עולה מעל 3 טריליון דולר בשנה (ד”ר תום רדמן 2016).
מדעני נתונים אולי לא יכולים להשפיע על איכות הנתונים של הארגון, אך הם בהחלט נדרשים להציף את הנושא, חשיבותו ומשמעותו לקברניטי הארגון ולא רק בהיבטים של ניתוח הנתונים, אלא גם בהיבטים התפעוליים השונים ולהמליץ לבצע טיפול בבעיות איכות הנתונים של הארגון. זה המהלך הנכון כלכלית לטווח הארוך. זה לא פרויקט אלא תהליך חוזר ונשנה שכדאי לעשות אותו עם מומחים לאיכות נתונים.
העתיד הרחוק של מקצוע מדענות הנתונים?
כמו כל מקצוע טכנולוגי, מדען נתונים צריך להיות מעודכן בטכנולוגיות העסקיות, ללמוד תחומים נוספים, להכיר את הארגון ולהיות מוביל עסקי. אולי בעתיד הרחוק ה- AI יחליף את מדען הנתונים, אך ככל שניתן לנבא, בעתיד הנראה לעין יהיה צורך הולך וגובר במדעני נתונים מעולים. נכון לעכשיו, הצד החלש של ה- AI הוא יצירתיות, יכולת לקבל החלטות אתיות, או לחשוב כמו בנאדם.
לקריאה נוספת
עתיד המקצועות באתר פורום הכלכלה העולמי
סקר קהילת מדעני נתונים הישראלית: MDLI 2019 – הדו”ח המלא
סקר Kaggle 2018 (סקר 2019 נמצא בהכנה)
כתבה בגלובס על הערכות האוניברסיטאות
דף הספר באמזון: The Real Work of Data Science
אודות פרופסור רון קנת:
יו”ר קבוצת KPA העוסקת בהפקת אינפורמציה איכותית ותובנות בעזרת אנליטיקה ועמית מחקר בכיר במוסד נאמן בטכניון.
חיבר 14 ספרים ומעל 250 מאמרים בנושאי סטטיסטיקה יישומית, ניהול איכות, ניהול סיכונים, סקרי שביעות רצון, ניסויי מחשב ובקרת תהליכים סטטיסטית.
הספר האחרון שכתב the real work of data science עוסק בעבודת השטח במדעי הנתונים וזכה לביקורות נלהבות של סר דוד קוקס מאוקספורד, טום דבנפורט מהרוורד ו-וניל לורנס מאמזון. נשיא לשעבר של האיגוד הישראלי לסטטיסטיקה ושל ENBIS האיגוד האירופאי ליישומי סטטיסטיקה בתעשייה ועסקים.
זכה ב- 2018 במדליית בוקס וב- 2013, במדליית גרינפילד על תרומה ייחודית לסטטיסטיקה יישומית.
בעל תואר ראשון מאימפריאל קולג’ בלונדון ותואר שלישי במתמטיקה ממכון ויצמן ברחובות.
שיתוף
Sella Yoffe
Email Deliverability & Email Marketing Expert
working with global email senders, startups, and ESPs to improve their deliverability and email authentication
Podcast host & Blogger @ CRM.BUZZ & EmailGeeks.Show