התפקיד האמיתי של מדעני נתונים |

התפקיד האמיתי של מדעני נתונים

מקצוע "מדען נתונים" הוא מקצוע חדש, נחשק ונחשב. הוא תולדה של אינסוף המידע שהאנושות מייצרת ומאפשר לארגונים וגופי מחקר להפיק תובנות חדשות ונסתרות מתוך הררי נתונים ולשפר תהליכים וביצועים עסקיים. אך מהו התפקיד האמיתי של מדעני הנתונים? מה הופך מדען נתונים טוב למדען נתונים מצוין?

תוכן עניינים

האזנה לפודקאסט עם פרופסור רון קנת, על "התפקיד האמיתי של מדעני הנתונים"

האנושות מייצרת כמויות אדירות של מידע. חלק מהמידע הזה מיוצר על ידי כולנו, במהלך השוטף של החיים. תמונות שאנו מצלמים, משתפים ומעלים, פוסטים, מאמרים, טקסט, וידאו, סאונד. מידע שאנו מייצרים במהלך שימוש בשירותים שונים הנאסף כטרנזקציות שונות. חלק מהמידע הוא מידע עסקי כגון נתוני לקוחות, קטלוג מוצרים, עצי מוצר, קניות, מלאי, ספקים ועוד.
המידע מיוצר על ידי התקנים שונים, כגון: נתונים ממחשבים ברכב, נתונים ממטוסי נוסעים, ממחשבי השקיה, ממערכות בקרה בקו יצור ועוד, האוגרים מידע ומעבירים אותו הלאה, כגון נתוני משקל, גובה, מרחק, טמפרטורה, נפח, מהירות ועוד ועוד.
 
המגמה הזו תלך ותתגבר במהפכה התעשייתית הרביעית (Indusry 4.0) וב"ערים החכמות" (smart cities) כשאינסוף התקנים יהיו מחוברים לרשתות תקשורת מהירות וישדרו כמויות אינסופיות של מידע. מצלמות במרחב הציבורי והפרטי כבר אינן רק מצלמות. הן מחוברות לטכנולוגיות המסוגלות להפיק מידע ביומטרי בזמן אמת ולהבין מה אנחנו עושים, למשל לנטר שימוש בטלפון הסלולרי על ידי נהגים. כל המידע הזה יאוחסן, יקוטלג וישמש כדי לקבל החלטות שונות, להצביע על מגמות, להסביר מה שאירע ולנסות לחזות מגמות לעתיד.

דוגמה מחיי היום יום: בשעון חכם שאנו עונדים יש סנסורים שונים באמצעותם הוא מנטר אותנו ויודע לתת אינפורמציה מגוונת: קצב הלב והאם הוא תקין ביחס לנורמה שלנו ולנתונים פיזיולוגיים שונים. הוא אוסף ומחשב נתונים לגבי מהירות ההליכה או הריצה, קומות שטיפסנו, קלוריות ששרפנו, משך זמן השינה שלנו ואיכותה, נתונים ברומטריים, טמפרטורה, רמת הלחץ שלנו, מיקום ועוד. הוא מקבל נתונים מהמשקל הדיגיטלי לגבי משקל, BMI ונתונים נוספים.
 
מה שהפך את השעון לחכם, הן התובנות שניתן להפיק מאוסף הנתונים שהשעון אוסף, בשילוב נתונים נוספים ממקורות נוספים והניתוח שלהם. מי שגרמו "לקסם הזה" לקרות הם מדעני נתונים שהאלגוריתמים שפיתחו אפשרו בשילוב של חומרה ותוכנה ה"מנגנים" יחד ליצור אחרי שעברו עיבוד וניתוח בענן, נתונים, תובנות והמלצות המוצגות באפליקציית השעון.
podcast Ron Kenett

אודות פרופסור רון קנת: 

יו"ר קבוצת KPA העוסקת בהפקת אינפורמציה איכותית ותובנות בעזרת אנליטיקה ועמית מחקר בכיר במוסד נאמן בטכניון.

חיבר 14 ספרים ומעל 250 מאמרים בנושאי סטטיסטיקה יישומית, ניהול איכות, ניהול סיכונים, סקרי שביעות רצון, ניסויי מחשב ובקרת תהליכים סטטיסטית. 

הספר האחרון שכתב the real work of data science עוסק בעבודת השטח במדעי הנתונים וזכה לביקורות נלהבות של סר דוד קוקס מאוקספורד, טום דבנפורט מהרוורד ו-וניל לורנס מאמזון. נשיא לשעבר של האיגוד הישראלי לסטטיסטיקה ושל ENBIS האיגוד האירופאי ליישומי סטטיסטיקה בתעשייה ועסקים. 

זכה ב- 2018 במדליית בוקס וב- 2013, במדליית גרינפילד על תרומה ייחודית לסטטיסטיקה יישומית.

בעל תואר ראשון מאימפריאל קולג' בלונדון ותואר שלישי במתמטיקה ממכון ויצמן ברחובות.

קטעים מצולמים מתוך הפודקאסט עם פרופ' רון קנת

מקצוע נחשב

המונח דאטה-דריבן נמצא איתנו כבר כמה וכמה שנים ומציין מגמה הולכת וגוברת של ארגונים לנהל אופרציה מבוססת נתונים. ההגדרה, ל"מדען נתונים" היא איש מקצוע המשתמש בכלים מדעיים על מנת לחלץ תובנות מנתונים גולמיים. ארגונים עסקיים, גופים אוניברסיטאיים ומחקריים מתבססים על דאטה.
 
נכון ל-2019 (תלוי כמובן איפה בעולם), יש תכניות לימוד רלוונטיות בשפע ולכן גם קיים היצע של מדעני נתונים. תמיד יהיו חסרים מדעני נתונים מעולים (מעט על כך בהמשך). התחזית של "פורום הכלכלה העולמית" לגבי שוק העבודה ב-2022 היא כי מדעני נתונים יהיו מהמקצועות הנדרשים ביותר (קישור למטה). כמות המשרות נמצאת במגמת עליה ונכון לסוף 2019 חסרים מאות מדעני נתונים בשוק הישראלי. הצורך הגובר במדעני נתונים הוביל את המוסדות להשכלה גבוה, לפתח תכניות לימוד חדשות המותאמות לכישורים הנדרשים ממדעני נתונים: מתמטיקה, סטטיסטיקה ומחשבים וגם מקצועות מעטפת כגון תורת המשחקים, פסיכולוגיה ויכולות חשיבה.
 

מה עושה מדען נתונים?

למרות שימת הדגש החזק על לימודי מתמטיקה, אפשר להיות מדען נתונים מעולה גם בלי להיות מתמטיקאי מעולה. דווקא בארגונים גדולים בהם פועל צוות מדעני נתונים, חשובה יותר היכולת לעבוד בצוות, יכולת שיתוף, יצירתיות, הבנת העסק ו"הגדלת ראש". חלק מהצוות יהיה חזק במתמטיקה ואילו אחרים שאולי פחות חזקים במתמטיקה, דווקא הם אלו ש"יביאו את הפיצוח" כי הם היצירתיים. מדען נתונים צריך להיות מסוגל להבין תהליכים עסקיים ולא רק את הצד המספרי של הנתונים. הוא צריך להיות סקרן ולהיות מסוגל לספר את הסיפור באמצעות הנתונים.
 
בניגוד לעבר, כיום לא חייבים לדעת לקודד ויש אפילו תכניות לימוד אוניברסיטאיות שלא נדרש בהן רקע בתכנות על מנת לקבל תואר Data Scientists. תואר Data Scientists בהחלט יכול להיות מקפצה לתפקיד הנחשק, אך מבלי לצלול לחיים האמיתיים והתנסות של חודשים ואף שנים מעשית מחוץ לכותלי התיאוריה והאקדמיה, קשה מאוד להיות מדען נתונים מצוין. תואר אינו תחליף לניסיון חיים.
 
האם Data Scientist = Business Analyst? מדען נתונים הוא מושג מודרני יותר. למען הפשטות: אנליסט נתונים ידע להגיד מה קרה. מדען נתונים ידע לומר לא רק שתופעה מסוימת קרתה, אלא גם אם היא תחזור על עצמה. מאחר וזה מקצוע חדש מרבית מהעוסקים בו מגיעים ממדעי המחשב, פיזיקה, מתמטיקה, סטטיסטיקה, אך גם מי שלמדו כלכלה וביולוגיה הגיעו לתחום. ניתן ללמוד את התחום גם בקורסים ברשת. חברת YNDEX הרוסית נכנסה לשיתוף פעולה עם אוניברסיטת תל אביב ועם אוניברסיטת בן-גוריון ומציעה קורסים ממוקדים בתחום. כ- 75% מהעוסקים בתחום הם גברים וחלקן של הנשים העוסקות בתחום נמצא בעלייה, בדומה למגמה בעולם.
 

שכר נחשק

בסקר קהילת מדעני נתונים הישראלית נמצא שמדעני נתונים נהנים ממשכורות גבוהות, כאשר בעלי התארים הגבוהים (הדוקטורים) נהנים מתפקידים בכירים יותר וממשכורות גבוהות יותר. בדומה לסקרי שכר בעולם, גם בישראל קיימים פערי שכר ניכרים בין שכר הג'וניורים לשכר הבכירים כשהממוצע ב-2019 עמד על כ- 31,000 ש"ח (קישור לסקר המלא למטה).
 

האתגרים האמיתיים של מדעני נתונים

על מנת להיות מדען נתונים מוצלח, מדען הנתונים צריך לדעת לראות מעבר לנתונים, לצלוח הרבה משוכות ארגוניות, להיות הכי חכם בחדר, להבין מהי הבעיה האמיתית (לעיתים זו בעיה שונה מהבעיה שהוצגה), להתמודד עם פוליטיקה ארגונית ועוד. פירוט נרחב בספר של פרופ' קנת.
 
למרבה האירוניה, מדעני נתונים מבזבזים כ-80% מהזמן שלהם (Wilder-James 2016) בהתמודדות עם בעיות איכות נתונים (Data Quality) וזו גם הבעיה שמדעני הנתונים עצמם מדווחים עליה כמכשול הגדול ביותר. ציטוט מתוך סקר של קהילת מדעני הנתונים הישראלית MDLI שפורסם בספטמבר 2019: "הבעיה העיקרית, עם 60.7%, הייתה דאטה לא טוב (Dirty Data) אשר פוגעת בעבודה הרציפה. מיד אחריה, הבעיה השנייה עם 35.1% מכלל המשיבים, הייתה חוסר גישה לדאטה או הזמינות שלו. כפי שהבנתם, עיקר הבעיות בתחום כיום הן סביב עולמות הדאטה – הן סביב ההשגה שלו והן סביב האיכות שלו.ההדגשה במקור. ראו גרף בהמשך. גם אחרי הטיפול בנתונים לניתוח (שלב שנקרא בד"כ data prep) סיכוי סביר שלא כל הבעיות בדאטה אותרו.
 

זהירות! דאטה!

אסור לסמוך על הדאטה עד שיוכח אחרת ("the data is not to be trusted until proven otherwise). מקורות המידע המשמשים את מדעני הנתונים יכולים להיות מקורות פנימיים ומקורות חיצוניים (שאינם בשליטת הארגון). גם המקורות הפנימיים שכביכול בשליטת הארגון סובלים מבעיות שונות. חלק מהבעיות נובעות מסילו של אינפורמציה (information silo) שגורם למידע אודות אותם נושאים (למשל נתוני לקוחות) להיות מאופיין אחרת ולהכיל נתונים שונים, מידע כפול, מידע שאינו תקני, מידע שלא עבר אימות וכדומה.

 

פודקאסט עם אילן אלתר, על אתגרי דאטה בערים חכמות

דוגמה פשוטה לבעיית איכות בנתונים התפעוליים הבסיסיים, שמדען נתונים ישקיע בה זמן רב ולא יפתור את כל הבעיות: נניח שכחלק ממודל LTV מדען נתונים צריך ליצור אגרגציה של הלקוחות לפי ישוב. הצרה היא ששמות הלקוחות אינם רשומים בצורה אחידה, בנתוני הלקוחות יש כפילות והמידע אודות אותם לקוחות מפוזר על פני רשומות שונות. כמו כן, שמות הישובים והרחובות בקובץ הלקוחות אינו מלא (הארגון החליט בשלב מסוים כי הוא ארגון דיגיטלי ולכן פסק מלנהל את הכתובות של הלקוחות. בשלב מסוים הבינו בארגון שזו טעות לא לדעת את הכתובת של הלקוחות וחזרו לאסוף מהם נתוני כתובת). בנוסף שמות הישובים והרחובות אינם אחידים. בעיות איכות נתונים נוספות שמפחדים מהן הן בעיות בנתונים המשמשים מודלי אימון בפרויקטי AI/ML.

מדען נתונים יעבוד קשה מאוד כדי לטפל בבעיות איכות נתונים ולהכין את הדאטה שהוא מקבל או אוסף לצורכי אנליזה. כאמור הוא (או היא) ישקיעו בנושא כ-80% מהזמן שלהם. הוא יבצע תהליכי טיוב נתונים באמצעות הכלים שעומדים לרשותו כדי לנקות, לפרק, לבצע סטנדרטיזציה וכדומה. התסכול הגדול הוא שברגע שמדען הנתונים יסיים עם הכנת הנתונים, המידע שתוקן לא חוזר בד"כ למערכות התפעוליות. יתרה מכן, מידע שגוי נוסף ימשיך לזהם את מערכות המידע. זו גם הסיבה שעל מנת לטפל בבעיות איכות, עדיף לזהות את המקור שלהן ולטפל בהן במקור.

לאיכות הדאטה יש גם משמעויות תפעוליות. בעיות איכות נתונים אחראיות לפי הערכות שונות לסדר גודל של 20% מהעלויות התפעוליות של ארגונים ובארה"ב לבדה עולה מעל 3 טריליון דולר בשנה (ד"ר תום רדמן 2016).

מדעני נתונים אולי לא יכולים להשפיע על איכות הנתונים של הארגון, אך הם בהחלט נדרשים להציף את הנושא, חשיבותו ומשמעותו לקברניטי הארגון ולא רק בהיבטים של ניתוח הנתונים, אלא גם בהיבטים התפעוליים השונים ולהמליץ לבצע טיפול בבעיות איכות הנתונים של הארגון. זה המהלך הנכון כלכלית לטווח הארוך. זה לא פרויקט אלא תהליך חוזר ונשנה שכדאי לעשות אותו עם מומחים לאיכות נתונים.

Count of What barriers do you usually face at work
החסמים העיקריים העומדים בפני מדעני נתונים. קרדיט: מתוך סקר קהילת MDLI 2019 . לחצו על התמונה לצפייה לסקר המלא באתר הקהילה

העתיד הרחוק של מקצוע מדענות הנתונים?

כמו כל מקצוע טכנולוגי, מדען נתונים צריך להיות מעודכן בטכנולוגיות העסקיות, ללמוד תחומים נוספים, להכיר את הארגון ולהיות מוביל עסקי. אולי בעתיד הרחוק ה- AI יחליף את מדען הנתונים, אך ככל שניתן לנבא, בעתיד הנראה לעין יהיה צורך הולך וגובר במדעני נתונים מעולים. נכון לעכשיו, הצד החלש של ה- AI הוא יצירתיות, יכולת לקבל החלטות אתיות, או לחשוב כמו בנאדם.

share image

share image

share image

share image

share image

לקריאה נוספת

עתיד המקצועות באתר פורום הכלכלה העולמי

סקר קהילת מדעני נתונים הישראלית: MDLI 2019 – הדו"ח המלא

סקר Kaggle 2018 (סקר 2019 נמצא בהכנה)

כתבה בגלובס על הערכות האוניברסיטאות

דף הספר באמזון: The Real Work of Data Science

שיתוף

שיתוף ב whatsapp
שיתוף ב pinterest
שיתוף ב pocket
שיתוף ב email
שיתוף ב twitter
שיתוף ב facebook
שיתוף ב linkedin

אודות המחבר

sella
סלע יֹפֶה
מומחה לאימייל מרקטינג, עבירוּת אימיילים ואיכות דאטה. מנכ"ל , | אתר

מלווה עסקים בארץ ובעולם בפעילות אימייל מרקטינג ומסייע בשיפור עבירוּת אימיילים (email deliverability) כדי שאימיילים שעסקים שולחים יגיעו ל-Inbox ולא אל ה-Spam.

מסייע לעסקים למכור יותר ולחסוך בהוצאות תפעול באמצעות שיפור איכות הנתונים (data quality).

מנכ"ל חברת דאטה מדיה ועורך שותף של הבלוג והפודקאסט crm.buzz

היי. אני סלע

אני שולח ניוזלטר שבועי עם מאמרים איכותיים בנושא שיווק, אימייל מרקטינג ודאטה

אני מזמין אותך להצטרף למקצוענים כמוך שכבר מקבלים את הניוזלטר

נרשמים לניוזלטר, עונים על סקר קצר ואולי מקבלים ספר