ביג דאטה. מעט תובנות -
ביג דאטה

ביג דאטה. מעט תובנות

מעל הכל הקורונה לימדה אותנו שיעור חשוב על הפער בין מודלים לחיזוי לבין המציאות ועל הפער בין ביג דאטה לבין היכולת לקבל החלטות נכונות המבוססות על הדאטה

תוכן עניינים

האזנה לפודקאסט

סיפור בזיג זג 

כנראה שישראל קרובה מאוד לגל שני של קורונה.

מי שמסתובב בימים אלה במדינת תל-אביב, יכול לחשוב כי הקורונה היא בכלל תיאוריית קונספירציה. בתל-אביב שוררת אווירת אופוריה, אין קורונה, אין שמירת מרחק ביטחון, אין מסכות. בתל-אביב יש הרבה חיבוקים, צפיפות ובילויים כאילו אין מחר. "הכחשת קורונה", כפי שקרא לזה מנכ"ל משרד הבריאות היוצא, משה בר סימן-טוב.

לעומת ההכחשה התל אביבית, באזורים אחרים בארץ נראים אנשים הסובבים במרחב הציבורי עטויי מסכות. הרכבת טרם שבה לפעול, אך אולמי חתונות קיבלו היתר לפעול במגבלות של 250 איש החל מ- 14/6/20. מה מניע את מערכת השיקולים לכאן או לכאן? אין לדעת. אפשר רק לנחֶש…

חלק ניכר מההדבקות נובעות ממערכת החינוך שחזרה לפעילות, במקביל לחזרה לפעילות של חוגים ותנועות נוער.

הטענה היא שבישראל כמו בישראל, "סמוך על סמוך" ו"יהיה בסדר" כשהמשבר מתנהל בהיסטריה של או הכול סגור או הכל פתוח וזיגזג לא ברור של הנחיות ואכיפה שלא ברור מה תכליתה. אסטרגיית יציאה? קדחת.

הנורמלי החדש

מעל לכל המשבר מנוהל פוליטית ולא באמצעות דרג מקצועי. אותו דרג פוליטי שמנסה לקבור את הפרוטוקולים של ישיבות הממשלה שעסקו במשבר הקורונה לתקופה של 30 שנה כאילו מדובר בסודות האטום. ממה הם כל כך מפחדים? שקיפות? חופש מידע? טעיתם במיקוד….

תנאי הכרחי לניהול משבר הקורונה, הוא היכולת לזהות ולאתר את כל האנשים שבאו במגע עם נשאים מזוהים. למהלך זה קוראים "סגירת מעגל" והשאיפה היא שהוא יסתיים תוך פחות מ-48 שעות. סגירת מעגל מהירה היא תנאי הכרחי לקיום שגרת חיים בצֶל הקורונה.

משך הזמן בישראל ל-"סגירת מעגל" היא 5 ימים ולא יומיים (48 שעות). זאת, למרות הפעלת השב"כ, אפליקציית המגן, הגדלה משמעותית של מספר הבדיקות המבוצעות בכל יום, הפעלת 32 מעבדות לבדיקות קורונה, והפעלת צוותים של צה"ל שביצעו שיפורים מרחיקי לכת במערך התחקור האפידמיולוגי במערכת הבריאות.

כפי שהיה בתחילת המשבר, גם שיגרת חיים בצל הקורונה תחייב למצוא איזון בין רגש ופחד לבין הצורך להמשיך בשגרת חיים. זו תהיה שגרת חיים אחרת ושונה ויש לה קשר הדוק עם דאטה ותובנות נכונות שניתן לחלץ ממנה.

התנגשות בעולם המדע

מעל הכל הקורונה לימדה אותנו שיעור חשוב על הפער בין מודלים לחיזוי תופעות לבין מה שקורה במציאות ועל הפער בין ביג דאטה לבין יכולת קבלת החלטות נכונות המבוססות על דאטה. במקרה זה החלטות הקשורות בחיי אדם. דאטה שמתקבלת לא בזמן אמת, אינה מלאה (למרות הכל לא מבוצעות מספיק בדיקות), רצופה בעיות איכות (הבדיקות אינן אמינות. נמסרו לאנשים תוצאות סותרות, תוצאות של בדיקות הורדו מאתרי קופות החולים, בשל טעויות בהזנת נתונים שגויים למערכת מידע ללא בקרה מספקת), דאטה שמתקבלת ממקורות שונים שאינם בסטנדרט אחיד (ראו מאמר נפרד).

בנוסף לכך, במציאות המודלים לא עובדים. גם כי קורונה זה לא חלקיקים או מִספרים. המודלים שהסתמכו עליהם עד עכשיו היו מתמטיים ופיזיקליים ולא מודלים מעולם האפידמיולוגיה (בריאות הציבור ומגפות). אפידמיולוגים מלינים על כך שלאורך המשבר הם מודרו מהדיון… (פרופ' סיגל סדצקי, ראש שירותי בריאות הציבור במשרד הבריאות היא אפידמיולוגית).

כאוס הביג דאטה

מה שקורה בישראל בהקשר לחילוץ תובנות מדאטה סביב התפרצות הקורונה, דומה למה שנעשה במקומות נוספים בעולם (צרת רבים?) ונותן הצצה למה שמתרחש בימי שיגרה בארגונים הסובלים מבעיות דומות באיכות נתונים.

  • ראינו שהבדיקות אינן אמינות ויוצרות נתונים שגויים ובעיות של חוסר אמון בנתונים. כך יש לנהוג גם בדאטה שמתקבלת ממקורות שונים בארגון: יש ליצור מנגנונים שמוודאים את איכות הדאטה לפני השימוש בה. הגישה הנכונה: the data is wrong until proven otherwise. אלה יכולים להיות נתוני לקוחות, פרטי הקשר שלהם, נתוני קניות, טרנזקציות, נתוני פריטים, מוצרים, מידות ומשקלות ועוד.
  • בעיה גלובלית נוספת היא ברישום נפטרים שאינו אחיד בכל מדינה. ישנם מדינות (ובמדינות מסוימות אף הבדלים בין מחוזות) בהן מי שנפטר ונמצא כחולה קורונה מקוטלג כנפטר מקורונה. בין אם מדובר באדם סביב גיל 40 ללא מחלות רקע לבין אדם סביב גיל 90 שנפטר "בשיבה טובה", הסובל ממספר מחלות ולמעשה נפטר כתוצאה ממערכת חיסונית חלשה. במדינות אחרות הקטלוג שונה. בארגון הבריאות העולמי (WHO) ובארגונים המתכללים את הנתונים ממקורות המידע המתקבלים ממדינות שונות (כגון Johns Hopkins) צריכים להתחשב בלקונות הללו ולהתאים את הנתונים לשיטת מדידה אחידה. ראו הרחבה למטה.
  • כדי לקבל תמונה ברורה ומלאה ככל שניתן ולאפשר זרימה של מידע אמין ואיכותי, כגון נתוני בדיקות, בין המערכות השונות, נדרשה יצירת אינטגרציה (שלא בוצעה לפני המשבר וספק אם תישאר לאחריו) בין מערכות ודאטה של ארגוני בריאות שונים: כל אחד מהגופים במערכת הבריאות מחזיק את הדאטה שלו במערכות נפרדות (הנהלת מערכת הבריאות, בתי החולים, מעבדות, מגן דוד אדום, שירותי הבריאות). לפיכך, צוותים מאגף המודיעין של צה"ל, גויסו לסייע למערכת הבריאות בתחילת המשבר, כשבראש ובראשונה נדרשו לטפל בבעיות דאטה. ביניהן, טיפול באיי מידע (איי- מידע, Information Silos) בפרויקט אג'ילי וקישוריות מהירה בין הארגונים המבוזרים המרכיבים את מערכת הבריאות. במסגרת הפרויקט נבנתה שכבת נתונים אחידה, תוך כדי טיוב הנתונים וביצוע אינטגרציה שלהם בין המערכות השונות.
  • בכל כלל יש יוצא מן הכלל. לכל הפרמטרים שנלקחים בחשבון בבניית המודל יש להוסיף את היוצאים מהכלל. בהקשר של גורמים מנבאים הקשורים במשבר הקורונה, כדאי לקחת בחשבון למשל צפיפות (אוכלוסייה, צפיפות בתחבורה ציבורית, צפיפות בכיתות), משמעת של קבוצות באוכלוסייה להוראות הריחוק, בהירות ההוראות שניתנות לציבור הקשורות בריחוק (גם בזה וגם בזה אנחנו לא מצטיינים). 

פודקאסט העוסק בביג דאטה, אנליטיקה ו-BI

סרטון קצר המסביר את חשיבות איכות הנתונים במערכות בריאות

דרוש: קצין ציות לדאטה

במערכות חשבונאיות מונהגת ונדרשת בקרה על הנתונים. רואי החשבון ומבקרי הפנים. בארגונים מסויימים מועסקים קציני ציות שתפקידם לפקח על עמידת הארגון ועובדיו להוראות חוק ורגולציות שונות.

אולי יש מי שאמון על הדאטה בארגון בהיבט של אבטחת מידע וסייבר ואולי יש מישהו שאמון על פרטיות הנתונים. 

מי הרגולטור של איכות הדאטה בארגון? 

מגפת הקורונה מייצרת הררי דאטה. אין בעיה לאחסן כמויות אדירות של דאטה. אבל ליצור תובנות נכונות מהררי המידע הללו, היה ונותר אתגר משמעותי.

בארגונים עסקיים השתלטות על כאוס הדאטה אולי לא תציל חיי אדם, אך תשפר תוצאות עסקיות שיתבטאו בשורת הרווח (למכור יותר, להשיג התייעלות תפעולית), תשפר את שביעות רצון הלקוחות ואת חווית הלקוח. לפני כל פרויקט טרנספורמציה דיגיטלית חייבים לבצע פרויקט לטיהור, ניקוי ושיפור הדאטה. פרויקט כזה יכלול זיהוי יצרני דאטה ומשתמשים בדאטה, זיהוי איי-מידע (מידע שאינו זורם), טיפול ביישויות (אנשים, משפחות, פרטים ועצי מוצר), נירמול נתונים (כתובות, תיאורי מוצרים ועוד). נירמול תיאורי מידע וקביעת תקן פנימי אחיד לשמות של נתונים (שפה אחת).

בכל פרויקט ארגוני הדאטה היא מרכיב מרכזי ולכן הפרויקט צריך להתחיל בפרויקט דאטה, בין אם זו הטמעה או החלפה של מערכת CRM, הטמעת מערכת marketing automation, אתר ecommerce או כל פרויקט אחר שמעורבת בו דאטה.

פודקאסט עם פרופ' שרי רוז (באנגלית) המסביר את אתגרי איכות המידע סביב הקורונה

לקריאה נוספת

מדינת תל אביב, ויקיפדיה

תל אביב בהכחשת קורונה, ראיון פרישה עם בר סימן טוב, מגזין דה-מרקר

למה אנחנו לא רציניים, דה מרקר

סודות מדינה? מי ביקש לקבור את פרוטוקולי ישיבות הממשלה שעסקו בקורונה, גלובס

שימוש נכון במודלים מתמטיים, לניבוי קורונה, ynet

המחלוקת המתמטית סביב הקורונה, הארץ

קולם של האפידמולוגים אינו נשמע, דה-מרקר

טיוב נתונים של מאגר נתוני הקורונה המרכזי של Johns Hopkins  

מאמר על איכות נתונים במאבק בקורונה, ד"ר תום רדמן

מאמר על איכות נתונים ברישום נפטרים בבריטניה, פיטר אילס

קורֶלציה אינה תמיד מצביעה על קשר, ויקיפדיה

משמעת אוכלוסיה, גלובס

כמה מובטלים יש באמת בישראל? , גלובס

שיתוף

שיתוף ב whatsapp
שיתוף ב pinterest
שיתוף ב pocket
שיתוף ב email
שיתוף ב twitter
שיתוף ב facebook
שיתוף ב linkedin

אודות המחבר

sella
סלע יֹפֶה
מומחה לאימייל מרקטינג, עבירוּת אימיילים ואיכות דאטה. מנכ"ל , | אתר

מלווה עסקים בארץ ובעולם בפעילות אימייל מרקטינג ומסייע בשיפור עבירוּת אימיילים (email deliverability) כדי שאימיילים שעסקים שולחים יגיעו ל-Inbox ולא אל ה-Spam.

מסייע לעסקים למכור יותר ולחסוך בהוצאות תפעול באמצעות שיפור איכות הנתונים (data quality).

מנכ"ל חברת דאטה מדיה ועורך שותף של הבלוג והפודקאסט crm.buzz

היי. אני סלע

אני שולח ניוזלטר שבועי עם מאמרים איכותיים בנושא שיווק, אימייל מרקטינג ודאטה

אני מזמין אותך להצטרף למקצוענים כמוך שכבר מקבלים את הניוזלטר