Home ממשל נתונים וטיוב נתונים 5 תהליכי אינטגרציית נתונים הנוטים ליצור בעיות באיכות נתונים

5 תהליכי אינטגרציית נתונים הנוטים ליצור בעיות באיכות נתונים

by Sella Yoffe
5 תהליכי אינטגרציית נתונים הנוטים ליצור בעיות באיכות נתונים

נתונים איכותיים יאריכו ימים יותר ממערכות המידע בהם הנתונים זורמים.
על מנהל CRM ו- CDO להיות מודע לכך שתהליכי data integration שהנתונים עוברים בממשק בין מערכות, הם פתח לסכנה לאיכות הנתונים ושיבושם. נשמע מפחיד?

אלה הם חמשת תהליכי אינטגרציית נתונים הנוטים ליצור בעיות באיכות נתונים ושיבושם:

1. מחסני נתונים (Data warehousing)

הכוונה היא לטכניקה של עיבוד ושנוי של נתונים ממקור אחד או יותר לתוך מחסן הנתונים, מאגר נתונים או אפילו למאגר נתונים תפעוליים (ODS).
בכל פעם שקיים שלב של הסבת נתונים, שגיאות עלולות להתרחש עקב שינוי סוג נתונים, למשל בהסבת מספרים. 

אם מחסן הנתונים מקבל נתונים ממקורות מרובים, גדל הסיכוי ליצור בעיות איכות נתונים.

2. הסבת נתונים (Data migration)

בכל פעם שעוברים למערכת חדשה או שמייבאים נתונים למערכות נתונים חדשות כגון CRM, CMS, ERP וכדומה, מבוצעת הסבת נתונים.

בניגוד למחסן נתונים, הסבת נתונים במעבר בין מערכות נעשית כפרויקט חד פעמי. מאחר שסוג זה של פרויקטים נקבע עם תאריכי יעד קצרים, משימת העברת הנתונים אינה כוללת פרופיל נתונים, אבטחת איכות נתונים, מידול נתונים, יצירת הגדרות נתונים וכן הלאה. למה? כי זה יוסיף עלות, זמן ומאמץ לפרויקט.

בדרך כלל זו נקודת קונפליקט בין האינטגרטור שמבצע את ההסבה לאינטרס של הלקוח. התוצאה של החלטה זו היא שהנתונים עוברים בין המערכות ללא הסבה מסודרת. במקרה הטוב במצבם הנוכחי, ובד”כ מאלצים את הנתונים לארכיטקטורת הנתונים החדשה במערכת החדשה.

ניתן לומר, מניסיון, שלתקן את הנתונים במערכת החדשה לאחר הסבת הנתונים, יכול לקחת שנים. זו פעולה שעדיף לבצע מראש כחלק מהסבת המערכות.

3. מיזוג נתונים (Data consolidation)

קיימת נטייה לרכז מערכות ככל האפשר, מסיבות ברורות, למרות שקונסולידציה של נתונים מתרחשות גם עקב מיזוג ורכישה של חברה אחרת.
במקרה כזה, יהיה צורך לאחד את הנתונים ולמזג אותם לעתים קרובות במערכת אחת. איכות הנתונים הגרועה ביותר תתרחש עקב הגדרות עסקיות וכללים שונים בין שני הארגונים או היחידות השולטות בשתי המערכות.
היעדר בקרת איכות על אחד משני מסדי הנתונים תהיה גם השפעה גדולה על איכות הנתונים.

4. סנכרון נתונים (Data synchronization)

סנכרון נתונים בין שני מסדי נתונים שונים הוא אחד ההיבטים המאתגרים ביותר של שמירה על איכות הנתונים.

שגיאות מתרחשות לעתים קרובות עקב:

סטיית הזמן: אי וודאות איזו אחת משתי הרשומות היא המעודכנת ביותר. רוב מודלי הנתונים אינם כוללים חתימת זמן כגון “תאריך עדכון אחרון” ברמת העמודה כך שסנכרון רכיבי נתונים מסוימים יכול להיות מסובך ולדרוש כללים עסקיים מורכבים יותר.

פערים בארכיטקטורת (מבנה) הנתונים: המרת סוג נתונים לאחר יכולה ליצור אובדן נתונים, לעתים קרובות ניתן לראות בעיות אלו כאשר נתונים במסד נתונים א’ רשומים ברמה מפורטת יותר מהנתונים במסד נתונים ב’. לדוגמה, הכתובת במסד נתונים א’ כוללת את רכיבי הכתובת בתצורה מפורקת ומתוקננת (לדוגמה: שם רחוב, מספר בית, דירה, קומה, ישוב, מיקוד, מדינה) ואילו במסד הנתונים ב’ הכתובת רשומה בשדה אחד.

5. סנכרון מול בסיס נתוני מאסטר (Master reference data services)

בדומה לסנכרון נתונים בין שני בסיס נתונים באותה סביבה, כך סנכרון מול בסיס מאסטר (MDM) הוא סנכרון דו-כיווני בין מערכות עסקיות. בדומה לדוגמאות שלעיל, תהליכי סנכרון אלה יכולים לפגום ולשבש נתונים.

מסקנה

ישנם יתרונות רבים בתהליכי אינטגרציית הנתונים המפורטים לעיל ויש בהם כדי לתמוך טוב יותר בצרכים העסקיים. אנחנו רק צריכים להיות מודעים לסיכונים הגבוהים של החדרת נתונים שגויים ויצירת שיבוש בנתונים בתהליכים אלה. במיוחד, אנו צריכים לשים לב להגדרת נתונים על פי צרכי העסק ועל פיהם לקבוע את מערכת הכללים שתשרת את צרכי העסק בצורה המיטבית ותיקח בחשבון את כל המשתנים המצוינים למעלה. באמצעות פירוק, היגיינה, תקנון וטיוב הנתונים.

כדאי לבצע ניסיונות לפני סנכרון בסיס נתונים שבפרודקשן ולבצע בקרות על תהליכים אלה. כמו כן, כשנכנס מידע חדש למערכת (לקוחות חדשים לדוגמה) יש לוודא שהנתונים המוזנים למערכת לא מזהמים אותה במידע משובש ולא תקני.