הצורך להתמודד עם כמויות גדולות של מידע, הנצבר במשך שנים בערוצים רבים, הוליד את הצורך ברכישת יכולות, כלים ושיטות אנליזה, תחקור מידע ובניית מודלים מתמטיים וסטטיסטיים על מנת למקסם את ניצול המידע, לזהות דפוסי התנהגות חוזרים ולחזות התנהגויות עתידיות לצורך הפקת תובנות עסקיות.

מדעני נתונים יכולים להרחיב את תוצרי עבודת המידענות שלהם על ידי ניצול מיטבי של מקורות המידע בהם הם משתמשים ולהוסיף ממד נוסף לארגונים על ידי שימוש ב"מדע הנתונים".

״מדע הנתונים״ הינו תחום מבוקש מאוד ובעל השלכות מהפכניות על כל אספקט בחיינו:
מקצועית, עסקית, כלכלית, מחקרית ובאופן כללי על אורח החיים שלנו. היכולת לאסוף, לאחסן, לעבד את המידע כדי להפיק ממנו תובנות, להבין טוב יותר את המורכבות של החיים ובעיקר לצפות את העתיד על בסיס הדאטה הקיים, הופך לחיוני לארגונים. בעזרת טכנולוגיה זו של ניתוח מתוחכם של נתונים מעולמות תוכן שונים, שלכאורה לא נראו קשורים קודם, אנחנו יכולים לגלות עולם שלם של משמעויות ותובנות לארגונים. מאמר זה מתמקד בלמידת מכונה (Machine Learning) התחום החם היום במדעי המחשב, באקטואריה ובבינה מלאכותית המשיק לתחומי הסטטיסטיקה, האקונומטריקה והאופטימיזציה. למידת מכונה משמשת לפתרון בעיות עסקיות נפוצות, תוך כדי תיאור וקטלוג הבעיה, בניית מודלי חיזוי, עבודה עם מידע לא מאוזן, עבודה עם רגרסיות ומערכות החלטה.

השלכות מהפכניות על כל תחומי החיים | צילום: shutterstock

למידת מכונה היא ענף של בינה מלאכותית העוסקת בלמידה מתוך מאגרי מידע גדולים. היא כרוכה בפיתוח וגיבוש אלגוריתמים לצורך ניבוי, סיווג נתונים, או לקבלת סדרת החלטות רצופות תוך אינטראקציה אופטימלית עם הסביבה. ניתוח סטטיסטי עוסק באופן מסורתי ביצירת השערות (מבלי להסתכל על הנתונים) ולאחר מכן בבדיקת ההשערות באמצעות נתונים. למידת מכונה שונה מניתוח סטטיסטי בכך שהיא לא יוצרת השערות אלא גוזרת את המודל לחלוטין מתוך הנתונים.

סטים של נתונים

היבט חשוב של למידת מכונה הינו אימות ובדיקה. כלומר, יש לבדוק ולתקף מודלים שנוצרו באמצעו אלגוריתמים של למידת מכונה בעזרת סט נתונים אחר, כזה שלא שימש ליצירת המודל. מחד, מודל מורכב מדי עשוי להתאים את עצמו יתר על המידה (ללמוד יותר מדי טוב) לנתונים ששימשו לאימון המודל ובכך הוא עלול שלא להצליח להכליל באופן מספק דיו את הנתונים החדשים. מאידך, מודל פשוט מדי עלול שלא להצליח לתפוס היבטים חשובים של הנתונים.

למידת מכונה גורסת שיש לחלק את הנתונים הזמינים לשלושה סטים של נתונים:
סט האימון – משמש לגיבוש/פיתוח מודלים אלטרנטיביים; סט האימות – משמש לבדיקה עד כמה המודלים מכלילים טוב את הנתונים החדשים; סט הבדיקה – נשמר בצד לאורך כל התהליך שתואר עד כה ומשמש כמבחן סבירות סופי לרמת הדיוק של המודל הנבחר.

טרם השימוש באלגוריתם של למידת מכונה חשוב מאוד לנקות תחילה את הנתונים. המאפיינים (המשתנים המסבירים) המהווים את הנתונים יכולים להיות נומריים או קטגוריאליים. בכל מקרה עשויים להיות מצבים של חוסר עקביות באופן שבו הנתונים הוכנסו למאגר הנתונים.

לפיכך, יש לזהות ולתקן מצבים של חוסר עקביות. חלק מהתצפיות עשויות להיות לא רלוונטיות למשימה הנוכחית ועל כן יש להשמיטן. בנוסף, יש לבדוק שאין תצפיות כפולות או כפילויות בנתונים, דבר שעלול ליצור הטיות. יש להשמיט חריגים אשר נוצרו בוודאות כתוצאה מטעויות הקלדה או מטעויות בהכנסת הנתונים למאגר. לבסוף, יש לטפל בנתונים חסרים באופן שלא יטה את התוצאות.

משפט בייס (נוסחת בייס) הוא תוצאה המשמשת לעיתים כאשר נדרש לכמת את אי הוודאות. משפט בייס הוא דרך להפוך משהו להתניה. נניח שאנו רוצים לדעת מה ההסתברות שמאורע Y יתרחש ונניח שאנו גם יכולים לדעת האם מאורע אחר שקשור למאורע Y, נקרא לו מאורע ,X התרחש או לא. עוד נניח שעל סמך ניסיון אנו יודעים את ההסתברות המותנה שמאורע X יתרחש מותנה בכך שמאורע Y התרחש.

טרמינולוגיה משלה

ללמידת מכונה יש את הטרמינולוגיה שלה אשר שונה מהטרמינולוגיה המסורתית המשמשת בסטטיסטיקה. אנו חותמים את המאמר שלנו בסיכום הטרמינולוגיה החדשה. מאפיין הוא משתנה אשר לגביו יש לנו תצפיות. יעד הוא המשתנה אשר עליו אנו רוצים לבצע תחזיות. תוויות הן תצפיות על היעד. למידה בהשגחה היא תחום של למידת מכונה שבמסגרתה אנו משתמשים בנתונים על המאפיינים והיעדים לצורך ניבוי היעד מתוך נתונים חדשים. למידה ללא השגחה היא תחום של למידת מכונה שבמסגרתה אנו מנסים למצוא דפוסים בנתונים על מנת לסייע לנו בהבנת מבנה הנתונים. (בלמידה ללא השגחה אין יעד ועל כן אין גם תוויות).

למידה בהשגחה למחצה היא תחום של למידת מכונה שבמסגרתה אנו מבצעים תחזיות על היעד מתוך נתונים אשר לחלקם יש תוויות (קרי, יש להם ערכים של היעד) וליתר אין תוויות (קרי, אין להם ערכים של היעד). לבסוף, למידה בחיזוקים היא תחום של למידת מכונה שבמסגרתה אנו יוצרים אלגוריתמים לקבלת סדרת החלטות רצופות כאשר מקבל ההחלטה פועל בתוואי של סביבה משתנה.

הכותב הוא מדען נתונים העושה שימוש במאגרי נתונים גדולים Big Data, תוך פיתוח ושימוש באלגוריתמים של Machine Learning, על מנת לזהות דפוסים ולבצע תחזיות בעולמות תוכן שונים

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *