7.2. ID3ID3 היא התוכנית הידועה ביותר ללמידת מסווגים. התוכנית מקבלת כקלט קבוצת דוגמאות ומוציאה עץ החלטה המסווג נכון את כל הדוגמאות שניצפו. התוכנית מתחילה משורש העץ ומפתחת תתי עצים. ID3 תפתח צומת אם הוא מכיל דוגמאות חיוביות ושליליות, ותעצור אם כל הדוגמאות הן מאותו סוג. כל צומת מתפצל על תכונה מסוימת. התוכנית יוצרת תת עץ לכל ערך אפשרי של התכונה. קבוצת הדוגמאות מתחלקת לפי ערכי התכונה ותת הקבוצות מועברות לתת העצים. ההחלטה על איזו תכונה לפצל מתבססת על יוריסטיקה האומרת: נבחרת התכונה המביאה לתוספת מקסימלית של אינפורמציה. נכנה תכונה בשם תכונה אינפורמטיבית אם היא מחלקת את קבוצת הדוגמאות בצורה טובה. תוספת האינפורמציה (gain) – לכל תכונה נמדדת תוספת האינפורמציה. התכונה המביאה לתוספת האינפורמציה הגדולה ביותר נבחרת לפיצול. נסמן ב-p את מספר הדוגמאות החיוביות, וב-n את מספר הדוגמאות השליליות, אז ההסתברות ליפול בקבוצת החיוביים הינה וההסתברות ליפול בקבוצת השליליים הינה . אי הוודאות בצומת מוגדרת על ידי נוסחת שנון: כאשר אנחנו משנים מעט את log ומגדירים כי וכן . אי הוודאות בבנים של צומת נקבע על ידי הממוצע המשוקלל של אי הוודאות בכל אחד מהם. תוספת האינפורמציה היא אי וודאות הצומת פחות אי הוודאות בבנים: הוא מספר הדוגמאות שעברו לבן ה-, זהו מספר הדוגמאות החיוביות בבן ה- ו- הוא מספר הדוגמאות השליליות בבן ה-. נע בין 0 ל-1, כאשר 1 יסמל שיפור מקסימלי ו-0 פירושו שאין כלל שיפור. מה יקרה במידה ועברנו על כל הדוגמאות ועדיין לא הגענו לחלוקה מוחלטת לפי ערכים חיוביים וערכים שליליים? שתי אפשרויות:
האלגוריתם של ID3: נגדיר: I היא קבוצת הדוגמאות. היא קבוצת כל התכונות האפשריות, ו- אלו התחומים של התכונות השונות, כאשר ID3 (examples, Att) |
תוכן העניינים:
קישורים רלוונטיים:שיתוף: |
אבל הוא עדיין לא נפתח...