דורון גוראל
דורון גוראל
מילים מילים מילים מילים

אתגר נטפליקס: לקנות אלגוריתם במיליון דולר ולזרוק אותו לפח

אתגר נטפליקס: לקנות אלגוריתם במיליון דולר ולזרוק אותו לפח

צת קשה להאמין, אבל הרבה לפני שנטפליקס הפכה לאימפרייה עולמית של הזרמת סרטים וסדרות, היא הייתה חברה קטנה שהתמחתה בהשכרת סרטים ב-DVD. בשנים הראשונות של האינטרנט נטפליקס התבלטה בכך שאיפשרה שירות מהפכני, לקוחות יכלו לבחור סרט באתר האינטרנט של החברה, והסרט היה נשלח בדואר. ככה לקוחות מרוצים היו זוכים לצפות בסרטים האהובים עליהם, אם רק התארגנו לכך לפחות שלושה ימים מראש. נטפליקס לא הייתה החברה היחידה לפעול במודל שכזה, ואפילו זמן ההמתנה הארוך לסרט שיגיע בדואר נתפס לרוב כחיסרון לעומת מתחרים כמו Blockbuster מהם ניתן היה להשיג אז הסרט הנכסף במהירות רבה יותר אם רק היית נוסע לסניף הקרוב לביתך וזוכר להחזיר את הסרט לסניף בתום ההשכרה.. אבל לנטפליקס היה קלף מנצח בשרוול – אלגוריתם להמלצה מותאמת אישית של סרטים.

DVD

החידוש האמיתי שנטפליקס הציעה לעולם היא מערכת מתוחכמת שהצליחה לתת ללקוחות המלצות צפיה מותאמות אישית ברמה גבוהה. לאלגוריתם המנצח של נטפליקס קראו Cinemax, ובשנת 2006 החליטו בחברה שהגיע הזמן לשפר אותו. אבל פיתוח אלגוריתמים זו משימה קשה שמצריכה צוות מיומן של מתמטיקאים ומפתחי תוכנה והרבה הרבה כסף וזמן. לכן במקום לפתח אלגוריתם בעצמם בחברה נקטו גישה מהפכנית והכריזו על “פרס נטפליקס”.

התחרות

נטפליקס הציעו פרס של מיליון דולר למי שיצליח להשיג שיפור של 10% על התוצאות של Cinemax. לשם כך החברה פרסמה קובץ נתונים בן 100,480,507 רשומות, המכילות דירוגים שנתנו 480,189 משתמשים על 17,770 סרטים. נתוני המשתמשים עברו תהליך אנונימיזציה, כך שלא היה ניתן לקבל נתונים אישיים על המדרגים כגון מין וגיל, והאלגוריתם צריך היה להתבסס על דירוגי הסרטים בלבד, שניתנו בסולם של 1 עד 5 כוכבים.

תוך פחות משבועיים, שלושה צוותים עצמאיים של חוקרים הצליחו להשיג תוצאות מדוייקות יותר מ-Cinemax. ותוך שנה הושג שיפור של 8.43% על האלגוריתם המקורי. אך נדרשו שנתיים נוספות על מנת להשיג את השיפור הנדרש של 10%. כך קרה שרק בספטמבר 2009, כמעט שלוש שנים מהשקת התחרות, הוכרזה הקבוצה המנצחת: “BellKor’s Pragmatic Chaos”. למעשה הקבוצה הזוכה הינה התאגדות של שלושה צוותים נפרדים שהתחרו בשלבים הראשונים של התחרות, אך החליטו לאחד מוחות על מנת לזכות בפרס הראשון. למקום השני הגיעה קבוצה בשם “The Ensemble”. גם היא התאגדות של צוותים שונים.

The winner takes it all

להפתעת השופטים בתחרות, שתי הקבוצות הגיעו בדיוק לתוצאות זהות, שיפור של 10.06% על פני האלגוריתם המקורי. אולם המקום הראשון ניתן ל-“BellKor’s Pragmatic Chaos” , היות ואלה הגישו את הפיתרון ראשונים, עשרים דקות בלבד לפני המקום השני. עשרים דקות שעלו לקבוצה המפסידה מיליון דולר.

leaderboard

לטענת הקבוצה המנצחת, אחת מפריצות הדרך המשמעותיות ביותר שהובילו לניצחונם היא ההבחנה כי דירוג סרטים בדיעבד שונה בתכלית מדירוג סרטים מיד לאחר הצפייה. החוקרים זיהו כי כאשר משתמש דירג מספר גדול של סרטים באותו היום, התוצאות היו שונות באופן מובהק מדירוג שניתן לאותם הסרטים על ידי משתמשים שדירגו סרט אחד בלבד באותו היום. כמו כן, ליום בשבוע הייתה השפעה מכרעת על הדירוג. בימי שני ניתנו הביקורות הגרועות ביותר, ולעומת זאת בסופי שבוע הצופים נתו לפרגן יותר.

הגניזה

לבסוף, על אף ההצלחה המסחררת של התחרות, שהביאה חוקרים מכל העולם לעבוד כמעט בחינם עבור נטפליקס, שהצליחה להביא לשיפור הרצוי באלגוריתם הקיים והביאה לחברה פרסום ויחסי ציבור בשווי אפילו גדול מעלות הפרס למנצחים, נטפליקס הודיעה כי לא תקיים תחרויות דומות בעתיד וכן לא תיישם את האלגוריתם המנצח במערכת ההמלצות של החברה.

תחרויות ההמשך שתוכננו נגנזו עקב תביעה ייצוגית שהוגשה נגד החברה בטענה להפרת פרטיות הלקוחות. התובעים הצליחו להצליב נתונים מקובץ הנותנים של התחרות עם דירוגים פומביים מאתר IMDB וכך לזהות באופן אישי כמה מהמשתמשים. החברה הגיעה להסדר עם התובעים מחוץ לבית המשפט.

באשר ליישום האלגוריתם במערכת המלצות התוכן של נטפליקס, החברה פרסמה בשנת 2012 שני מאמרים המסבירים מדוע החליטו שלא ליישם את האלגוריתם בפועל. הסיבות העיקריות הן השינוי החל במודל העסקי של נטפליקס במרוצת השנים. כבר בשנת 2008, לפני סיום התחרות, נטפליקס החלה להפעיל שירות הזרמת סרטים באופן מקוון. שירות ההזרמה שונה מהותית משירות השכרת ה-DVD בכך שהחברה החלה לאסוף יותר מידע מהמשתמשים והחלה לקבל משוב מיידי יותר מאשר דירוגי הכוכבים המיושנים. כיום האלגוריתם של החברה עושה שימוש בנתונים מגוונים כגון הסטוריית הצפיה האישית של המשתמש, משך זמן הצפיה לפני נטישת סרט גרוע ומעבר לסרט אחר וכו’. כמו כן, האלגוריתם של החברה נדרש לספק מענה בזמן אמת ולכן נדרש ברף ביצועים גבוהה בהרבה מבעבר.

ממשיכים לנוע

עם זאת, בנטפליקס לא מתחרטים על התחרות. לטענתם, זאת עזרה רבות בגיוס עובדים מוכשרים לחברה, ביחסי ציבור וכן, גם אלמנטים מסויימים מהאלגוריתם המנצח כן שולבו במערכת. בעקבות הצלחת פרס נטפליקס, הוקם בשנת 2010 אתר Kaggle אשר מהווה פלטפורמה לתחרויות מדע נתונים דומות, ונמכר לאחרונה לגוגל שתמשיך להפעיל אותו כאתר עצמאי.

בזכות נטפליקס שפרצה את הדרך ו-Kaggle שיצרה פלטפורמה נוחה ויעילה לניהול תחרויות מדע נתונים, כיום מדי חודש עולות לאוויר תחרויות חדשות. חלקן נועדו למטרות מסחריות, כמו התחרות של חברת Bosch שביקשה לבנות אלגוריתם שיחזה תקלות בפס הייצור של החברה, וחלקן לתמיכה בארגונים ללא מטרות רווח. כמו התחרות שמתנהלת כעת לספירה אוטומטית של אריות ים בתצלומי אוויר, בחסות ארגון למעקב ושימור אריות הים. כך מאות אקדמאים, סטודנטים, מפתחי תוכנה ומדעני נתונים משתפים פעולה ומתחרים בזמנם הפנוי בפתרון הבעיות הכי מגניבות שיש לעולם להציע.

אתר פרס נטפליקס עדיין באוויר מאז 2006 ניתן לגשת אליו כאן.

למאמר אקדמי המתאר את האלגוריתם המנצח, לחצו כאן.

comments powered by Disqus