דורון גוראל
דורון גוראל
מילים מילים מילים מילים

להתמקח עם רובוט

להתמקח עם רובוט

מתחילת המאה אנו עדים להתקדמות אדירה בתחום הבינה המלאכותית. נדמה שמדי חודש מתפרסמים הן מאמרים אקדמיים פורצי דרך והן יישומים טכנולוגיים פרקטיים שמצעידים את התחום קדימה בקצב מרשים. למען הסר ספק, אנחנו עוד רחוקים שנות אור מעולם בו רובוטים יחליפו כליל את הצורך הכלכלי בעבודה של בני אדם, רעיונות שכאלה הם סתם רעש תקשורתי שנועד לגנוב דעת ולמשוך עיניים לאתר “חדשות” כזה או אחר, אך עם זאת לא ניתן להתעלם מן ההתקדמות בתחום וכל פריצת דרך דורשת מאיתנו לחשוב מחדש על מערכת היחסים שלנו עם מכונות לא אנושיות.

אחת מנקודות המגע שאנחנו צריכים להגדיר מחדש היא האופן בו אנו קונים מוצרים בנקודות ממכר אוטומטיות. רובנו מרגישים בנוח בסיטואציות של אפליית מחירים בסיטואציות אנושיות. לא נרגיש רע לבקש ממוכר בשוק הנחה על קניה גדולה או אם מתקרבת שעת סגירת השוק. אבל לא נחשוב על התמקחות מול הקופאי בסופר ולא נצפה להנחה כששעת סגירת המכולת מתקרבת. מה בנוגע לקניות ברשת? האם נהיה מוכנים לקבל מציאות של מיקוח בקניה מאמזון או איביי? פרוייקט חדש מבית היוצר של פייסבוק מאתגר את התפיסה שלנו בנוגע להתמקחות ברשת. צוות חוקרים במחלקת האינטליגנציה המלאכותית של פייסבוק לימדו מחשבים להתמקח כמו בני אדם.

כדי ללמד מחשב להתמקח החוקרים היו צריכים לייצר כמות גדולה מספיק של דוגמאות לאופן בו אנשים מתמקחים. לשם כך הם יצרו משחק צ’ט פשוט אליו מתחברים שני משתמשים אנושיים. במשחק מוצגים מספר שרירותי של פריטים (ספר, כובע, כדורסל), ולכל משתמש מוקצה ערך כספי שרירותי לכל חפץ. בשלב הזה, למשתמשים ניתנות כמה דקות להתכתב ביניהם ולהחליט כיצד לחלק את השלל, כאשר כל משתמש מתוגמל כספית על החפצים שנלקחו בבעלותו בתום הזמן. אם השניים לא הצליחו להגיע להסכמה, שניהם יקבלו תשלום של סנט אחד בלבד על ההשתתפות. החוקרים הפיצו את המשחק בעזרת שירות של אמאזון בשם Amazon mechanical turk, המאפשר לארגונים לייצא משימות פשוטות למיקור חוץ בידי משתמשים אנושיים. בצורה זו נאספו כ-5,000 התכתבויות שונות.

כעת החוקרים פיתחו אלגוריתם פשוט אשר יוכל להתכתב עם משתמש במטרה להשיג לעצמו את הערך הגבוה ביותר. בכל שלב האלגוריתם בוחן את התגובות האפשריות בהינתן היסטוריית ההתכתבות, ומחשב לכל תגובה אפשרית את הערך שהיא צפויה להניב בסוף ההתכתבות. מכיוון שכמות התגובות האפשריות גדולה, וכל תגובה כזו תוליד כמות כפולה ומכופלת של התכתבויות אפשריות, האלוגריתם לא בודק, את כל ההתכתבויות האפשריות אלא רק כמות גדולה אך סופית שלהם, כך שזמן החישוב לא פוגע בשטף השיחה, אך החישוב מספיק מקיף כדי להביא לתוצאות טובות ברוב המקרים.

כעת, עם 5,000 התכתבויות אנושיות ואלגוריתם שעל פניו אמור לעבוד, החוקרים רצו להכליל את יכולות התוכנה מעבר למקרים אותם היא זכתה לראות בסט הנתונים הראשוני. לשם כך החוקרים השתמשו בשיטה הנקראת “למידת חיזוק” ( Reinforcement learning). בשיטה זו שתי מערכות נפרדות המבוססות על רשתות נוירונים מלאכותיות, החלו לשאת ולתת האחת עם השניה תוך כדי “אלתור” בהתבסס על הידע שצברו בעבר. לאחר כל דיאלוג שכזה, תוכנה נפרדת מחשבת ציון לכל “משתתף”, והמערכות מתחשבות בציון זה בדיאלוגים הבאים.

בתחילה החוקרים שמו לב שבשיטה זו המערכות הולכות ומתרחקות משימוש בשפה טבעית האופיינית לבני אדם, ולחלופין מסתפקות בשימוש בחצאי משפטים ובמילים חסרות פשר שנוצרו באופן מקרי והתגלו כמובילות לתוצאות בעלות ציון גבוה. לאחר קיבוע אחת המערכות כך שלא תוכל לאלתר מעבר לטקסט אותו למדה בשלב הראשון. הבעיה נפתרה והמערכת החופשית הצליחה לחדד את יכולות המיקוח שלה בלי להידרדר לשפה לא תקנית.

File:Reinforcement learning diagram.svg

אילוסטרציה של למידת חיזוק. הרובוט מבצע פעולה בסביבה מוגדרת (הדיאלוג), גורם חיצוני מעריך את איכות הפעולה ומתגמל את הרובוט בהתאם. התגמול נלקח בחשבון בפעולות עתידיות.

בעיתונות המיינסטרימית בעולם וגם בארץ החליטו משום מה להיתפס לנקודה הטכנית והזניחה הזו, ופרסמו אותה תחת כותרות סנסציוניות דוגמת “פאניקה בפייסבוק: נוטרלה בינה מלאכותית שהחלה לדבר בשפה משלה” אני לא אשים פה לינק למאמר כי בניגוד לרפאל קאהאן מכלכליסט אני מתנגד להפצת בורות ואני אשמח אם גם אתם תמנעו מלהיכנס לאתר שלהם ולספק להם את הקליקים שהם ניסו לסחוט. אני אבהיר שלא מדובר ב”שפה” עצמאית שפותחה על ידי הבינה המלאכותית, אלא פשוט בתוצר לוואי טכני. שיטת לימדת חיזוק “מתגמלת” את מערכת הבינה המלאכותית על “הצלחות” במקרה הזה החוקרים הגדירו הצלחה באופן פשוט לפי ערך הפריטים שהתקבלו במשא ומתן. באופן מקרי בתהליך האלתור המערכות התחילו ליצור משפטים שאינם נכונים תחבירית, ובמקרה חלק מהמשפטים הובילו לציון גבוהה בהתמקחות ולכן המוטציה התחבירית נשמרה ואף החריפה ככל שהאלגוריתם המשיך להתאמן. זו בעיה מוכרת בתחום למידת החיזוק וישנם דרכים פרקטיות להתגבר עליה, דוגמת הפיתרון של חוקרי פייסבוק.

אחת התוצאות המגניבות שעלו בניסוי היא שהמערכת למדה להשתמש בטקטיקה של הונאה. כלומר לעיתים המערכת הייתה מתחילה את המשא ומתן באמירה בסגנון: “אני ממש צריכה את הכובע!” למרות שבאותו משחק הכובע היה חסר ערך עבורה. כך המערכת יכלה “להתפשר” בשלב מתקדם של השיחה ובכל זאת להשיג רווחים גבוהים.

החוקרים פרסמו את כל עבודתם באופן חופשי במאמר אקדמי, ב-Github ובפוסט בבלוג של פייסבוק (ממנו לקוחות רוב התמונות). אנחנו אמנם רחוקים מאוד ממציאות בה נידרש להתמקח עם בוטים על המחיר בקניות ברשת, אבל המחקר מהווה צעד ראשון ללימוד בוטים כיצד להתנהל מול בני אדם בסיטואציות שלעמידה על מקח. אחד היישומים האפשריים לטכנולוגיה זו בעתיד הלא רחוק הוא בתחום העוזרים הוירטואליים כמו סירי של אפל או אלקסה של אמאזון. נניח ואנחנו רוצים שהעוזר הוירטואלי יקבע לנו בילוי עם חבר. המערכת נדרשת לפעול למיקסום האינטרסים שלי, תוך כדי הגעה לפשרות מול האינטרסים של החבר. האם ניפגש קרוב למשרד שלי או לבית שלו? ניפגש בבית הקפה האהוב עליי או במסעדה האהובה עליו? נשב בחוץ או בפנים?

אם נמשיך בקו הרעיוני של קביעת פגישות, אנו רגילים להשתמש בתוכנות מחשב פשוטות המסוגלות לאתר עבורנו את הזמנים האפשריים והמיקומים האפשריים לקיום פגישות, אבל עם התקדמות הטכנולוגיה תוכנות בקרוב יוכלו להתחשב גם בפרמטרים יותר “רכים” של אינטרקציה אנושית, כגון, חוזק הקשר בין הפרטים, סטטוס חברתי, הנכונות של כל פרט להתפשר וכו’. כעת, אנחנו נדרשים להגדיר מחדש את מערכת היחסים שלנו עם תוכנות מחשב שהולכות ונעשות יותר ויותר “חכמות”.

comments powered by Disqus