האם מכונות יכולות לחלום? האם אנחנו בדרך לשם? מה זה אומר?
X זמן קריאה משוער: 7 דקות
אתמול בלילה, ממש לפני השינה סיפר לי בני בן הארבע סיפור על איך לשדוד כריש. לשם הצלחת השוד הוא נזקק (לטענתו) לקיסם שיניים ששימוש מוקפד ומדויק בו (כפי שתיאר בפני בפרוטרוט) הבטיח שיגבר על הכריש ויגנוב את רכושו. כששאלתי: ומה אם אין לך קיסם שיניים? הוא חשב לרגע, ואז, בפנים רציניות, אמר: אז אי אפשר לשדוד אותו, חייבים קיסם שיניים. הסיפור היה בנוי היטב מבחינה לשונית, ובו בזמן שיקרי לחלוטין. במובן מסוים, הוא היה חלום בהקיץ.
איש מאדים שילמד את שפתנו, אך יחסר את הניסיון בעולם האמיתי, עשוי למצוא את הסיפור הזה הגיוני לחלוטין, שכן הוא היה עקבי ולא הכיל שגיאות לשוניות. במונחים של פילוסופיית השפה, הילד שלי יצר אוסף היגדים תקף אך שקרי (False).
מודלי שפה גדולים
בשנתיים האחרונות נרשמה צמיחה מדהימה בתחום הבינה המלאכותית (AI), ובמיוחד סביב מודלי שפה גדולים. סביר להניח שנתקלתם במודלים האלה בדרך זו או אחרת (ChatGPT, בארד של גוגל או קלוד מבית אנתרופיק ועוד). התקשורת הפופולרית התלהבה, שיבחה, וסיפקה תחזיות ומצוקות עתידיות, החל בהצהרה שרוב העבודות יהפכו למיותרות, ועד לכותרות המזהירות מפני רובוטים קטלניים שישמידו את האנושות. אבל, כפי שאומר הפתגם בעיתון של היום יעטפו מחר דגים, התקשורת נוטה לכותרות מפוצצות שתפקידן העיקרי הוא למשוך קוראים. עם זאת, לפני שנשמיע צפירת ארגעה, כדאי לתאר את הצורה שבה המודלים האלה עובדים.
מודלים גדולים של שפה (LLMs) פועלים על ידי עיבוד ויצירת טקסט דמוי-אנושי על בסיס דפוסים שלמדו מכמויות עצומות של נתונים. הם משתמשים ברשתות עצביות, במיוחד בארכיטקטורות "טרנספורמר”, כדי לנתח וליצור טקסט. המודלים מאומנים על מערכי נתונים טקסטואליים מגוונים, לומדים את הקשרים הסטטיסטיים בין מילים, ביטויים ומשפטים וכאשר ניתנת להם הנחיה (כלומר שאלה, או כל סוג של טקסט), הם חוזים ומייצרים את המילים הבאות על בסיס האימון, מה שמאפשר להם ליצור תגובות קוהרנטיות ורלוונטיות להקשר באופן סטטיסטי.
נניח שביקשנו מה-LLM לתאר כפר בישראל שמעולם לא היה קיים. רוב ה-LLMs ישמחו להגיב ולספק תיאור גאוגרפי והיסטורי (שקרי) של הכפר באופן שרוב האנשים, שאינם מודעים לכך שהכפר בדיוני, לא יוכלו לדעת שמדובר בישוב מומצא
כיוון ש-LLMs מנבאים את הטוקן הבא (טוקנים הם חלקי מילים, שניתן לחשוב עליהם בפשטות כהברות, אף שזה לא לגמרי מדויק) על בסיס הטקסטים שראו בתהליך הלמידה (עיתונים, מאמרים מדעיים, ספרים, ויקיפדיה וכדומה) הם ייצרו, כמעט תמיד, טקסט תקף מבחינה לשונית אבל לעתים דמיוני לחלוטין (מחקרים מצביעים על 20%-50% מהמקרים בממוצע, ובמקרים מסוימים הרבה יותר). לתופעה הזאת, שבה נוצר טקסט אמין לכאורה אך שיקרי, הוצמד הכינוי: "הזיות".
הבינה המלאכותית חולמת
נניח שביקשנו מה-LLM לתאר כפר בישראל שמעולם לא היה קיים. רוב ה-LLMs ישמחו להגיב ולספק תיאור גאוגרפי והיסטורי (שקרי) של הכפר באופן שרוב האנשים, שאינם מודעים לכך שהכפר בדיוני, לא יוכלו לדעת שמדובר בישוב מומצא. אבל זו הבעיה הקטנה. העלילה מסתבכת כשה-LLM מנפק בביטחון תשובה שגויה לשאלה רפואית או משפטית, וזה אכן קורה, פעמים רבות.
ממש לאחרונה, פרסמה ״גוגל״ גרסה מבוססת LLM של מנוע החיפוש המפורסם שלה. במקום לחפש באינטרנט ולקבל קישורים לדפים רלוונטיים, ניתן לשאול שאלה ולקבל תשובה. המנגנון הזה ספג ביקורת חריפה (שלא לומר הפך לבדיחה), ומסיבות טובות. אנשים ששאלו את מערכת הבינה המלאכותית החדשה איך ניתן לאפות פיצה טובה יותר או ביקשו המלצה לתזונה בריאה, קיבלו המלצות מפורטות המציעות להוסיף דבק לפיצה ולכלול סלעים בתזונה היומית שלהם.
ולמרות זאת, טוענים חוקרים מסוימים ש-LLMs יכולים להסיק מסקנות, ואפילו לחשוב, ושבינה מלאכותית כללית (המכונה AGI) וכזו שתפתח מודעות עצמית נמצאות ממש מעבר לפינה, אם לא כבר כאן. חוקרים אחרים נותרו ספקנים (אתם מוזמנים לקרוא את דעתו של יאן לקון - אחד מאבות הרשתות העצביות העמוקות – בנושא) ומתנגדים נחרצות למה שלדעתם הוא עיסוק תקשורתי מנופח ומוגזם בנושא.
הייתי רוצה להציע נקודת מבט חדשה בנושא שחומקת מן המבקרים והמשבחים כאחד.
אני חושב שה-LLMs חולמים.
הרובוט החולם
אם מניחים ש-LLM מסוים תפש את המהות של שפה כלשהי, כלומר את משמעות הפלט שייצר, אז עלינו לקבל את ה"הזיה" כמצב אפשרי ולא כבעיה שיש לפתור (וגם לא ככזו שניתן לפתור - ולו תאורטית - אבל לא אוכל להרחיב כאן בנידון מפאת רוחב היריעה).
אם נרצה להשליך על LLMs תכונות של המוח האנושי, עלינו לקבל את העובדה שיש למודלים הללו דמיון, כלומר הם יכולים לחבר "סיפורים" סבירים, מובנים היטב, עקיבים, ותקינים מבחינה לשונית, שאינם מעוגנים במציאות
אם נרצה להשליך על LLMs תכונות של המוח האנושי (הנחה שאני מבקש לחלוק עליה), עלינו לקבל את העובדה שבדומה למוח האנושי, יש למודלים הללו דמיון, כלומר הם יכולים לחבר "סיפורים" סבירים, מובנים היטב, עקיבים, ותקינים מבחינה לשונית, שאינם מעוגנים במציאות.
זוכרים הילד שלי, בן הארבע?
אם ילדים, או מחברים של יצירת מדע בדיוני, מתארים חלום או עולם אפשרי שאינו קיים, איננו מתייגים אותם כהוזים אלא משבחים אותם על הדמיון העשיר והיצירתיות. אז מדוע שנתלונן על הזיות של LLMs? כיוון שבניגוד למוח האנושי הLLMs אינם יכולים להבדיל בין דמיון למציאות.
אם LLM מתאר כפר שמעולם לא היה קיים, והשאלה הבאה שלנו תהיה: האם הכפר אמיתי? ה-LLM יאשר (במקרים רבים) שכך הוא. תוכלו להמשיך לתחקר אותו אבל ברוב המקרים הוא ייצמד לגרסתו של ה"אמת". במונחים פסיכיאטריים, היינו קוראים לאדם כזה (או ישות במקרה שלנו) הוזה. לעומת זאת, המוח האנושי הנורמטיבי אינו חשוף לתעתועים כאלה מכיוון שיש לו מנגנון פנימי המאפשר לו להבחין בין חלומות למציאות תוך מתן משקל יתר למציאות על פני החלום.
אנחנו יכולים לנסות ולעגן את טקסט הפלט של ה-LLM במציאות (באמצעות טכניקה הנקראת RAG), אבל כפי שהראו מחקרים רבים שפורסמו לאחרונה, גם הטכניקה הזאת אינה עובדת בחלק נרחב מן המקרים, במיוחד בתחומים הדורשים אפס הזיות (משפטים, פיננסים, רפואה וכדומה).
מחקרים הראו שמנגנוני הבחנה בין מציאות לדמיון, כמו אלו שעומדים לרשות המוח האנושי, קשורים ישירות לתכנים שאנו מייחסים להם פן אישי (שמות של קרובי משפחה וכן האלה), ומידע כזה קשור בטבורו לתחושת העצמי (הרי לא ייתכן תוכן אישי ללא אישיות בעלת מודעות עצמית).
קשר הדוק בין העצמי המודע ליכולת להבחין בין בדיון למציאות רומז שמנגנון סיווג המציאות מסתמך על מודעות עצמית, ומודעות עצמית היא דבר שבשעת כתיבת שורות אלו כל ה-LLMs חסרים בהגדרה
קשר הדוק כזה בין העצמי המודע ליכולת להבחין בין בדיון למציאות רומז שמנגנון סיווג המציאות מסתמך על מודעות עצמית, ומודעות עצמית היא דבר שבשעת כתיבת שורות אלו כל ה-LLMs חסרים בהגדרה (אף שלפעמים הם יפיקו טקסט שדומה למה שאדם בעל תודעה היה אומר בסיטואציה דומה).
יתר על כן, מודעות עצמית ותודעה קשורות עמוקות לגופים הפיזיים שלנו. מחקרים מסוימים טוענים שתודעה אינה יותר ממנגנון הדיווח של הגוף-מוח ל"עצמי" שהכול בסדר (או לא בסדר), כלומר היא מורכבת מסך כל הפעילות החושית הפנימית והחיצונית שלנו, מנגנון ש-LLMs מבוססי טרנספורמר חסרים.
נראה שתידרש עוד קפיצה טכנולוגית (או אפילו מספר קפיצות) מעבר לארכיטקטורת הטרנספורמר הנוכחית כדי להגיע לשם. ובינתיים, ה-LLMs ימשיכו לחלום. כך שעד כמה שטכנולוגיית הבינה מלאכותית עשויה להיראות מרגשת, ואכן יש בה אספקטים מועילים ומרגשים, היא אינה AGI, ולא תהיה בקרוב. האנושות בטוחה, לפחות לעת עתה.
“[זה] מדהים איך [LLMs] עובדים, אם מאמנים אותם בקנה מידה גדול, אבל זה מאוד מוגבל. אנחנו רואים היום שהמערכות האלה הוזות, הן לא באמת מבינות את העולם האמיתי. הן דורשות כמויות עצומות של נתונים כדי להגיע לרמת אינטליגנציה שבסופו של דבר אינה כל כך מרשימה. והן לא באמת יכולות להסיק מסקנות. הן אינן יכולות לתכנן דבר מלבד דברים שהן אומנו עליהם. אז הן לא הדרך למה שאנשים קוראים AGI. אני שונא את המונח הזה. הן שימושיות, אין ספק. אבל הן לא נתיב לקראת אינטליגנציה ברמה אנושית”.
יאן לקון, מדען הבינה המלאכותית הראשי של Meta ואחד מאבות הרשתות העצביות העמוקות, פברואר 2024
תמונה ראשית: חלומות בבינה מלאכותית. תצלום: דורון שמיע שדה, בעזרת תוכנת בינה מלאכותית.
תגובות פייסבוק
2 תגובות על חלום רובוטי
עוד אם אפשר על מודעות עצמית. פשוט חסרה בימים אלה.
אכן אכן, LLMs אינם מתיחדים בחוסר מודעות עצמית. די קל להוכיח שלא מעט אנשים בשר ודם נוהגים בדיוק כך.
איך עושה מדע?
גדעון לבמדענים מושפעים מהתקופה ומרוח הזמן, מהתרבות שהם שייכים לה, מהעובדה שהם מושקעים...
X חצי שעה
אילו יכולתי לומר לך
אילו יכולתי לומר לך: שבי כאן
על ברכיי, תני לי להחליק לך,
הו יצורון אהוב, את שיערך הרך;
לאחר מכן, בכיוון ההפוך, להתגרות בך!
אילו יכולתי לאסוף באותו חוט
(מחרוזת אינסופית!) כל צמרמורת
שגורמת לאצבעות הנוסעות, המסופקות,
לגלות סבכים חדשים!
אילו יכולתי לסגור אותך ביד הזאת,
אורגת נאמנה של קווים כה רבים,
של עלילות כה רבות של דמיון שווא,
ולהסית מישהו – נראה אם את מנחשת...
או-אז היה זה משחק אהבה פורה,
ולא החשיפה הזאת של היד הריקה!
אַלֶשַנְדְרֶה אוניל (Alexandre O'Neill), היה משורר וסופר פורטוגזי, שנולד ב-1924 והלך לעולמו ב-1986. אוניל היה מהבולטים בקרב המשוררים הסוריאליסטים הפורטוגזיים.
תרגם מפורטוגזית: יורם מלצר
בעיית התרבות בישראל
יותם יזרעאלימפני מה הזהירו אותנו נביאי העיר תל אביב? עיון בהגותם של אחד-העם...
X 22 דקות