הכי פשוט, הכי טוב

לפי עיקרון התער של אוקהם, הפשטות היא סגולה במדע. אבל מה בין הפשטות והאמת? האם תמיד צריך לשאוף לתאוריה פשוטה?
X זמן קריאה משוער: 11 דקות

שתיים מיצירות המופת האדריכליות של ברצלונה שונות זו מזו בתכלית. סַגְרָדָה פָמִילִיָה, שתוכננה על-ידי אנטוני גאודי (Gaudi), נמצאת מרחק קילומטרים ספורים בלבד מהביתן הגרמני, שנבנה על-ידי לודוויג מיס ון דר רוהה (Rohe). הכנסייה של גאודי ראוותנית ומורכבת. הביתן של מיס שליו ופשוט. מיס, אבי האדריכלות המינימליסטית, השתמש בסיסמה "פחות זה יותר" כדי להסביר למה הוא שואף. גאודי מעולם לא אמר "יותר זה יותר", אבל בנייניו מלמדים כי זאת הייתה גישתו.

הבעיה הגדולה היא להסביר מדוע מידת פשטותה של תיאוריה משפיעה על יכולתנו להבין את טיבו של העולם

יש המכריעים בין מיס לגאודי על סמך תפישה אמנותית גורפת: אם אנו חושבים שכל האמנות צריכה להיות פשוטה, או אם אנו חושבים שכל האמנות צריכה להיות מורכבת, ברור לנו לגמרי במי יש לצדד. אבל שתי הנורמות האלה נראות מגוחכות. הרי יש יצירות פשוטות הראויות להערכה, ויש יצירות מורכבות הראויות להערכה. נכון, יש גם מקרי קיצון שחורגים מהמקובל – אמנות מורכבת מדי מעוררת בנו ניכור, ואמנות פשוטה מדי משעממת אותנו – אך בין שתי נקודות הקיצון האלה יש טווח רחב של אפשרויות. לאמנים שונים יש מטרות שונות. אמנים אינם מנסים לזהות איזושהי דרגת מורכבות מדויקת אשר הולמת את כל יצירות האמנות באשר הן. לא קיים אידיאל נצחי כזה.

Sagrada Familia, סגרדה פמיליה, ברצלונה

כנסיית Sagrada Familia, ברצלונה. תצלום: גרי אולה

המדע שונה. בכל אופן, כך טוענים לא מעט מדענים. אלברט איינשטיין דיבר בשם רבים כשאמר, "מטרתה העליונה של כל תיאוריה היא לדאוג שרכיבי היסוד שלה, אשר אינם ניתנים לרדוקציה, יהיו פשוטים ומעטים ככל האפשר בלי לפגוע בייצוג ההולם של אף אחד מהיבטי החוויה". אם כך, החיפוש אחר תיאוריות פשוטות הוא אחד מאילוצי המדע. כשתיאוריות נעשות מורכבות מדי, מדענים פונים לתער של אוקהם, לעיקרון הצמצום, ומגלחים באמצעותו את המיותר. העיקרון אומר שתיאוריה המבוססת על מספר קטן של ישויות, תהליכים או גורמים, טובה יותר מתיאוריה המבוססת על ישויות, תהליכים או גורמים רבים, כל עוד התיאוריה הפשוטה תואמת את התצפיות. אבל מה משמעות "טובה יותר"? מובן שתיאוריות פשוטות עשויות להיות יפות יותר מתיאוריות מורכבות, וגם קלות יותר להבנה, לזכירה ולבדיקה. הבעיה הגדולה היא להסביר מדוע מידת פשטותה של תיאוריה משפיעה על יכולתנו להבין את טיבו של העולם.

ניוטון חושב שהגיוני להעדיף תיאוריות פשוטות יותר, בין שאנו מנסים לפרש את כתבי הקודש ובין שאנו מנסים לגלות את חוקי הפיזיקה

אחת הגושפנקות המדעיות המפורסמות ביותר לתער של אוקהם נמצאת ב"עקרונות מתמטיים של פילוסופיית הטבע" של אייזק ניוטון (1687), שם הוא ציין את ארבעת כללי החשיבה הפילוסופית. הנה השניים הראשונים:

כלל ראשון. כדי להסביר תופעות טבעיות יש להחשיב אותן סיבות נכונות ומספיקות שיש בהן כדי להניב הסבר לתופעה. והפילוסופים אומרים: הטבע אינו עושה דבר לשווא, ועל כן אין טעם לחפש לשווא אחר סיבות רבות כשדי בסיבות מעטות. הטבע פשוט ואינו מרשה לעצמו מותרוֹת כגון סיבות מיותרות.

כלל שני. על כן הסיבות המיוחסות לתופעות טבעיות מאותו סוג צריכות להיות זהות, במידת האפשר. דוגמאות לכך הן סיבת הנשימה באדם ובחיה, או סיבת נפילתן של אבנים באירופה ובאמריקה, או הסיבה לאור הבוקע מהאש הבוערת במטבח ומהשמש, או הסיבה להחזרת האור מכדור הארץ ומשאר כוכבי הלכת.

ניוטון אינו משקיע מאמץ רב בהצדקת הכללים האלה, אבל בפרשנות שמעולם לא פורסמה ל"חזון יוחנן", הוא מרחיב. הנה אחד מ"הכללים לפירוש שיטתי של אחרית הימים":

"לבחור את המבנים המפשטים את משמעות הדברים ללא מאמץ. הסיבה לכך היא... [ש]האמת טמונה תמיד בפשטות, ולא בריבוי דברים ובבלבול. זוהי השלמות של בריאת האל: כל יצירי כפיו עשויים בפשטות רבה. הוא אלוהי הסדר, לא אלוהי הבלבול. זאת הסיבה שכל מי שמנסה להבין את דרכו של עולם חייב להביא את הידע שלו לצורתו הפשוטה ביותר, וכך גם עלינו לפעול בעודנו מנסים להבין את החזונות האלה..."

ניוטון חושב שהגיוני להעדיף תיאוריות פשוטות יותר, בין שאנו מנסים לפרש את כתבי הקודש ובין שאנו מנסים לגלות את חוקי הפיזיקה. התער של אוקהם הולם את שתי המשימות האלה, מכיוון שהיקום נברא על-ידי אלוהים.

אדוארדו פאולוצי, ניוטון, הספרייה הבריטית, Paolozzi

"ניוטון לפי ויליאם בלייק", פסל מאת אדוארדו פאולוצי (Paolozzi), 1995, מחוץ לספרייה הבריטית, לונדון. תצלום: ויקיפדיה

במאה העשרים הצליחו פילוסופים, סטטיסטיקאים ומדענים להתקדם בניסיונם להבין מדוע מידת פשטותה של תיאוריה משפיעה על יכולתנו להעריך את טיבו של העולם. ההצדקות שלהם לשימוש בתער של אוקהם אינן מבוססות על עקרונות תיאולוגיים או על איזושהי תיאוריה גרנדיוזית לגבי פשטותו של הטבע. ישנן, לכל הפחות, שלוש "פרדיגמות של צמצום" שבמסגרתן ניתן להצדיק את התער.

את הראשונה אפשר להמחיש באמצעות העצה הניתנת לסטודנטים אמריקנים לרפואה: "לא לרדוף אחרי זברות". אם אפשר להסביר את התסמינים של מטופל באמצעות ההשערה שהוא חולה במחלה השכיחה ש', ואפשר גם להסביר אותם באמצעות ההשערה שהוא חולה במחלה הנדירה נ', יש להעדיף את האבחנה ש' על פני האבחנה נ'. האבחנה ש' חסכנית יותר. במקרה זה, הסיכוי שהשערה החסכנית היא נכונה, גבוה יותר.

ישנו מצב נוסף שבו לתיאוריות פשוטות יש סיכוי גבוה יותר להיות נכונות. מדובר בגרסה של התער של אוקהם, שאני מכנה "תער השתיקה". אם יש לכם ראיות לכך ש-ס'1 [סיבה 1] היא הסיבה ל-ת' [תוצאה], ואין לכם ראיות לכך ש-ס'2 היא הסיבה ל-ת', הרי ש-ס'1 היא הסבר טוב יותר ל-ת' מאשר ס'1 וגם ס'2. הפילוסוף בן המאה התשע עשרה ג'ון סטיוארט מיל חשב על מקרים כגון זה כשאמר שעיקרון הצמצום הוא:

"מקרה פרטי של עיקרון מעשי רחב, לפיו אין להאמין בדבר שאין לו ראיות... הנחת קיומה של סיבה מיותרת היא אמונה ללא ראיה; כאילו אנו אמורים להניח שאדם שנהרג בנפילה ממצוק לבטח גם בלע רעל".

מיל מדבר על תער השתיקה. ההסבר הטוב ביותר ל-ת' "שותק" לגבי ס'2. הוא אינו מכחיש ש-ס'2 היא סיבה ל-ת. הבעיה משתנה אם בוחנים שתי השערות הנוגעות לשתי הסיבות גם יחד. איזה מההסברים הבאים עדיף: ס'1 וגם לא ס'2 או ס'1 וגם ס'2? תער השתיקה אינו עוזר לנו כאן, אבל תער אחר – תער ההכחשה – בא להצלתנו. הוא אומר לנו להעדיף את ההסבר הראשון. לרוע המזל, לא ברור איזו הצדקה יש לטענה הזאת אם אין לנו ראיות – לכאן או לכאן – לגבי נכונותה של ס'2. את תער השתיקה קל להצדיק. את תער ההכחשה קשה יותר להצדיק.

בדוגמה של המחלה השכיחה והמחלה הנדירה, לשתי ההשערות יש אותו סיכוי להיות נכונות על-פי התצפיות (התסמינים, במקרה הנ"ל). פרדיגמת הצמצום השנייה מתמקדת במצבים שבהם להשערה פשוטה ולהשערה מורכבת יש סיכויים שונים להיות נכונות על-פי התצפיות. בחלק גדול מהמקרים האלה, הראיות מבכרות את התיאוריה הפשוטה על-פני יריבתה המורכבת. לדוגמה, נניח שכל הפנסים בשכונה שלכם כבים באותו זמן. אתם שוקלים שתי השערות:

ה'1: בשעה שמונה בערב ביום שלישי קרה בתחנת הכוח דבר מה שהשפיע על כל הפנסים. או –

ה'2: בשעה שמונה בערב ביום שלישי קרה לכל אחד מהפנסים דבר מה (נבדל) שהשפיע עליו.

ההשערה המתייחסת לסיבה אחת משותפת היא חסכנית יותר מההשערה המתייחסת לסיבות רבות שאינן קשורות זו לזו. האפלה בו זמנית של כל פנסי השכונה סבירה יותר אם ה'1 נכונה מאשר אם ה'2 נכונה. בעזרת תפישותיו של הפילוסוף הנס רייכנבך (Reichenbach), ניתן להוכיח מתמטית (על-פי הנחות המחדדות את משמעותן של ה'1 ו-ה'2) שהתצפיות בשטח מבכרות את ה'1 על-פני ה'2. קוראים בעלי סקרנות מתמטית מוזמנים לעיין בספרי Ockham’s Razors: A User’s Manual (משנת 2015).

דוגמה ביולוגית חשובה, שבה סיבות שכיחות מקבלות עדיפות על-פני סיבות מורכבות, היא השערתו של צ'רלס דרווין שכל החיים הקיימים כיום נוצרו מאב קדמון משותף (או מספר אבות קדמוניים משותפים). ביולוגים מודרניים מסכימים ביניהם כי האוניברסליות של הקוד הגנטי מבכרת בבירור את השערת האב הקדמון המשותף על-פני ההשערה לפיה קיימים אבות קדמוניים רבים. הקוד המשותף אכן יתברר כצירוף מקרים משונה אם יתגלה שקבוצות שונות של אורגניזמים נוצרו בנקודות התחלה שונות. סביר הרבה יותר שכל צורות החיים הקיימות נוצרו מאב קדמון משותף אחד.

על-פי פרדיגמת הצמצום השלישית, לעיקרון הצמצום יש חשיבות בבואנו לבחון אם מודל כלשהו יצליח לחזות במדויק תצפיות חדשות. הירוֹטוּגוּ אַקַיְיקֶה (Akaike) הגיע להישג בולט בתחום הסטטיסטי המכונה "תיאוריית בחירת המודל" (model selection theory), כאשר הוכיח משפט מתמטי מפתיע, הממחיש את החשיבות הזאת. המשפט הוא התשתית לקריטריון הערכת מודלים המכונה AIC (ראשי תיבות של Akaike Information Criterion). קריטריון זה אומר שאפשר להעריך את יכולתו של מודל לחזות נתונים חדשים כשבוחנים עד כמה הוא תואם נתונים ישנים ועד כמה הוא פשוט.

הנה דוגמה. אתם נוהגים בכביש כפרי בסוף הקיץ ומבחינים בשני שדות תירס עצומים משני צדי הכביש. אתם עוצרים את המכונית ודוגמים מאה צמחי תירס מכל שדה. אתם רואים שהגובה הממוצע של כל צמח במדגם הראשון הוא 52 אינץ', ושהגובה הממוצע של כל צמח במדגם השני הוא 56 אינץ'. מכיוון שאנחנו בשלהי עונת הגידול, אתם מניחים שהגבהים הממוצעים בשני השדות לא ישתנו במהלך הימים הקרובים. אתם מתכננים לחזור מחר ולדגום 100 צמחים נוספים מכל שדה. אילו מהתחזיות הבאות מדויקת יותר לדעתכם?

תחזית א': מאה הצמחים שתדגמו מחר מהשדה הראשון יהיו בגובה ממוצע של 52 אינץ', ומאה הצמחים שתדגמו מחר מהשדה השני יהיו בגובה 56 אינץ'.

תחזית ב': הגובה הממוצע של שתי הדגימות יהיה 54 אינץ'.

תיאוריית בחירת המודל אומרת שנוכל לפתור את הבעיה אם נשקול את שני המודלים הבאים לחיזוי גובהן הממוצע של הדגימות:

מודל DIFF: הגובה הממוצע של הדגימה הראשונה = ג'1, והגובה הממוצע בדגימה השנייה = ג'2.

מודל NULL: הגובה הממוצע בדגימה הראשונה = הגובה הממוצע בדגימה השנייה = ג'.

אף אחד מהמודלים האלה אינו אומר מה יהיו הערכים של ג'1, ג'2 ו-ג'. אלה "פרמטרים ניתנים להתאמה" (adjustable parameters). מודל NULL נקרא כך כי הוא אומר שלא יהיה הבדל בין גובה הדגימות הממוצע. השם שנתתי למודל DIFF [מלשון difference, הבדל] מעט מטעה, כי המודל אינו אומר שיהיה הבדל בגבהים הממוצעים, אלא שישנה אפשרות להבדל. אבל המודל משאיר גם מקום לאפשרות שגובהן הממוצע של שתי הדגימות יהיה זהה.

מה חוזים DIFF ו-NULL לגבי הנתונים שתאספו בשדות מחר? המודלים לבדם אינם נותנים לנו מספרים מדויקים. אבל נוכל להתאים כל אחד מהם לנתונים שכבר אספנו באמצעות אומדן של ערכי הפרמטרים-הניתנים-להתאמה (ג'1, ג'2 ו-ג'). אלה שתי התוצאות [ג = h, כלומר height]:

f(DIFF): h1= 52 inches, and h2 = 56 inches.

f(NULL): h = 54 inches.

כשאנו שואלים איזה מודל יחזה באופן מדויק יותר את הנתונים החדשים, אנו מתכוונים למעשה לשאול: לאור הנתונים הישנים שברשותנו, איזה מודל יחזה באופן מדויק יותר את הנתונים החדשים שעדיין לא אספנו?

שדה תירס

שדה תירס. תצלום: תאופילוס פפדופולוס

אולי אתם אומרים לעצמכם: DIFF בוודאי נכון. ואולי אתם אומרים לעצמכם: אין סיכוי ש-NULL נכון. מה הסיכויים שהגובה הממוצע של צמחי תירס יהיה זהה בשתי דגימות עצומות? אם המטרה שלכם היא לקבוע איזה מהמודלים נכון ואיזה לא, אז כאן נגמר הסיפור. אבל זו אינה הבעיה שאנו עוסקים בה. המטרה שלנו היא להעריך את יכולות החיזוי של המודלים האלה. אחת העובדות המפתיעות לגבי מודלים כמו NULL ו-DIFF היא שמודל שכבר הוכח כשגוי, עשוי לעתים להניב תחזיות מדויקות יותר מאשר מודל שהוכח כנכון. אמנם NULL הוא מודל שגוי, ואף על פי כן התחזית שלו עשויה להיות קרובה לאמת. ואם זה המצב, אולי עדיף לנו להשתמש ב-NULL כדי לחזות נתונים חדשים במקום להשתמש ב-DIFF. אחרי הכול, ייתכן שהנתונים הישנים אינם נתונים מייצגים! מודל NULL משאיר אותנו על דרך הישר, ואילו DIFF מפתה אותנו לסטות.

קריטריון AIC מעריך את NULL ו-DIFF על-פי שתי עובדות: הפונקציה f(DIFF) מתאימה לנתונים הישנים יותר מאשר הפונקציה f(NULL), והמודל DIFF מורכב יותר מהמודל NULL. במקרה זה, מורכבותו של המודל נובעת ממספר הפרמטרים הניתנים להתאמה שהמודל כולל. כפי שאמרתי, AIC מבוסס על המשפט של אקייקה, שאותו ניתן לתאר, באופן בלתי פורמלי, כך:

הערכה בלתי מוטה של יכולת החיזוי של מודל M היא: [מידת ההתאמה של f(M) לנתונים הישנים] פחות [מספר הפרמטרים הניתנים להתאמה ש-M כולל].

לכן, תוצאה מתמטית עשויה להוכיח שצמצום הוא רלוונטי להערכת יכולות החיזוי של מודל.

המשפט של אקייקה הוא משפט מתמטי, כלומר הוא נגזר מהנחות. שלוש הנחות, במקרה זה. הראשונה היא שהנתונים הישנים והחדשים נובעים מאותה מציאות יסודית. בדוגמה שלנו, ההנחה הזאת תאוּשש אם הגובה הממוצע של כל דגימה יישאר זהה גם בנתונים החדשים; ההנחה השנייה היא שהערכות חוזרות של כל אחד מהפרמטרים במודל ייצרו התפלגות פעמון; ההנחה השלישית היא שאחד משני המודלים המתחרים הוא נכון, או קרוב לאמת. בדוגמה שלנו, ההנחה הזאת מאוּששת כיוון ש-NULL או DIFF חייבים להיות נכונים.

גאודי ומיס מזכירים לנו שבאמנות, פשטות ומורכבות הן עניין של טעם. איינשטיין וניוטון אומרים שהמדע שונה – הפשטת במדע אינה עניין של טעם. רייכנבך ואקייקה נותנים לנו סיבות אחדות לכך. התוצאה היא שלוש פרדיגמות של צמצום, המסבירות מדוע פשטותה של תיאוריה משפיעה על יכולתה להעריך את טיבו של העולם:

פרדיגמה 1: לפעמים, לתיאוריות פשוטות יותר יש הסתברות גבוהה יותר.

פרדיגמה 2: לפעמים, התצפיות מבכרות תיאוריות פשוטות על-פני תיאוריות מורכבות.

פרדיגמה 3: לפעמים, פשטותו של מודל משפיעה על מידת הדיוק שלו.

לשלוש הפרדיגמות האלה יש דבר מה חשוב במשותף. מידת התאמתן לבעיה נתונה תלויה בהנחות אמפיריות לגבי הבעיה עצמה. ההנחות האלה עשויות להיות נכונות בנוגע לבעיות אחדות, אך לא נכונות בנוגע לאחרות. אף על פי שאפשר להדגים כיצד הצמצום משפיע על יכולתנו להעריך את טיבו של העולם, הרי בסופו של דבר לא קיימות הצדקות מוחלטות ובלתי תלויות לתער של אוקהם.

אליוט סובֶֹּר (Sober) הוא מרצה לפילוסופיה באוניברסיטת ויסקונסין במדיסון. ספרו האחרון הוא Ockham’s Razors: A User’s Manual (משנת 2015).

AEON Magazine. Published on Alaxon by special permission. For more articles by AEON, follow us on Twitter.

תורגם במיוחד לאלכסון על ידי תומר בן אהרון

תמונה ראשית: חץ חוצה תפוח. תצלום: Rubberball/Mike Kemp, אימג'בנק / גטי ישראל

מאמר זה התפרסם באלכסון ב על־ידי אליוט סובר, AEON.

תגובות פייסבוק

2 תגובות על הכי פשוט, הכי טוב

01
חיים

קראתי את המאמר בזעם גובר והולך. כיוון שיש לי הבנה באדריכלות, קראתי בתימהון את ההשוואה בין גאודי למיס ון דה רוהה, אמרתי לעצמי: מה הקשקוש הזה? לשמחתי הדיון נגמר ועבר לניוטון. מסתבר שניוטון המתמתיקאי הגאוני היה גם מאמין שוטה ב"חזון יוחנן" ומי יודע באילו אמונות מיסטיות נוספות, שהרלוונטיות שלהן למדע היא אפסית. מה הקשר בין נטיות ליבו של אלוהים, שאולי קיים, וקרוב לוודאי שהוא המצאה אנושית והקיום היחידי שלו הוא במוחו הקודח של המאמין, לבין עקרונות המדע?
כאשר מגיע המאמר סוף סוף לקרקע, הוא מתחיל מדוגמא מופרכת מאין כמותה:
"...אם אפשר להסביר את התסמינים של מטופל באמצעות ההשערה שהוא חולה במחלה השכיחה ש', ואפשר גם להסביר אותם באמצעות ההשערה שהוא חולה במחלה הנדירה נ', יש להעדיף את האבחנה ש' על פני האבחנה נ'. האבחנה ש' חסכנית יותר. במקרה זה, הסיכוי שהשערה החסכנית היא נכונה, גבוה יותר..."
קראתי שאחוז גבוה מאוד של חולים מתים ממחלות נדירות. הסיכוי למות ממחלה נדירה גדול הרבה יותר מהסיכוי למות ממחלה שכיחה. הסיבה היא נטיית הלב להעדיף את המוכר והשכיח על הנדיר. במציאות, הרופא שנתקל בתסמינים של מחלה מוכרת, אף איננו טורח לבדוק אולי הם מתאימים גם למחלה נוספת, פחות שכיחה. ההנחיה הנכונה אסור לה שתהיה להעדיף את המחלה השכיחה על הנדירה, אלא לחפש דרך לגלות במי משתי המחלות סובל החולה. יש כאן בלבול בין סטטיסטיקה שתקפותה מוגבלת לאוכלוסיות גדולות, לבין החולה האחד. גם אם ההסתברות למחלה הנדירה קטנה יותר, עדיין עדיף לטפל במחלה האמיתית, ולא במחלה אחרת, שהיא שכיחה יותר.
עניין אחר. כמו שהראה כבר דניאל כהנמן, סטטיסטיקה והסתברויות אינן אינטואיטיביות. האינטואיציה לעתים קרובות נותנת תוצאה שגויה. באופן מפתיע, גם אצל מי שלכאורה מבין בתחום. אחת המסקנות המתבקשות היא שכאשר חושבים סטטיסטיקה, כדאי להימנע מסיבוכים מיותרים. והנה, במקום להתייחס ל"שכיחה" ול"נדירה", המאמר נותן בהם סימנים: שכיחה היא "ש", נדירה היא "נ". הסימול הזה איננו מוסיף שום אינפורמציה, אלא רק סיבוך וסירבול.
וכה הלאה, וכה הלאה.
מאז שקראתי לראשונה על עיקרון התער, חשבתי שהעיקרון הזה איננו חשוב, שההכרעה בין שתי תאוריות צריכה להיות על פי זה שהם יכולות להציע דרך לבדוק אותן (מבחן הפרכה - פופר), הדיוק של התחזיות שהן נותנות וכו' והדברים ידועים. העיקרון של אוקאם הוא ההיפך מ"המתודה המדעית" שהמציאו הפילוסופים היוונים, ושהביאה אותנו לאן שאנו נמצאים.
קיויתי לגלות במאמר ולו טיעון אחד מעניין, והתאכזבתי.

02
איתן ארז

... והנאתי שלי דווקא הלכה וגדלה. החל מהצירוף של גאודי וואן דר רוהה, והמשך בפירוקים האפשריים של תער אוקהם האהוב עלי.
תודה לתומר בן אהרון.