p-כמה?

המחקר הפסיכולוגי והרפואי נתון במשבר של חוסר מהימנות. הסיבה ברורה: איננו יודעים להשתמש נכון בכלים של הסתברות
X זמן קריאה משוער: 10 דקות

מטרת המדע היא לקבוע עובדות באופן מדויק ככל האפשר. לכן חשוב ביותר לוודא אם תופעה נצפית היא אמיתית, או שמא מדובר במקרה ותו לא. אם אתם מכריזים שגיליתם דבר מה, כשבפועל מדובר בתוצאה אקראית, הרי שזוהי תגלית כוזבת, או "חיובי כוזב" (false positive). ושיעור החיוביים הכוזבים בחלק מתחומי הרפואה מדאיג ביותר.

ב-2005, האפידמיולוג ג'ון יואנידיס (Ioannidis) מאוניברסיטת סטנפורד חולל סערה כשכתב מאמר בשם "מדוע רוב ממצאי המחקרים שמתפרסמים הם כוזבים". יואנידיס מתמקד בתוצאות שהתקבלו ממחקרים בחלק מתחומי הביו-רפואה, ובדיקות נוספות הצדיקו את טענותיו. לדוגמה, בכתבה שהתפרסמה לאחרונה נאמר כי לאחר בדיקה חוזרת של מאה תוצאות שונות מתחום הפסיכולוגיה הניסויית, התברר כי המסקנות המקוריות היו נכונות רק בשלושים ושמונה אחוז מהמקרים. סביר להניח שהמצב בתחומי הדימות המוחי ומדעי המוח הקוגניטיביים גרוע לא פחות. כיצד זה ייתכן?

לא פשוט להבחין בין תופעה אמיתית לצירוף מקרים

לא פשוט להבחין בין תופעה אמיתית לצירוף מקרים. הבעיה הזאת נידונה כבר מאות שנים על-ידי פילוסופים וסטטיסטיקאים (דיוניהם של הסטטיסטיקאים היו מועילים יותר). הדיון נסוב על ההבחנה בין אינדוקציה לדדוקציה. המדע הוא תרגיל באינדוקציה: אנחנו מבצעים תצפיות ומנסים להסיק מהן חוקים כלליים. אינדוקציה לעולם אינה ודאית. דדוקציה, לעומת זאת, היא מלאכה פשוטה יותר: אתם מסיקים מה תצפו לראות במידה שחוק כללי כלשהו תקף, ואז משווים זאת לתצפית בפועל. הבעיה היא, מבחינת מדענים, שטיעונים דדוקטיביים אינם עונים ישירות על השאלות שהם רוצים לשאול.

סריקות מוח, אזורים במוח

דימוי של אזורים במוח. תצלום: Wellcome Images

כשמדענים טוענים שתופעה כלשהי היא אמיתית ולא מקרית, הדבר החשוב מבחינתם הוא באיזו תדירות הם טועים. זוהי שאלה של אינדוקציה, ולכן זוהי שאלה קשה. בראשית המאה העשרים נהגו מדענים להתחמק מאינדוקציה: הם שינו את השאלה כך שתדרוש דדוקציה בלבד. בשנות העשרים הצטרף הסטטיסטיקאי רונלד פישר (Fisher) למגמה הזאת: הוא קרא למדענים לבצע בדיקות של מובהקות סטטיסטית. הבדיקות האלה הן דדוקטיביות לגמרי, ולכן עוקפות את הבעיה הפילוסופית הכרוכה באינדוקציה.

בתיאוריה, ברור שטוב לזהות סימני מחלה בשלב מוקדם. אבל בפועל ישנן אבחנות "חיוביות כוזבות" רבות כל כך שהתהליך הזה פשוט אינו יעיל

בדיקות מובהקות סטטיסטית מחשבות את ההסתברות שבה נבחין בתופעה כלשהי (או בתופעה קיצונית יותר) על אף שהיא אינה אמיתית. אין זה אומר שאנו טוענים כי תופעה אמיתית אינה קיימת – זהו חישוב המציין למה עלינו לצפות אם אין כאן תופעה אמיתית. ההנחה שאין תופעה אמיתית נקראת "השערת האפס", וההסתברות נקראת ערך-p. ככל שערך-p קטן יותר, כך קטנה סבירותה של השערת האפס, כלומר ההסתברות שמדובר בתופעה אמתית גדולה. כל שעליכם לעשות הוא להחליט כמה קטן הערך-p צריך להיות כדי שתוכלו להכריז שביצעתם תגלית. אבל מסתבר שזוהי משימה קשה מאוד.

הבעיה היא שערך-p נותן לנו את התשובה הנכונה לשאלה השגויה. מה שאנחנו באמת רוצים לדעת אינו ההסתברות לתצפיות מסוימת לאור השערה לגבי קיומה של תופעה אמיתית, אלא ההסתברות שיש תופעה אמיתית – שההשערה נכונה – לאור התצפיות. וזוהי בעיה של אינדוקציה.

הבלבול בין שתי ההסתברויות האלה, השונות מאוד זו מזו, הוא הסיבה העיקרית לכך שלעתים קרובות אנו מפרשים ערכי-p בצורה שגויה. הטעות הזאת נקראת שגיאה של "היפוך התניות" (transposed conditional). אפילו מקורות מכובדים ביותר יאמרו לכם שערך-p הוא ההסתברות שתצפיותיכם התרחשו במקרה. וזוהי טעות גסה.

נניח, למשל, שאתם נותנים גלולה לעשרה אנשים. אתם מודדים תגובה כלשהי (למשל, לחץ הדם שלהם). לכל אדם תהיה תגובה שונה. ואתם נותנים גלולה שונה לקבוצה אחרת בת עשרה אנשים, ושוב מקבלים עשר תגובות שונות. כיצד תדעו אם שתי הגלולות שונות זו מזו?

ההליך המקובל הוא להישמע לפישר ולחשב את ההסתברות שתצפו בתופעה כלשהי (או בתופעה קיצונית יותר) גם אם אין הבדל אמיתי בין הגלולות. זה הערך-p שלכם, והוא מבוסס על דדוקציה. ערכי-p של פחות מחמישה אחוזים נחשבים "מובהקים סטטיסטית", מונח רווח בספרות הביו-רפואית, שמשמעותו כיום היא שהתופעה היא אמיתית ואינה מקרית.

אבל הדיכוטומיה של "מובהק" ו"לא מובהק" היא מגוחכת. ברור שיש הבדל קטן ביותר בין ההשלכות הנובעות מערך-p של 4.7 אחוז להשלכות הנובעות מערך-p של 5.3 אחוז, אבל הראשון נחשב כיום להצלחה והשני לכישלון. ו"הצלחה" תזַכה אתכם בפרסום, אפילו בכתבי העת המכובדים ביותר. הבעיה הזאת גרועה מספיק בפני עצמה, אבל הדבר הנורא באמת הוא שאם אנחנו מזהים תופעה "מובהקת בקושי", למשל P=0.047 (4.7 אחוז) במבחן בודד, ונטען בעקבות זאת שלפנינו תגלית, הסיכוי שאנחנו טועים הוא לפחות עשרים וששה אחוז, ועלול להיות אפילו גבוה משמונים אחוז. מדוע זה המצב?

ראשית, אין הרבה טעם לומר שהתופעה שזיהינו היא נדירה במקרה שאין הבדל אמיתי בין הגלולות (זה מה שערך-p אומר לנו), אלא אם אפשר לומר גם אם התופעה הזאת נדירה אף במקרה שיש הבדל בין הגלולות. וכאן אנחנו חוזרים לאינדוקציה.

בעיית האינדוקציה נפתרה, ברמת העיקרון, על-ידי הכומר תומס בייס (Bayes) באמצע המאה השמונה עשרה. הוא הראה איך להמיר את ההסתברות שנצפה בתופעה כלשהי לאור השערה שקבענו מבעוד מועד (בעיית הדדוקציה) במה שאנחנו באמת רוצים – ההסתברות שההשערה היא נכונה לנוכח מספר מסוים של תצפיות (בעיית האינדוקציה). אבל איך צריך להשתמש במשפט המפורסם שלו? השאלה הזאת נתונה למחלוקת סוערת עד היום.

נבחן, לדוגמה, את הטענה שכדור הארץ סובב סביב השמש. או שהוא סובב סביב השמש או שלא, ולכן קשה להבין איך אפשר לקבוע הסתברות לטענה הזאת. יתר על כן, ההמרה הבייסיאנית דורשת מאיתנו לקבוע מהי ההסתברות שההשערה שלנו נכונה לפני שצפינו בתופעה ("הסתברות פריורית"). המשפט של בייס מאפשר לנו להמיר את ההסתברות הפריורית לדבר שאנחנו באמת רוצים – ההסתברות שההשערה שלנו נכונה לנוכח תצפיות רלוונטיות שביצענו. זוהי "הסתברות פוסטריורית".

בגלל ערכי ההסתברות המופשטים האלה השתכנע פישר שהגישה של בייס אינה ישימה. לכן הוא הציע במקומה תהליך דדוקטיבי לחלוטין לבדיקת מובהקות של השערות-אפס. אבל ההבנה שהשיטה הנפוצה הזאת מולידה מספר גדול להחריד של חיוביים כוזבים דרבנה לאחרונה חוקרים אחדים לנסות לגשר על הפער.

יש שימוש אחד במשפט של בייס שאינו שנוי במחלוקת: בדיקות סקר, כלומר הבדיקות שרופאים עושים לאנשים בריאים כדי לזהות סימני אזהרה למחלה. זוהי דרך טובה להבין את סכנותיה של הגישה הדדוקטיבית.

סדרט השד, בדיקות סקר, גילוי מוקדם

משאית בטון מגויסת לקידום המודעות לבדיקות סקר לגילוי סרטן השד. תצלום: TruckPR

בתיאוריה, ברור שטוב לזהות סימני מחלה בשלב מוקדם. אבל בפועל ישנן אבחנות "חיוביות כוזבות" רבות כל כך שהתהליך הזה פשוט אינו יעיל. נראה לדוגמה את נושא הדמנציה. כאחוז אחד מהאוכלוסייה סובל מליקוי קוגניטיבי כלשהו שעלול להוביל לדמנציה, אך לא בהכרח יוביל אליה. נניח שהבדיקה יעילה למדי: בתשעים וחמישה אחוז מהמקרים היא נותנת תשובה נכונה (שלילית) לאנשים שאינם סובלים מליקוי קוגניטיבי. משמעות הדבר היא שאצל חמישה אחוז מהאנשים שאינם סובלים מליקוי קוגניטיבי, נקבל תוצאה חיובית כוזבת. זה לא נשמע רע כל כך. הדבר שקול לגמרי לבדיקות מובהקות שנותנות לנו חמישה אחוז של חיוביים כוזבים כשאין תופעה אמיתית, אם נגדיר שערך-p של פחות מחמישה אחוזים משמעו "מובהק סטטיסטית".

אבל בפועל בדיקת הסקר אינה טובה כל כך – למעשה היא רעה מאוד, מכיוון ששמונים ושישה אחוז, ולא חמישה אחוזים, מכל הבדיקות החיוביות מתגלות כחיוביים כוזבים. לכן רק ארבעה עשר אחוז מהבדיקות שתוצאותיהן חיוביות הן מדויקות. זה קורה כי לרוב האנשים אין ליקוי קוגניטיבי ולכן החיוביים הכוזבים שהתגלו אצלם (חמישה אחוז מתוך תשעים ותשעה אחוז מכלל הנבדקים), הם בעלי משקל רב יותר ממספר החיוביים האמיתיים, שמגיע ממספר קטן הרבה יותר של אנשים שבאמת סובלים מליקוי קוגניטיבי (שמונים אחוז מתוך אחוז אחד מכלל הנבדקים, בהנחה שזיהינו בהצלחה שמונים אחוז מהאנשים הסובלים מהליקוי). ישנו סרטון ביוטיוב שבו אני מנסה להסביר את העיקרון הזה, ואתם מוזמנים גם לקרוא מאמר שכתבתי לאחרונה בנושא.

אבל שימו לב שאנחנו יכולים לחשב את שיעור החיוביים הכוזבים המזעזע בבדיקות הסקר רק מפני שיש לנו הערכות לשכיחותה של המחלה באוכלוסיית הנבדקים כולה. זוהי ההסתברות הפריורית שאנו זקוקים לה כדי ליישם את המשפט של בייס. אם נחזור לבעיית בדיקות המובהקות, נגלה ששם המצב מסובך יותר. במקרה של הגלולות, המקבילה לשכיחות המחלה באוכלוסייה היא ההסתברות שישנו הבדל אמיתי בין הגלולות לפני עריכת הניסוי – ההסתברות הפריורית שישנה תופעה אמיתית. ובדרך כלל בלתי אפשרי לנחש בקירוב את הערך הזה.

דוגמה תעזור לכם לתפוש את העניין. תארו לכם בדיקה של אלף תרופות שונות, זו אחר זו, שמטרתה לבדוק אילו מהן יעילות ואילו לא. יהיה לכם מזל אם עשרה אחוז מהן יעילות. אם כך, בואו נקבע שכיחות, או הסתברות מראש, של עשרה אחוזים. נאמר שקיבלנו תוצאה "מובהקת בקושי", למשל P=0.047 בבדיקה בודדת, ואנו מכריזים שזוהי ראיה לתגלית. הטענה הזאת שגויה, ולא רק בחמישה אחוז מהמקרים, כפי שנהוג לחשוב, אלא בשבעים ושישה אחוז מהמקרים. זהו נתון גבוה להחריד. בדיוק כמו בבדיקות הסקר, הסיבה לשיעור הטעויות הגבוה הזה היא שמספר החיוביים הכוזבים בבדיקות שבהן אין תופעה אמיתית עולה על מספר החיוביים האמיתיים בבדיקות שבהן יש תופעה אמיתית.

אבל באופן כללי איננו יודעים מה שיעור הימצאותן האמיתית של תופעות אמיתיות. לכן, אף שאנו יכולים לחשב ערך-p, איננו יכולים לחשב את מספר החיוביים הכוזבים. אבל אנחנו כן יכולים לתת ערך מינימלי לשיעור החיוביים הכוזבים. לשם כך אנחנו צריכים רק להניח שאין זה לגיטימי לומר, לפני ביצוע התצפיות, שהסיכויים שתופעה כלשהי אמיתית גבוהים מ-50:50. הרי אם נאמר זאת, כאילו טענו שהסיכויים שאנו צודקים גבוהים יותר מהסיכויים שאיננו צודקים עוד לפני שהניסוי התחיל.

שש-בש, לוח שש-בש, Tavla

Tavla, לוח שש-בש. תצלום: Ozan Hatıpoğlu

אם נחזור על החישובים באמצעות שכיחות של חמישים אחוז במקום שכיחות של עשרה אחוז, נקבל שיעור חיובי כוזב של עשרים ושישה אחוז, וזה עדיין גבוה הרבה יותר מחמישה אחוז. הימצאות נמוכה יותר תוביל לשיעור חיוביים כוזבים גבוה אף יותר.

לכן, אם מדענים מגיעים לתוצאה "מובהקת בקושי" בבדיקה בודדת, למשל P=0.047 אחוז, ומודיעים שיש להם תגלית, טענתם תהיה שגויה לפחות בעשרים ושישה אחוז מהמקרים, וכנראה יותר. אם כך אין פלא שיש בעיות שחזור בתחומים מדעיים המסתמכים על בדיקות מובהקות.

מה אפשר לעשות? קודם כל, הגיע הזמן לזנוח את המונח השחוק "מובהק סטטיסטית". החתך P<0.05, שהגיע למעמד כמעט אוניברסלי במחקר הביו-רפואי, הוא שרירותי לגמרי – וכפי שראינו, אינו מספק ראיה מספקת לקיומה של תופעה אמיתית. אמנם רבים מאשימים את פישר בערך הקסם הזה, 0.05, אבל האמת היא שפישר אמר, ב-1926, ש-P=0.05 זאת "אמת מידה נמוכה למובהקות" ושעלינו להניח שעובדה מדעית הוכחה רק אם ביצועים חוזרים של הניסוי "אינם עומדים בסף המובהקות הזה לעתים נדירות בלבד".

החלק הזה, המדבר על כישלון בביצוע חוזר של ניסוי " לעתים נדירות בלבד", שעליו פישר שם את הדגש לפני תשעים שנה, נשכח. ניסוי בודד שנותן P=0.045 יתפרסם כ"תגלית" ברוב כתבי העת הנוצצים. לכן אין זה הוגן להאשים את פישר. עם זאת ישנו גרעין מטריד של אמת בטענה של הפיזיקאי רוברט מתיוז (Matthews) מאוניברסיטת אסטון בברמינגהאם, מ-1998: "האמת היא שלפני שבעים שנה נתן רולנד פישר למדענים מכונה מתמטית להפיכת פתפותי ביצים לפריצות דרך, ומקריוּת למימון. הגיע הזמן לשים לזה קץ".

הבעיה היסודית היא שאוניברסיטאות בכל העולם לוחצות על החוקרים שלהן לפרסם, בין שיש להם מה לחדש ובין שלא. לכן מופעל עליהם לחץ לעשות קיצורי דרך, להעדיף כמות על פני איכות, להגזים בהשלכות מחקריהם ומדי פעם גם לרמות. לאנשים המצויים תחת לחץ כזה לנפק מאמרים, אין זמן או מוטיבציה ללמוד על סטטיסטיקה או לשחזר ניסויים. עד שנעשה משהו לגבי התמריצים הלא סבירים האלה, הציבור לא יוכל לסמוך על המחקר הביו-רפואי, ובצדק. חוקרים בכירים, ראשי אוניברסיטאות ופוליטיקאים נותנים דוגמה רעה מאוד לחוקרים צעירים. כפי שאמר ב-2007 הזואולוג פיטר לורנס (Lawrence) מאוניברסיטת קיימברידג':

"דברו על חשיבות המחקר שלכם, פרסו את הממצאים לפרוסות רבות ככל האפשר (ארבעה מאמרים זה מצוין, שניים זה רע), דחסו את התוצאות (לרוב כתבי העת הבולטים יש מעט מאוד מקום, למאמר טיפוסי ב-Nature יש עכשיו צפיפות של חור שחור), פשטו את מסקנותיכם אבל סבכו את החומר (קשה יותר לעמיתים המבקרים להטיל בו ספק!)"

אבל יש גם חדשות טובות. רוב הבעיות קיימות בתחומים אחדים בלבד של הרפואה והפסיכולוגיה. ולמרות התקלות הסטטיסטיות, הייתה התקדמות אדירה בביו-רפואה. אנו מנסים לפתור את משבר השחזור. כל שנשאר לעשות כעת הוא למנוע מראשי האוניברסיטאות וממחלקי המלגות לתת לחוקרים תמריצים להתנהגות רעה.

דייוויד קאהוּן (Colquhoun) הוא מרצה לפרמקולוגיה ביוניברסיטי קולג' לונדון, ועמית בחברה המלכותית. הוא מחבר הספר Lectures on Biostatistics (משנת 1971) וכותב את הבלוג DC’s Improbable Science.

AEON Magazine. Published on Alaxon by special permission. For more articles by AEON, follow us on Twitter.

תורגם במיוחד לאלכסון על ידי תומר בן אהרון

מאמר זה התפרסם באלכסון ב על־ידי דייוויד קאהוּן, AEON.


תגובות פייסבוק

3 תגובות על p-כמה?

01
נון

נושא חשוב שכתוב באופן מאד לא ברור (וחבל).
על מנת להבין את כוונת המשורר יש לקרוא את המאמר המקורי:

http://rsos.royalsocietypublishing.org/content/1/3/140216

אמל'ק:
יש צורך להתחשב בשגיאה המובנית של הבדיקות עצמן (עלולות לתת תוצאות חיוביות גם אשר זה אינו נכון) מה שמשפיע עמוקות על המובהקות האמיתית.
כמו כן יש לנחש מראש שגיאה פוטנציאלית של הבדיקה (ולבדוק את הממצאים בהתאם) עקב חוסר היכולת הטכנית לבדוק את כל האוכלוסייה (או מדגם מאד גדול ממנה).

הפרשנות לגבי מחקר הרפלקיציה שנעשתה בפסיכולוגיה הוא מקובל, אם כי שגוי. זה לא שרק 38% מהמחקרים המקוריים היו נכונים, אלא שהצליחו לשחזר 38% מהמחקרים תחת התנאים של הרפליקציה ובניתוחים הסטטיסטיים שערכו. בפועל, בערך 70% מהתוצאות נפלו תחת השוליים של המחקרים המקוריים ובהחלט יכולים להיות עקביים אותם, וזה עוד לפני שנכנסנו לביקורת לגבי השיטות הסטטיסטיות במחקר הזה שהיו תחת מתקפה, וגם לאפשרות לערוך שיחזורים מדויקים למחקרים בני 30 ו40 שנה. למשל, במקרה אחד, ניסו לשחזר עמדות של ישראלים ופלשתינים שנבדקו בארץ עם נבדקים מקליפורניה. לא בדיוק שיחזור מתאים.

בכל מקרה, תחום הפסיכולוגיה עובר מהפיכה, לא פחות, בימים אלו והרבה תחומים אחרים נשארים מאחורה. יש מאמץ מכוון לנקות את התחום שזה כולל בניתוחים סטטיסטיים מתאימים יותר, וחשוב מכך, להתרכז פחות בסטטיסטיקות שהן שרירותיות במידה רבה ויותר בגודל אפקטים.