יש לך דקה לסקר טלפוני?

יש הרבה סיבות להתלהב מהקלות שבה אנו יכולים לאסוף ולנתח מאגרי מידע עצומים במהירויות עצומות. אך אל לנו להשלות את עצמנו - יש הרבה בעיות קטנות בביג דאטה
X זמן קריאה משוער: רבע שעה

לפני חמש שנים הכריז צוות חוקרים מגוגל על הישג מדהים באחד מכתבי העת המדעיים המובילים בעולם, Nature. הם הצליחו, בלי שיזדקקו לתוצאותיה של שום בדיקה רפואית, לנטר את התפשטות השפעת ברחבי ארצות הברית. ואם לא די בכך, הם עשו זאת מהר יותר מהמרכז לבקרת מחלות ומניעתן (ה-CDC). הניטור של גוגל פיגר אחרי ההתפשטות עצמה ביום אחד בלבד, בעוד של-CDC נדרש שבוע או יותר לשרטט תמונת מצב מדויקת על בסיס דו"חות של רופאים. גוגל הייתה מהירה יותר בזכות שיטת הניטור שלה: היא ניסתה למצוא מתאם בין חיפושיהם של גולשים ברשת להופעת תסמיני שפעת אצל אותם גולשים.

לא רק שהשירות, Google Flu Trends, היה מהיר, מדויק וזול, אלא שהוא היה חף מכל תיאוריה. המהנדסים של גוגל לא טרחו לפתח השערה שתאמר אילו חיפושים – "סימפטומים של שפעת" או "בתי מרקחת לידי" – תואמים את התפשטות המחלה עצמה; הם פשוט לקחו את 50 מיליון החיפושים המובילים של גוגל ונתנו לאלגוריתמים לעשות את שלהם. הצלחת Google Flu Trends סימלה את עלייתו של טרנד חדש וחם בעסקים, בטכנולוגיה ובמדע: "ביג דאטה" (Big Data). ועיתונאים נלהבים החלו לשאול מה יוכל המדע ללמוד מגוגל. "ביג דאטה" הוא מונח מעורפל (כמו מונחים אופנתיים אחרים) שאנשי מכירות אוהבים לשלוף. יש המדגישים את גודלם העצום של מאגרי הנתונים הקיימים כיום – המחשבים של מאיץ ה-LHC, למשל, מאחסנים מדי שנה 15 פטה-בייט של נתונים, השקולים לפלייליסט באורך 15,000 שנים.

אבל את ה"ביג דאטה" שמעניינים את רוב החברות אפשר לכנות "Found Data", קרי "נתונים שיוריים". איפה השארנו אותם? בחיפושי רשת, תשלומים של כרטיסי אשראי ו"פינגים" שטלפונים ניידים שולחים לאנטנה סלולרית הקרובה אליהם. התשתית לשירות Google Flu Trends היא אותם "נתונים שיוריים", ובהם אתמקד במאמר זה. מאגרי נתונים אלה עשויים להיות גדולים יותר אפילו ממאגרי הנתונים של מאיץ ה-LHC (של פייסבוק גדול יותר), אבל יש להם כמה תכונות נוספות שכדאי לציין: יחסית לגודלם זול לאסוף אותם; הם ערב רב של נתונים שנאספו למטרות שונות; ואפשר לעדכנם בזמן אמת. מכיוון שפעילות התקשורת, הפנאי והמסחר שלנו עברה לאינטרנט, והאינטרנט בתורו עבר לטלפונים שלנו (ואף למכוניות, ולמשקפיים), אפשר כעת לתעד ולכמת את החיים בצורה שרק לפני עשור לא העלינו בדעתנו.

חסידי ה"ביג דאטה" מציגים ארבע טענות מלהיבות המשתקפות בהצלחתו של Google Flu Trends: ניתוח נתונים מניב תוצאות מדויקות להדהים; אנחנו יכולים לאסוף כל נתון ונתון, ולכן עבר זמנן של טכניקות הדגימה הסטטיסטיות הישנות; אין טעם לנסות להבין מי הביצה ומי התרנגולת, כי המתאם הסטטיסטי יאמר לנו כל מה שאנחנו צריכים לדעת; ולבסוף, מודלים מדעיים או סטטיסטיים אינם נחוצים עוד, כי – וכאן אצטט את The End of Theory, מאמר פרובוקטיבי שהתפרסם במגזין Wired ב-2008 – "עם מספיק נתונים, המספרים מדברים בעד עצמם."

ברמת העיקרון אפשר לתעד ולנתח כל ציוץ וציוץ בטוויטר, וכך להסיק מסקנות לגבי דעת הקהל. אך משתמשי טוויטר אינם קבוצה מייצגת של האוכלוסייה כולה

למרבה הצער, ארבעת הדיברות האלה פשטניים ואופטימיים מדי. ואם תשאלו את דייוויד ספיגלהלטר (Spiegelhalter), החוקר את תפיסת הסיכון הציבורית באוניברסיטת קיימברידג', הוא יאמר שהם "זיבולי שכל. שטות גמורה."
"נתונים שיוריים" הם הגורם המניע את כלכלת האינטרנט החדשה, מכיוון שחברות כמו גוגל, פייסבוק ואמזון מחפשות דרכים חדשות להבין את חיינו בעזרת שובל הנתונים שאנו משאירים אחרינו. וכשאדוארד סנודן הדליף מידע לגבי היקפה וגודלה של פעילות המעקב האלקטרונית של ארצות הברית, התברר שגם שירותי הביטחון מרותקים לשובל הנתונים הזה.

יועצים מפצירים בלקוחותיהם הלא-מעודכנים להבין את הפוטנציאל הטמון ב"ביג דאטה". דו"ח שפרסמה לאחרונה MGI, זרוע המחקר של חברת מקינזי, טוען שמערכת שירותי הבריאות של ארצות הברית תחסוך 300 מיליארד דולר בשנה – אלף דולר על כל אמריקני – אם תיטיב לנתח נתונים שונים – מנתוני הניסויים הקליניים ועד לעסקאות ביטוח הבריאות ורכישות של נעלי ריצה חכמות.
אך בעוד שה"ביג דאטה" מבטיח רבות למדענים, יזמים וממשלות, אין ספק שהם יאכזבו אותנו אם יתעלמו מכמה לקחים סטטיסטיים ידועים.
"יש הרבה בעיות קטנות ב'ביג דאטה'," אומר ספיגלהלטר. "הגודל לא פותר אותן. הוא מחריף אותן."

ניתוח מתאמים הוא עסק שברירי

ארבע שנים לאחר שפורסם המאמר המקורי ב-Nature, היו ל-Nature News בשורות עצובות: התפרצות השפעת האחרונה גבתה את חייו של קורבן בלתי צפוי: Google Flu Trends. אחרי שסיפק תיאור מהיר ומדויק של התפרצויות השפעת במשך כמה חורפים, המודל רב הנתונים ונטול התיאוריות איבד את מגע הקסם. המודל של גוגל התריע על כמה התפרצויות חמורות, אבל כשהחלו נתוני ה-CDC להתקבל באטיות, התגלה שגוגל הפריזה כמעט פי שניים בהערכותיה. הבעיה הייתה שגוגל לא ידעה מה מקשר את מונחי החיפוש להתפשטות השפעת, כי המהנדסים של גוגל לא ניסו להבין מה מוביל למה. הם רק ניסו למצוא דפוסים סטטיסטיים בנתונים. הם חיפשו מתאם, לא סיבתיות. זו תופעה שכיחה בניתוח של "ביג דאטה". קשה להבין מה מוביל למה (ויש האומרים – בלתי אפשרי), אבל קל וזול לזהות מתאם. כפי שנכתב ב-Big Data, ספרם של ויקטור מאייר שונברגר (Schönberger) וקנת קוּקיֶה (Cukier): "הסיבתיות לא תישכח, אבל היא איבדה את מעמדה כמעיין המשמעות הראשי."

ובכל זאת, ניתוח מתאמים הוא עסק שברירי. אם אתם לא יודעים מה יוצר את המתאם, לא תדעו מה עלול לשבור אותו. אחד ההסברים לכישלון של גוגל הוא שבדצמבר 2012 היו החדשות מלאות בכתבות מפחידות על שפעת, והכתבות האלה הגדילו את כמות החיפושים שביצעו אנשים בריאים. הסבר אפשרי נוסף הוא שהאלגוריתם של גוגל השפיע על התוצאות בעצמו בכך שהציע אבחנות אוטומטיות לגולשים שהקלידו תסמינים. אין ספק ששירות השפעת של גוגל יתאושש לאחר שיעודכן בנתונים חדשים – וטוב שכך; יש הרבה סיבות להתלהב מהקלות שבה אנו יכולים לאסוף ולנתח מאגרי מידע עצומים במהירויות עצומות. אבל אם לא נפיק לקח מהמקרה הזה, נחזור על הטעות. כבר 200 שנה סטטיסטיקאים מנסים להבין באילו פחים אפשר ליפול כשמנסים להבין את העולם דרך נתונים. כיום הנתונים רבים יותר, מהירים יותר וזולים יותר – אך אל לנו להשלות את עצמנו - הפחים עדיין שם.

הגודל לא קובע

מימין: אלפרד לנדון ונשיא ארה"ב פרנקלין רוזוולט

מימין: אלפרד לנדון ונשיא ארה"ב פרנקלין רוזוולט

ב-1936 התמודד הרפובליקאי אלפרד לנדון בבחירות נגד הנשיא המכהן של ארה"ב פרנקלין רוזוולט. כתב העת הנכבד The Literary Digest, קיבל על עצמו את האחריות לחזות את תוצאות הבחירות. הוא ערך סקר דואר שאפתני להפליא, שמטרתו הייתה לסקור עשרה מיליון איש, רבע מציבור הבוחרים. קשה לתאר את מבול התשובות שהתקבלו בדואר, אך נראָה שכתב העת מתבשם מגודל המשימה. בסוף אוגוסט הוא דיווח, "בשבוע הבא יתחילו לזרום אלינו ללא הפסקה תשובותיהם של עשרת מיליוני המשתתפים. אלה יבדקו, יאושרו, יסווגו לפי חמישה מאפיינים שונים ויסוכמו." ה-Literary Digest קיבל מספר מדהים של תשובות – 2.4 מיליון – לאורך חודשיים, ואז הכריז על מסקנותיו: לנדון יזכה לניצחון משכנע של 55 אחוז מול 41 אחוז, כשמספר קטן של מצביעים יבחרו במועמד שלישי.

אך בבחירות התקבלה תוצאה שונה בתכלית: רוזוולט מחץ את לנדון בתוצאה של 61 אחוז מול 37. וכדי לזרות מלח על פצעיו של כתב העת, סקר קטן בהרבה שערך ג'ורג' גאלופ, חלוץ סקרי דעת הקהל, חזה ניצחון נאה לרוזוולט. מר גאלופ הבין משהו שבמשרדי ה-Literary Digest לא הבינו: בנתונים, הגודל לא קובע.
סקרי דעת הקהל מבוססים על דגימות של אוכלוסיית המצביעים. כלומר, הסוקרים צריכים להתמודד עם שתי סוגיות: טעות דגימה ודגימה מוטה.

נתוני הבחירות משנת 1936 בארה"ב. מדגם של למעלה מ-2 מיליון אנשים לא הצליח לחזות את תוצאותיהן

נתוני הבחירות משנת 1936 בארה"ב. מדגם של למעלה מ-2 מיליון אנשים לא הצליח לחזות את תוצאותיהן

טעויות דגימה משקפות את הסיכון שדגימה אקראית של דעות לא תייצג את דעתו האמיתית של הציבור. "מרווח הטעות" שעליו מדברים בסקרי דעת הקהל משקף את הסיכון הזה, וככל שהדגימה גדולה יותר, כך קטן מרווח הטעות. על פי רוב, אלפי ראיונות הם דגימה גדולה די הצורך, ומר גאלופ ערך ככל הנראה 3,000 ראיונות.
אבל אם 3,000 ראיונות הספיקו לו, למה 2.4 מיליון לא משפרים את התוצאות? הסיבה לכך היא שלטעות הדגימה יש חברה מסוכנת אף יותר: הדגימה המוטה. טעות דגימה מתרחשת כשדגימה אקראית לא משקפת את האוכלוסייה; אבל הדגימה המוטה אינה אקראית כלל. ג'ורג' גאלופ הקפיד למצוא דגימה לא מוטה, כי הוא ידע שזה חשוב הרבה יותר מגודל הדגימה.

אנשי The Literary Digest, שחיפשו מאגר נתונים כמה שיותר גדול, יצרו דגימה מוטה. משתתפי הסקר שלהם נבחרו מרשימות של בעלי מכוניות וטלפונים – דגימה שב-1936 כללה אנשים עשירים באופן בלתי פרופורציונלי. ואם להוסיף חטא על פשע, התברר שבדגימה זו היה סיכוי גדול יותר שתומכיו של לנדון ישיבו על הסקר. השילוב של שתי ההטיות האלה חרץ את גורל הסקר. על כל אדם שסוקריו של גאלופ ראיינו, קיבל כתב העת 800 תשובות; הסקר שלהם סיפק הערכה מדויקת מאוד של תשובה שגויה.

טירוף ה"ביג דאטה" מאיים לייצר שוב הטיות כאלה. מכיוון ש"נתונים שיוריים" אינם מוּבְנים, קשה להבין אילו הטיות מסתתרות בהם – ומכיוון שהם רבים כל כך, החליטו אנליסטים מסוימים שאין טעם לעסוק בבעיית הדגימה. אבל הם טועים.
פרופסור ויקטור מאייר שונברגר ממכון האינטרנט של אוקספורד, אחד ממחברי הספר Big Data, אמר לי שההגדרה האהובה עליו ל"ביג דאטה" היא "N = All" – כלומר, אין צורך לדגום כי כל האוכלוסייה עומדת לרשותנו. מנהלי הקלפיות לא מעריכים את התוצאה בדגימה: הם סופרים את הקולות – את כל הקולות. ובמצב של "N = All", בעיית הדגימה המוטה נעלמת כי הדגימה כוללת את כולם.
אבל האם "N = All" הוא תיאור מוצלח של הנתונים השיוריים שאנו מדברים עליהם? כנראה שלא. "אי אפשר להחזיק בכל הנתונים," אומר פטריק וולף (Wolfe), מדען מחשב וסטטיסטיקאי מיוניברסיטי קולג' בלונדון.

דוגמה לזה היא טוויטר. ברמת העיקרון אפשר לתעד ולנתח כל ציוץ וציוץ בטוויטר, וכך להסיק מסקנות לגבי דעת הקהל (בפועל, רוב החוקרים משתמשים רק בתת-קבוצה של ציוצים). אך משתמשי טוויטר אינם קבוצה מייצגת של האוכלוסייה כולה (לפי מכון המחקר PEW, ב-2013 בארצות הברית, שיעור הצעירים, העירוניים והשחורים בטוויטר היה גדול משיעורם באוכלוסייה).
תמיד צריך לשאול מי או מה חסר, במיוחד כשמדובר באוסף גדול ובלתי מובנה של נתונים. קייזר פאנג (Fung), אנליסט ומחבר הספר Numbersense, מזהיר אותנו לא להניח שאנחנו יודעים הכול. "N = All היא הנחה, לא עובדה," הוא אומר.
ראו לדוגמה את אפליקציית Street Bump של העיר בוסטון, אשר משתמשת במד התאוצה של הטלפון כדי לזהות מהמורות בכביש בלי שעובדי העירייה יצטרכו לסרוק את הרחובות. כשתושבי בוסטון מורידים את האפליקציה ונוסעים ברחבי העיר, הטלפונים שלהם מודיעים אוטומטית לעירייה היכן נדרש תיקון. לפני כמה שנים הפתרון הזה היה בלתי אפשרי. בוסטון מכריזה בגאווה ש"הנתונים מספקים לעיר מידע בזמן אמת, שבו היא משתמש כדי לפתור בעיות ולתכנן השקעות לטווח ארוך."

אבל מה ש-Street Bump מייצרת בפועל היא מפת מהמורות המוטה באופן שיטתי לטובת אזורים צעירים ועשירים, שבהם לאחוז גדול יותר מהתושבים יש טלפון חכם. האפליקציה מציעה לנו "N = All" מכיוון שכל מהמורה שמתגלה, בכל טלפון, מתועדת. כפי שאמרה קייט קרופורד, חוקרת ממיקרוסופט, הנתונים השיוריים מכילים הטיות שיטתיות שאי אפשר לזהות ולתקן ללא תכנון מוקפד. נדמה לנו שמאגרי ה"ביג דאטה" הם מקיפים, אך לעתים קרובות "N = All" אינה אלא אשליה מפתה.

עניין של חיובי-כוזב

"יש פה עניין של חיובי-כוזב (false positive)," אומר קייזר פאנג, שבמשך שנים פיתח כלים מסוג זה עבור קמעונאים ומפרסמים. פאנג מתכוון לומר שלא זכינו לשמוע את אינספור הסיפורים על נשים שקיבלו קופונים לבגדי תינוקות אף על פי שלא היו בהיריון. מי ששומע את האנקדוטה הזאת, עלול לחשוב שהאלגוריתמים של טארגט מושלמים – שרק נשים בהיריון מקבלות קופונים לבגדי תינוקות ומגבונים לחים. אבל זה לא סביר. יכול להיות שנשים בהיריון מקבלות הצעות כאלה מכיוון שכל מי שנמצא ברשימת הדיוור של טארגט מקבל אותן. אל תאמינו שטארגט מעסיקה קוראי מחשבות לפני שתבררו כמה פעמים הרשת מפספסת על כל פגיעה.אבל למי אכפת מסיבתיות או דגימות מוטות כשכל כך הרבה כסף מונח על כף המאזניים? תאגידים ברחבי העולם מריירים כשהם חושבים על הצלחתה האדירה של רשת החנויות האמריקאית "טארגט", שעליה דיווח צ'רלס דוהיג (Duhigg) בניו יורק טיימס ב-2012. דוהיג הסביר שטארגט אספה כל כך הרבה נתונים על לקוחותיה, ושהיא כל כך מיומנת בניתוחם, שהתובנות שלה על הצרכנים נראות כמו קסם. האנקדוטה המוצלחת ביותר של דוהיג עוסקת באיש שהתפרץ לסניף של טארגט ליד מיניאפוליס והתלונן בפני המנהל שהרשת שולחת קופונים לבגדי תינוקות ובגדי היריון לבתו בת העשרה. המנהל התנצל בפניו, אבל כשהתקשר להתנצל שוב, גילה שהנערה אכן בהיריון. אביה לא ידע. מי שכן ידעה היא רשת טארגט, שניתחה את רכישותיה – מגבונים ללא בישום ותוספי מגנזיום.
האם אלה כשפים סטטיסטיים? יש הסבר פשוט יותר.

לפי דוהיג, טארגט כוללת בהצעותיה גם הצעות אקראיות, כגון קופונים לכוסות יין, כי נשים בהיריון עלולות להיבהל אם הן יבינו כמה דברים הרשת יודעת עליהן. אבל לפאנג יש הסבר אחר: טארגט משלבת הצעות אקראיות כי היא יודעת שרבים מעלוני הקופונים האלה יגיעו לנשים שאינן הרות. אני לא מנסה לומר שאין תועלת בניתוח נתונים – להיפך, ייתכן שזו גישה רווחית מאוד. גם עלייה צנועה בדיוקן של ההצעות הממוקדות האלה היא הישג משמעותי. אבל אין לבלבל בין רווחיות לידע אבסולוטי.

ללא ניתוח מוקפד, היחס בין דפוסים אמיתיים לדפוסים כוזבים במחקרים גדולים נוטה במהרה לאפס

ב-2005 פרסם האפידמיולוג ג'ון יואנידיס (Ioannidis) מאמר בעל כותרת בוטה: "מדוע רוב ממצאי המחקר שגויים." המאמר התפרסם כדיאגנוזה פרובוקטיבית של סוגיה רצינית. אחד הרעיונות שבבסיס מחקרו של יואנידיס מכונה על-ידי סטטיסטיקאים, "בעיית ההשוואות המרובות." כשבוחנים דפוס שמופיע באוסף של נתונים, נהוג לשאול אם ייתכן שהדפוס הזה נוצר במקרה. אם לא סביר שהוא נוצר במקרה, נאמר שהוא "מובהק סטטיסטית." בעיית ההשוואות המרובות נוצרת כשחוקר בוחן כמה וכמה דפוסים אפשריים. הנה לדוגמה ניסוי אקראי שבו ניתנים ויטמינים לחלק מהתלמידים בבית ספר יסודי, בעוד שהאחרים מקבלים פלצבו. האם הוויטמינים עובדים? זה תלוי בהגדרה של "עובדים." החוקרים יוכלו לבדוק את גובה, משקל, שכיחות של עששת, התנהגות בכיתה, ציונים, אפילו (לאחר זמן מה) מאסרים או הכנסות בגיל 25. ויש גם שילובים שצריך לבדוק: האם הוויטמינים משפיעים על הילדים העניים, העשירים, הבנים, הבנות? אם נבחן מספיק מתאמים, המסקנות החשובות ילכו לאיבוד בין התוצאות המקריות.

יש כמה דרכים להתמודד עם זה, אבל במאגרי נתונים גדולים הבעיה חמורה יותר, כי יש הרבה יותר השוואות אפשריות מאשר נתונים בודדים. ללא ניתוח מוקפד, היחס בין דפוסים אמיתיים לדפוסים כוזבים – כלומר, של אותות לרעש – נוטה במהרה לאפס. בנוסף, אחד הפתרונות לבעיית ההשוואות המרובות הוא שקיפות, המאפשרת לחוקרים אחרים לבדוק כמה השערות נבחנו וכמה תוצאות סותרות נעלמו כי הן לא נראו מעניינות לפרסום. אך נתונים שיוריים אינם שקופים. אמזון וגוגל, פייסבוק וטוויטר, טארגט וטסקו – החברות האלה לא עומדות לשתף את הנתונים שלהן עם אף אחד.

אין ספק כי עוד נפיק תועלת רבה ממאגרי נתונים חדשים וגדולים ומכלי ניתוח יעילים. ויש כמה מקרים שבהם ניתוח של מאגרי נתונים אדירי ממדים עשה פלאים. דייוויד ספיגלהלטר מקיימברידג' מזכיר בהקשר זה את גוגל טרנסלייט, כלי המבצע ניתוח סטטיסטי של מאות מיליוני מסמכים שתורגמו על-ידי בני אדם, ומזהה דפוסים ברי שימוש. זאת דוגמה למה שמדעני מחשב מכנים "למידה חישובית," גישה שמסוגלת להניב תוצאות מדהימות ללא חוקים דקדוקיים שנכתבו מראש. גוגל טרנסלייט הוא הדבר הקרוב ביותר שיש כיום לקופסה שחורה אלגוריתמית נטולת-תיאוריה המבוססת על נתונים – ולדברי ספיגלהלטר, מדובר ב"הישג מדהים." להישג הזה הגיעה גוגל כי היא ידעה כיצד לעבד בחוכמה מאגרי נתונים עצומים.

אבל גישת ה"ביג דאטה" לא פותרת את הבעיה שרודפת סטטיסטיקאים ומדענים כבר מאות שנים: בעיית התובנות, קרי היכולת להבין מהנתונים כיצד אפשר להתערב ולשנות את המערכת לטובה. "יש לנו פה משאב חדש," אומר דייוויד הנד מאימפיריאל קולג' בלונדון. "אבל אף אחד לא רוצה 'נתונים.' אנשים רוצים תשובות." וכדי שנוכל לחלץ את התשובות האלה ממאגרי נתונים גדולים, נדרשת התקדמות אדירה בשיטות העבודה הסטטיסטיות. "נכון לעכשיו זה המערב הפרוע," אומר פטריק וולף מיוניברסיטי קולג'. אנשים חכמים ונחושים יעשו כל שביכולתם כדי לפענח את מאגרי הנתונים האלה, וזה נהדר. אבל כרגע אנחנו לא ממש יודעים לאן אנחנו הולכים."

סטטיסטיקאים מנסים לפתח שיטות עבודה חדשות כדי להפיק את המרב מה"ביג דאטה." אבל את השיטות החדשות והחיוניות האלה לא נשיג בהתעלמות מוחלטת מהלקחים הסטטיסטיים הקיימים – עלינו לבנות עליהם. היזכרו בארבעת הדיברות של ה"ביג דאטה": קל להתלהב מדיוק אם מתעלמים מחיוביים-כוזבים, כמו במקרה של טארגט וחיזוי ההיריון; הטענה שאומרת כי עבר זמנה של הסיבתיות נכונה רק אם מבצעים תחזיות בסביבה יציבה, אבל לא אם העולם משתנה (כמו במקרה של Google Flu Trends) או אם אנחנו עצמנו מקווים לשנותו; הטענה "N=All", שממנה משתמע כי דגימות מוטעות אינן חשובות, שגויה לחלוטין ברוב המקרים המהותיים; ובכל הנוגע להצהרה: "עם מספיק נתונים, המספרים מדברים בעד עצמם" – זו נאיביות לשמה, כי אנחנו עדיין עוסקים במאגרי נתונים שבהם יש הרבה יותר דפוסים כוזבים מאשר תגליות אמיתיות. ה"ביג דאטה" כאן, אבל התובנות מאחרות לבוא. וכעת עלינו לפתור בעיות חדשות ולמצוא תשובות חדשות – בלי לעשות את הטעויות הסטטיסטיות הישנות בקנה מידה גדול מתמיד.

טים הרפורד הוא מחבר רב-המכר ״הכלכלן הסמוי״ ובעל טור בפייננשל טיימס.
Copyright The Financial Times Limited 2014

מאמר זה התפרסם באלכסון ב על־ידי טים הרפורד, Financial Times .


תגובות פייסבוק

2 תגובות על יש לך דקה לסקר טלפוני?