פצצת הביט

נדרש איש אשכולות אמיתי כדי להבין מהו בדיוק "מידע". התשובה שלו טמנה בחובה חדש וישן גם יחד
X זמן קריאה משוער: 20 דקות

מה זה בעצם מידע? יחסית למושג אינטואיטיבי כל כך, קשה להפליא להגדיר אותו במדויק. במשך מאות שנים הוא ריחף באזור הביניים שבין הנראה לבלתי נראה, בין המוחשי לערטילאי, בין התווך הנושא אותו למסר החמקמק הטמון בו. הוא רדף את בני אדם מעידנים קודמים לא פחות משהוא רדף את קלוד שאנון (Shannon) ועמיתיו במעבדות בֶּל בניו יורק ובניו ג'רזי, שניסו להקיף את העולם בחוטים ובכבלי תקשורת באמצע המאה העשרים.

שאנון – מתמטיקאי, אמריקני, מעריץ שרוף של ג'ז, חובב מושבע של ג'אגלינג – הוא אבי תורת המידע והאדריכל של עולמנו הדיגיטלי. שאנון הוא שהביא לעולם, במאמר "תיאוריה מתמטית של תקשורת" (1948), את המונח "ביט" (בעברית לעתים סיבּית), מדד אובייקטיבי לכמות המידע שהמסר מכיל. שאנון הוא שהסביר כי כל מערכת תקשורת – מהטלגרף ועד הטלוויזיה, ובסופו של דבר גם מהדנ"א ועד האינטרנט – היא בעלת אותו מבנה בסיסי. ושאנון הוא שהראה כי אפשר לדחוס ולשדר כל מסר, בדיוק כמעט מושלם, באמצעות קוד בינארי המורכב מ-0 ו-1. עד אותו זמן היה הרעיון הזה בבחינת פנטזיה אוטופית. כפי שאמר בפליאה אחד מעמיתיו של שאנון: "איך הוא הבין את זה, איך הוא התחיל בכלל להאמין שדבר כזה אפשרי, אין לי שום מושג".

התגליות האלה היו בבחינת ניצחון מדעי, אך בה בעת הן החזירו את מושג ה"מידע" אל מקורותיו. לפני שהמידע הפך לנחלת המדענים, עסקו בו משוררים, נואמים ופילוסופים. ואף על פי ששאנון היה מתמטיקאי ומהנדס בהכשרתו, הוא חלק עם החוקרים האלה, שפעלו מאות רבות של שנים לפניו, משיכה אדירה לשפה.

ב"אינאיס", לדוגמה, המשורר הרומי ורגיליוס מתאר מערה רחבת ידיים שבה גר האל וולקן עם עובדיו הקיקלופים, ובתוך המערה הם מחשלים בפטישיהם את חזיז הברק של יופיטר – "אינפורמאטום" (מלשון "אינפורמציה"). משמעות המילה in-form (כיום באנגלית "ליידע") היא לתת צורה לחומר, לעצב לפי צורה אידיאלית; המילה informatio משמעותה הייתה "הצורה שניתנת". למובן הזה כיוון קיקרו כשאמר שהאמנות "מיידעת" צעירים באשר לאנושיותם, ולמובן הזה כיוון גם טרטוליאנוס כשקרא למשה populi informatory – מעצב העם.

הסדנה של וולקן, דייגו ולאסקס

"הסדנה של וולקן" (1630), דייגו ולאסקס, מוזיאון פראדו, מדריד. תצלום: ויקיפדיה

עוד בימי הביניים, תומאס אקווינס אמר שהאינטלקט והמידות הטובות – אבל גם החושים – זקוקים למידע, להעשרה, לגירויים

החל מימי הביניים דעך ההיבט ה"מעצב" הזה של המידע, והמילה נצבעה בגוון ארצי יותר. בעיני הסכולסטים, היידוע הפך לפעולה אנושית ביסודו – למניפולציה של החומר המצוי על פני כדור הארץ, להבדיל ממעשי היצירה הייחודיים של הבורא עצמו. תומאס אקווינס אמר שהאינטלקט והמידות הטובות – אבל גם החושים – זקוקים למידע, להעשרה, לגירויים. המהפכה המדעית חיזקה את ההיבטים המוחשיים האלה של המידע, על חשבון ההיבטים השמימיים וה"מעצבים" שלו. כשאנחנו קוראים את הדברים שכתב פרנסיס בייקון על אודות “the informations of the senses” (ה"מידעים" של החושים, וגם "עיצובי צורותיהם" של החושים) או קוראים את טענתו של ג'ון לוק לפיה "החושים שלנו מיידעים אותנו", אנחנו חשים שאנו עומדים על קרקע מוכרת. כפי שכתב החוקר ג'ון דורהם פיטרס (Peters) ב-1988: "בחסותו של האמפיריציזם עבר המידע אט אט מן המבנה אל מה שבתוכו, מן הצורה אל התוכן, מן הסדר האינטלקטואלי אל הדחפים החושיים".

חקר החושים היה לדיסציפלינה המדעית הראשונה שהקדישה את עצמה לחקר המידע. בזמן שלורד קלווין תזמן את מהירותם של אותות הטלגרף בשנות החמישים של המאה התשע עשרה  בעזרת מנגנונים המבוססים על מגנטים, מראות, סלילי מתכת ומשי מפקעות – הרמן פון הלמהולץ (Helmholtz) חִשמל שרירים של צפרדעים כדי לבדוק מתי תאי העצב של בעלי חיים "יורים". המידע הפך אט אט לתופעה חשמלית, ומושא המחקר הפך לגבול שבין העולם המוחשי של הפיזיקה לבין טיבם החמקמק של המסרים הנישאים בכבלים.

במחצית הראשונה של המאה העשרים עבר הלפיד למעבדות בֶּל בארצות הברית, חברת התקשורת החלוצית שראשיתה עם אלכסנדר גרהאם בל. שאנון הצטרף לחברה ב-1941, בזמן מלחמת העולם השנייה, כדי לעבוד על בקרת ירי וקריפטוגרפיה. בימי שלום, רוב המהנדסים והמדענים העובדים במעבדות היו אחראים על הטיפול ברשת הטלפון והטלגרף הטרנס-יבשתית של ארה"ב. אבל הקווים החלו לקרוס תחת הנטל, כי התשוקה האנושית לאינטראקציה אילצה את המערכות של בל להגיע רחוק יותר, לעבוד מהר יותר ולשדר מסרים באיכות גבוהה מתמיד. אחד האתגרים הבסיסיים לתקשורת ממרחק היה ההתמודדות עם "רעש", כלומר עם תנודות בלתי רצויות שעלולות לעוות את איכות האות בנקודה כלשהי בין המוען לנמען. החוכמה המקובלת אמרה ששידור מידע הוא כמו שידור כוח, ולכן הפתרון הטוב ביותר הוא בעצם לצעוק בקול רם יותר – להשלים עם קיומו הבלתי נמנע של הרעש ולהפיק אות חזק יותר, בעלות גבוהה יותר, תוך הפעלת עומס רב יותר על המערכת.

מגפון, מגה-פון, הגברת קול

להגביר את העוצמה כדי שהמסר יגיע ליעדו. תצלום: מארי אן קלארק סקוט

אבל היו אנשים במעבדות בל שחשבו שהפתרון נמצא במקום אחר. הודות למונופול שהבטיח הממשל לחברה, היה לה מרחב תמרון שאפשר לה להשקיע במחקר תיאורטי בסיסי, גם אם השפעתו על הטכנולוגיה תורגש רק שנים רבות לאחר מכן. כפי שאמר לנו המהנדס הנרי פולק (Pollak) בריאיון: "כשהגעתי בהתחלה, הייתה שם פילוסופיה: 'תראה, למה שאתה עושה לא תהיה בהכרח חשיבות בעשר או בעשרים שנה הבאות, אבל זה בסדר, אנחנו עדיין נהיה כאן'". אחרי המלחמה, כחבר בצוות המתמטי התיאורטי של מעבדות בל, הבין שאנון שהוא יכול ללכת בעקבות תחומי העניין שלו לאן שהם יובילו אותו: "היה לי חופש לעשות כל מה שרציתי כמעט מהיום הראשון. הם אף פעם לא אמרו לי על מה לעבוד".

בשנות ה-40 התחילו לחשוב על מידע כעל משהו שמודד מעין חופש בחירה, כלומר שתוכנו של מידע תלוי בין היתר בכל מה שאינו נכלל בו

ברוח זו זנחו אחדים מהמתמטיקאים והמהנדסים של מעבדות בל את הטלגרפים והטלפונים ועברו לנושא יסודי יותר: טיבו של מידע. הם התחילו לחשוב על מידע כעל משהו שמודד מעין חופש בחירה, כלומר שתוכנו של מידע תלוי בין היתר בכל מה שאינו נכלל בו. ב-1924 השתמש המהנדס הארי נייקוויסט (Nyquist) בקו המחשבה הזה כדי להסביר איך אפשר להגדיל את מהירות הטלגרפיה. שלוש שנים לאחר מכן לקח עמיתו ראלף הארטלי (Hartley) את התוצאות האלה והביא אותן לרמה גבוהה יותר של הפשטה: הוא הסביר איך שליחה של מסר, יהיה אשר יהיה, היא כמו בחירה של סמל אחד מתוך מאגר של סמלים אפשריים. אנחנו רואים איך תהליך האלימינציה המתגלגל הזה פועל אפילו במשפטים פשוטים כמו "תפוחים הם אדומים", אמר הארטלי: "המילה הראשונה מוחקת כל מיני סוגים אחרים של עצמים באופן כללי. השנייה מכוונת את תשומת לבנו לתכונה מסוימת של התפוחים או למצב מסוים שבו הם נמצאים, והשלישית פוסלת את כל שאר הצבעים האפשריים".

לפי הגישה הזאת, ערך המידע של מסר נתון תלוי, בין היתר, בטווח החלופות שנמחקו ברגע בחירתו. סמלים שנבחרים מתוך אוצר אפשרויות גדול יותר, הם בעלי מידע רב יותר מאשר סמלים שנבחרים מתוך אוצר אפשרויות קטן יותר, כי הבחירה בהם פוסלת מספר רב יותר של חלופות. משמעות הדבר היא שכמות המידע המשודר היא בעצם פונקציה של שלושה דברים: גודלו של מערך הסמלים האפשרי, מספר הסמלים הנשלח בשנייה, ומשך המסר. כאן התחיל באמת ובתמים החיפוש אחר סדר, אחד מבנה וצורה במחילות המתפתלות של התקשורת הגלובלית.

ואז, ב-1948, בא המאמר של שאנון, שכתב העת Scientific American יכנה בהמשך "המגנה כרטה של עידן המידע". אף על פי ששאנון זכה מיד להכרה על המעלות התיאורטיות של פריצת הדרך שלו, הפירות המעשיים הבשילו רק עשרות שנים לאחר מכן. פריצת הדרך שלו לא הייתה הכרחית כדי להבין איך לפתור את הבעיה המידית של הגדלת טווח שיחות הטלפון, והיא אפילו לא הייתה נחוצה ליצירת כבל הטלפון הטרנס-אטלנטי הראשון, שהושק ב-1956. אבל היא הייתה הכרחית ב-1990 כדי להבין איך לשדר צילום מקצה מערכת השמש בחזרה לכדור הארץ לאורך 6.5 מיליארד קילומטרים של ריק, או ב-2017 כדי להבין איך לעשות סטרימינג של וידאו על מחשב שאפשר להכניס לכיס.

אפולו 11, נאס"א, ירח, קלוד שאנון

יחידת הנחיתה של אפולו 11 בדרכה לירח. הפרויקט נעזר רבות בפיתוחים של קלוד שאנון. תצלום: נאס"א, ויקיפדיה

נפלאות החיים והשפה הקסימו את שאנון וריתקו אותו לא פחות מאשר הפיזיקה והמספרים. אחרי ככלות הכול, “information” היה בראשיתו מונח פילוסופי לאמנות

רמזים לגאוניותו של שאנון אפשר למצוא במגוון האדיר של תחומי העניין האינטלקטואליים שלו. הוא היה מהנדס מוזר למדי: הוא ביצע תרגילי ג'אגלינג ורכב על חד-אופן במסדרונות של מעבדות בל, ובין יצירותיו היו חצוצרת-להביור, מחשבון בשם THROBAC שהשתמש בספרות רומיות (ראשי התיבות הן "Thrifty Roman-Numeral Backward-Looking Computer", או "מחשב ספרות רומיות חסכוני מביט לאחור"), ועכבר מכני בשם תסאוס, שיכול לאתר חתיכה של גבינת מתכת במבוך. גנטיקה, בינה מלאכותית, שחמט ממוחשב, קלרינט ג'ז וכתיבת שירה – כל אלה ועוד עניינו אותו. חלק מתחומי העניין האלה התפתחו אצלו עוד לפני שהתחיל לעבוד על תורת המידע, שאליה הגיע בשלב מאוחר יותר בחייו. אבל מה שברור הוא שנפלאות החיים והשפה הקסימו את שאנון וריתקו אותו לא פחות מאשר הפיזיקה והמספרים. אחרי ככלות הכול, “information” היה בראשיתו מונח פילוסופי לאמנות, וכדי לרדת לעומקו היה צורך לשאול שאלות מהסוג שבלשנים או פילוסופים עשויים לנסות להתמודד עמן.

ביסוד "התיאוריה המתמטית" של שאנון נמצאים שני רעיונות עיקריים. הראשון אומר שמידע הוא הסתברותי. לפני הכול עלינו להבין שמידע הוא מדד של אי-הוודאות שאנו מתגברים עליה – או במילה אחרת: "הפתעה". מה שקובע את מידת אי-הוודאות הזאת אינו רק גודל אוצר הסמלים, כפי שחשבו נייקוויסט והארטלי, אלא גם הסיכויים של כל סמל נתון להיבחר. נסתכל על הטלת מטבע, הדוגמה הפשוטה ביותר ששאנון הצליח למצוא ל"מקור" מידע. מטבע שאינו מוטה נותן לנו שתי אפשרויות בעלות סיכויים שווים להיבחר. אפשר לומר שמטבע כזה, או כל "מכשיר בעל שתי עמדות יציבות", מאחסן בתוכו "ספרה בינארית" אחת של מידע. או, אם להשתמש בקיצור שטבע אחד מעמיתיו של שאנון, אפשר לומר שהוא מאחסן "ביט" אחד (bit, קיצור ל-binary digit, או "ספרה בינארית").

עכשיו מגיע המהלך המכריע: שאנון ציין שרוב המסרים שלנו אינם כמו הטלות מטבע הוגנות. הם דווקא כמו מטבעות לא הוגנים. במטבע מוטה יש פחות מאשר ביט אחד של מידע, כי התוצאה של כל הטלה מפתיעה פחות. שאנון המחיש את הנקודה הזאת באמצעות גרף. אנו רואים שכמות המידע שהטלת מטבע אחת מוסרת (על ציר ה-Y) מגיעה לשיא כשהסיכויים הם 50-50, ומיוצגת כ-0.5 על ציר ה-X. אבל ככל שמתקדמים ימינה או שמאלה התוצאה נעשית צפויה יותר בהתאם לגודל ההטיה, וכמות המידע שהמטבע נושא בתוכו יורדת בהדרגה.

המסרים שבני האדם שולחים דומים יותר למטבעות לא הוגנים כי הסמלים אינם נבחרים באקראי, אלא בדרכים הסתברותיות, על סמך מה שקדם להם. בתמונות שאינן שלג בטלוויזיה, לפיקסלים כהים יש סיכוי גבוה יותר להופיע בסמוך לפיקסלים כהים אחרים, ולבהירים יש סיכוי גבוה יותר להופיע ליד בהירים. בהודעות כתובות שאינן רצפי טקסט אקראיים, לכל אות יש מין "כוח משיכה" שהיא מפעילה על האותיות שבאות אחריה.

השפה היא המחשה מושלמת לאינטראקציה ההדוקה בין המידה שבה אירוע נתון הוא צפוי לבין מידת ההפתעה שבו

כאן השפה נכנסת לתמונה ככלי קונספטואלי חשוב. השפה היא המחשה מושלמת לאינטראקציה ההדוקה בין המידה שבה אירוע נתון הוא צפוי לבין מידת ההפתעה שבו. כדי לתקשר זה עם זה אנחנו הופכים את עצמנו לצפויים, במסגרת גבולות מסוימים. במילים אחרות, ההבדל בין קשקוש חסר פשר לבין טקסט שנראה כמו שפה הוא קיומם של כללים המפחיתים את מידת ההפתעה.

שאנון הדגים את הטענה הזאת במאמרו בעזרת ניסוי בלתי רשמי בטקסט "מכוֹנה". למעשה הוא שיחק בסתברויות עד שהצליח לייצר משהו שדומה לאנגלית. שאנון פתח ספר של מספרים אקראיים, שם את האצבע על אחד הערכים וכתב את האות המקבילה מתוך "אלפבית" של עשרים ושבעה סמלים (עשרים ושישה פלוס רווח):

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD.

כל אות נבחרה באקראי ובנפרד, בלי שאף אחת מהן תפעיל "כוח משיכה" על אחרת. זוהי המקבילה הכתובה לרעש סטטי – שאנון קרא לזה "אומדן מסדר-אפס".

אבל מובן שאנחנו לא בוחרים אותיות בהסתברות זהה. האות E תופסת בערך שנים עשר אחוז מהטקסטים שנכתבים באנגלית, והאות Q זוכה לאחוז אחד בלבד. שאנון השתמש בטבלת תדירויות של אותיות שעליה הוא הסתמך בימי הקריפטוגרפיה שלו, וכייל מחדש את סיכוייה של כל אות, כך ששנים עשר אחוז מהערכים בספר המספרים האקראיים שלו יהיו המספר המקביל ל-E, וכיוצא בזה. הוא התחיל מחדש ויצר "אומדן מסדר ראשון":

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL.

אנחנו יודעים גם שצמדים מסוימים של אותיות סמוכות מופיעים בתדירות גבוהה יותר מאשר אחרים: K נפוצה יותר אחרי C, אבל כמעט לעולם אינה מופיעה אחרי T. האות Q, לעומת זאת, מחייבת U. וכו'. הייתה לשאנון טבלה של תדירויות של צמדי אותיות, אבל במקום לחזור על התהליך המייגע, הוא פנה לשיטה גסה יותר. כדי לייצר טקסט עם תדירויות סבירות של צמדי אותיות, "יש לפתוח ספר בעמוד אקראי ולבחור מתוכו אות אקראית. את האות הזאת רושמים. אחר כך פותחים את הספר בעמוד נוסף וקוראים עד שנתקלים שוב באות [הראשונה] הזאת. ואז רושמים את האות שמופיעה אחריה. פונים לעמוד אחר ומחפשים את האות השנייה הזאת ורושמים את האות שאחריה. וכו'".

שאנון לא ציין באיזה ספר הוא השתמש, אבל כל ספר לא טכני באנגלית אמור לתת תוצאות דומות. אם הכול מתנהל כשורה, הטקסט שנוצר ישקף את הסיכויים שאות מסוימת תופיע לאחר אות אחרת באנגלית. זהו "אומדן מסדר שני":

ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE.

התהליך ההסתברותי הזה יצר בעיוורון מוחלט, יש מאין, חמש מילים באנגלית (on, are, be, at ואם מקבלים גם שמות, אז Andy).

"אומדן מסדר שלישי", המשתמש באותה שיטה ליצירת צירופים של שלוש אותיות, או תווים, מקרב אותנו עוד יותר לאנגלית:

IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE.

אפשר לעשות אותו דבר עם מילים שלמות. מנקודת מבטה של תורת המידע, מילים אינן אלא רצפים של תווים בעלי סבירות גבוהה יותר להופיע יחד. הנה "אומדן מילים מסדר ראשון", שבו בחר שאנון מילים שלמות על בסיסי תדירותן בטקסט אנגלי מודפס:

REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE.

כמו שאותיות מפעילות "כוח משיכה" על האותיות הסמוכות אליהן, מילים מפעילות "כוח משיכה" על המילים הסמוכות אליהן. לבסוף הגיע שאנון ל"אומדן מילים מסדר שני", שבו הוא בחר מילה באקראי, המשיך בספר עד שמצא את המופע הבא שלה, ואז רשם את המילה שבאה אחריה:

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED.

ההשוואה בין תחילת הניסוי לסופו – כלומר בין XFOML RXKHRJFFJUJ (ג'יבריש) ל-ATTACK ON AN ENGLISH WRITER ("התקפה על סופר אנגלי") – שופכת אור על ההבדלים בין החשיבות הטכנית של מידע לחשיבותו הדיבורית. אולי הנטייה שלכם תהיה לומר ש- ATTACK ON AN ENGLISH WRITER הוא הביטוי האינפורמטיבי יותר מבין השניים, אבל מוטב לומר שהוא ה"משמעותי" יותר מבין השניים. למעשה, הוא בעל משמעות לדוברי אנגלית בדיוק מהסיבה שכל אות היא פחות מפתיעה, כלומר נושאת בחובה פחות מידע. בביטוי XFOML RXKHRJFFJUJ, לעומת זאת, כל אות נבחרה באופן שאינו כפוף לכללים של תדירות, אלא פשוט מתוך אוסף של עשרים ושבעה תווים בעלי סיכוי שווה לחלוטין להיבחר. הבחירה בכל תו דומה להטלה של מטבע הוגן (בן עשרים ושבעה צדדים). מצב זה שקול לנקודה שבשיא הפרבולה של שאנון, שבה אי-הוודאות של התוצאה מגיעה לערכה המקסימלי.

גרפיטי, אותיות

אותיות מכווצות, מסר ברור: גרפיטי. תצלום: ויקטוריה פיקרניג.

איך כל זה קשור לאינטרנט, או לכל מערכת אחרת המשדרת מידע? השאלה הזאת מביאה אותנו אל התובנה השנייה של שאנון: אפשר לנצל את "היתירוּת" של המסר. מכיוון שבמסרים אמיתיים הסמלים צפויים יותר, רבים מהם אינם נושאים בחובם מידע חדש ואין בהם שום הפתעה. הם בדיוק מה שאנו מצפים שיהיו לאור היכרותנו עם "מילים, ביטויים, קלישאות ודקדוק". שאנון ציין שאפשר להוציא אותיות מהאנגלית הכתובה בלי לגרום נזק, לדוגמה: MST PPL HV LTTL DFFCLTY N RDNG THS SNTNC (משפט נטול תנועות שבכל זאת אפשר להבינו: Most people have little difficulty in reading this sentence). גם מילים עשויות להיות יתירות: בסיפור האהוב ביותר על שאנון בילדותו, "חיפושית הזהב" מאת אדגר אלן פו (1843), צייד אוצרות משתמש ברצפים חוזרים של תווים כדי לפצח מסר מוצפן ולחשוף מטמון קבור.

במאמר שפרסם ב-1951 הרחיב שאנון את הדיון בנקודה הזאת באמצעות סיפור בלשים אפלולי של ריימונד צ'נדלר בשם "Pickup on Noon Street". לא רק חוקי האיות והדקדוק מוסיפים כפילויות ורכיבים יתירים לשפות האדם, אלא גם הציפיות המסתוריות שמתעוררות בנו תמיד על סמך ההקשר. שאנון בחר פסקה באקראי מתוך הסיפור של צ'נדלר, ואז קרא אותה אות אחר אות לאשתו בטי. תפקידה היה לנחש מה תהיה האות הבאה עד שהצליחה, ובכל פעם שהצליחה עבר שאנון לאות שאחריה. המשימה של בטי הייתה קשה מאוד בתחילתן של מילים, ובייחוד בתחילת משפטים, אבל היא נעשתה קלה יותר ויותר ככל שהצטבר הטקסט. לדוגמה, עד שהיה בידיה הטקסט “A S-M-A-L-L O-B-L-O-N-G R-E-A-D-I-N-G L-A-M-P O-N T-H-E D", היא יכלה לנחש בדיוק מושלם את שלוש האותיות הבאות: E-S-K (שהרכיבו את המילה DESK, שולחן עבודה, יחד עם ה-D שכבר הייתה ברשותה).

דחיסת מסרים אינה אלא הסרת היתירות והשארת מספר הסמלים המינימלי הנדרש לשימור מהות המסר. אנחנו עושים זאת ביומיום כל הזמן: כותבים בקצרנות, נותנים כינויים, ממציאים ז'רגון כדי לדחוס שפע משמעות

הניחוש המדויק של בטי מלמד אותנו שלושה דברים. ראשית, אפשר להיות די בטוחים שהאותיות E-S-K לא הוסיפו מידע חדש למשפט. בהקשר המדובר, הן היו לפרוטוקול. שנית, כשמשפט מתחיל כך: a small oblong reading lamp on the ["מנורת קריאה קטנה ואליפטית על ה-"], רוב הסיכויים שיבואו אחריו אחת משתי אותיות: D, כמו האות הראשונה בניחוש של בטי, או T (האות הראשונה במילה table, "שולחן"). בשפה תיאורטית של אפס-יתירות המשתמשת באלפבית האנגלי, היה לבטי סיכוי של 1 מתוך 26 לנחש נכונה, אבל באנגלית אמיתית, הסיכוי שלה היה קרוב יותר ל-1 מתוך 2. הדבר השלישי שאנו לומדים הוא שיכולתנו לצפות את המשפט אינה מסתכמת במה שראינו עד כה: מתוך מאות אלפי המילים הנמצאות במילונים אנגליים טיפוסיים, שתי מועמדות בלבד התאימו בסבירות גבוהה לסוף המשפט: desk ו-table. אין שום דבר מיוחד במשפט הזה: זה משפט רגיל מעמוד אקראי בספר אקראי. אבל הוא מלמד אותנו שכתיבה כמעט תמיד מובילה אותנו בנתיב ידוע מראש. לסיכום, שאנון שיער שבערך שבעים וחמישה אחוז מהטקסט הכתוב באנגלית הוא יתיר.

הנקודות הצפויות האלה בכל מסר הן שומן שיש להסיר – ומאז ימי שאנון, האותות שאנו משדרים הם קלי משקל. הוא לא המציא את מושג היתירות, אבל הוא הראה לנו שמניפולציה מודעת של היתירות היא הסוד גם לדחיסה של מסרים וגם לשליחתם בדיוק מושלם. דחיסת מסרים אינה אלא הסרת היתירות והשארת מספר הסמלים המינימלי הנדרש לשימור מהות המסר. אנחנו עושים זאת ביומיום כל הזמן: כותבים בקצרנות, נותנים כינויים, ממציאים ז'רגון כדי לדחוס שפע משמעות ("החלק האחורי של הסירה כשאתה פונה קדימה") לתוך מילה בודדת ("ירכתיים").

אבל שאנון סלל את הדרך לדחיסת כמות אדירה של נתונים על-ידי קידוד מסרים בשורה של ביטים דיגיטליים, המיוצגים כל אחד על-ידי 0 או 1. הוא הראה לנו שהמהירות שבה אנו שולחים מסרים אינה תלויה רק בסוג ערוץ התקשורת, אלא גם ברמת המיומנות שבה אנו מקודדים את המסר בביטים. יתרה מזאת, הוא כיוון אותנו אל אחדים מהקודים האלה: הקודים שמנצלים את טיבו ההסתברותי של המידע כדי לייצג את התווים והסמלים הנפוצים ביותר במספר הביטים הקטן ביותר. לולא היינו יכולים לדחוס את המסרים שלנו, הורדה של קובץ אודיו אחד הייתה אורכת שעות, סטרימינג של וידאו היה אטי במידה בלתי נסבלת, ושעות של טלוויזיה היו דורשות מדף שלם מלא בקלטות, ולא קופסה קטנה של דיסקים. כל התקשורת הזאת – מהירה יותר, זולה יותר, בנפח גדול יותר – התאפשרה מכיוון ששאנון הבין עד כמה אנו צפויים.

סתיו, עלים

לגלות את הסתיו: והכול בביטים, בצירופים של 0 ו-1. תצלום: וידה דימובסקה.

התהליך ההופכי, לעומת זאת, הוא מה שמגן על המסרים שלנו מפני שגיאות בשידור. שאנון לימד אותנו שנוכל להתגבר על הרעש אם רק ניגש למסרים מכיוון חדש. ליתר דיוק, אם נוסיף להם יתירות. הסוד לדיוק מושלם – או כפי שהוא הגדיר זאת, לשיעור שגיאות שיהיה "קטן עד כדי שרירותיות" – אינו טמון בעוצמה שבה אנו צועקים לתוך השפופרת, אלא במידת שבה אנו מקפידים על מה שאנחנו אומרים.

הנה דוגמה (שעליה אני מודה להיסטוריון המדע אריקו מרוּאי גוּאיצו, Guizzo). אם אנחנו רוצים להעביר מסר באלפבית בן ארבע אותיות, נוכל להתחיל עם הקוד הפשטני ביותר, ולייחס לכל אות שני ביטים:

A = 00

B = 01

C = 10

D = 11

אבל הרעש במערכת התקשורת שלנו – לדוגמה, פרץ של רעש סטטי, הפרעות מהאטמוספירה, או נזק פיזי לערוץ – עלול לפגום בביטים ולהפוך 0ים ל-1ים. די שרק אחד הביטים המייצג את C ישתנה, והאות C תיעלם איפשהו בתווך שבין המוען לנמען. ואם היא תהפוך ל-B או ל-D, הנמען לאו דווקא יבין את הטעות. שני שינויים קטנים יהפכו את DAD ל-CAB.

אבל שפות רגילות מצטיינות בפתרון הבעיה הזאת. אם תקראו את המילה endividual, תבינו שהכוונה היא ל-individual ושיש כאן שגיאה במסר – שגיאת דפוס – ולא מילה חדשה לגמרי. שאנון הראה שאפשר לייבא את כלי התיקון הזה מהשפה אל הקודים הדיגיטליים על-ידי הוספה אסטרטגית של ביטים. אם נחזור לאלפבית המרובע שלנו, נוכל להשתמש בקוד כזה:

A = 00000

B = 00111

C = 11100

D = 11011

עכשיו, גם אם אחד הביטים ייפגע, האות תישאר דומה יותר לעצמה מאשר לכל אחת מהאותיות האחרות. נדרשות שלוש שגיאות כדי להפוך אות אחת לאחרת. הקוד החדש שלנו עמיד לרעש יותר מאשר הקוד המקורי, ובכל זאת איננו נדרשים להזרים עוד אנרגיה לתווך התקשורתי שלנו. כל עוד נתחשב ב"מגבלת המהירות" של ערוץ התקשורת (מגבלה במספר הביטים לשנייה, שגם אותה הגדיר שאנון), לא תהיה מגבלה על מידת הדיוק שלנו, ושום מידה של רעש לא תפריע לנו להשמיע את קולנו. שאנון לא גילה באילו קודים בדיוק יש להשתמש כדי לעשות זאת – וגם לא איך לשלב בין קודים המשמשים לדחיסה וקודים חסינים לשגיאות – אבל הוא הוכיח את אפשרות קיומם של קודים כאלה.

והם אכן קיימים. בהתאם לרוח הסובלנית, מרחיקת הראוּת, של מעבדות בל, יידרשו עוד עשרות שנים לפתח את הקודים האלה. לא זאת בלבד, אלא שמהנדסים ותיאורטיקנים של מידע ממשיכים לחקור עד היום את השאלות ששאנון הציג. אף-על-פי-כן, שאנון לימד אותנו שהמרת מסרים מכל סוג – שמע, חזותי, טקסטואלי – לביטים דיגיטליים מאפשרת לנו לשדר כל דבר, בכל רמת מורכבות, לכל מרחק. עבודתו היא הסיבה שהמילים האלה מופיעות כעת על הצג שלכם.

אף על פי שחייו של שאנון היו חיים של חירות אינטלקטואלית ותהילה מדעית, הם הסתיימו בחוסר הוגנות נוראי. דווקא כשהעולם הדיגיטלי שהוא חנך פרח בשנות התשעים, החלה מחלת האלצהיימר להכניע אותו. כמה טראגי שהמודעות שלו לתוצאות המעשיות של עבודתו הייתה מוגבלת ביותר. ובכל זאת, אין להכחיש את שאפתנותה של העבודה עצמה ואת מידת ההפתעה שהיא גרמה. איש לא הגדיר זאת טוב יותר מעמיתו ג'ון פירס (Pierce): "זה נפל עלינו כמו פצצה".

עבודתו של שאנון שאבה את כוחה האדיר מלהיטותו לחקור את מבנה העומק של המידע. כששאנון עסק בכך, לא היה מדובר עוד בבעיה מכנית הקשורה באופן העברתם של מסרים ממקום למקום. הוא חשב מחדש על טיבו של מידע ובחן מה פירוש לתקשר וליידע, במובן הקלאסי של המילים. זאת הייתה שאלה ישנה – אבל שאנון נתן לשאלה הישנה הזאת חיים חדשים, וזאת אחת הסיבות העיקריות שאנו חיים כיום בעידן המידע.

 

אם הגעת עד לכאן....

...יש לנו בקשה קטנה. קוראים רבים נהנים מהתכנים האיכותיים ש'אלכסון' מציע ללא כל תמורה. הפקת כתב העת ברמה כזאת כרוכה בהשקעה רבה של עבודה וכסף: עריכה, תרגום ורכישת זכויות פרסום בחו'ל. אם הערכים והרעיונות ש'אלכסון' מקדם קרובים לליבך ואם יש בך הערכה לעבודתנו אנו מבקשים את תמיכתך כדי להבטיח את הקיימות ארוכת הטווח של כתב העת.

לתמוך באלכסון

רובּ גודמן (Goodman) הוא דוקטורנט באוניברסיטת קולומביה בניו יורק. הוא פרסם מאמרים בכתבי עת שונים, בהם Slate ו-"אטלנטיק". ג'ימי סוני (Soni) הוא סופר ועורך שעבד בניו יורק אובזרבר, הפינגטון פוסט ועוד. ספרם המשותף הוא A Mind at Play: How Claude Shannon Invented the Information Age (משנת 2017).

 

AEON Magazine. Published on Alaxon by special permission. For more articles by AEON, follow us on Twitter.

תורגם במיוחד לאלכסון על ידי תומר בן אהרון

תמונה ראשית: "חזית צבעונית", תצלום: דימיטרי פופוב, unsplash.com

Photo by Dmitri Popov on Unsplash

מאמר זה התפרסם באלכסון ב על־ידי רוב גודמן, ג'יימי סוני, AEON.


תגובות פייסבוק

> הוספת תגובה

8 תגובות על פצצת הביט

06
טרול וקלפציון

הטענה הבסיסית של הכותבים היא מוטעה.
שנון לא הגדיר מה זה מידע, ובוודאי לא בדרך כמותית.
שנון הגדיר כלים מתמטיים-סטאטיסטיים שבהם אפשר לאמוד השפעה של רעש על טעויות שנוצרות בקידוד של מידע/מסרים/אותות, אבל הוא לא הגדיר מה זה מידע, ובוודאי לא הגדיר מידע באופן כמותי, למשל כמו האופן בו מוגדרת 'אנרגיה'.
בכל גבב המילים של כותבי המאמר, אותו העתיקו ממקורות אחרים, כל העיסוק הוא בקידוד ושגיאות קידוד.
יש אפשרות סבירה שהכותבים כלל לא קראו את המאמר המקורי (והארוך מאוד) של שנון, שבו הוא עסק בנושא הזה.

חשוב לשים לב שגם העיסוק של פיזיקאים בנושא של מידע ולמשל אובדן מידע בחורים שחורים, או רישום מידע על ידי "שדונים", כלל לא עוסק בהגדרה של מידע, אלא רק בשינויים במידע קיים, אשר מקודד בחומר.

דוגמא אפשרית להגדרה אמיתית וכמותית של מידע (אם כי מאוד מוגבלת מאוד) נמצאת בספר REASONING ABOUT KNOWLEDGE
https://mitpress.mit.edu/books/reasoning-about-knowledge

08
ט

גם היקום הוא מידע, הוא מתחיל בנקודה שבה אין לו אופציה מלבד להתחיל, המפץ הגדול, בנקודה הזאת אין הפתעה ואין הרבה מידע, ואז ככל שעובר הזמן יש יותר ויותר מידע שהולך וקוטן ככל שהזמן עובר עד לסוף היקום הבלתי נמנע והודאי (אין מידע), שהוא גם התחלה של יקום חדש שהתחלתו בלתי נמנעת. מתי יש מקסימום מידע ואפשריות בחיי הייקום? איפה שהוא באמצע אבל יותר קרוב להתחלה, ואנחנו כיום בשנה הבערך 13.8 מיליארד, מתוך גיל צפוי של בערך 1,000 מיליארד.