אלגוריתם המודד השפעה מוסיקלית

אחד התחומים המרכזיים במחקר היסטורי של המוסיקה הוא בחינת ההשפעה של יוצרים או מבצעים על התפתחותם של יוצרים אחרים, יצירות אחרות, ז'אנרים וסאונד. שאלות כגון הקשר בין מידת ההשפעה של יצירות, קורפוסים, יוצרים או מבצעים למידת המקוריות שלהם נמצאות במוקדי ויכוחים אקדמיים מתמשכים.

ביום ראשון הבא יוצג בכנס באטלנטה המחקר הראשון המודד השפעה מוסיקלית באופן כמותי. עם זאת, ספק רב אם הדבר יעורר סערה בקרב קהילת ההיסטוריונים של המוסיקה. הסיבה אינה נעוצה באיכות המאמר: הוא פורסם באחד מכתבי העת המובילים והוא יוצג בכנס מדעי בהחלט. אלא שלא מדובר על כאלה העוסקים במוסיקולוגיה: האירוע הוא הכנס הבינלאומי ה-30 ללמידה־חישובית (ICML) וגם כתב העת (Journal of Machine Learning Research) שייך לתחום הזה.

החוקר המציג הוא הישראלי אורי שליט. שליט לומד לתואר שלישי במרכז אדמונד ולילי ספרא למדעי־המוח ובבית הספר להנדסה ולמדעי־המחשב באוניברסיטה העברית, תחת מנחיו לעבודת הדוקטורט, פרופ' דפנה ויינשל מהמחלקה למדעי־המחשב באוניברסיטה העברית וד"ר גל צ'צ'יק ממרכז גונדה לחקר המוח באוניברסיטת בר־אילן.

הוא מעולם לא למד מוסיקה, לא במסגרת פורמאלית ולא במסגרת שאינה כזו. יחד עם זאת, שליט מעיד על עצמו כחובב מוסיקה נלהב, אשר בילה שעות רבות בהאזנה למוסיקה ובחיפוש וגילוי קטעים חדשים.

מחקרו מתבסס על מתודה שפיתחו שון גריש ודייויד בליי מהמחלקה למדעי־המחשב באוניברסיטת פרינסטון. ב-2010 הציעו גריש ובליי גישה חדשה לבעיה אשר העסיקה וממשיכה להעסיק את טובי המוחות, הן בעולם האקדמי והם בעולם העסקי: זיהוי טקסטים משפיעים במיוחד מתוך מקבץ טקסטים רחב.

השיטה המסורתית לבידוד טקסטים משפיעים משתמשת במדד מרכזי אחד: ציטוטים. באקדמיה מבוסס מדד ההשפעה של כתבי־עת על כמות הציטוטים מתוכם. במגזר העסקי אלגוריתמים כגון ה-PageRank של גוגל לוקחים בחשבון את כמות ההיפר־קישורים לדף מסויים ואת עוצמתם היחסית (היפר־קישור מקביל למעשה לציטוט). לא מפתיע, אם כן, כי ענקית החיפוש תומכת באמצעות מלגות יוקרתיות במימון מחקרים מסוגם של שליט, גריש ובליי.

הצמד מפרינסטון קורא תיגר על שיטת המדידה האקדמית, בעיקר משום שהיא אינה לוקחת בחשבון את חשיבות הציטוטים אלא אך ורק את מספרם. המודל שהם מציעים חדשני ושונה באופן מהותי מן השיטות הקיימות. הוא מתבסס על ניתוח שפה, מתוך הנחה שמאמר מדעי משפיע גם על המילים והמושגים המוזכרים במאמרים המושפעים. באמצעות ניתוח של פיזור מילים האלגוריתם שלהם יודע להפריד בין נושאים (topics). בכל מאמר ייתכנו הופעות של מספר נושאים, במידת חשיבות משתנה. מאמר משפיע הוא מאמר אשר מטה את אוצר המילים של נושא מסוים לכיוון אוצר המילים שלו.

הקורלציה בין תוצאותיהם של גריש ובליי לבין שיטות המדידה מבוססות הציטוטים מובהקת. חשוב לציין שהשימוש במידע אודות כמות הציטוטים במחקרם של השניים נועד אך ורק על מנת לבדוק את התוצאות אליהן הגיעו. בתהליך המיון עצמו, נתוני הציטוטים כלל אינם מוזנים לתוך המערכת.

שליט בחר ללכת בעקבות גריש ובליי: ראשית, למפות מספר נושאים, המופיעים ברמות שונות בשירים שונים בקורפוס. שנית, עבור כל שיר בקורפוס נמדדה ההשפעה שלו על הנושאים השונים. בכל שיר ייתכנו מספר נושאים (לדוגמא: מאפיינים של רוק, רגאיי ופאנק) והשיר משפיע על הנושאים השונים במידה שונה. השפעה של שיר על נושא היא הטיית אוצר המילים של הנושא לכיוון אוצר המילים של השיר.

בידי גריש ובליי היו מאגרים של מאמרים, סרוקים או בקבצי טקסט, אך בכל מקרה מורכבים ממילים ואך ורק ממילים. מהי, אם כן, המקבילה המוסיקלית למילה? הרי אותות האודיו שמרכיבים יצירה מוסיקלית הם מתמשכים. מתקיימים בהם מבנים נושאי משמעות במספר רב של קני־מידה של זמן – החל ממילי־שניות ועד ליצירה כולה.

על מנת להתגבר על הבעיה חולקו השירים למקטעים בני פחות משניה, בהם מתקיימת אחידות יחסית בגוון הקול ובהרמוניה. עבור כל מקטע ממופים השינויים בעוצמה, במרווחים הטונאליים ובגוון הקול. בנוסף נלקחו בחשבון, לאורך השיר כולו: הקצב, המקצב, הסולם והמודוס. לפי המאפיינים הכלליים שלו והאפיון של המקטעים הקצרים קיבל כל שיר חתימה המייצגת את "אוצר המילים" שלו.

החישובים בוצעו על כ-25,000 שירים, החל משנות ה-20 של המאה הקודמת ועד 2010. לאחריהם, נותר למצוא האם קיימת קורלציה בין התוצאות שהניב המודל לבין השפעות שמופו במתודות אחרות. עבור כך נעשה שימוש בגרף נתונים שנאסף מתוך אתר allmusic.com, מסד נתונים עצום המכיל בין היתר דעות של מומחים אודות ההשפעות של יוצרים שונים.

הקורלציה מדהימה. אך לא רק היא – גם הנושאים שהגדיר האלגוריתם מהווים בעצמם אינדיקציה לתקפותו של המודל. על מנת לדעת אילו סגנונות נכללו בנושא, נעשה שימוש בתגיות סוגה מ-allmusic.com. כך, לדוגמא נראה נושא: בשנות החמישים הוא כולל ג'ז, בלוז והארד־בופ, הוא התפתח לכלול ג'ז, פאנק, דיסקו ומוסיקת נשמה בשנות ה-70', היפ־הופ, אלקטרו וטכנו באייטיז, היפ־הופ, אלקטרוניקה וטריפ־הופ בשנות ה-90' וטכנו והאוס בשנות ה-2000. טבלאות הנושאים במאמר מומלצות מאד לכל חובב מוסיקה. בלתי נתפס, גם במבט שלישי או רביעי, כי אלגוריתם יצר את החלוקה ההיסטורית הזו מתוך ניתוח של קבצי קול בלבד וללא תגיות טקסטואליות.

קשה להאמין שזוהי עבודה של מכונה גם למראה רשימת השירים המדורגים ראשונים בהשפעתם. בין היתר נמצאים ברשימה "Like a Rolling Stone" של דילן, שבישר את המעבר של הפולק אל הסאונד החשמלי; "Paul Revere" של הביסטי־בויז, ארבעה שירים של אלביס פרסלי ושניים של Beck.


מקורות:
המאמר בכתב העת Journal of Machine Learning Researchמאמרם של גריש ובלייקוד האלגוריתם של גריש ובליי בשפת cאתר הבית של אורי שליטשליט ברשימת מקבלי מלגת גוגל האירופאית ללמידה חישובית

מחשבה זו התפרסמה באלכסון ב על־ידי אבנר פינצ'ובר.


תגובות פייסבוק

3 תגובות על אלגוריתם המודד השפעה מוסיקלית

02
אורי

למרבה הצער כמעט כל שירי הביטלס, פרט למוקדמים ביותר, לא היו זמינים למחקר מסוג זה בשל הקפדה רבה של בעלי הזכויות עליהם על זכויות היוצרים. להבדיל מבמקרים אחרים, בעלי הזכויות על שירי הביטלס לרוב לא מאפשרים שימוש לצרכי מחקר באודיו של השירים.

עם זאת, יש לציין שמטרת העבודה אינה למצוא מי הוא "האמן המשפיע בכל הזמנים", אלא לראות כיצד האלגוריתם יכול לפענח ולפרום את מכלול ההיסטוריה המודרנית של המוזיקה לנימות שונות בהתבסס על התוכן המוזיקלי של השירים.