(ר' קישורים בטקסט)
מה מתרחש (:
אני אסף שפירא וזה נטפריקס – הפודקאסט העברי הראשון למדע הרשתות.
אולי זה קצת מוזר להתחיל עם זה, אבל אני חייב גילוי נאות: אני כבר לא אוהד כדורגל.
גילי לנדאו מהפועל ת"א גמז את הקריירה שלי כאוהד כשלקח את האליפות ממכבי חיפה ב-1986 בגול שייזכר לדראון עולם. שברון הלב הרחיק אותי מעולם הכדורגל ומעולם הספורט בכלל עד ששנים אחר כך, גיליתי את העולם המופלא של הפוטבול האמריקאי ואת קבוצת הגרין ביי פאקרס שמצליחה לרגש ולעצבן כל פעם מחדש. כנראה שיש לי משיכה לחולצות ירוקות וזו אולי הסיבה שגם למדתי אסלאם. אבל אני לא לבד.
בפודקאסט "עושים ספורט-קאסט", עלתה השאלה, מדוע כדורגל הוא האחרון לאמץ שינויים טכנולוגיים, למשל טכנולוגיית ה-VAR. VAR או Video Assistant Referee היא טכנולוגיה שמאפשרת לבצע בקרה על החלטת השופט ע"י שיחזור וידאו של האירוע. משהו שקיים שנים רבות בטניס ובפוטבול למשל ואילו בכדורגל, רק ב-2018 צורפו שופטי VAR רשמית ע"י התאחדות הכדורגל הבינלאומית.
המסקנה הלא טריוויאלית של המנחים הייתה שהסיבה שעומדת מאחורי הפיגור הטכנולוגי היא ש... כדורגל זה דבר משעמם. זה 90 דקות שלא קורה בהן הרבה. אם ניקח למשל משחק פוטבול אמריקאי שנמשך ברוטו 3 שעות ונעשה לו תקציר משחק, התקציר ייקח כ-40 דקות. אם נעשה תקציר דומה למשחק כדורגל, נקבל משהו כמו 2 דקות למשחק רגיל, או 5 דקות למשחק שתספרו עליו לנכדים. זה אומר שיש לנו כ-90 דקות שצריך למלא במשהו, והמשהו הזה, הוא טעויות שיפוט. טעויות שיפוט מאפשרות ריגוש ומגדילות את המעורבות של הקהל בד בבד עם הגדלת המעורבות של משפחתו של השופט.
אבל מה לגבי אימוץ של מחקר הדאטה בכדורגל?
צ'ארלס ריפ מאנגליה היה כנראה בין הראשונים שעשה ניתוח דאטה למשחק כדורגל, עוד משנות החמישים. עם עיפרון ומחברת, ובלי תואר אקדמאי, הוא אסף בעצמו את הנתונים והגיע למסקנות שפורסמו ב-1968 והן:
בממוצע, נדרשות כעשר בעיטות לשער כדי לייצר גול
השתלטות על כדור במחצית המגרש של היריב משפיע מאד על סיכוי ההבקעה
והכי חשוב: 80% מהשערים הם תוצאה של 3 מסירות ומטה
לפיכך, הטיף ריפ לכדורגל מאד התקפי שדוגל במסירות ארוכות. למה ארוכות? כדי להקטין את כמות המסירות במהלכי הקבוצה כך שסיכויי ההבקעה יעלו.
עד כאן לכאורה, מאניבול במיטבו. גילוי תופעה בדאטה ויישום שלה במציאות לשיפור ביצועים.
רגע - זו ההזדמנות לנפות ברגע זה את מי שלא ראה את הסרט מאניבול.
מי שלא ראה, שייקח צעד אחד אחורה וירוץ לעשות השלמות. סרט מעולה בכל קנה מידה, שמהווה השראה לכל מי שעסק ועוסק בנתונים (ומבוסס על ספרו המפורסם של מייקל לואיס).
תקציר הסרט, לשני אלה שמעדיפים פודקאסט על סרט עם בראד פיט, הוא הניסיון האמיתי של קבוצת הבייסבול של אוקלנד ("אתלטיקס") לעשות יותר עם פחות. הקבוצה מצטיירת כקבוצה עניה, אנדרדוג לכל הדעות והמנכ"ל שלה, בראד פיט בתפקד בילי בין, מקבל החלטה דרמטית: להשתמש בנתונים כבסיס לקבלת החלטות במקום להסתמך על הערכות איכותניות של מומחים, במטרה להביא יותר ניצחונות עם תקציב מוגבל. מכיוון שהדמות הראשית היא בראד פיט, אז אתם כבר יכולים לנחש שהסינדרלה של הבייסבול האמריקאי הצליחה כנגד כל הסיכויים להגיע למקום מכובד בליגה, לעומת קבוצות שהשקיעו הרבה יותר.
עד כאן – סיפור הצלחה מסחרר. רק בעיה אחת: לא כל כך מדוייק.
טיפה'לה היסטוריה: בין השנים 1988-1990, לפני הגעתו של המנכ"ל האגדי, האתלטיקס הופיעו 3 פעמים בגמר (ולקחו פעמיים). וכדי להבין מה זה להגיע לגמר בעונה של בייסבול, זה אומר שהקבוצה שיחקה יותר מ-170 משחקים. לא מעט. וכדי להמחיש כמה זה לא היה סתם מזל, אז גם בערך בתקופה הזו, המשכורות של האתלטיקס הגיעו לשיא בליגה. אבל כשהתקציב נחתך, גם הביצועים החלו לרדת. מאז ועד היום, האתלטיקס הם באופן כמעט קבוע, בשני העשירונים התחתונים של תקציב, ביחס לקבוצות אחרות. ב-6 השנים שחלפו מעידן הזהב של הקבוצה, לקבוצה היה מאזן נמוך כשרק בשליש מהעונות הם סיימו עם יותר נצחונות מהפסדים. ואז נכנס לתמונה ה-GM החדש בשם בראד פיט, או בילי בין, גיבור הסרט מאניבול ו... בשורה התחתונה, לא הרבה השתנה.
אמנם מאזן ההפסדים-נצחונות בעונה של הקבוצה השתפר מאז ועד היום ועומד על כ-50%, אבל בכל השנים האלה, ומדובר בכיותר מעשרים שנה, האתלטיקס לא הצליחו כמעט לעבור את הסיבוב הראשון של הפלייאופ.. למעשה, הם הפסידו לקבוצה עם תקציב זהה לשלהם.
מה שנכון הוא שבעקבות האתלטיקס, קבוצות בבייסבול עושות שימוש עצום בדאטה. אז למה מהפכת הנתונים שטפה את עולם הבייסבול, אם השיפור הוא לא כזה דרמטי? כי בכל זאת, נראה שיפור.
בבייסבול גם מאד קל לאסוף נתונים ויותר חשוב, לעשות בהם שימוש.
מכיוון שכל קבוצה משחקת לפחות 162 משחקים בעונה, מצטברים הרבה מאד נתונים. טיבו הסטאטי יחסית של המשחק והעובדה שהעימות בין הקבוצות מתרחש בעיקר בין שני שחקנים, המגיש והחובט, מקל על ניתוח הנתונים והוצאת המסקנות.
גם בכדורסל היה וייב גדול של מהפיכת דאטה, אבל לפני שניכנס אליו, חייבים לדבר על הפיל בחדר:
זריקות סבתא.
זריקות סבתא הוכחו פעם אחרי פעם כבר לפני עשרות שנים כדרך הטובה ביותר להגדיל משמעותית את אחוז הקליעה מעונשין בכדורסל. ולא סתם.
בזריקה רגילה, תנועת הזריקה מתחילה עם הרגליים, הגוף, הזרועות והידיים, ברצף מסובך של תנועות.
זריקת סבתא, לעומת זאת, עושה שימוש בתנועה חלקה אחת. תנועה אחת הרבה יותר קלה מארבע.
בנוסף, בזריקת סבתא בדרך כלל הקשת גבוהה יותר מה שאומר שהכדור מגיע מזווית תלולה יותר, כלומר, החלון שבו יכול להיכנס הכדור גדול יותר.
ודבר אחרון, זריקות סבתא מעניקות לכדור סיבוב אחורי כך שגם אם הוא פוגע בטבעת, יש לו יותר סיכוי לקפוץ פנימה מאשר החוצה.
אז למה אנחנו לא זורקים זריקות סבתא מהעונשין? מאותה סיבה שאנחנו לא הולכים עם סבתא לשחק כדורסל. זה לא נראה טוב ואנחנו מתביישים.
אז חוץ מכשלון ההטמעה של מחקר הנתונים הנ"ל, מהפיכת הדאטה בכדורסל הביאה תובנות שהיום כבר כל ילד מכיר, כמו למשל שהקליעות המשתלמות ביותר בכדורסל הן מתחת לסל ומקו ה-3, ואכן, הייתה עלייה גדולה בזריקות ל-3 בשנים האחרונות.
אז מה הבעיה? שכל ילד מכיר את זה. זו הסיבה שהקבוצה השנייה תנסה למנוע בדיוק את הזריקות האלה.
כלומר, יש לנו כאן בעיה מסדר גודל שני. הניתוח שלנו משפיע על הפעולות במשחק, אבל הפעולות שלנו משפיעות על הפעולות של הצד השני, ולכן חוזרות להשפיע על הפעולות שלנו וכן הלאה, מה שיכול לפגוע בניתוח הראשוני.
וזה מביא אותנו לכדורגל. בכדורגל של ליגת העל, כל קבוצה משחקת רק 26 משחקים לעומת ה-160 בבייסבול או לפחות 82 ב-NBA. בנוסף, בניגוד לבייסבול או כדורסל שבהם יש שלב שבו אותן קבוצות משחקות זו נגד זו שוב ושוב, בכדורגל זה קורה לעיתים הרבה יותר נדירות.
אם זה לא מספיק, אז בכדורגל יש גם הרבה פחות מהלכים מוצלחים. בכדורסל, למשל, לא כזה נדיר לראות תוצאה שכללה 100 סלים במשחק.
בכדורגל, משחק עם 10 גולים זה נושא שיחה לשנה שלמה. למעשה, כ-80% מהמהלכים ההתקפיים לא מגיעים בכלל לאזור השער והסיכוי להבקיע גול עומד על כאחוז בודד.
כל העובדות האלה מצביעות על תסכול כפול: קודם כל, קשה יותר להוציא מסקנות ממשחק כדורגל ושנית, שלהיות אוהד כדורגל זו חוויה מתסכלת.
נוסיף לזה שגם כמות האינטראקציות והכאוס במשחק גדולים יותר כי המגרש יותר גדול ויש עליו יותר מפי 2 שחקנים.
לכן לא פלא שבייסבול מוביל את עולם הדאטה, אחריו הכדורסל, וכדורגל נגרר מאחור.
אבל אם כבר מדברים על ענפי ספורט ודאטה, אז הענף עם הדיסוננס הכי גדול בנושא הוא פוטבול אמריקאי. בפוטבול, כמות הנתונים שנאספת ומוצגת גם לצופים בבית היא אדירה. לא פעם אפשר לראות סטטיסטיקות רצות על המסך בסגנון: "זו כמות המסירות הגדולה ביותר שעשתה הקבוצה במשחק נגד שיקגו, במחצית הראשונה, מאז 2005." יופי של אבחנה. מה עושים איתה? מאד קשה להוציא ממנה מסקנות רלוונטיות בגלל שכל קבוצה משחקת רק כ-16 משחקים בעונה, וההרכבים בה משתנים ממהלך למהלך ובוודאי מעונה לעונה. יש כל כך הרבה תנודה של שחקנים בין הקבוצות שזה כמו שסיינפלד אמר, אנחנו כבר לא אוהדים קבוצות, אנחנו אוהדים חולצות. אז למה כל העיסוק שם בדאטה? זה לא סוד, ואפילו באופן מודע, חלק מהמידע שמוצג לקהל בבית הוא לשם שעשוע ויצירת מעורבות. לכן פוטבול הוא ענף שכולו בוננזה לאנליסטים - כמו אנטרקטיקה. אתה יכול להגיע לשם אבל לא בטוח שתרצה להישאר.
אז הפתרון בהרבה מקרים כמו אלה הן סטטיסטיקות שניתן לבצע ברמת הפרט לשיפור ביצועי הפרט אבל פעם ב.. ניתן למצוא איזשהו נתון שמשנה את המשחק, כמו למשל החזרת כדור בפוטבול.
מהלך החזרת כדור בפוטבול קורה כשקבוצה א' מבצעת בעיטת פתיחה. לקבוצה ב' יש החלטה שהיא צריכה לקבל: האם לנסות לתפוס את הכדור ולרוץ לצד השני כדי לנסות להשיג כמה שיותר יארדים או במידה ואפשר, לתת לכדור הנבעט לעבור אותה ולהגיע ל-endzone שלה ולקבל את הכדור בחזרה בקו ה25 יארד, כלומר, לקבל 25 יארד מתנה.
בעבר, חוקי הליגה איפשרו לקבל את הכדור ב-20 יארד, והדבר עודד קבוצות לנסות את מזלן.
הצרה היא, שכשתי הקבוצות שועטות זו לעבר זו משני קצווי המגרש, התוצאה דומה לזו של שני פטישים שמכים אותו מסמר. כדי להימנע מפציעות הראש המתבקשות מהאירוע, הליגה שינתה את החוקים והעניקה לקבוצה שמוותרת על החזרת הכדור עוד 5 יארד נוספים, כלומר, להתחיל מקו ה-25 יארד.
לקח לקבוצות קצת זמן להתרגל לשינוי, אבל כיום, רוב הקבוצות לא ינסו להחזיר את הכדור, כי הסטטיסטיקה מראה שהסיכוי של התופס להריץ את הכדור מעבר לקו 25 היארד במהלך שכזה הוא נמוך מאד, לעומת 25 יארד מובטחים, ללא מאמץ.
אז גם בכדורגל חוקרים רבים ניסו את מזלם בעקבותיו של צ'ארלס ריפ האנגלי בכדי למצוא תובנות שימושיות ומה שהם גילו זה שכדי לנצח משחק צריך לבעוט הרבה לשער ולדייק ככל הניתן, להחזיק כמה שיותר זמן בכדור, למסור במדוייק ואולי הכי חשוב, לשחק בבית נגד קבוצה רעה יותר... מפתיע? לא כל כך.
אבל כמו שקרה גם בפוטבול, פעם ב... ניתן למצוא סטטיסטיקות מועילות והמקבילה הכי דומה לכך בכדורגל זה ה-setups או המצבים הנייחים: אלו מצבים סטאטיים שנוצרים כתוצאה מחוקי המשחק, כשהכוונה לבעיטות עונשין, קרן או הוצאת חוץ. המצב האידיאלי לתוקף הוא כמובן בעיטת העונשין מ-11מ', שם הסיכוי להבקעה הוא 70%.
לבעיטות עונשין אחרות או קרן הסיכויים עומדים על כ-3%. נשמע מעט, אבל כבר דיברנו על כך שהסיכוי להבקיע במשחק הוא רק אחוז בודד, ולכן, מדובר פה במצב משופר. כיוון שקיימות טענות במחקר שכ-30% מהשערים מובקעים ממצבים אלו, וגם בגלל הפשטות היחסית של המצבים האלה, כלומר, הם מתחילים מנקודה סטאטית ומאפשרים היערכות מוקדמת, הרבה מהמחקר בנושא כדורגל בשנים האחרונות התמקד בכיצד לבצע אופטימיזציה של אותם מהלכים. אז אחרי כל ההקדמה הזו, למה צריך ניתוח רשתי? אפשר בכלל? מה הוא ייתן?
אז למה רשת? קודם כל, כי היא שם. כדורגל הוא משחק רשתי, ואיפה שיש רשת, חוקרים.
מה שנקרא בלשון המוסכים, פותחים – רואים, אם היינו יודעים מראש מה נקבל, לא היה צריך בכלל מחקר. אבל בנימה רצינית יותר, כבר בפרק על המודיעין דיברנו על כך שרשת למערכת היא כמו מפה לשטח, כלומר, רשת היא מייצגת טובה של המערכת. למה? כי קבוצת כדורגל היא לא רק אוסף של שחקנים. השחקנים תלויים זה בזה, ומערכת התלויות האלה באה לידי ביטוי ברשת.
בפרק הקודם דיברנו על רשתות מורכבות, ואולי תופתעו לגלות, אבל משחק כדורגל הוא רשת מורכבת וכשחושבים על זה ככה, פתאום הכל נראה מעניין יותר, ופה שוב אני לא לבד:
מכל סוגי הספורט, ניתוח רשתי כנראה מיושם הכי הרבה על משחקי כדורגל ודרך מחקרים אלו נלמד
גם על מדדי רשת, מדדי מרכזיות ושיטות מחקר חדשות.
והדבר הראשון שנלמד זה איך, בזכות החשיבה הרשתית, נחשוף מדוע מסקנותיו של צ'ארלס ריפ מתחילת הפרק היו שגויות. תזכורת: ריפ היה הראשון לנתח משחקי כדורגל והגיע למסקנה שבגלל שרוב השערים מובקעים במהלכים של 3 מסירות ומטה, בדגש על ומטה, יש לבצע מסירות ארוכות כדי למקסם הזדמנויות הבקעה.
על המסר הזה הוא חזר הרבה בהתייחסויותיו לכדורגל האנגלי, ואני אישית פחות שולט בחומר, אבל קיימות טענות שתורתו השפיעה על שיטת המשחק ואולי, בלי קשר, אבל אנגליה לקחה את הגביע העולמי שנתיים לפני פרסום המאמר של ריפ, ומאז הפרסום, כמעט ולא מצליחה לעבור את הרבע גמר בגביע העולם {ר' הערה 1]. למה?
לא יודע, אבל מה שאני כן יודע זה שיש בעיה בדרך שבה מר ריפ הגיע למסקנות שלו. יכולים לנחש?
באמת צריכים רמז? דינוזאור
נכון, מהלכי המסירות במשחק כדורגל מתפלגים power law או זנב ארוך. כלומר, יהיו מעט מהלכים שיהיו בהם הרבה מסירות, והרבה מהלכים של 3 מסירות ומטה. למעשה, רוב המסירות בכדורגל הן של 3 מסירות ומטה. ככה זה כדורגל, משחק הפכפך. אם כך, רק הגיוני שרוב השערים יהיו תוצאה של מיעוט מסירות, וזה עוד מבלי להתייחס לבעיטות מהקרן, פנדלים וכד'.
רק כ-20% מהמהלכים יהיו של 4 מסירות ומעלה.
כלומר, זה נכון שמבחינה כמותית, יותר שערים הובקעו ממהלכים שכללו מעט מסירות, אבל זה לא אומר שבהכרח הם היו יותר אפקטיביים, אם נתייחס לחלקם היחסי של ההבקעות ממהלכים עם יותר מסירות. יתרון נוסף של מבט רשתי הוא שהוא מאפשר להבין איך למקסם את יכולות הפרט בהקשר של הקבוצה וגם איך הקבוצה כמכלול יכולה להשתפר. וכמובן, גם ההופכי, איך להתמודד מול הקבוצה היריבה ולמצוא את נקודות התורפה שלה.
לכל מי שרואה כדורגל יש אינטואיציה כזו או אחרת לגבי המשחק, למשל, לא נדיר לשמוע משפטים כמו: "זו קבוצה שהמשחק הגנה שלה חלש" או "איזה יופי של מערך התקפי", אבל תחושות אלו ניתן לתרגם לנתונים באמצעות הרשת, וקרקע של נתונים היא יציבה יותר מאינטואיציות ותחושות.
כנראה שהניסיון הראשון לנתח רשתית משחק כדורגל היה של Gould & Gatrell שבמחקר ב- 1979 ניתחו את משחק האליפות באנגליה של מנצסטר יונייטד-ליברפול. המאמר לא קיבל את הכבוד שמגיע לו אלא רק 30 שנה אחר כך. מאז 2010, ובעיקר בזכות הטכנולוגיות שקשורות בתיעוד המשחק, הייתה קפיצה משמעותית בכמות המאמרים על SNA בכדורגל, וגם קפיצה גדולה בכמות המשחקים המנותחים.
לכן נתרכז במחקרים שבוצעו על סדר גודל משמעותי של משחקים, למשל, מחקרים שבדקו אלפי משחקים או משחקים בליגות שלמות. אבל כמו בכל טיפול בנושא שהוא חדשני, ניתן במה גם למאמרים חדשניים שלא נבדקו על ביגדאטה, כמובן כל עוד הם תומכים בתזה שלנו.
אז איך מנתחים רשתית משחק כדורגל? ההבנייה של המשחק כרשת היא די אינטואיטיבית: השחקנים הם הצמתים והמסירות ביניהם הן הקשתות או הקשרים. לפעמים, מסירות הן לא רק מסירות. מסירות הן קשר. וקשרים יכולים ללמד אותנו דברים על שיתוף פעולה, חלוקת הנטל, תרומה למאמץ, יעילות, מועילות וסינרגיה.
המרכיב הבסיסי של ניתוח הרשת שנקבל יהיה למצוא את מרכזי הכובד ברשת. מי הם אותם שחקנים מרכזיים ולמה. אז נחזור שניה על שלושת מדדי המרכזיות העיקריים, עליהם דיברנו בפרק 4:
המדד הראשון, דרגה או Degree, הוא המדד הבסיסי ביותר למרכזיות ברשת ומשמעותו כמות הקשרים שיש לשחקן.
ברשת מכוונת, או directed, כשלכיוון הקשרים יש משמעות, אפשר לחשב גם in-degree או out-degree, כלומר, כמה מסירות הוא קיבל (דרגה נכנסת) וכמה מסר (דרגה יוצאת).
המדד השני, Closeness הוא מדד של קירבה ברשת, כלומר, כמה הצומת היא ב"לב" הרשת, מה שהופך אותה למרכזית, תרתי משמע. המשמעות של מדד זה במשחק היא כמה קל להגיע או למסור כדור לשחקן.
והמדד השלישי הוא Betweenness והוא מדד של קישוריות או יותר נכון גישוריות ברשת, כלומר, כמה צומת מגשר בין חלקי הרשת ומהווה צוואר בקבוק בין חלקים במגרש.
אז בואו נתרגם את המדדים לכדורגל:
השחקן עם הדרגה הגבוהה יהיה השחקן שמקבל/מוסר הכי הרבה פעמים את כדור. הבעיה עם מדד זה הוא שהרשת נהיית כל כך צפופה בכדורגל שהמדד מאבד קצת ממשמעותו ולכן עדיף להסתכל על כיווניות הקשר: כמה השחקן מסר וכמה קיבל מסירות. אם מסר הרבה, זה שחקן קבוצתי טוב ואם קיבל הרבה סימן שסומכים עליו או שהוא מצליח להנגיש את עצמו לכדור.
השחקן עם ה-Closeness הגבוה הוא שחקן שמצליח למקם את עצמו במקום הנכון במגרש ולהוביל את הכדור למי שצריך אותו.
השחקן עם ה-Betweenness הגבוה הוא השחקן שדרכו עוברים רוב הכדורים, בסבירות גבוהה, בין ההגנה להתקפה, ולכן הוא פיבוט משמעותי בקבוצה.
אבל יש לנו בעיה עם מדדי ה-Betweenness וה-Closeness שלנו.
מדדי רשת אלו יוצאים מתוך ההנחה שהכדור יעבור לפי המסלול הקצר ביותר, אבל זה לא בהכרח כך בכדורגל. יכול להיות שבשביל לעקוף או להטעות את ההגנה, נעשה שימוש בכמה שחקנים או צמתים ברשת שהם אולי לא הכי יעילים במובן המתמטי אבל משרתים היטב את מטרת העברת הכדור. יותר מזה, יכול להיות שהמסלול יחזור על עצמו מספר פעמים, כמו למשל במקרה של דאבל פס, דבר שבוודאי אינו עונה להגדרה של "המסלול-הקצר-ביותר".
ולכן כנראה מומלץ לעשות שימוש ב-random walks, או שיטוט רנדומי.
משפחת אלגוריתמים זו מבוססת על הרעיון של random walk, כלומר, שוטטות ברשת, לאורך הקשתות שלה, כדי לאפיין את הזרימה של הרשת. אפשר להשתמש בה כדי למצוא מרכזי כובד, קהילות ועוד ויתרונה שהיא יכולה לעשות שימוש גם בכיווניות הקשר, כלומר, האלגוריתם המשוטט שלנו יכול לנוע לפי כיוון הקשרים.
אז איך זה עובד?
האלגוריתם מתחיל בצומת רנדומלי ובוחר בהתפלגות אחידה לאיזה צומת שכן להמשיך. התפלגות אחידה זהה להטלת קוביה. הסיכוי להמשיך לכל צומת שכן הוא שווה.
במקרה של רשת מכוונת, האלגוריתם יתקדם לפי כיוון הקשר. במקרה של רשת לא מכוונת, כל צומת שכן הוא לגיטימי לשיטוט. ב-15% מהפעמים, האלגוריתם יעשה טלפורטיזציה לצומת רנדומי אחר וימשיך את מסעו משם. הסיבה לטלפורטיזציה היא כדי לוודא שהשיטוט לא ייתקע כשיגיע למבוי סתום ברשת.
ברשת ממושקלת, כלומר, ברשת שבה הקשתות או הקשרים אינם בהכרח שווים ויש קשרים חזקים יותר מאחרים, ניתן להתחשב גם בנתון זה כדי לתעדף שוטטות לאורך צירים ראשיים או קשרים חזקים, כדי לקבל תמונה טובה יותר של הזרימה.
בהקשר של מדדי מרכזיות למשל, אם נשוטט באופן רנדומלי ברשת לאורך הקשתות שלה, נבדוק מה הסיכוי שנגיע לצומת שלנו? אם הסיכוי גבוה, סימן שהצומת הוא מרכזי שכן הרבה מהדרכים מגיעות אליו.
כך בעצם אנחנו עוקפים את בעיית המסלולים הקצרים ביותר, ונותנים משקל גם לזרמים חילופיים ברשת.
אז בואו נעשה סיכום קצר:
אמרנו שמדדי המרכזיות שלנו יכולים למצוא לנו את השחקנים החשובים בקבוצה שלנו ובקבוצה היריבה וכך להצביע על חוזקות ותורפות. ראינו שהמדדים הקלאסיים עליהם דיברנו בפרק 4 לא תמיד נותנים לנו את מה שאנחנו מחפשים ולכן כדאי לעשות שימוש ב-random walk או שיטוט ברשת, שלא מניח שהכדור חייב לעבור בצורה הכי יעילה תיאורטית.
אז מי הכי מרכזי? מי מרכז הכובד שלנו בקבוצה?
כבר למדנו בפרק 4 שיש קורולציה גבוהה בין המדדים ולכן לא נופתע לגלות שהם לרוב יתגלמו בשחקן בודד:
רוצים לנחש מי?
עז עם פעמון יוגרל בין הפותרים נכונה.
קשר מרכזי מוביל כמעט בכל המדדים. בממוצע.
זה לא אמור להפתיע אותנו כי הקשר המרכזי, כשמו כן הוא, מרכזי. המדדים שלנו יראו שהוא לא רק במרכז הפיזי של המגרש אלא גם בלב הרשת הלוגית של המסירות.
אבל המדדים, כמו המשחק עצמו, אינם בהכרח קבועים:
ממחקר של שחקני הצמרת בקבוצת אתלטיקו מדריד, ניתן לראות שמדדי המרכזיות של שחקנים יכולים להשתנות בין משחק למשחק בהתאם, למשל, לרמת הקבוצה נגדה הם משחקים.
יש שחקנים שמדדי המרכזיות שלהם עולים כשהם משחקים מול קבוצה טובה ויורדים מול קבוצה פחות טובה וההפך. כלומר, יש שחקנים שכנראה משתעממים מול קבוצה חלשה ומחפשים את מה שהלוחם הספרטני בסרט "300" ביקש: יריב שייתן להם מוות מפואר.
דרך נוספת להסתכל על מדדי המרכזיות היא לא דרך העיניים של השחקנים או הצמתים, אלא דרך המסירות או הקשרים. כלומר, לא לחפש מיהו השחקן המרכזי אלא מהו הקשר המרכזי. למשל, ניתן לעשות שימוש במדד edge connectivity או קישוריות הקשתות, בכדי לראות מה מינימום הקשתות שאם נסיר אותן, הרשת תתפרק. במילים אחרות, אלו מינימום מסירות נצטרך ליירט כדי לפגוע בזרימת המשחק של היריב.
כך נוכל לאתר את הקשר שמהווה את צוואר הבקבוק המשמעותי ביותר ברשת היריבה ולנסות לנטרל אותו, כלומר, זו דרך למקד את המאמצים לפגוע ברשת היריבה לא דרך שחקן בודד אלא דרך דפוס מסירה של אותו שחקן.
עד כה, דיברנו על רשת שבנויה ממסירות בלבד. מה שזה אומר זה שהקבוצה שחקרנו הייתה חייבת להיות עם הכדור כדי לנתח אותה. ומה אם נהפוך את נקודת המבט? מאמר מ2019 עם כותרת מעליבה בשם "החולייה החלשה" או the weakest link" בדק בדיוק את זה: הרשת שנוצרת ממסירות כושלות. מסירה כושלת היא מסירה שלא הגיעה ליעדה, אבל ידוע מי היה היעד, כלומר, ניתן לייצר קשר.
כל המדדים שהכרנו יושמו על הרשת, אבל המשמעות שלהם התהפכה: ככל שהקשר חזק יותר, משמעו שחוסר ההצלחה להעביר את הכדור גדולה יותר. כך מרכזי הכובד באותה רשת מצביעים על נקודות התורפה של הקבוצה, ואיפה היא צריכה להשתפר ומהווה משלימה לתמונה של רשת המסירות המוצלחות.
אז אמרנו שקשרים יקבלו ציון מרכזיות גבוה. מה שמעניין הוא שהחלוצים לרוב יהיו אלה שיקבלו מדדי מרכזיות יחסית נמוכים. למה? כי עד כאן, כל ההתייחסויות לקבוצת הכדורגל היו לרשת הלוגית, כלומר, רשת שמנותקת מהפריסה בשטח וממטרת המשחק, שהיא, בואו לא נשכח, להבקיע גול.
המטרה של כדורגל היא לא מסירות. אנחנו בונים על החלוצים שיכריעו את המשחק בבעיטות לשער, כלומר, שיעשו שימוש בכל המסירות האלה. ולכן, ישנם מחקרים שהוסיפו לרשת השחקנים עוד צומת. את שער היריב (ור' תמונה בהמשך הפרק).
במחקר מעניין בנושא, אחד מהמדדים שהוצעו למדידת שחקן היא flow centrality או מרכזיות זרימה. בהינתן שהיעד הוא השער, והשער הוא צומת ברשת, אז ה-Betweenness של כל שחקן, ביחס לשער של היריב, הוא מדד המרכזיות זרימה שלו. במילים אחרות, כמה המהלך היה תלוי ביכולתו של השחקן להעביר את הכדור לכיוון השער.
הבעיה עם בעיטות לשער ובוודאי שערים, זה שהם לא קורים הרבה. אז כדי להרחיב את הדגימה, אנחנו יכולים לבדוק את המרכזיות של שחקנים במהלכים מוצלחים, ולא רק במהלכים של בעיטות או הבקעות.
איך נגדיר מהלך מוצלח? מהלך שהגיע לרחבת היריב. משם, האם הכדור נכנס או לא תלוי בגורמים שכבר פחות בשליטתנו. אז כמה מהמהלכים יהיו מוצלחים? ניחשתם נכון. 20% מהמהלכים יצליחו ו-80% לא.
ועדיין, הצלחנו להפוך את ה-power law של הבקעת שער (סיכוי של אחוז בודד) לחוק 80/20 (סיכוי של 20 אחוז). אז מה מביא את אותם מהלכים מוצלחים?
המחקר מראה שכנראה המהלך המוצלח ביותר יתחיל במתקפת נגד, כלומר חטיפת כדור ועלייה להתקפה. היתרון של מהלך כזה הוא שהוא מוציא מאיזון את הקבוצה היריבה.
המשמעות היא שסימון נקודות התורפה של היריב עליהם דיברנו קודם, יכולות לא רק לשבור התקפה אלא סטטיסטית לסייע לנו לפתח התקפת-נגד מוצלחת מהצד שלנו.
המהלך המוצלח השני הוא כנראה זה שיכלול חמש מסירות ויותר, כלומר, מהלכים רשתיים, שזה להזכיר לכם, בדיוק ההפך ממה שהטיף לו בזמנו צ'ארלס ריפ, חלוץ האנליטיקה של הכדורגל.
ואיפה התפקידנים שלנו באותם מהלכים מוצלחים? אז כשמסתכלים על מהלכים, ולא על בעיטות לשער,
מחקר על הליגה הגרמנית מצא שהחלוצים מעורבים במהלכים המוצלחים אבל לא מייצרים אותם. הקשרים ההתקפיים היו מעורבים במחצית מהמהלכים המוצלחים. שחקני הגנה, לא פלא כנראה, היו הכי מעורבים במהלכים הפחות מוצלחים.
קשרים חיצוניים בלטו דווקא כשהכדור היה במחצית המגרש שלהם, כלומר, היו גורמים מרכזיים במהלכים מוצלחים שהחלו מרחוק.
תשומת לב שכשבדקנו מהלכים התקפיים הדבר הצריך ניתוח נפרד של כל מהלך וכאן נכנסנו לתחום היותר דינאמי של הרשת. עד כה, הסתכלנו על כלל המשחק כדי להוציא תובנות. אבל האגרגציה הזו של הנתונים גרמה לנו לאבד את ההקשר של המהלכים. יכול להיות שהרשת שיצרנו לא מתארת נכון את מהלכי המשחק. זה ש-א' התמסר עם ב' בחצי הראשון של המשחק, לא אומר, וש-ב' התמסר עם ג' בחצי השני של המשחק, לא אומר שא' מסר לב' שמסר לג'.
ולכן היתרון של ניתוח מהלכים התקפים הוא במתן הקשר.
אז לסיכום חלק זה, אנחנו מבינים שמסירות הן כלי משמעותי בסיכויי ההצלחה.
ככל ששחקנים מעורבים בהם יותר, הם משמעותיים יותר להצלחה של הקבוצה, ומדד של
ה-Randomwalk Betweenness שדיברנו עליו קודם שנבדוק אותו על מהלכי ההתקפה, יאפשר לנו למצוא את השחקן שכנראה תרם הכי הרבה להצלחת אותו מהלך. מה שנקרא בכדורגלנית: "Play-Maker".
אבל עכשיו בואו נעלה רמה ונסתכל על מה מדדי המרכזיות נותנים לנו ברמת הקבוצה, כלומר במאקרו.
אז למדנו כבר מפרק 3 ופרק 4 שמדדי המרכזיות ברשתות אמיתיות מתפלגים power law, או זנב ארוך, כלומר, יהיו מעט כאלה עם מדדים גבוהים והרוב המכריע עם מדדים נמוכים מאד.
בכדורגל, זה עובד טיפה אחרת. למה?
כדורגל הוא יציר מלאכותי של חוקים שרירותיים שאנחנו מכירים עוד מילדות. למשל, לא ניתן להוסיף עוד צמתים או שחקנים מעבר ל-11. מותר להתמסר רק בשטח נתון. כשהגדולים תופסים את המגרש- הקטנים צריכים לעוף וכמובן, חוק מס' 1 של הכדורגל: "אחים, אחים, במגרש שוכחים" ועוד.
עם כל ההגבלות האלה, רשת המסירות הרגילה שלנו נעשית צפופה יותר ויותר ו"הזנב הארוך" מתחיל לאבד קצת מצורתו. עדיין יש מובילים במדדים וכאלה שפחות, אבל ההבדלים נעשים פחות קיצוניים ממה שאנחנו נראה ברשתות שאין להן את המגבלות האלה. ה-power law לא עוזב אותנו לגמרי, והוא קיים מתחת לפני השטח, אבל נדבר על זה בהמשך, כשנדבר על משמעות המרחב בניתוח הרשתי.
אז מה נותנת לנו התובנה שה-power law במסירות הוא חלש? היא מאפשרת לנו לראות כמה מדדי המרכזיות שלנו מתחלקים בצורה שווה. למה זה טוב?
ככל שהמדדים בין חברי הקבוצה שווים יותר, זה כנראה אומר שהקבוצה עובדת בצורה יותר מתואמת ומכילה פחות ופחות צווארי בקבוק.
השיטה הנפוצה היא לבדוק את רמת השיוויון במדד הדרגה. פעולה זו נעשית ע"י בדיקה של הדרגה הגבוהה ביותר ביחס לשאר החברים בקהילה חלקי יחס פרופורציונאלי של מס' הצמתים ברשת. תוצאה של 0 היא שיחס הדרגות הוא שווה. לכולם יש אותה כמות קשרים. תוצאה שמתקרבת ל-1 מציינת שהרשת ריכוזית מאד.
דרך נוספת לחשב פיזור של מדדי מרכזיות היא Heterogeneity או הטרוגניות כלומר מגוון. במקום לחשב את המרכזיות ביחס לגורם אחד המוביל, המדד מחשב את המרחק של כלל הצמתים מהממוצע. ככל שהציון נמוך יותר, כך הרשת פחות ריכוזית. יש לציין שלרוב נצפה לקבל תוצאות נמוכות במדדים אלו, כלומר, נצפה לראות קירבה לשיוויון בוודאי במדד הדרגה, שכן מצב הקיצון, שבו רק שחקן אחד או שניים מתמסרים כמו שהיה כששיחקנו מתחת לבית כשהייתי קטן, הוא מצב נדיר בליגות המקצועיות. אז דיברנו על איך סיכום כלל מדדי המרכזיות של כל השחקנים בקבוצה תורמים לנו להבנת הקבוצה, אז בואו נדבר עכשיו על מדדי הרשת כולה, כלומר, ניתן מבט-על על המדדים הכלל-רשתיים שלנו. מאמר היסוד בסוגיית מדדי הרשת בעולם הכדורגל הוא מאמרו של Grund, חוקר SNA, שמשום מה, מאמר זה שלו מצוטט פי 7 ממאמרו בנושא רשתות מסחר בירידי אמנויות. זוכרים שדיברנו על כמה קשה לנתח דאטה של משחק כדורגל? אז איפה שאנחנו ראינו שחור בעיניים, גראנד, שעוסק במחקר ארגונים, רואה את חצי הכוס המלאה.
אם בעבר היינו רוצים לדעת מי ינצח בקרב, היינו מצביעים על זה שיכול להניע יותר כוחות לנקודת ההכרעה. לרוב זה היה אומר שלמי שיש צבא גדול יותר – ינצח. או כמו שחבר שלי מהצבא היה אומר, לקרב סכינים – תביא קרוקודיל.
איך אפשר להשוות למי יש צבא טוב יותר אם צבא אחד גדול מהשני או אם לאחד יש סכין ולשני יש קרוקודיל?
בכדורגל, לטוב ולרע, על שתי הקבוצות חלים אותם חוקים, למשל, אותה כמות שחקנים, מה שעושה את הנתונים בין הרשתות לברי השוואה. בנוסף, קל למדוד תפוקות שכן התוצאות הן כמעט בינאריות (נצחו או הפסידו, עם חריג של תיקו). התזה שגראנד בדק היא תזה מעולם ה-ONA , organizational network analysis או מחקר רשתי של ארגונים. היתרון של הסתכלות רשתית על ארגונים ומערכות הוא שהדבר מאפשר מבט על המערכת כמכלול, כלומר, לבחון את השלם שגדול מסך חלקיו. נושא מרתק אגב, שמעסיק רבות מנהלים, מפקדים ויועצים ארגוניים ונקדיש לו פרק בנפרד.
אז התזה איתה יצא גראנד לדרך אומרת שקבוצות שמקיימות הרבה קשרים בתוכן, כלומר, צפופות, מתפקדות טוב יותר, כי אין בהן צווארי בקבוק שמונעים העברת אינפורמציה, וריבוי הקשרים מאפשר סיעורי מוחות.
מאמרו מ-2012 ניתח 760 משחקים בליגה האנגלית של 23 קבוצות שכולל כמעט 300,000 מסירות. בין הגילויים שלו, מה שגראנד מצא הוא שבממוצע, קבוצות עושות כ-180 מסירות במשחק, כלומר, קצת מעל 4 מסירות בדקה, בהנחה שהכדור נמצא אצלן כחצי מהזמן, ושקבוצה מבקיעה 1ורבע גולים למשחק.
אבל עיקר המחקר עסק בניתוח צפיפות הרשת או מדד ה-density.
מדד זה בודק כמה הרשת ממצה את פוטנציאל הקשרים שלה והוא קל יחסית לחישוב: פשוט נחלק את מספר הקשרים הקיימים במספר הקשרים הפוטנציאלים של הרשת. ככל שהתוצאה גבוהה יותר, כך הרשת צפופה יותר.
רשת בצפיפות מלאה, כלומר קליקה, או גרף שלם, תקבל ציון 1.
ומבדיקתו של גראנד עלה שהתזה נכונה: ככל שהרשת צפופה יותר, כלומר יש בה הרבה מסירות בין גורמים שונים, כך סיכויי ההצלחה של הקבוצה עולים.
כלומר, שוב ההפך מהמסקנה של צ'ארלס ריפ שהזכרנו קודם שטען למשחק התקפי עם כמה שפחות מסירות.
הנתונים האלה של גראנד השתחזרו במחקרים רבים שבאו אחריו.
אחד מהמחקרים שבדק זאת, חזר עם חדשות טובות לספורט הישראלי: יותר ריצות ומאמץ גופני לא הביא ליותר נצחונות. המסירות והמשחק הקבוצתי משפיעים יותר על התוצאה.
החיסרון בשיטת המחקר הזו היא שהיא בוחנת את המשחק כולו. ייתכן מצב שבו קבוצה הבקיעה הרבה שערים במחצית הראשונה, וירדה להגנה במחצית השנייה לשמור על היתרון והדבר לא יבוא לידי ביטוי כשנעשה אגריגציה, או כשנסתכל על כל הנתונים המסוכמים של משחק. אבל, העוצמה בגילוי של גראנד זה שלראשונה בדיקה כזו נעשתה על מערך נתונים או דאטהסט גדול מאד, שאיפשר לו גם לבדוק את אותן קבוצות שוב ושוב.
ולפעמים, הניתוח הרשתי לוקח אותנו למקומות אפלים כמו במקרה הבא של התעלומה הסינית.
מחקר על הליגה הסינית בדק 1200 משחקים במשך 5 עונות ומצאו ממצאים יחסית דומים אבל זה לא החלק המעניין. הם מצאו שהמדדים הרשתיים בכלל הליגה נמצאים בירידה באופן עקבי, במקביל לעלייה במשכורות של השחקנים. עוד נתון חשוד הוא שהקבוצה גוואן-צאו Evergrande לקחה 8 אליפויות ב-9 השנים האחרונות (לא להתבלבל עם הקבוצה של ערן זהבי שהיא קבוצת הדרבי השנייה מגוואן-צאו).
אבל נראה לי שיש לנו מספיק תיאוריות קונספירציה לגבי סין בתקופת הקורונה הזו.
אז אם נסכם עד כאן, קבוצה שתתמסר יותר ועם כמה שיותר שחקנים, סיכוי טוב יותר שתנצח, לאורך זמן.
זה אולי נשמע טריוויאלי לכל מי שמכיר את שיטת הטיקי-טאקה, כלומר שיטת המסירות הרבות והמהירות של ברצלונה, שגם כיום, מובילה בליגה הספרדית.
אבל למה זה טריוויאלי? נגיד שיש קבוצה שבה שחקן ברמה גבוהה מאשר השאר. למה שלא רוב הכדורים יגיעו אליו כדי למצות את היכולות שלו?
הבעיה היא שהפיכה של שחקן לצוואר בקבוק מייצרת תורפה. שמירה חזקה עליו תנטרל את היכולת של הקבוצה לפתח מהלכים שכן מבנה הרשת שלה מונע ממנה גמישות והסתגלות.
הסבר תיאורטי נוסף הוא מתחום ה-ONA , שדיברנו עליו ושמלמד אותנו על מבנה אידיאלי של קבוצה לפי אופי הבעיה:
לבעיות פשוטות, מבנה רשת כוכב הוא הכי יעיל. גורם מרכזי יכול למקסם את היכולות והתזמון של שאר החברים כי הוא קרוב לכולם ורואה את כולם. הבעיה היא במשימות המורכבות. וכמו שכבר אמרנו, כדורגל היא מערכת מורכבת. במקרים כאלה, דווקא דינמיקה צפופה יותר של הרשת מאפשרת התמודדות טובה יותר. או אם לצטט את מייקל ג'ורדן, שחקן הכדורסל האגדי של השיקגו בולס: "כשרון מנצח משחק, קבוצה מנצחת אליפות".
מאמר המשך של גראנד, על אותם נתונים, בדק תזה נוספת מעולם ה-ONA:
האם היכרות מוקדמת בין שחקנים תורמת לכמות המסירות בינהם. גראנד ניצל את המאגר שלו שכלל 800 שחקנים והסתכל על זמן החפיפה של שחקן בקבוצה עם שחקנים אחרים ויצר ממנו רשת, כלומר, קשר בין שחקנים בקבוצה יהיה חזק יותר ככל שהם שיחקו יותר זמן (גם אם שיחקו יחד בקבוצה אחרת). התוצר היה שככל ששחקני הקבוצה מכירים זה את זה, כך צפיפות המסירות ביניהם תגדל.
אבל החלק המעניין במאמר ההמשך הוא שגראנד לא הסתפק בכך ושיקלל נתונים נוספים, כגון, השכר המממוצע בקבוצה והאם המשחק הוא משחק בית או משחק חוץ. גם המחקר שלו, וגם מחקר נוסף של חוקרים אחרים על הליגה הברזילאית, הניב אותן תוצאות:
במשחקי בית הקבוצה תהיה צפופה יותר וככל שהמשכורת הממוצעת עולה, כלומר, השחקנים באיכות טובה יותר, כך גם צפיפות המסירות ביניהם תעלה.
מה שנתון זה רומז לנו זה שאולי הנחתו הקודמת של גראנד נובעת מקוזאציה, או סיבתיות, הפוכה. לא הצפיפות היא זו שמייצרת את הנצחון אלא הניצחון מייצר צפיפות. כלומר, יכול להיות שבגלל שהקבוצה טובה יותר, היא צפופה יותר, ולא ההפך. נקודה למחשבה.
למתעניינים בתחום, המאמרים של גראנד קריאים מאד, מעניינים מאד, וקישורים אליהם נמצאים באתר, ביניהם מאמר צבעוני בו הוא מראה ששופטים לבנים נוטים לתת יותר כרטיסים צהובים לשחקנים לא-לבנים.
אז לסיכום החלק העוסק במדדי הקבוצה, ניתן לומר שצפיפות מסירות לאורך זמן היא אינדיקטור טוב לרמת הקבוצה, וככל שהשחקנים מכירים וסומכים זה על זה, צפיפות הרשת תגדל ותשפר את רמת המשחק.
אז אחרי שהתחלנו במיקרו וניתחנו את יכולות הפרט, ניתחנו מהלכים ועברנו למאקרו ומדדי הקבוצה, נעבור לנושא הבא: המגרש עצמו. בסופו של דבר, הרשת שלנו ממוקמת בעולם הפיזי ויש לה היגיון גיאוגרפי שלא נרצה להתעלם ממנו.
שחקני הכדורגל מחולקים לרוב לפי מרחבים: הגנה בצד שליד השער, קישור במרכז המגרש, וחלוצים בצד המרוחק. אבל שחקנים יכולים לזוז במרחב והדבר אולי לא יבוא לידי ביטוי מלא במחקר של הרשת הלוגית, ונחזור לנושא זה כשנדבר על חלוקת הרשת לקהילות.
לפיכך, היו חוקרים שבחרו כצמתים לא את השחקנים אלא את האזורים במגרש, כלומר, הם חילקו את המגרש לאזורים, והעברת כדור בין אזור לאזור נחשב לקשר בין האזורים.
וכמובן, שכשיש אפשרות א' (שחקנים כצמתים) ואפשרות ב' (אזורים כצמתים), רק טבעי שיבוא מישהו ויציע לשלב את שתי השיטות.
איך עושים זאת?
ראשית, נחלק את המגרש ל-18 משבצות (שזה הנוהג הסטטיסטי של FIFA), ונמפה את המסירות בין האזורים. יהיו לנו 18 צמתים ברשת. עכשיו, נשלב גם התחשבות במספר החולצה של השחקן, כלומר, שחקן מס' 7 ושחקן מס' 8 ששניהם מסרו כדור מאותו אזור, ייחשבו שני צמתים שונים ו-uniques, כלומר ייחודיים, ברשת. כלומר, אם נכפיל את מספר השחקנים במספר האזורים, נקבל שכל קבוצה יכולה להכיל 198 צמתים ברשת. מה שמעניין בשיטה זו, היא שכאן נחזור לחיקו החם של ה-power law והזנב הארוך שנטשנו בחלק הקודם כשדיברנו על התפלגות המסירות בקבוצה.
אמרנו שמכיוון שקבוצת הכדורגל היא קטנה, היבטי ה-power law של הרשת לא בהכרח יבואו בה לידי ביטוי. אבל ע"י הוספה של עוד צמתים לרשת, כלומר, ע"י הצלבה בין שחקן לאזור, הגדלנו את הרשת ואפשרנו ל-power law לבוא לידי ביטוי.
דרך השימוש במרחב נוכל לקבל מימד נוסף על פעילות השחקנים, נוכל להבחין באזורים החלשים בקבוצה וגם נוכל לתת דגש לשאלות מחקר שלנו, למשל:
אם אנחנו יודעים מהמחקרים בתחום שמהלכים שיתחילו במחצית היריבה יהיו סטטיסטית יותר מוצלחים, נוכל לבודד את המהלכים האלה ולנתחם באמצעות המיקום.
בנוסף, מתוך הנחה שלא תמיד נוכל להתחיל מהלכים מהחצי של היריב, נוכל לראות אלו מהלכים מוצלחים נבעו מהמחצית של הקבוצה שלנו ולנתח אותם.
השימוש במרחב חשוב גם לויזואליזציה של הרשת. לרוב, כשנציג רשת של קבוצת כדורגל, נקבע את המיקום של כל צומת לפי תפקיד השחקנים במגרש: שוער בצד אחד של הרשת, חלוצים בצד השני, ובאמצע הקשרים וההגנה.
דרך אחרת לעשות זאת היא לפי מיקומם הממוצע של השחקנים במגרש, לאורך המשחק, מה שמתאפשר היום בזכות הטכנולוגיות הקיימות במגרש.
היתרון של מיקום השחקנים לפי מיקומם בפועל הוא שכך נוכל ללמוד על נתון נוסף והוא מרכז הכובד הגיאוגרפי של הקבוצה, כלומר, מיקומה של הנקודה המרכזית בפוליגון שיוצרת הקבוצה. מחקרים מראים שככל שמיקום מרכז הכובד של פוליגון הקבוצה קרוב יותר לשער היריב, סיכויי הקבוצה לנצח עולים.
אתגר אחר בויזואליזציה הוא גרף המסירות. המסירות ייצרו רשת סבוכה של קשרים שיהיה קשה להוציא ממנה תובנות. כדי להציג את המסירות בצורה יותר מובנת, אפשר להגדיל את הקשתות אקספוננציאלית, לפי כמות המסירות (כלומר, משקל הקשרים), כדי לקבל תבנית מובנת יותר ולהדגיש את המסלולים המרכזיים שעובר הכדור.
אז דיברנו מרמת השחקן ועד רמת הקבוצה כולל ניתוח המרחב, אבל שכחנו תופעה רשתית בדרך: חלוקת הרשת לקהילות.
בגלל שהרשת במשחקי כדורגל נוטה להיות צפופה, כנראה שהאלגוריתמיקה הסטנדרטית למציאת קהילות ברשת, מאלה שפגשנו בפרק 5, תמצא ברשת שלנו רק קהילה אחת: הקבוצה כולה. למעשה, אם נמצא קהילות בקבוצה זה יכול להעיד על חולשתה, כי זה אומר שיש צווארי בקבוק בקבוצה שמקשרים בין הקהילות.
כדי למצוא כאלה, פתרון אפשרי הוא שימוש באיתור קליקות ממושקלות, כלומר, לאתר קהילות של 3-4 שחקנים בקבוצה שמתמסרים הרבה זה עם זה. לפרק קליקה קטנה זה אתגר שלא בטוח שהוא cost effective שכן אחד ממאפייני הקליקה הוא שאין בה צווארי בקבוק משמעותיים. לכן אולי כדאי להתמקד בניסיון למנוע מהם להעביר את הכדור לקליקה אחרת.
כבר דיברנו על זה בפרק 5 בנושא קהילות, שמה שמאפיין את רוב הקהילות שנמצא ברשת, זו הומופיליה גיאוגרפית, כלומר, מה שיהיה משותף לחברי הקהילה זה קירבה גיאוגרפית.
מאד סביר להניח שזה המצב בכדורגל, אבל אם נמצא קליקה שלא מתנהגת כך, זו תהיה אנומליה מאד מעניינת שנצטרך למצוא לה הסבר שפוטנציאלית מאד יעשיר את הניתוח שלנו.
דרך אחרת למחקר קהילות אפקטיבי בכדורגל שלמיטב ידיעתי לא נוסתה עד היום, היא שילוב של השיטה עליה דיברנו שתייצר לנו power law ברשת הכדורגל לבין אלגוריתמיקה סטנדרטית לחלוקה לקהילות. כלומר, אם נבנה את הרשת מצמתים שיהיו מורכבים משחקנים ואזורים, וכפי שאמרנו קודם, כל קבוצה תהיה מורכבת כך כמעט ממאתיים צמתים, החלוקה לקהילות בהכרח תהיה קלה יותר וכנראה תיתן תובנות שלא נראו קודם בניתוח המשחק.
יש עוד הרבה שאלות פתוחות בנושא המחקר הרשתי של הכדורגל, אבל לפני שנגיע אליהן, יש איזה מכשול קטן שחוקי הכדורגל שמים לנו בדאטה כשאנחנו באים לנתח רשת. וזה ההחלפות.
בניתוח משחק כדורגל, וברשתות ספורט בכלל, יש אתגר אולי ייחודי והוא ההחלפות של שחקנים בזמן המשחק. איך מנתחים צומת שהגיחה רק לזמן קצר ואיך מעריכים את השפעתה על המשחק, בטח אם מסתכלים על כל נתוני המשחק באופן אגרגטיבי?
ואכן, ברוב המחקרים, ההתייחסות היא לתפקידן ולא לשחקן, מה שעלול לבלבל. חלק מהחוקרים מציעים לחקור רק את החלקים במשחק שלא היו בהם החלפות או לא לשקלל שחקנים ששיחקו פחות מ-30 דקות. גראנד, חוקר הרשתות שפגשנו קודם, מציע פתרון אלגנטי: מכיוון שבכדורגל יש 11 שחקנים וניתן לעשות עד 3 החלפות, גראנד מציע להתייחס רק ל-8 השחקנים הכי פעילים במהלך המשחק, וכך גם לפתור את הבעיה שיוצרים עוד צמתים מוגבלים בזמן ברשת וגם להתמקד במבנה העיקרי של הקבוצה.
דרך נוספת שהוא מציע היא להתמקד באותם 8 שחקנים שלא הוחלפו, אך הוא מעדיף את השיטה הראשונה, שמשרתת התמקדות בשלד של רשת הקבוצה.
אז עכשיו הגענו לדעתי לחלק הכי מעניין והוא האוקיינוסים הכחולים של המחקר הרשתי בכדורגל או במילים אחרות, לשדות הפחות חקורים. ונתחיל בכיצד למקסם את יכולת הרשת שלנו:
דיברנו על זה קודם שלמשימות פשוטות, הרשת הכי יעילה היא רשת כוכב. הבעיה היא שרשת כזו מייצרת לנו צוואר בקבוק משמעותי ומתקשה להתמודד עם משימות מורכבות.
לכאורה, קבוצה שהיא קליקה וכולם מחוברים לכולם היא אידיאלית: הצפיפות שלה מקסימלית, אין בה צווארי בקבוק והשיתוף פעולה בה הוא מדהים. הבעיה היא שהיא לא יעילה או יותר נכון, לא cost effective. ניסיון של כל שחקן למסור לכל שחקן הוא אקט מאד בזבזני, בוודאי במשחק שבו משאב הזמן הוא מוגבל וקיים סיכון של חטיפת הכדור.
וכאן, נגייס פיזיקה. אז כל הפיסיקאים בקהל שלא בחרו אותם למשחק כדורגל כשהיו קטנים, זו ההזדמנות שלכם.
הדרך האופטימלית לבנות רשת גדולה שתהיה עמידה ואפקטיבית תוך חסכון מקסימלי במשאבים תהיה להקים רשת בה כל צומת מתקשר רנדומלית ל-3 צמתים אחרים ברשת (והדבר הוכח מתמטית, ותודה לנעם השכן שלי). שימו לב, לא מדובר ברשת רנדומלית מהסוג שדיברנו עליה בעבר בפרק 3 של ארדוש-רני.
ברשת האופטימלית, החלוקה של הקשרים ברשת תהיה שווה. לכולם ברשת תהיה אותה כמות קשרים, והיא מינימלית, כלומר, 3. אז מה אם נשליך מכלל זה על משחק הכדורגל וכך נוכל למקסם את המסירות שלנו במינימום משאבים?
יש רק שתי בעיות: איך מייצרים קשרים רנדומיים, בטח במגרש מוגבל גיאוגרפית והאם נקבל את אותו ערך של cost-effective כשנייצר אותם ברשת קטנה כמו ברשת של 11 שחקנים? כבר נגענו בפרק 9 שעולם הפיסיקה הוא עולם של "בקירוב" ולא "במדויק" ולכן אולי פריצת דרך בנושא זה, שגם אם לא תביא לרנדומיזציה מוחלטת של המסירות אלא למשהו "בקירוב", תביא לשיפור משמעותי של יכולת הקבוצה.
סוגייה נוספת למחקר היא שיוסי לא לבד בצבא. כלומר, על המגרש יש 2 קבוצות. לא אחת,
ו-2 הקבוצות נמצאות כל הזמן באינטראקציה. רשתות הן כאוטיות, כמו שלמדנו בפרק 9, ורשתות כדורגל הן כאוטיות בסדר גודל שני, כלומר, שינויים שנעשה ברשת של הקבוצה שלנו, ישפיעו על הרשת של הקבוצה היריבה, שבתורה תשפיע על הרשת שלנו וחוזר חלילה.
אז מה זה אומר על אסטרטגיית המשחק?
אם לצטט את ספרו של דגלאס אדאמס, "מדריך הטרמפיסט לגלקסיה":
"...האדם הניח תמיד כי הוא אינטיליגנטי יותר מהדולפינים, וזאת משום כל אותם הישגים שהצליח להשיג - הגלגל, ניו-יורק, מלחמות וכיוצא באלה. בעוד שכל מה שהדולפינים עשו מסתכם בלהשתכשך במים ולבלות זמנם בנעימים. לעומת זאת האמינו הדולפינים תמיד כי הם אינטיליגנטיים הרבה יותר מהאדם, מאותן הסיבות בדיוק..."
בקיצור, יכול להיות שיש לנו מה ללמוד מהדולפינים, ובמקרה הזה, מתוך מאמר על ניתוח רשתי של שתי קבוצות דולפינים.
הקבוצות נמצאו בסוג של מאבק שליטה והמאמר סוקר את האסטרטגיות העדיפות, תוך שימוש במדד המרכזיות eigenvalue-centrality. במדד זה נגענו בפרק 4 ונחזור בקצרה שמדובר במדד מרכזיות המבוסס על שכניו של הצומת. משמעותו היא שאם השכנים של הצומת מרכזיים, אז גם הצומת הוא מרכזי. וזה למשל גם הרעיון הבסיסי העומד מאחורי דירוג הדפים של גוגל.
המעניין במדד זה הוא הדינאמיות שבו. כלומר, בניגוד למדד הבסיסי של דרגה למשל, שתלוי רק בקשרים של הצומת הנמדד, מדד ה-eigenvalue תלוי בשכנים, ובשכנים של השכנים, וכל שינוי אצלם מייצר Cascade או אפקט דומינו במדדים של אחרים ברשת.
אך כמו בכל מדד, נקבל צמתים שהם צמתי ליבה, וצמתים פריפריאליים.
המחקר מניח ששתי קבוצות שנפגשות אינן שוות. בסבירות גבוהה, אחת מהקבוצות תהיה חזקה יותר מהשנייה. חוזק של קבוצה יכול להימדד למשל ע"י הצפיפות שלה. ככל שהיא צפופה יותר, היא תהיה חזקה יותר.
המאמר מדגים חיבור רשתי בין שתי הקבוצות ומראה איזה חיבורים מועילים יותר לאיזו קבוצה כלומר, איזה חיבורים מגדילים את מדד ה-eigenvalue שלה. הוא מצביע על כך שחיבור צומת ליבה לצומת ליבה מחזק דווקא את הקבוצה החלשה. העוצמה של החזקים "תזרום" לציוני המדד של הקבוצה החלשה.
ההופכי, כלומר, חיבור של צמתי פריפריה לצמתי פריפריה, יחזק את הקבוצה החזקה, אבל מכיוון שמדובר בצמתים חלשים, לשינוי ייקח זמן "לפעפע" ברשת.
האם אפשר לקחת את הרעיון של זרימה ושליטה ברשת ולתרגם את זה לכדורגל?
האם אפשר לתרגם את זה לכדורגל?
יש פה קושי ברור להקבלה. קודם כל, כי יש הבדל בין המאבק לשליטה במרחב וברשת של הדולפינים למאבק הרבה יותר קונקרטי של קבוצות על כדור בודד. שנית, בניגוד לדולפינים, שנדרשים לאינטראקציה בין הקבוצות לצרכי מאבק או יצירת חברות, המטרה של שתי הקבוצות בכדורגל היא דווקא להימנע ככל האפשר מאינטראקציה עם הקבוצה היריבה, כדי לא להסתכן באיבוד כדור. ואחרון, בניגוד לדולפינים, לקבוצה א' אין בהכרח שליטה עם מי היא יוצרת מגע בקבוצה ב'. אבל למרות כל זה, בואו ננסה לעשות ניסוי מחשבתי על "יבש": החלוצים של הקבוצה הם אלה שיהיו לרוב עם מדדי המרכזיות הנמוכים, כלומר הפריפריאליים.
תיאורטית, קבוצה חזקה צריכה לשאוף שבמידה ויש אינטראקציות, הן יהיו בין החלוצים לגורמים החלשים בקבוצה השנייה. קבוצה חלשה, לעומת זאת, צריכה לשאוף לנטרל את הגורם המרכזי בקבוצה השנייה ע"י גורם מרכזי אצלה, שיוכל לנצל את הסיטואציה ולהעביר את הכדור אליה. מכאן אולי אפשר להגדיר שקבוצה חזקה צריכה לשאוף לפעולה מהאגפים, מתוך הנחה שאובדן כדור לגורם שולי ברשת היריבה, לא יהיה כזה נורא כי הגורם הזה יתקשה להעביר אותו הלאה. בהופכי, קבוצה חלשה צריכה לשאוף לפעול במרכז השדה, מול הקשר המרכזי של הקבוצה היריבה, כדי להרחיב מגע עם מרכז הקבוצה החזקה, וכך למקסם הזדמנות להעביר אליה את הכדור.
כל זה כמובן השערתי מאד אבל רק נגיד שנושא השליטה ברשת הוא נושא מחקר שצובר תאוצה בשנים האחרונות ויכול בהחלט לשמש השראה לחשיבה חדשה על ניתוח רשתי של משחק כדורגל. במקום לנתח כל קבוצה בנפרד, יש מקום גם להבנת הדינמיקה הבין-קבוצתית.
אולי משהו פשוט יותר יהיה להתייחס לשתי הקבוצות כרשת אחת. בוודאות נקבל 2 קהילות, והחיבורים בינהן, בסבירות גבוהה, יהיו אלה עם מדד ה-Betweenness הכי גבוה, כלומר המגשרים. בשפת הכדורגל זה יהיו אלה שחוטפים את הכדור מהצד השני או למרבה הצער, אלה שמאבדים אותו. מי זה מי נבין לפי כיוון הקשר. אם הוא יוצא, הכדור אבד, ואם הוא נכנס, זה אומר שחטפנו את הכדור. כך נוכל להצביע על האזורים בהם אנו נוטים לאבד כדור או להפך, נקודות העוצמה שלנו בשליטה על הכדור.
נקודה אחרונה לפני סיכום זה עולם ה-Link Prediction או פרדקיציה על קשרים שייווצרו ברשת, שדיברנו עליו בפרק 9. ישנם מחקרים שעוסקים בסוגיה זו בכדורגל ומנסים להעריך למי ימסור שחקן עוד לפני שהוא מוסר. יש פוטנציאל מעניין במחקר הזה, אבל הבעיה היא כמובן, איך לתרגם אותו לזמן אמת.
אז בואו נסכם את הפרק.
בפרק זה התמקדנו בניתוח רשתי של מהלכים במשחק כדורגל, אבל תחת הכותרת "ניתוח רשתי של עולם הספורט", יש לא מעט מחקרי רשת שכוללים לא רק את הפעילות במגרש, אלא גם את הפעילות מחוצה לו, למשל, מחקר המערכת של הקבוצה כולה, כלומר, לא רק השחקנים אלא גם הקשרים החברתיים עם ההנהלה ושאר העובדים, בסוג של ONA – organization network analysis.
כשאולי הדוגמא המפורסמת ביותר למחקר כזה היא זו שהזכרנו בפרק 5, הפרק אודות קהילות, בה בחן זכארי, החוקר החברתי, את החברויות במועדון קראטה ויצא אמנם פצוע, אבל עם גילויים חדשים בנושא מבנה רשתות.
ה-ONA הוא תחום מרתק וכמו שציינתי במהלך הפרק, נקדיש לו פרק משלו.
ואחרי שהתנצלתי על קוצר היריעה, הגיע הזמן לשורה התחתונה:
האם מאניבול או דאטה ינצחו לנו את המשחק? בוודאי שלא, וראו את הדוגמא שנתנו לגבי האתלטיקס של אוקלנד ובואו לא נשכח שעל המגרש יש לנו לא סתם כאוס, כמו בכל רשת, אלא כאוס מסדר גודל שני.
כמו שכל אוהד יודע, הבקעת גול היא לא פעם עניין של מזל (דחיפת רגל, פגיעה בקורה, גול עצמי ועוד). גם שיטת הטיקי טאקה של ברצלונה לא מנצחת לה כל משחק, כמו שבמשחק פוקר, גם שחקן מומחה יכול להפסיד יד לשחקן מתחיל.
השחקן המומחה נמדד לא על סמך התוצאה, אלא על סמך איך הוא שיחק את היד, מתוך הנחה שסטטיסטית, הוא ינצח את רוב הידיים, וזה גם מה שעמד בפני שופטי העליון בתקדים מ-2018 שקבע כי בתנאים כאלה, כלומר לאורך זמן, פוקר אינו משחק מזל.
לכן, גישה נכונה יותר לא תהיה לשפוט בהכרח לפי הבקעה, שכמו שאנחנו מבינים, היא מאורע נדיר וקצת אקראי, אלא לנתח את התנאים שהבשילו את אותה סיטואציה שאיפשרה בעיטה מוצלחת לשער, למשל, מהלכים התקפיים בקרבת השער היריב. לאורך זמן, המדדים האלה ייצגו בצורה טובה גם את הבקעת השערים.
ובאמת לסיום: דוגמא למה קורה כשקבוצה לא מתואמת. רגע קלאסי מתוך המשחק של אינדיאנה קולטס נגד ניו אינגלנד פטריוטס. (ר' סרטון) אפילו אנשים שלא מבינים בפוטבול יבינו שיש פה משהו מוזר. השחקנים שביצעו את המהלך לא היו שותפים לתכנון המקורי – שהיה תחבולה שמטרתה ליצור מבנה פתיחה מוזר בכדי לגרום לקבוצה השנייה לבזבז פסק זמן (שזה נכס יקר בפוטבול) כדי להבין מה קורה. ומה שנקרא, "התפוצץ להם בפנים", תרתי משמע.
נהניתם, ורוצים לשתף? סבלתם ולא רוצים לסבול לבד?
דרגו את הפודקאסט בספוטיפיי או באפל-פודקאסטס ו/או כיתבו ביקורת. ניתן לדרג גם בפודקאסט-אדיקט (בטאב של ה-reviews). מותר ומומלץ להעלות פוסט ולתייג את נטפריקס בפייסבוק/טוויטר/אינסטגרם או לינקדאין ושוב, פוסטים יצירתיים במיוחד יושמעו בפרקים הבאים.
מוערך מאד!
נתראה בפרק הבא של נטפריקס (:
{1} שלא נתבלבל. הליגה האנגלית היא בין המובילות בעולם. לא באתי להעליב... (:
Comments