Uno dei primi, se non il primo, a portare gli xG in Italia, Alfredo Giacobbe è autore del modello utilizzato dalla rivista Ultimo Uomo per quantificare gli expected goals prodotti dalle varie squadre in Serie A. In questa intervista con Alfredo abbiamo affrontato il tema degli xG e lo stato dell’arte dell’analisi statistica nel calcio italiano.
Prima di tutto volevo chiederti: qual è la tua formazione? E come sei arrivato a Ultimo Uomo?
Sul finire del 2013 ho aperto un blog in cui analizzavo le azioni chiave di una partita, cercavo di mettere in risalto quali erano i vantaggi strategici che avevano portato una squadra alla vittoria sull’altra. Daniele Manusia mi ha notato e mi ha portato a Ultimo Uomo.
In generale, quanto è difficile utilizzare statistiche avanzate in uno sport come il calcio dove l’elemento chiave (il gol) non dico sia un evento casuale ma sicuramente estemporaneo, soprattutto se paragonato con quanto avviene in altri sport tipo il basket?
Nel basket a vincere è quasi sempre la squadra migliore, perché è difficile infilare una serie lunga di canestri consecutivi se non hai le qualità per farlo. Nel calcio e negli sport a basso punteggio può capitare più facilmente che la fortuna giochi un grosso ruolo. Però credo che la difficoltà maggiore, quando si è partiti con l’analisi statistica nel calcio, sia stata la scarsezza di eventi che possono essere osservati e registrati in una partita. Il basket è uno sport in cui gli eventi – assist, rimbalzo, tiro – sono codificati e numerabili. Nel calcio le azioni si susseguono, il cronometro non si ferma mai, a volte il pallone non è chiaramente in possesso dell’una o dell’altra squadra.
Il confronto fra le Shot Chart NBA del 2001/02 e 2019/20, prodotto a gennaio 2020 da Kirk Goldsberry.
Il modello di Expected Goals varia a seconda dell’algoritmo utilizzato. Abbiamo così diversi modelli di xG (oltre al tuo su Ultimo Uomo): Michael Caley, StatsBomb, Opta, 11tegen, wyscout…che differenze ci sono e cosa pensi di questi altri modelli?
Non conosco nel dettaglio gli algoritmi che sono dietro agli altri modelli, per cui non posso giudicarli. Tra quelli che hai citato, mi sembra interessante il tentativo di StatsBomb, che ha dichiarato di aver integrato le informazioni sulla posizione dei difensori e del portiere al momento del tiro. In questo modo l’algoritmo tiene conto della pressione che subisce il tiratore, risolvendo uno dei limiti del modello: un tiro poteva essere considerato egualmente pericoloso dall’algoritmo, a parità di altre condizioni, sia che l’attaccante fosse solo davanti al portiere o con l’intera difesa schierata. Invece la pressione cambia le chances di segnare del tiratore di molto.
Noti altri limiti negli xG? Ad esempio uno potrebbe derivare dal fatto che se un’azione pericolosa non si conclude con un “tiro” non viene computata dal modello…
È esatto, purtroppo gli Expected Goals nascono dall’idea che il tiro è il prodotto univoco della manovra offensiva di una squadra. Se non c’è tiro, non c’è valutazione della pericolosità dell’azione.
Molti hanno messo in dubbio questo tentativo di quantificare le performance di una squadra adducendo come esempi compagini che stavano overperformando…mi viene in mente il recente caso del Cagliari. Tuttavia, a lungo andare, mi sembra che il modello degli xG (pur non essendo un modello predittivo), tenda a conformarsi con i risultati del campo. Tu cosa pensi in proposito?
Ci sta che una squadra possegga dei valori superiori alla media, per i quali riesce ad ottenere più di quello che il modello statistico stima che possa ottenere. Il problema è l’arco temporale su cui si effettua la valutazione, che dev’essere il più ampio possibile. A volte non bastano 38 partite perché i risultati si “normalizzino” sulle prestazioni. Ma sono casi rari.
Un altro modello che si è recentemente imposto all’attenzione, per quantificare la performance offensiva della squadra, è quello dell’IPO (Indice di Pericolosità Offensiva) proposto da Sics e Maurizio Viscidi. Utilizzarlo insieme agli xG potrebbe permettere una quantificazione ancora più precisa della prestazione di una squadra, no?
Sono modelli tra loro alternativi, entrambi forniscono una stima della probabilità di fare gol. Con il match analyst della Nazionale, Antonio Gagliardi, mi sono confrontato spesso e in quasi tutti i casi la valutazione fatta dagli Expected Goals combaciava con quella fatta mediante l’IPO. Mediamente in Serie A si segna un gol ogni 30 punti di IPO o ogni 0,8 xG. Sono due modi diversi di dire la stessa cosa.
L’Indice di Pericolosità Offensiva delle squadre di Serie A dopo Juventus – Lecce (bianconeri e giallorossi hanno una gara in più).
Più difficile appare individuare dati e statistiche che misurino efficacemente le prestazioni difensive di una squadra. Un tentativo per risolvere il problema è stato fatto con il PPDA che calcola il rapporto tra i passaggi effettuati dalla squadra in possesso (nei primi 60 metri di campo) e gli interventi difensivi effettuati (tackle, intercetti) nella medesima zona della squadra che difende. Cosa pensi dell’utilizzo di questo parametro e dei suoi limiti (a partire dal fatto che non dà informazioni qualitative sul tipo di pressione esercitata)? Non sarebbe meglio combinarlo con un parametro sull’altezza media della squadra al momento della riconquista palla?
Lo utilizziamo in mancanza di altro, combinandolo con l’altezza media e il numero di recuperi palla. L’aspetto qualitativo a cui accenni è fondamentale: nel PPDA ci sono i contributi delle pressioni e delle contropressioni (il disturbo immediato dopo la perdita del possesso) e non è possibile scinderli. Invece avere due misure distinte aiuterebbe molto ad analizzare l’aspetto strategico del recupero palla, che è un fondamentale sempre più importante. Le aziende che si occupano di raccolta dati fortunatamente si stanno attrezzando in modo da avere statistiche separate.
In Italia si tende ad affidare il ruolo di match analyst nello staff tecnico ad allenatori o, comunque, a persone che abbiano una seppur minima formazione di questo tipo. In Inghilterra invece (un esempio è il Liverpool) il reparto di match analysis è spesso affidato a esperti di statistiche, anche senza un background calcistico. Quale direzione ritieni più corretta e pensi che in Italia presto si potrà assistere all’ingresso in qualche staff tecnico di figure professionali più vicine al modello britannico?
Per me è giusto che la match analysis e la video analysis restino ad appannaggio degli uomini di campo. In Italia c’è bisogno di un’altra rivoluzione culturale. Al fianco dei match analyst, degli staff tecnici e dei direttori sportivi, occorre una figura nuova. Un “traduttore” che parli la lingua degli uomini di campo e riesca a trasmettere le loro esigenze alle aziende che si occupano di raccolta dati. Nel calcio oggi non c’è più un problema di scarsità del dato, di dati se ne raccolgono anche troppi (si può dibattere al massimo con che qualità vengono raccolti). Il problema dell’azienda calcio oggi è l’interpretazione del dato. In Italia una figura del genere dovrà emergere per restare al passo dei club europei.
Alcuni club come Brentford e Midtjylland già da tempo utilizzano le statistiche per costruire le proprie squadre. Pensi che in futuro vedremo sempre più club seguire la loro strada? In altri sport, penso all’esperienza recente dei Cleveland Browns nella NFL, questo approccio non ha portato risultati immediati.
Per me non c’è spazio per i club che rifiuteranno l’utilizzo dei dati. I dati sono un supporto decisionale ineguagliabile. Nel mondo post-COVID, in cui anche i grandi club dovranno fronteggiare una ristrutturazione economica, chi prenderà decisioni di business migliori sopravviverà. I dati possono impattare tre grandi aree decisionali: valutazione della propria performance, analisi degli avversari, nuovi acquisti. In queste tre aree i dati non impediranno ai dirigenti e ai tecnici di prendere decisioni sbagliate, ma ne ridurranno il rischio di molto.