Come Costruire un Modello Previsionale per il Calcio con Excel

Caricamento...

Costruire un modello previsionale per il calcio sembra un’attività riservata a data scientist con dottorato in statistica e accesso a database proprietari. In realtà, un modello funzionale — capace di stimare le probabilità di una partita in modo più accurato di una semplice impressione — si può realizzare con Excel, dati pubblici gratuiti e una comprensione di base della matematica. Non sarà il modello che usa un fondo di investimento per scommettere milioni, ma sarà un passo enorme rispetto al pronosticare “a sensazione”.

Il valore di un modello non sta tanto nella precisione assoluta delle sue previsioni — nessun modello prevede il calcio con certezza — quanto nella disciplina analitica che impone. Un modello ti costringe a quantificare le tue opinioni: invece di pensare “il Napoli dovrebbe vincere”, ti chiede “con quale probabilità?”. E quando metti un numero su quella probabilità, puoi confrontarlo con la quota del bookmaker e decidere se c’è valore. Questo passaggio — dalla sensazione al numero — è ciò che separa lo scommettitore ricreativo da quello strutturato.

Raccolta dei Dati: Le Fonti Gratuite

Il primo passo è la raccolta dei dati storici. Per un modello base servono i risultati delle partite di almeno una stagione completa del campionato su cui si vuole operare, con i gol segnati e subiti da ciascuna squadra in casa e in trasferta.

Le fonti gratuite più affidabili per i dati calcistici sono FBref, che offre statistiche dettagliate inclusi gli expected goals, e Football-Data.co.uk, che mette a disposizione file CSV scaricabili con i risultati e le quote di decine di campionati per ogni stagione. Questi file sono pronti per essere importati direttamente in Excel, il che risparmia ore di inserimento manuale.

Per il nostro modello base useremo la distribuzione di Poisson, un approccio classico nella modellizzazione del calcio. Servono quattro dati per ogni squadra: la media gol segnati in casa, la media gol subiti in casa, la media gol segnati in trasferta e la media gol subiti in trasferta. Questi dati si calcolano facilmente dai risultati della stagione in corso — o, a inizio campionato, dalla stagione precedente con gli opportuni aggiustamenti.

Per rendere il modello più robusto, è utile calcolare anche le medie del campionato: la media gol per partita segnati dalla squadra di casa e dalla squadra ospite nell’intero torneo. Questi valori di riferimento servono a normalizzare i dati delle singole squadre e a costruire i parametri di attacco e difesa relativi.

Struttura del Foglio Excel

Il foglio Excel si organizza in tre sezioni. La prima sezione contiene i dati grezzi: una tabella con tutte le squadre del campionato e le loro medie gol — segnati e subiti, casa e trasferta. Questa tabella si aggiorna ogni settimana con i risultati delle nuove giornate.

La seconda sezione calcola i parametri del modello. Per ogni squadra si calcolano quattro indici relativi. La forza d’attacco in casa è data dalla media gol segnati in casa dalla squadra divisa per la media gol segnati in casa dell’intero campionato. Se il Napoli segna 2.2 gol in casa e la media del campionato è 1.5, la forza d’attacco in casa del Napoli è 2.2 / 1.5 = 1.47. Lo stesso calcolo si applica alla forza difensiva (media gol subiti divisa per la media del campionato), e si ripete per i valori in trasferta.

La terza sezione è il motore previsionale. Per prevedere il risultato di una partita specifica — per esempio Napoli in casa contro Fiorentina — il modello stima i gol attesi per ciascuna squadra. I gol attesi del Napoli sono: forza d’attacco casa Napoli × forza difensiva trasferta Fiorentina × media gol casa campionato. I gol attesi della Fiorentina sono: forza d’attacco trasferta Fiorentina × forza difensiva casa Napoli × media gol trasferta campionato.

Supponiamo che il calcolo dia 1.9 gol attesi per il Napoli e 0.95 per la Fiorentina. Questi valori diventano i parametri lambda della distribuzione di Poisson, che ci permette di calcolare la probabilità di ogni possibile punteggio.

Calcolo delle Probabilità con la Distribuzione di Poisson

La distribuzione di Poisson è una funzione statistica che calcola la probabilità che un certo numero di eventi si verifichi in un intervallo di tempo, dato un tasso medio di occorrenza. Nel nostro caso, l’evento è il gol e l’intervallo è la partita. Excel ha una funzione nativa per questo calcolo: POISSON.DIST (o DISTRIB.POISSON nella versione italiana).

Per calcolare la probabilità che il Napoli segni esattamente due gol, la formula è POISSON.DIST(2; 1.9; FALSO) che restituisce circa 0.27, cioè il 27%. Per calcolare la probabilità che la Fiorentina segni zero gol: POISSON.DIST(0; 0.95; FALSO) che dà circa 0.39, cioè il 39%.

Per ottenere la probabilità di un risultato esatto — per esempio 2-0 — si moltiplicano le probabilità individuali: 0.27 × 0.39 = 0.105, cioè il 10.5%. Questo calcolo si basa sull’assunzione di indipendenza tra i gol delle due squadre, che è una semplificazione ma funziona ragionevolmente bene per un modello base.

Costruendo una matrice dei risultati da 0-0 a 5-5 nel foglio Excel — con le probabilità di Poisson per ogni cella — si ottiene una mappa completa delle probabilità di ogni punteggio. Sommando le celle appropriate, si calcolano le probabilità degli esiti principali: vittoria casa (somma delle celle dove i gol casa superano quelli trasferta), pareggio (somma della diagonale), vittoria trasferta (somma delle celle dove i gol trasferta superano quelli casa). Si possono calcolare anche gli over/under sommando le celle con totale gol superiore o inferiore a 2.5, e il mercato Gol Sì/Gol No.

Dal Modello alle Scommesse: Confronto con le Quote

Avere le probabilità stimate dal modello è solo metà del lavoro. La seconda metà — quella che genera valore — è il confronto sistematico tra le probabilità del modello e le probabilità implicite nelle quote del bookmaker.

Il procedimento è lineare. Se il modello stima la vittoria del Napoli al 62% e il bookmaker la quota a 1.70 — che corrisponde a una probabilità implicita del 58.8% — c’è una discrepanza del 3.2% a favore dello scommettitore. Questa discrepanza, se reale, è una value bet: il bookmaker sta pagando di più del dovuto per quell’esito. Se invece il modello stima la vittoria al 55% e il bookmaker la quota a 1.70, la probabilità implicita del bookmaker (58.8%) è superiore alla stima del modello, e la scommessa non ha valore.

La soglia minima di discrepanza per piazzare una scommessa dipende dalla fiducia nel proprio modello. Per un modello base come quello di Poisson, una discrepanza inferiore al 5% potrebbe essere dovuta alle imprecisioni del modello piuttosto che a un vero vantaggio. Una regola prudente è scommettere solo quando la discrepanza supera il 5-7%, il che lascia un margine di sicurezza per gli errori di stima.

Per automatizzare questo confronto in Excel, basta aggiungere una colonna che calcola la probabilità implicita dalla quota del bookmaker (1/quota), un’altra con la differenza rispetto alla probabilità del modello, e un’evidenziazione condizionale che segnala in verde le celle dove la differenza supera la soglia scelta. Con questo setup, analizzare un’intera giornata di campionato richiede pochi minuti: si inseriscono le quote, il foglio calcola automaticamente dove c’è potenziale valore.

Backtesting: Verificare se il Modello Funziona

Un modello senza verifica è un esercizio accademico. Il backtesting — cioè l’applicazione del modello a dati passati per verificarne l’accuratezza — è il passaggio che trasforma un foglio Excel in uno strumento decisionale affidabile.

Il metodo più semplice di backtesting consiste nel prendere i dati della stagione precedente, costruire il modello fino a una certa giornata (per esempio la decima), e poi usarlo per prevedere i risultati delle giornate successive. Si confrontano le previsioni del modello con i risultati effettivi, misurando la precisione su tre metriche: la percentuale di esiti corretti sul mercato 1X2, la calibrazione delle probabilità (le partite stimate al 60% di probabilità si verificano effettivamente circa il 60% delle volte?), e il rendimento simulato — cioè il profitto o la perdita che si sarebbe ottenuto scommettendo secondo le indicazioni del modello alle quote reali di quella stagione.

La calibrazione è la metrica più importante e anche la meno intuitiva. Un modello ben calibrato non è necessariamente quello che indovina più risultati, ma quello le cui probabilità corrispondono alla frequenza reale degli esiti. Se il modello assegna il 70% di probabilità a cento partite diverse e settanta di quelle partite finiscono effettivamente come previsto, il modello è perfettamente calibrato per quella fascia di probabilità. Se ne finiscono ottanta, il modello è troppo conservativo; se ne finiscono sessanta, è troppo aggressivo.

Il backtesting rivela anche un aspetto scomodo: la maggior parte dei modelli semplici non batte il bookmaker in modo consistente. Questo non significa che il modello sia inutile — significa che il suo valore sta nel filtrare le scommesse, non nel garantire profitti. Un modello che dice “non scommettere” su sessanta partite e “scommetti” su dieci ha già ridotto enormemente l’esposizione al rischio, anche se le dieci scommesse selezionate non sono tutte vincenti.

I Limiti del Modello di Poisson

Il modello di Poisson base ha limiti strutturali che è importante conoscere per non sovrastimare le proprie capacità previsionali.

Il primo limite è l’assunzione di indipendenza tra i gol delle due squadre. Nella realtà, il gol di una squadra influenza il comportamento dell’altra: una squadra che va in svantaggio tende ad aprirsi, aumentando sia la probabilità di segnare sia quella di subire un altro gol. Il modello di Poisson ignora questa dinamica, il che lo rende meno accurato sui risultati con molti gol e sulle partite dove il primo gol cambia radicalmente la tattica.

Il secondo limite è la staticità. Il modello usa medie stagionali che non catturano i cambiamenti recenti: una squadra che ha appena cambiato allenatore, perso un giocatore chiave per infortunio o acquisito un rinforzo importante a gennaio non è la stessa squadra delle prime giornate. Per mitigare questo problema, si possono usare medie ponderate che danno più peso alle partite recenti, ma questo aggiunge complessità senza risolvere completamente il problema.

Il terzo limite è l’assenza di variabili contestuali. Il modello non considera le motivazioni (una squadra già salva contro una che lotta per il titolo), le condizioni del campo, la storia degli scontri diretti, le convocazioni in nazionale nei giorni precedenti o la densità del calendario. Queste variabili possono essere integrate come aggiustamenti manuali — per esempio, aggiungendo o sottraendo un fattore ai gol attesi in base al contesto — ma richiedono esperienza e giudizio.

Modelli più avanzati — come quelli basati su regressione bivariata di Poisson, reti neurali o modelli di Dixon-Coles — superano alcuni di questi limiti, ma richiedono competenze di programmazione e accesso a dataset più granulari. Il modello di Poisson in Excel resta il punto di partenza ideale perché insegna i principi fondamentali della modellizzazione sportiva senza richiedere strumenti sofisticati.

Il Primo Modello Che Costruisci è Già una Vittoria

Il modello di Poisson in Excel non ti renderà milionario. Questo va detto con chiarezza. Quello che farà è cambiare il modo in cui pensi alle scommesse sportive. Da “credo che il Napoli vincerà” a “il mio modello stima il 62% e il bookmaker prezza al 58.8%, quindi c’è un margine del 3.2% che potrebbe essere valore”. Questa trasformazione mentale — dal pensiero qualitativo a quello quantitativo — è irreversibile e preziosa indipendentemente da quanto sofisticato diventerà il tuo modello nel tempo. Il foglio Excel è solo il veicolo; il vero prodotto è un modo diverso di guardare una partita di calcio, una quota, una scommessa. E quel modo diverso, una volta acquisito, non si dimentica più.