Analisi Dati sulla diffusione del Coronavirus in Italia

(aggiornamento al 22 aprile)

Come tutti i fisici sperimentali sono abituato ad analizzare i dati e quelli del Coronavirus mi hanno incuriosito sin dall’inizio, forse anche come esercizio di esorcizzazione della paura … Per diversi giorni ho presentato le curve cumulative sulle Terapie Intensive, Casi Totali nelle Regioni e nelle Province, i Decessi per provincia. Da oggi ho deciso di cambiare l’ approccio e presentare le curve giornaliere.

I dati sono quelli riportati dalla protezione civile (link) alle 18:00 di ogni giorno sui contagi da Coronavirus in Italia.


Ho fatto l’ assunzione (ragionevole) che l’errore sul numero di contagiati (o di pazienti in terapia intensiva o di decessi etc) segua una distribuzione di Poisson (ipotesi forse azzardata vista la possibile presenza di clusters, correlazioni fra i contagi etc. ma che può essere ragionevole per pesare correttamente i dati), tale distribuzione può dare una stima della variabilità dai dati rilevati e consente di calcolare un p-Value dall ‘adattamento dei dati ad una funzione.

Ho deciso a questo punto di utilizzare non più le curve cumulative ma di provare ad adattare le curve dei casi totali giornalieri che, voglio ricordare, tengono in conto tutte le casistiche, cioè i ricoverati con sintomi, le terapie intensive, l’ isolamento domiciliare, i dimessi guariti ed i deceduti. Il vantaggio è che questi numeri (entro certi limiti) non sono correlati giornalmente fra loro. Il problema che mi ha impedito fino ad ora ad usarli è la loro variabilità, molto maggiore dell’ errore ipotizzato, il che non consente di fidarsi degli errori statistici sensati. Infatti questi dati giornalieri risentono del fatto che i numeri possano essere comunicati con ritardi di entità variabile ed imprevedibili, dovuti naturalmente anche al tempo necessario per analizzare i tamponi e a registrarli. Dopo circa 60 giorni di raccolta dati però ho provato a mediare l’informazione raccolta su più giorni (da 3 fino a 11), ed ho considerato anche di assegnare un errore anche al dato temporale. Ho assunto per quest’ultimo che la distribuzione aspettata sia uniforme e calcolato di conseguenza un possibile errore.

Ho provato di nuovo ad adattare la curva ad una sigmoide (o funzione logistica) stavolta ovviamente alla funzione di distribuzione e non alla cumulativa. E’ di nuovo un modello semplificato del problema, perché assume che la salita e la discesa dal picco siano simmetrici, in altri modelli più complessi questa assunzione è rimossa, per esempio si permette alla discesa dal picco di essere più dolce. Per adesso mi accontento del modello semplificato. Questo è anche un motivo per cui usare la logistica ora è più efficace e dà risultati più attendibili (è stato osservato che la logistica tende ad anticipare il picco e ad aggiornare continuamente la data del picco se questo non è stato già superato).

La curva scelta ha tre parametri, Nf il numero finale di contagiati, d0 cioè il numero di giorni a partire dal 23 febbraio in cui si raggiunge il picco, e giorni un parametro che dà una idea della dispersione della curva. In particolare il valore di 1.81*giorni ci dà la varianza della distribuzione di probabilità e quindi se fissiamo la fine dell’ epidemia al 95 % dei contagi questa data potrebbe essere espressa ragionevolmente dalla formula d0+2*1.8.1*giorni.

Ho deciso di continuare a presentare i dati separati per Provincia, penso che quelli cumulativi di tutta Italia soffrano del fatto che gli andamenti del contagio si sono differenziati all’ inizio, prima la Lombardia, poi Veneto etc… E’quindi molto più efficace presentare i risultati per singola regione.

Qui di seguito troverete i fit (adattamenti) per tutte le Province per cui il fit converge, con i dati raggruppati su base di 11 giorni che ho trovato essere il periodo che mi dà la maggiore stabilità sui dati osservati e mi consente di far convergere la curva per la maggior parte dei casi. Ovviamente questo significa avere pochi punti a disposizione per adattare la curva, 5 ad oggi. Qui di seguito i risultati ottenuti aggiornati al 22 aprile. Al solito le porvincie sono in ordine alfabetico e in ordine di regione, così come fornito dalla Protezione Civile (le regioni si contano da Ovest a Est e dal Nord al Sud.

Come si può notare il p-Value di questi fit è in buona parte dei casi maggiore del 5 % (un classico limite di accettazione dell’ipotesi) e a mio parere (non ho fatto test seri però, conto di farli appena possibile), è distribuito uniformemente tra 0 ed 1, il che ci dice che stiamo facendo ipotesi ragionevoli e che, se ci sono, le correlazioni sono limitate e gli errori sono valutati correttamente.

La linea rossa tratteggiata rappresenta la data nella quale si ottengono 5 casi di contagiati in 11 giorni, cioè meno di 0.5 contagiati al giorno e potrebbe essere ad esempio la data di fine del lockdown per ciascuna provincia. Ricordo che il giorno 50 era Pasquetta ed il 25 Aprile corrisponde al giorno 62 nei grafici. Con questo criterio (arbitrario, sia chiaro), in particolare nella mia regione la Puglia, le Province di Lecce e Taranto potrebbero riaprire dai primi di Maggio, mentre le altre dovrebbero aspettare un po’ di più tipo la metà di Maggio.