La pandemia delle cattive statistiche

, Author

Il modo in cui pensiamo in un mondo moderno e post-industrializzato è caratterizzato da una crescente astrazione concettuale. Il metodo scientifico ha trasformato il nostro mondo, e ha trasformato il modo in cui pensiamo al mondo giorno per giorno. Piaget chiamava questo lo stadio operativo formale: pensiamo manipolando concetti astratti staccati dagli esempi della vita reale. Questo era assolutamente estraneo ai nostri non troppo lontani antenati, come si è visto dagli esperimenti nei villaggi remoti dell’Unione Sovietica all’alba dell’industrializzazione.

L’astrazione è ovunque: mentre la parola percentuale appariva quasi da nessuna parte solo 100 anni fa, ora spunta ogni 5000 parole in un testo medio inglese, costituendo lo 0,02% di tutte le parole.

In un certo senso siamo forzati verso il pensiero astratto: viviamo in un mondo diverso da quello visto dai nostri antenati evolutivi, e sono soprattutto le nostre facoltà di pensiero concettuale che cercano di stare al passo con la rapidità con cui il nostro ambiente si sposta, e verso quali regni digitali e basati sulla conoscenza si sposta. Ma non è un compito banale. Il nostro cervello non è ottimizzato per essere razionale e obiettivo: Wikipedia elenca circa 200 pregiudizi cognitivi, schemi psicologici in cui la nostra percezione distorce la realtà e ci impedisce un giudizio razionale.

La falsa fiducia dei numeri

Il mondo, come lo incontriamo, è incerto. Le moderne teorie neuroscientifiche vedono i nostri cervelli come dispositivi che cercano costantemente di prendere decisioni ottimali in condizioni di incertezza.

In un momento in cui una pandemia si sta diffondendo in tutto il mondo, minacciando vite, posti di lavoro e la vita sociale come la conosciamo, l’incertezza è ovunque.

L’astrazione del mondo si libera del rumore e del rumore della realtà, fingendo un senso di obiettività di fronte all’incertezza. I numeri danno un’impressione di inattaccabilità, di darci qualcosa di stabile a cui aggrapparci. Ci confortano, e perché non dovrebbero? I numeri hanno fornito uno strumento immensamente utile per portare ordine nel mondo, per manipolarlo con grande successo. Potrebbero essere il più importante progresso tecnologico che l’umanità abbia fatto dalla scoperta del fuoco.

Ma i numeri non sono sempre uguali ai numeri. I numeri comportano un rischio intrinseco: l’astrazione è difficile, l’indagine scientifica è difficile, e i numeri possono nascondere la lotta dietro la loro genesi, l’incertezza dell’origine dietro l’alone di verità oggettiva che irradiano.

Le difficoltà della statistica

La statistica, secondo Wikipedia, riguarda la raccolta, organizzazione, analisi, interpretazione e presentazione dei dati.

I numeri sono uno dei modi centrali di rappresentare i dati. E un sacco di numeri fluttuano nei media e nel discorso pubblico in questi giorni: tassi di mortalità, numero totale di casi, fattori R0, stime dell’efficacia delle contromisure … ma molto spesso, ci sono domande senza risposta in agguato dietro di loro.

Prima di assumere ciò che i dati ti dicono circa lo stato oggettivo della realtà, alcune domande chiave devono essere risposte:

  1. Come sono stati raccolti e organizzati i dati?
  2. Come sono stati presentati?
  3. Come devono essere interpretati?

L’importanza della raccolta dei dati

Covid-19 è una sfida quasi senza precedenti per la comunità globale (non parliamo del cambiamento climatico…) e fa trattenere il respiro collettivo alle persone di tutto il mondo. Quindi, in questo ambiente, è naturale cercare numeri che ci diano un senso di certezza su ciò che sta realmente accadendo.

Ma le misure prese per contenere la diffusione del virus non sono un esperimento scientifico, e quindi dobbiamo stare molto attenti a trattarlo come tale. Ci sono diversi punti in cui i test per il virus si discostano significativamente da un vero e proprio esperimento, e in cui i pregiudizi si riversano. È molto importante tenere a mente che questo è, infatti, il caso e che i numeri sono lì per essere goduto con un grano significativo di sale.

  1. Chi viene testato? La maggior parte dei test sulle persone che viaggiano da “aree ad alto rischio” (come Iran, Italia e Cina) induce una distorsione del gruppo di selezione, che porta ad una distribuzione distorta che indica che la maggior parte delle persone provenienti da aree ad alto rischio sono state infettate, anche se le persone provenienti da altre aree potrebbero esserlo, ma non vengono rilevate.
  2. Confrontare i numeri tra paesi ha un valore limitato perché il numero di test varia notevolmente tra loro. Mentre la Corea del Sud al suo apice ha effettuato circa 10000 test al giorno, e la Germania non è troppo lontana da questo numero, altri paesi testano molto meno e di conseguenza rilevano un numero molto minore di infezioni.
  3. In alcuni luoghi e in alcuni periodi, mentre il numero di pazienti con un’infezione confermata da Covid-19 cresce esponenzialmente, il numero di test aumenta rapidamente. In linea di principio, questo potrebbe portare ad una grande crescita dei rilevamenti, anche se il numero di persone infette rimanesse costante.
  4. Molte persone non hanno quasi alcun sintomo o solo sintomi molto lievi, e quindi molte persone non passeranno inosservate, soprattutto se le capacità di test sono sovraccaricate e quindi limitate ad un piccolo gruppo di persone di gruppi selezionati. La situazione a Washington, dove si è scoperto che il virus era presente diverse settimane prima del primo caso confermato, sottolinea bene questo problema.

Quindi, prima di cercare di interpretare i dati (tale e quale il tasso di mortalità, e tale il numero di pazienti infetti), dobbiamo capire come i dati sono stati raccolti.

Un paio di giorni fa, sullo schermo del mio telefono è apparso un widget con il numero di casi confermati che incombeva a lettere rosse: 201463 persone erano state infettate dal coronavirus! Considerando che il numero reale di casi globali potrebbe facilmente essere fuori di un fattore 10-50, non credo che pretendere di contarli fino alla singola persona aiuti a capire la difficoltà del processo di raccolta dati.

Il tasso di mortalità è ugualmente buttato in giro spesso, ma ha una quantità quasi uguale di incertezza collegata ad esso: un immenso fattore di confondimento include la demografia (fino al 70 per cento dei pazienti in Germania sono giovani in buona forma di ritorno dalle gite sciistiche in Italia, che induce un altro grande bias di selezione del gruppo), mentre in Italia una grande percentuale di persone colpite è vecchia, in parte perché gli anziani in Italia sono più fortemente integrati nella vita sociale. E poi ci sono probabilmente molti più casi non rilevati in Italia (si consideri che 70 tedeschi di ritorno dalle vacanze in Alto Adige sono risultati positivi al test in un momento in cui l’intero stato aveva solo 2 casi confermati). Questo, e il fatto che la Germania ha iniziato a testare di più e prima, ha indotto una differenza nel tasso di mortalità di quasi 50 volte tra due paesi in apparenza relativamente simili.

Poi ci sono gli sfasamenti temporali tra l’infezione e le guarigioni da considerare, l’efficacia delle cure critiche, il ruolo del fumo e dell’inquinamento atmosferico (alto in Italia e in Cina, e più prevalente tra i maschi), la demografia del paese, la capacità degli ospedali, la questione di quali pazienti vengono contati come morti per il Covid-19 (la prima vittima tedesca era un paziente di cancro di 78 anni all’ultimo stadio in cure palliative, quindi si può discutere fino a che punto la sua morte dovrebbe davvero essere contabilizzata dal Covid-19), ecc

È quindi fuorviante dire “il tasso di mortalità è questo e quello”, “e giudicare quanto sia veramente pericoloso il Covid-19 basandosi solo su questi numeri. Se parliamo di un tasso di mortalità, dobbiamo essere consapevoli di dove viene e cosa dice realmente.

Adottando un quadro bayesiano

Nella statistica bayesiana, le probabilità esprimono il nostro grado di fiducia in un evento. Una stima bayesiana di una quantità incorpora sempre ciò che pensiamo di sapere sulla quantità, più la nostra stima dell’incertezza intrinseca della quantità.

Un insieme di distribuzioni di probabilità gaussiane con diverse covarianze. Fonte: Inductiveload / Public domain

I numeri esprimono la nostra conoscenza di questo mondo: ma siccome questa conoscenza è necessariamente probabilistica, le quantità nella statistica bayesiana sono invece rappresentate da distribuzioni di probabilità (che possono essere una curva a campana come nel grafico sopra) invece di numeri singoli. La larghezza della distribuzione rappresenta il nostro grado di certezza nella nostra stima. Il punto più alto del grafico è la nostra migliore ipotesi (la media della gaussiana), ma se la distribuzione è molto ampia, la nostra migliore ipotesi non ci dice molto.

Come spiega in dettaglio questo grande approfondimento sulle nostre possibili misure contro di esso, ci sono molte incognite quando si tratta di Covid-19, e troppe incognite per brandire qualsiasi numero con troppa fiducia (spiega anche perché le misure forti sono la nostra migliore politica al momento, perché ci fanno guadagnare tempo per avere un quadro più chiaro).

Questo grafico ha fatto il giro del mondo ed è tratto da un articolo pubblicato nel weekend da Neil Ferguson et al. all’Imperial College di Londra.

Indipendentemente da quanto sia importante il suo messaggio (ha portato a cambiamenti politici negli Stati Uniti e nel Regno Unito), il modo in cui il grafico rappresenta le curve è fuorviante. Quali sono i parametri impliciti che sono stati inseriti nella simulazione, e quanto sono grandi i loro intervalli di confidenza? Gli effetti del tempo/diverse misure di allontanamento sociale/struttura sociale/trattamenti emergenti sono tutti incerti, e nessuno di questi fattori è stato determinato da studi empirici, ma sono, per ora, congetture.

Come dice Jeremy Howard nel suo riassunto pratico della situazione Covid-19, mentre queste curve sembrano terrificanti, le barre di errore intorno ad esse potrebbero essere quasi la dimensione delle curve stesse.

Resistere all’incertezza

In fondo: può essere difficile mantenere la calma di fronte all’incertezza, ma c’è della saggezza in questo.

Purtroppo, nei politici, riconoscere l’incertezza è spesso interpretato come un segno di debolezza. Ecco perché penso che sia responsabilità della comunità scientifica sottolineare il ruolo che gioca nella valutazione di ciò che sta accadendo, cosa significa rispetto alle misure che dovremmo prendere, e perché questa incertezza è una delle migliori ragioni per cui abbiamo bisogno di più tempo per conquistarla lentamente attraverso una più rigorosa valutazione scientifica del virus, e poi decidere la migliore strategia a lungo termine.

Ci piace avere numeri a cui aggrapparci quando la nuvola scura della pandemia incombe su tutte le nostre teste. Ma prima che emergano fatti più chiari, prima che la comunità globale abbia una presa più salda sulla situazione, è meglio sopportare l’incertezza piuttosto che perpetuare i fatti per il gusto di auto-ingannarci nella comodità, o, all’altro estremo, ossessionarci in un panico che viene dal pensare che sappiamo meglio di quanto non sappiamo realmente cosa sta succedendo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.