La pandemia de las malas estadísticas

, Author

La forma de pensar en un mundo moderno y postindustrializado se caracteriza por una creciente abstracción conceptual. El método científico ha transformado nuestro mundo, y ha transformado la forma en que pensamos sobre el mundo en el día a día. Piaget llamó a esto la etapa operativa formal: pensamos manipulando conceptos abstractos desvinculados de los ejemplos de la vida real. Esto era absolutamente ajeno a nuestros antepasados no muy lejanos, como demuestran los experimentos realizados en aldeas remotas de la Unión Soviética al borde de la industrialización.

La abstracción está en todas partes: mientras que la palabra «por ciento» no aparecía prácticamente en ninguna parte hace sólo 100 años, ahora aparece en torno a una de cada 5.000 palabras del texto inglés medio, constituyendo el 0,02% de todas las palabras.

En cierto modo, estamos obligados a pensar de forma abstracta: vivimos en un mundo distinto al que vieron nuestros antepasados evolutivos, y son sobre todo nuestras facultades para el pensamiento conceptual las que intentan seguir el ritmo de la rapidez con la que cambia nuestro entorno, y hacia qué tipo de reinos digitales, basados en el conocimiento, se desplaza. Pero no es una tarea trivial. Nuestros cerebros no están optimizados para ser racionales y objetivos: Wikipedia enumera unos 200 sesgos cognitivos, patrones psicológicos en los que nuestra percepción distorsiona la realidad y nos aleja del juicio racional.

La falsa confianza de los números

El mundo ,tal y como lo encontramos, es incierto. Las teorías neurocientíficas modernas consideran que nuestros cerebros son dispositivos que intentan constantemente tomar decisiones óptimas en condiciones de incertidumbre.

En una época en la que una pandemia se extiende por todo el mundo, amenazando vidas, puestos de trabajo y la vida social tal y como la conocemos, la incertidumbre está en todas partes.

La abstracción del mundo se deshace del ruido y el estrépito de la realidad, fingiendo una sensación de objetividad frente a la incertidumbre. Los números dan la impresión de ser inatacables, de darnos algo estable a lo que agarrarnos. Nos reconfortan, ¿y por qué no habrían de hacerlo? Los números han proporcionado una herramienta inmensamente útil para poner orden en el mundo, para manipularlo con gran éxito. Puede que sean el avance tecnológico más importante de la humanidad desde el descubrimiento del fuego.

Pero los números no siempre son iguales a los números. Los números vienen con un riesgo inherente: la abstracción es difícil, la indagación científica es difícil, y los números pueden ocultar la lucha tras su génesis, la incertidumbre del origen tras el halo de verdad objetiva que irradian.

Las dificultades de la estadística

La estadística, según Wikipedia, se refiere a la recopilación, organización, análisis, interpretación y presentación de datos.

Los números son una de las formas centrales de representar datos. Y muchos números están flotando en los medios de comunicación y en el discurso público en estos días: tasas de mortalidad, números totales de casos, factores R0, estimaciones de la eficacia de las contramedidas… pero muy a menudo ,hay preguntas sin respuesta acechando detrás de ellos.

Antes de asumir lo que los datos te dicen sobre el estado objetivo de la realidad, hay que responder a algunas preguntas clave:

  1. ¿Cómo se recogieron y organizaron los datos?
  2. ¿Cómo se presentan?
  3. ¿Cómo deben interpretarse?

La importancia de la recogida de datos

Covid-19 es un reto casi sin precedentes para la comunidad global (no hablemos del cambio climático…) y tiene a la gente de todo el mundo conteniendo la respiración colectiva. Así que, en este entorno, es natural buscar cifras que nos den una sensación de certeza sobre lo que realmente está pasando.

Pero las medidas adoptadas para frenar la propagación del virus no son un experimento científico, por lo que debemos tener mucho cuidado a la hora de tratarlo como tal. Hay varios puntos en los que las pruebas del virus se desvían significativamente de un experimento real, y en los que los prejuicios se desbordan. Es muy importante tener en cuenta que este es, de hecho, el caso y que los números están ahí para ser disfrutados con un importante grano de sal.

  1. ¿Quién se hace la prueba? La mayoría de las pruebas a las personas que viajan desde «zonas de alto riesgo» (como Irán, Italia y China) induce un sesgo de grupo de selección, lo que lleva a una distribución sesgada que indica que la mayoría de las personas de las zonas de alto riesgo han sido infectadas, a pesar de que las personas de otros lugares podrían serlo también, pero están pasando desapercibidas.
  2. Comparar las cifras entre los países iareof limitado porque el número de pruebas varía mucho entre ellos. Mientras que Corea del Sur, en su punto álgido, ha realizado alrededor de 10000 pruebas al día, y Alemania no está muy lejos de esa cifra, otros países realizan muchas menos pruebas y, en consecuencia, detectan un número mucho menor de infecciones.
  3. En algunos lugares, durante algunos períodos, mientras el número de pacientes con una infección confirmada de Covid-19 crece exponencialmente, también lo hace el número de pruebas. En principio, esto podría conducir a un gran crecimiento de las detecciones ,incluso si el número de personas infectadas se mantuviera constante.
  4. Muchas personas casi no tienen síntomas o sólo tienen síntomas muy leves, por lo que muchas personas no pasarán desapercibidas, especialmente si las capacidades de las pruebas están sobrecargadas y, por lo tanto, restringidas a un pequeño grupo de personas de grupos seleccionados. La situación en Washington, donde se rastreó la presencia del virus varias semanas antes del primer caso confirmado, subraya bien este problema.

Por lo tanto, antes de buscar la interpretación de los datos (tal o cual es la tasa de mortalidad, y tal es el número de pacientes infectados), tenemos que entender cómo se han recogido los datos.

Hace un par de días apareció en la pantalla de mi teléfono un widget con el número de casos confirmados en letras rojas: ¡201463 personas habían sido infectadas con el coronavirus! Teniendo en cuenta que el número real de casos globales podría estar fácilmente fuera por un factor de 10-50, no creo que pretender contarlos hasta la persona individual ayuda a alimentar la comprensión de la dificultad del proceso de recogida de datos.

La tasa de letalidad también se menciona a menudo, pero tiene una cantidad casi igual de incertidumbre: un inmenso factor de confusión incluye la demografía (hasta el 70 por ciento de los pacientes en Alemania son jóvenes en buena forma que regresan de viajes de esquí en Italia, lo que induce otro gran sesgo de grupo de selección), mientras que en Italia una gran proporción de personas afectadas es de edad avanzada, en parte porque las personas mayores en Italia están más fuertemente integradas en la vida social. Además, es probable que haya muchos más casos no detectados en Italia (considere que 70 alemanes que regresaban de sus vacaciones en el Tirol del Sur dieron positivo en un momento en el que todo el estado sólo tenía 2 casos confirmados). Esto, y el hecho de que Alemania empezó a hacer más pruebas y antes, ha inducido una diferencia en la tasa de mortalidad por un factor de casi 50 entre dos países relativamente similares en apariencia.

Además, hay que tener en cuenta el tiempo transcurrido entre la infección y la recuperación, la eficacia de los cuidados críticos, el papel del tabaquismo y la contaminación atmosférica (altos en Italia y China, y más frecuentes entre los hombres), la demografía del país, la capacidad de los hospitales, la cuestión de qué pacientes se contabilizan como muertes por Covid-19 (la primera víctima alemana era un paciente de 78 años con cáncer en fase avanzada que recibía cuidados paliativos, por lo que se puede discutir hasta qué punto su muerte debería contabilizarse realmente por Covid-19), etc.

Por lo tanto, es engañoso decir «la tasa de mortalidad es tal y cual», «y juzgar lo peligroso que es realmente el Covid-19 basándose únicamente en estas cifras. Si hablamos de una tasa de mortalidad, debemos ser conscientes de su procedencia y de lo que realmente dice.

Adoptando un marco bayesiano

En la estadística bayesiana, las probabilidades expresan nuestro grado de creencia en un suceso. Una estimación bayesiana de una cantidad siempre incorpora lo que creemos saber sobre la cantidad, más nuestra estimación de la incertidumbre inherente a la cantidad.

Un conjunto de distribuciones de probabilidad gaussianas con diferentes covarianzas. Fuente: Inductiveload / Dominio público

Los números expresan nuestro conocimiento de este mundo: pero como este conocimiento es necesariamente probabilístico, las cantidades en la estadística bayesiana se representan en cambio mediante distribuciones de probabilidad (que pueden ser una curva de campana como en el gráfico anterior) en lugar de números únicos. La anchura de la distribución representa el grado de certeza de nuestra estimación. El punto más alto del gráfico es nuestra mejor conjetura (la media de la gaussiana), pero si la distribución es realmente amplia, nuestra mejor conjetura no nos dice demasiado.

Como explica en detalle esta gran mirada en profundidad a nuestras posibles medidas contra ella, hay muchas incógnitas cuando se trata de Covid-19, y demasiadas incógnitas para esgrimir cualquier número con demasiada confianza (también explica por qué las medidas fuertes son nuestra mejor política en este momento, porque nos hacen ganar tiempo para obtener una imagen más clara).

Este gráfico ha dado la vuelta al mundo y es de un artículo publicado el fin de semana por Neil Ferguson et al. en el Imperial College de Londres.

Independientemente de lo importante que sea su mensaje (llevó a cambios de política en Estados Unidos y el Reino Unido), la forma en que el gráfico representa las curvas es engañosa. ¿Cuáles son los parámetros implícitos que se introdujeron en la simulación y cuál es el tamaño de sus intervalos de confianza? Los efectos del clima/diferentes medidas de distanciamiento social/estructura social/tratamientos emergentes son todos inciertos, y ninguno de estos factores ha sido determinado por estudios empíricos, sino que son, hasta ahora, conjeturas.

Como dice Jeremy Howard en su resumen práctico de la situación de Covid-19, aunque estas curvas parecen horribles, las barras de error que las rodean podrían ser casi del tamaño de las propias curvas.

Soportar la incertidumbre

En resumidas cuentas: puede ser difícil mantener la calma ante la incertidumbre, pero hay algo de sabiduría en ello.

Desgraciadamente, en los políticos, reconocer la incertidumbre se interpreta a menudo como un signo de debilidad. Por eso creo que es responsabilidad de la comunidad científica hacer hincapié en el papel que desempeña en la evaluación de lo que está ocurriendo, en lo que esto significa con respecto a las medidas que debemos tomar, y en que esta incertidumbre es una de las mejores razones por las que necesitamos más tiempo para conquistarla lentamente a través de una evaluación más rigurosa y científica del virus, y luego decidir la mejor estrategia a largo plazo.

Nos gusta tener números a los que aferrarnos cuando la oscura nube de la pandemia se cierne sobre todas nuestras cabezas. Pero antes de que surjan hechos más claros, antes de que la comunidad mundial tenga un conocimiento más firme de la situación, es mejor soportar la incertidumbre que perpetuar los hechos para autoengañarnos en la comodidad, o en el otro extremo, obsesionarnos en un pánico que proviene de pensar que sabemos mejor lo que está pasando de lo que realmente sabemos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.