Pandemin av dålig statistik

Det sätt på vilket vi tänker i en modern, postindustriell värld kännetecknas av ökad abstraktion i begreppen. Den vetenskapliga metoden har förändrat vår värld, och den har förändrat vårt sätt att tänka på världen i vardagen. Piaget kallade detta för det formella operativa stadiet: vi tänker genom att manipulera abstrakta begrepp som är avskilda från exempel från verkligheten. Detta var helt främmande för våra inte alltför avlägsna förfäder, vilket framgår av experiment i avlägsna byar i Sovjetunionen vid industrialiseringens brant.

Abstraktion finns överallt: medan ordet procent dök upp nästan ingenstans för bara 100 år sedan dyker det nu upp omkring vart 5 000:e ord i en genomsnittlig engelsk text och utgör 0,02 procent av alla ord.

På sätt och vis tvingas vi till abstrakt tänkande: vi lever i en värld som inte liknar den som våra evolutionära förfäder sett, och det är främst våra förmågor för konceptuellt tänkande som försöker hålla jämna steg med den snabbhet med vilken vår omgivning skiftar, och till vilken typ av digitala, kunskapsbaserade sfärer den skiftar. Men det är ingen trivial uppgift. Våra hjärnor är inte optimerade för att vara rationella och objektiva: Wikipedia listar omkring 200 kognitiva fördomar, psykologiska mönster där vår uppfattning förvränger verkligheten och hindrar oss från att göra rationella bedömningar.

Det falska förtroendet för siffror

Världen , så som vi möter den , är osäker. Moderna neurovetenskapliga teorier ser våra hjärnor som apparater som ständigt försöker fatta optimala beslut under osäkerhet.

I en tid då en pandemi sprider sig över hela världen och hotar liv, jobb och det sociala livet som vi känner till det, finns osäkerheten överallt.

Abstraheringen av världen gör sig av med verklighetens buller och klirr, och låtsas ge en känsla av objektivitet i mötet med osäkerheten. Siffror ger ett intryck av att vara oantastliga, att ge oss något stabilt att hålla fast vid. De känns betryggande för oss, och varför skulle de inte göra det? Siffror har varit ett oerhört användbart verktyg för att bringa ordning i världen, för att manipulera den med stor framgång. De kan vara det viktigaste tekniska framsteg som mänskligheten har gjort sedan upptäckten av elden.

Men siffror är inte alltid lika med siffror. Siffror är förknippade med en inneboende risk: abstraktion är svårt, vetenskaplig undersökning är svår, och siffror kan dölja kampen bakom deras uppkomst, osäkerheten om ursprunget bakom den halo av objektiv sanning som de utstrålar.

Statistikens svårigheter

Statistik handlar enligt Wikipedia om insamling, organisering, analys, tolkning och presentation av data.

Siffror är ett av de centrala sätten att representera data. Och många siffror flyter runt i medierna och i den offentliga debatten nuförtiden: dödssiffror, totala antalet fall, R0-faktorer, uppskattningar av effektiviteten av motåtgärder … men mycket ofta lurar det obesvarade frågor bakom dem.

För att kunna anta vad data säger om verklighetens objektiva tillstånd måste några nyckelfrågor besvaras:

Hur samlades data in och organiserades?
Hur presenteras de?
Hur ska de tolkas?

Vikten av datainsamling

Covid-19 är en nästan aldrig tidigare skådad utmaning för världssamfundet (låt oss inte tala om klimatförändringarna…) och har fått människor över hela världen att hålla andan. Så i denna miljö är det naturligt att leta efter siffror som ger oss en känsla av säkerhet om vad som verkligen pågår.

Men de åtgärder som vidtagits för att tygla spridningen av viruset är inte ett vetenskapligt experiment, och vi bör därför vara mycket försiktiga med att behandla det som ett sådant. Det finns flera punkter där testerna för viruset avviker avsevärt från ett verkligt experiment, och där fördomar flödar in. Det är mycket viktigt att komma ihåg att detta faktiskt är fallet och att siffrorna är till för att njutas med ett betydande korn av salt.

Vem testas? Att mestadels testa människor som reser in från ”högriskområden” (som Iran, Italien och Kina) framkallar en selektionsgruppsbias, vilket leder till en skev fördelning som indikerar att för de flesta människor från högriskområden har smittats, även om människor från andra områden också skulle kunna vara det, men går oupptäckta.
Vid jämförelse av siffror mellan länder iär av begränsat värde eftersom antalet tester varierar kraftigt mellan dem. Medan Sydkorea på sin höjdpunkt har genomfört omkring 10 000 tester per dag, och Tyskland inte ligger långt efter, testar andra länder mycket mindre och upptäcker följaktligen ett mycket mindre antal infektioner.
På vissa platser och under vissa perioder ökar antalet patienter med en bekräftad Covid-19-infektion exponentiellt, samtidigt som antalet tester ökar snabbt. I princip skulle detta kunna leda till en stor ökning av antalet upptäckter ,även om antalet smittade personer förblev konstant.
Många människor har nästan inga symtom eller endast mycket milda symtom, och därför kommer många människor inte att förbli oupptäckta, särskilt inte om testkapaciteten är överbelastad och därför begränsas till en liten grupp människor från utvalda grupper. Situationen i Washington, där viruset spårades till att ha funnits flera veckor före det första bekräftade fallet, understryker detta problem väl.

Så innan vi tittar på att tolka uppgifterna (si och så är dödligheten och så och så är antalet smittade patienter) måste vi förstå hur uppgifterna har samlats in.

För ett par dagar sedan dök en widget upp på min telefonskärm med antalet bekräftade fall i stora röda bokstäver: 201463 personer hade smittats av coronaviruset! Med tanke på att det verkliga antalet globala fall lätt kan avvika med en faktor 10-50 tror jag inte att låtsas att räkna dem upp till den enskilda personen hjälper till att ge näring åt en förståelse för svårigheten med datainsamlingsprocessen.

Falldödligheten kastas likaså ofta omkring, men har en nästan lika stor osäkerhet knuten till sig. En enorm förväxlingsfaktor inkluderar demografi (upp till 70 procent av patienterna i Tyskland är unga människor i god form som återvänder från skidresor i Italien, vilket inducerar ytterligare en stor selektionsgruppsbias), medan en stor andel av de drabbade personerna i Italien är gamla, delvis på grund av att gamla människor i Italien är starkare integrerade i det sociala livet. Och sedan finns det förmodligen många fler oupptäckta fall i Italien (betänk att 70 tyskar som återvände från semester i Sydtyrolen testades positivt vid en tidpunkt då hela delstaten endast hade 2 bekräftade fall). Detta, och det faktum att Tyskland började testa sig mer och tidigare, har lett till en skillnad i dödligheten med en faktor på nästan 50 mellan två på ytan relativt likartade länder.

Därefter finns det tidsförskjutningar mellan infektion och tillfrisknande att ta hänsyn till, effektiviteten i intensivvården, betydelsen av rökning och luftföroreningar (höga halter i Italien och Kina och vanligare bland män), landets demografi, sjukhusens kapacitet, frågan om vilka patienter som räknas som Covid-19-dödsfall (det första tyska dödsfallet var en 78-årig cancerpatient i ett sent skede av sin utveckling som vårdades i palliativ vård, så man kan argumentera för i vilken utsträckning hans död verkligen bör räknas in i Covid-19), osv.

Det är därför vilseledande att säga ”dödssiffrorna är det ena och det andra” och att bedöma hur farlig Covid-19 verkligen är enbart på grundval av dessa siffror. Om vi talar om en dödsfrekvens måste vi vara medvetna om varifrån den kommer och vad den egentligen säger.

Att anta en bayesiansk ram

I bayesiansk statistik uttrycker sannolikheter vår grad av tro på en händelse. En bayesiansk uppskattning av en kvantitet innehåller alltid vad vi tror att vi vet om kvantiteten, plus vår uppskattning av kvantitetens inneboende osäkerhet.