A rossz statisztikák járványa

, Author

A modern, posztindusztrializált világban a gondolkodásunkat a növekvő fogalmi absztrakció jellemzi. A tudományos módszer átalakította a világunkat, és átalakította a világról való mindennapi gondolkodásunkat is. Piaget ezt a formális műveleti szakasznak nevezte: a valós életből vett példáktól elszakított absztrakt fogalmak manipulálásával gondolkodunk. Nem is olyan távoli őseinktől ez teljesen idegen volt, amint azt a Szovjetunió távoli falvaiban, az iparosodás küszöbén végzett kísérletek mutatják.

Az absztrakció mindenütt jelen van: míg a százalék szó alig 100 évvel ezelőtt még szinte sehol sem jelent meg, ma már minden 5000. szó körül felbukkan egy átlagos angol szövegben, és az összes szó 0,02 százalékát teszi ki.

Az absztrakt gondolkodás felé kényszerülünk: olyan világban élünk, amilyet evolúciós őseink még nem láttak, és leginkább a fogalmi gondolkodásra való képességünk próbál lépést tartani azzal a gyorsasággal, amilyen gyorsan változik a környezetünk, és amilyen digitális, tudásalapú birodalmakba változik. Ez azonban nem triviális feladat. Agyunk nem arra van optimalizálva, hogy racionális és objektív legyen: A Wikipédia mintegy 200 kognitív torzulást sorol fel, olyan pszichológiai mintákat, amelyekben az érzékelésünk torzítja a valóságot, és távol tart minket a racionális ítélkezéstől.

A számok hamis bizalma

A világ ,ahogyan mi találkozunk vele ,bizonytalan. A modern idegtudományi elméletek úgy tekintik agyunkat, mint olyan eszközöket, amelyek folyamatosan próbálnak optimális döntéseket hozni a bizonytalanságban.

Egy olyan időszakban, amikor egy világjárvány terjed világszerte, életeket, munkahelyeket és az általunk ismert társadalmi életet fenyegetve, a bizonytalanság mindenütt jelen van.

A világ absztrakciója megszabadít a valóság zajától és zajaitól, objektivitást színlelve a bizonytalansággal szemben. A számok a megtámadhatatlanság benyomását keltik, valami szilárdat adnak, amibe kapaszkodhatunk. Megnyugtatónak érezzük őket, és miért is ne éreznénk? A számok rendkívül hasznos eszközt biztosítottak ahhoz, hogy rendet tegyünk a világban, és nagy sikerrel manipuláljuk azt. Talán a legfontosabb technológiai előrelépés, amit az emberiség a tűz felfedezése óta elért.

A számok azonban nem mindig egyenlőek a számokkal. A számok magukban hordozzák a kockázatot: az absztrakció nehéz, a tudományos vizsgálat nehéz, és a számok elrejthetik a keletkezésük mögötti küzdelmet, az eredet bizonytalanságát az általuk sugárzott objektív igazság glóriája mögött.

A statisztika nehézségei

A statisztika a Wikipedia szerint az adatok gyűjtésével, rendszerezésével, elemzésével, értelmezésével és bemutatásával foglalkozik.

A számok az adatok ábrázolásának egyik központi módja. És manapság rengeteg szám lebeg a médiában és a közbeszédben: halálozási arányok, összesített esetszámok, R0-tényezők, az ellenintézkedések hatékonyságára vonatkozó becslések…de nagyon gyakran ,megválaszolatlan kérdések rejtőznek mögöttük.

Mielőtt feltételeznénk, hogy az adatok mit mondanak a valóság objektív állapotáról, néhány kulcsfontosságú kérdésre választ kell adni:

  1. Hogyan gyűjtötték és szervezték az adatokat?
  2. Hogyan mutatják be?
  3. Hogyan kell értelmezni?

Az adatgyűjtés fontossága

A kovid-19 szinte példátlan kihívás a globális közösség számára (a klímaváltozásról ne is beszéljünk…), és a világ minden táján lélegzetüket visszafojtva tartják az emberek. Ebben a környezetben tehát természetes, hogy olyan számokat keresünk, amelyek bizonyosságot adnak arról, hogy mi is történik valójában.

A vírus terjedésének megfékezése ellen hozott intézkedések azonban nem tudományos kísérlet, ezért nagyon óvatosnak kell lennünk, ha úgy kezeljük. Számos olyan pont van, ahol a vírus tesztelése jelentősen eltér egy tényleges kísérlettől, és ahol elfogultságok özönlenek be. Nagyon fontos szem előtt tartani, hogy ez valójában így van, és hogy a számokat jelentős sóval kell élvezni.

  1. Kit tesztelnek? Többnyire a “magas kockázatú területekről” (mint Irán, Olaszország és Kína) beutazók tesztelése szelekciós csoport torzítást idéz elő, ami torz eloszláshoz vezet, ami azt jelzi, hogy leginkább a magas kockázatú területekről érkezők fertőződtek meg, holott máshonnan érkezők is lehetnek, de észrevétlenül maradnak.
  2. A számok országok közötti összehasonlítása korlátozott értékű, mivel a tesztek száma nagyban eltér az egyes országok között. Míg Dél-Koreában a csúcsidőszakban naponta mintegy 10000 tesztet végeztek, és Németország sem sokkal marad el ettől a számtól, addig más országokban sokkal kevesebbet tesztelnek, és ennek megfelelően sokkal kisebb számú fertőzést fedeznek fel.
  3. Míg egyes helyeken bizonyos időszakokban exponenciálisan nő a megerősített Covid-19 fertőzéssel rendelkező betegek száma, addig a tesztek száma is gyorsan növekszik. Ez elvileg a kimutatások nagymértékű növekedéséhez vezethet, még akkor is, ha a fertőzöttek száma állandó marad.
  4. Nagyon sok embernek szinte semmilyen tünete nincs, vagy csak nagyon enyhe tünetei vannak, és így sok ember nem marad észrevétlen, különösen, ha a vizsgálati kapacitások túlterheltek, és ezért a kiválasztott csoportokból származó emberek kis csoportjára korlátozódnak. A washingtoni helyzet, ahol a vírus már több héttel az első megerősített eset előtt is jelen volt, jól aláhúzza ezt a problémát.

Mielőtt tehát az adatok értelmezésével foglalkoznánk (ilyen és ilyen a halálozási arány, és ilyen a fertőzött betegek száma), meg kell értenünk, hogyan gyűjtötték az adatokat.

Pár napja egy widget jelent meg a telefonom képernyőjén, amelyen piros betűkkel a megerősített esetek száma volt olvasható: 201463 ember fertőződött meg a koronavírussal! Figyelembe véve, hogy a globális esetek valós száma könnyen 10-50-szeres eltérést mutathat, nem hiszem, hogy az adatgyűjtési folyamat nehézségeinek megértését segíti, ha úgy teszünk, mintha egyetlen személyre visszaszámolnánk őket.

A halálos kimenetelű esetek arányával szintén gyakran dobálóznak, de majdnem ugyanannyi bizonytalanság kapcsolódik hozzá: egy óriási zavaró tényező a demográfia (Németországban a betegek akár 70 százaléka jó kondícióban lévő, olaszországi sítúrákról visszatérő fiatal, ami egy másik nagy szelekciós csoport torzítást indukál), míg Olaszországban az érintettek nagy része idős, részben azért, mert az idős emberek Olaszországban erősebben integrálódnak a társadalmi életbe. Aztán Olaszországban valószínűleg sokkal több a fel nem fedezett eset (gondoljunk csak arra, hogy 70 dél-tiroli nyaralásból hazatérő németet teszteltek pozitívnak, amikor az egész államban csak 2 megerősített eset volt). Ez, valamint az a tény, hogy Németországban többet és korábban kezdtek el tesztelni, közel 50-szeres különbséget eredményezett a halálozási arányban két, a felszínen viszonylag hasonló ország között.

Aztán figyelembe kell venni a fertőzés és a gyógyulás közötti időeltolódást, az intenzív ellátás hatékonyságát, a dohányzás és a légszennyezés szerepét (Olaszországban és Kínában magas, és a férfiak körében gyakoribb), az ország demográfiai adatait, a kórházak kapacitását, azt a kérdést, hogy mely betegek számítanak Covid-19 haláleseteknek (az első német áldozat egy 78 éves, késői stádiumú rákos beteg volt, aki palliatív ellátásban részesült, így lehet vitatkozni, hogy az ő halálát valóban milyen mértékben kell a Covid-19-hez számítani), stb.

Ezért félrevezető azt mondani, hogy “a halálozási arány ez és az”, “és megítélni, hogy a Covid-19 valóban mennyire veszélyes, csak ezek alapján a számok alapján”. Ha halálozási arányról beszélünk, tisztában kell lennünk azzal, hogy honnan származik, és mit mond valójában.”

Bayesi keretrendszer alkalmazása

A bayesi statisztikában a valószínűségek kifejezik, hogy mennyire hiszünk egy eseményben. Egy mennyiség bayesi becslése mindig magában foglalja azt, amit a mennyiségről tudni vélünk, plusz a mennyiségben rejlő bizonytalanságra vonatkozó becslésünket.

Egy sor különböző kovarianciájú Gauss valószínűségi eloszlás. Forrás: Inductiveload / Public domain

A világról való tudásunkat a számok fejezik ki: mivel azonban ez a tudás szükségszerűen valószínűségi jellegű, a Bayes-statisztikában a mennyiségeket az egyes számok helyett valószínűségi eloszlásokkal (amelyek lehetnek haranggörbék is, mint a fenti ábrán) ábrázoljuk. Az eloszlás szélessége jelzi a becslésünkben való bizonyosságunk mértékét. A grafikon legmagasabb pontja a legjobb becslésünk (a Gauss-érték átlaga), de ha az eloszlás nagyon széles, a legjobb becslésünk nem mond túl sokat.

Amint azt ez a nagyszerű, mélyreható pillantás az ellene való lehetséges intézkedéseinkre részletesen kifejti, a Covid-19 esetében nagyon sok ismeretlen van, és túl sok ismeretlen ismeretlen ahhoz, hogy bármilyen számmal túl nagy biztonsággal hadonásszunk (azt is megmagyarázza, miért az erős intézkedések a legjobb politikánk jelenleg, mert időt nyernek nekünk, hogy tisztább képet kapjunk).

Ez a diagram bejárta a világot, és egy hétvégén megjelent tanulmányból származik, amelyet Neil Ferguson et al. az Imperial College Londonban.

Az üzenetének fontosságától függetlenül (politikai változásokhoz vezetett az Egyesült Államokban és az Egyesült Királyságban), a görbék ábrázolásának módja félrevezető. Milyen implicit paramétereket illesztettek be a szimulációba, és mekkora a konfidenciaintervallumuk? Az időjárás/különböző társadalmi távolságtartási intézkedések/társadalmi struktúra/megjelenő kezelések hatásai mind bizonytalanok, és e tényezők egyikét sem határozták meg empirikus vizsgálatok, hanem egyelőre csak feltételezések.

Amint Jeremy Howard mondja a Covid-19 helyzetéről szóló gyakorlati összefoglalójában, miközben ezek a görbék rémisztően néznek ki, a körülöttük lévő hibasávok közel akkorák lehetnek, mint maguk a görbék.

A bizonytalansággal szembenézni

Lényeg a lényeg: lehet, hogy nehéz nyugodtnak maradni a bizonytalansággal szemben, de van benne némi bölcsesség.

A politikusoknál sajnos a bizonytalanság elismerését gyakran a gyengeség jeleként értelmezik. Ezért úgy gondolom, hogy a tudományos közösség felelőssége, hogy hangsúlyozza, milyen szerepet játszik a történések értékelésében, mit jelent ez a meghozandó intézkedések tekintetében, és miért ez a bizonytalanság az egyik legjobb ok, amiért több időre van szükségünk ahhoz, hogy a vírus szigorúbb, tudományos értékelésével lassan legyőzzük, és aztán döntsünk a legjobb hosszú távú stratégiáról.

Szeretünk számokat kapaszkodni, amikor a világjárvány sötét felhője mindannyiunk feje fölött ott lebeg. De mielőtt tisztább tények derülnek ki, mielőtt a globális közösség szilárdabban átlátja a helyzetet, jobb elviselni a bizonytalanságot, mint a tények állandósulása, hogy önmegtévesztésből kényelembe ringassuk magunkat, vagy a másik végletben, hogy pánikba esünk, ami abból ered, hogy azt hisszük, jobban tudjuk, mi történik, mint valójában.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.