Die Pandemie schlechter Statistiken

, Author

Die Art und Weise, wie wir in einer modernen, postindustriellen Welt denken, ist durch zunehmende begriffliche Abstraktion gekennzeichnet. Die wissenschaftliche Methode hat unsere Welt verändert, und sie hat die Art und Weise verändert, wie wir tagtäglich über die Welt denken. Piaget nannte dies die formal-operationale Phase: Wir denken, indem wir abstrakte Konzepte losgelöst von realen Beispielen handhaben. Das war unseren nicht allzu fernen Vorfahren völlig fremd, wie Experimente in abgelegenen Dörfern in der Sowjetunion am Rande der Industrialisierung gezeigt haben.

Abstraktion ist allgegenwärtig: Während das Wort „Prozent“ noch vor 100 Jahren fast nirgendwo auftauchte, taucht es heute etwa bei jedem 5000sten Wort in einem durchschnittlichen englischen Text auf und macht 0,02 Prozent aller Wörter aus.

In gewisser Weise sind wir zum abstrakten Denken gezwungen: Wir leben in einer Welt, wie sie unsere evolutionären Vorfahren nicht kannten, und es sind vor allem unsere Fähigkeiten zum begrifflichen Denken, die versuchen, mit der Schnelligkeit Schritt zu halten, mit der sich unsere Umwelt verändert, und in welche Art von digitalen, wissensbasierten Bereichen sie sich verlagert. Aber das ist keine triviale Aufgabe. Unsere Gehirne sind nicht dafür optimiert, rational und objektiv zu sein: Wikipedia listet rund 200 kognitive Verzerrungen auf, psychologische Muster, bei denen unsere Wahrnehmung die Realität verzerrt und uns von einem rationalen Urteil abhält.

Das falsche Vertrauen in Zahlen

Die Welt, wie wir sie erleben, ist unsicher. Moderne neurowissenschaftliche Theorien betrachten unsere Gehirne als Geräte, die ständig versuchen, unter Unsicherheit optimale Entscheidungen zu treffen.

In einer Zeit, in der sich eine Pandemie rund um den Globus ausbreitet und Leben, Arbeitsplätze und das soziale Leben, wie wir es kennen, bedroht, ist Unsicherheit allgegenwärtig.

Die Abstraktion der Welt beseitigt den Lärm und das Getöse der Realität und täuscht angesichts der Unsicherheit ein Gefühl von Objektivität vor. Zahlen erwecken den Eindruck der Unangreifbarkeit, sie geben uns etwas Stabiles, an dem wir uns festhalten können. Sie fühlen sich für uns beruhigend an, und warum sollten sie das auch nicht? Zahlen sind ein ungemein nützliches Instrument, um Ordnung in die Welt zu bringen und sie mit großem Erfolg zu manipulieren. Sie sind vielleicht der wichtigste technologische Fortschritt, den die Menschheit seit der Entdeckung des Feuers gemacht hat.

Aber Zahlen sind nicht immer mit Zahlen gleichzusetzen. Zahlen bergen ein Risiko in sich: Abstraktion ist schwierig, wissenschaftliche Untersuchungen sind schwierig, und Zahlen können den Kampf hinter ihrer Entstehung verbergen, die Ungewissheit des Ursprungs hinter dem Heiligenschein der objektiven Wahrheit, den sie ausstrahlen.

Die Schwierigkeiten der Statistik

Die Statistik befasst sich laut Wikipedia mit der Sammlung, Organisation, Analyse, Interpretation und Präsentation von Daten.

Zahlen sind eine der zentralen Möglichkeiten, Daten darzustellen. Und in den Medien und im öffentlichen Diskurs tummeln sich heutzutage viele Zahlen: Todesraten, Gesamtzahlen von Fällen, R0-Faktoren, Schätzungen der Wirksamkeit von Gegenmaßnahmen…aber sehr oft verbergen sich dahinter unbeantwortete Fragen.

Bevor man annimmt, dass Daten etwas über den objektiven Zustand der Realität aussagen, müssen einige Schlüsselfragen beantwortet werden:

  1. Wie wurden die Daten erhoben und organisiert?
  2. Wie werden sie präsentiert?
  3. Wie sind sie zu interpretieren?

Die Bedeutung der Datenerhebung

Covid-19 ist eine fast beispiellose Herausforderung für die Weltgemeinschaft (vom Klimawandel wollen wir gar nicht erst reden…) und hält die Menschen auf der ganzen Welt in Atem. In diesem Umfeld ist es nur natürlich, nach Zahlen zu suchen, die uns ein Gefühl der Gewissheit darüber geben, was wirklich vor sich geht.

Die Maßnahmen zur Eindämmung der Ausbreitung des Virus sind jedoch kein wissenschaftliches Experiment, und deshalb sollten wir sehr vorsichtig damit sein, sie wie eines zu behandeln. Es gibt mehrere Punkte, in denen die Tests für das Virus erheblich von einem tatsächlichen Experiment abweichen und in denen Vorurteile einfließen. Es ist sehr wichtig, sich vor Augen zu halten, dass dies tatsächlich der Fall ist und dass die Zahlen mit einem erheblichen Körnchen Salz zu genießen sind.

  1. Wer wird getestet? Die Tatsache, dass vor allem Menschen getestet werden, die aus „Hochrisikogebieten“ (wie Iran, Italien und China) einreisen, führt zu einer Verzerrung der Verteilung, die darauf hindeutet, dass sich vor allem Menschen aus Hochrisikogebieten infiziert haben, obwohl auch Menschen aus anderen Gebieten infiziert sein könnten, aber unentdeckt bleiben.
  2. Vergleiche zwischen den Ländern sind nur bedingt aussagekräftig, da die Zahl der Tests von Land zu Land sehr unterschiedlich ist. Während Südkorea in der Spitze rund 10000 Tests pro Tag durchführt und Deutschland nicht weit dahinter zurückbleibt, werden in anderen Ländern viel weniger Tests durchgeführt und dementsprechend viel weniger Infektionen entdeckt.
  3. Während die Zahl der Patienten mit einer bestätigten Covid-19-Infektion an manchen Orten in bestimmten Zeiträumen exponentiell ansteigt, nimmt auch die Zahl der Tests rasch zu. Im Prinzip könnte dies zu einem starken Anstieg der Entdeckungen führen, selbst wenn die Zahl der Infizierten konstant bliebe.
  4. Viele Menschen haben fast keine oder nur sehr leichte Symptome, und so werden viele Menschen nicht unentdeckt bleiben, vor allem, wenn die Testkapazitäten überlastet und daher auf einen kleinen Pool von Personen aus ausgewählten Gruppen beschränkt sind. Die Situation in Washington, wo das Virus mehrere Wochen vor dem ersten bestätigten Fall nachgewiesen wurde, unterstreicht dieses Problem sehr gut.

Bevor wir also die Daten interpretieren (die Sterblichkeitsrate ist so und so hoch, die Zahl der infizierten Patienten ist so und so hoch), müssen wir verstehen, wie die Daten erhoben wurden.

Vor ein paar Tagen erschien auf meinem Handy-Display ein Widget mit der Zahl der bestätigten Fälle in großen, roten Buchstaben: 201463 Menschen hatten sich mit dem Coronavirus infiziert! Wenn man bedenkt, dass die tatsächliche Zahl der weltweiten Fälle leicht um den Faktor 10-50 abweichen kann, glaube ich nicht, dass die Vorgabe, sie bis zur einzelnen Person zu zählen, das Verständnis für die Schwierigkeit der Datenerfassung fördert.

Die Sterblichkeitsrate wird ebenfalls oft in den Raum geworfen, ist aber mit einer fast ebenso großen Unsicherheit behaftet: Ein immenser Störfaktor ist die Demographie (bis zu 70 Prozent der Patienten in Deutschland sind junge Menschen in guter Verfassung, die von Skitouren in Italien zurückkehren, was einen weiteren großen Selektionsgruppen-Bias hervorruft), während in Italien ein großer Anteil der Erkrankten alt ist, zum Teil, weil alte Menschen in Italien stärker in das gesellschaftliche Leben integriert sind. Außerdem gibt es in Italien wahrscheinlich viel mehr unentdeckte Fälle (man bedenke, dass 70 Deutsche, die aus dem Urlaub in Südtirol zurückkehrten, positiv getestet wurden, während es in ganz Italien nur zwei bestätigte Fälle gab). Dies und die Tatsache, dass Deutschland mehr und früher mit den Tests begonnen hat, hat zu einem Unterschied in der Sterblichkeitsrate um den Faktor 50 zwischen zwei oberflächlich betrachtet relativ ähnlichen Ländern geführt.

Hinzu kommen die zeitliche Verzögerung zwischen Infektion und Genesung, die Wirksamkeit der Intensivpflege, die Rolle des Rauchens und der Luftverschmutzung (in Italien und China hoch und bei Männern stärker verbreitet), die Demographie des Landes, die Kapazität der Krankenhäuser, die Frage, welche Patienten als Covid-19-Todesfälle gezählt werden (das erste deutsche Todesopfer war ein 78-jähriger Krebspatient im Spätstadium, der sich in der Palliativstation befand, so dass man darüber streiten kann, inwieweit sein Tod wirklich unter Covid-19 zu verbuchen ist), usw.

Es ist daher irreführend, zu sagen „die Todesrate ist dies und das“, „und zu beurteilen, wie gefährlich Covid-19 wirklich ist, basierend auf diesen Zahlen allein. Wenn wir von einer Todesrate sprechen, müssen wir uns darüber im Klaren sein, woher sie kommt und was sie wirklich aussagt.

Anwendung eines Bayes’schen Rahmens

In der Bayes’schen Statistik drücken Wahrscheinlichkeiten den Grad unseres Glaubens an ein Ereignis aus. Eine Bayes’sche Schätzung einer Größe beinhaltet immer das, was wir glauben, über die Größe zu wissen, plus unsere Schätzung der ihr innewohnenden Unsicherheit.

Eine Menge von Gauß’schen Wahrscheinlichkeitsverteilungen mit unterschiedlichen Kovarianzen. Quelle: Inductiveload / Public domain

Zahlen drücken unser Wissen über die Welt aus: Da dieses Wissen aber notwendigerweise probabilistisch ist, werden Größen in der Bayes’schen Statistik statt durch einzelne Zahlen durch Wahrscheinlichkeitsverteilungen (die wie in der obigen Grafik eine Glockenkurve sein können) dargestellt. Die Breite der Verteilung gibt den Grad der Gewissheit unserer Schätzung an. Der höchste Punkt des Diagramms ist unsere beste Schätzung (der Mittelwert der Gaußschen Kurve), aber wenn die Verteilung sehr breit ist, sagt uns unsere beste Schätzung nicht viel.

Wie dieser sehr ausführliche Blick auf unsere möglichen Maßnahmen dagegen erklärt, gibt es sehr viele Unbekannte, wenn es um Covid-19 geht, und zu viele unbekannte Unbekannte, um irgendwelche Zahlen mit zu viel Vertrauen zu verwenden (es erklärt auch, warum starke Maßnahmen im Moment unsere beste Politik sind, weil sie uns Zeit verschaffen, ein klareres Bild zu bekommen).

Dieses Diagramm ist um die Welt gegangen und stammt aus einer am Wochenende veröffentlichten Arbeit von Neil Ferguson et al. am Imperial College London veröffentlicht wurde.

Abgesehen davon, wie wichtig ihre Botschaft ist (sie führte zu politischen Änderungen in den USA und im Vereinigten Königreich), ist die Art und Weise, wie das Diagramm die Kurven darstellt, irreführend. Welche impliziten Parameter sind in die Simulation eingeflossen und wie groß sind ihre Vertrauensintervalle? Die Auswirkungen des Wetters/verschiedener sozialer Distanzierungsmaßnahmen/sozialer Struktur/aufkommender Behandlungen sind allesamt ungewiss, und keiner dieser Faktoren wurde durch empirische Studien ermittelt, sondern sind bisher nur Vermutungen.

Wie Jeremy Howard in seiner praktischen Zusammenfassung der Covid-19-Situation sagt, sehen diese Kurven zwar erschreckend aus, aber die Fehlerbalken um sie herum könnten fast so groß sein wie die Kurven selbst.

Der Ungewissheit trotzen

Fazit: Es mag schwer sein, angesichts der Ungewissheit ruhig zu bleiben, aber es steckt eine gewisse Weisheit darin.

Bei Politikern wird die Anerkennung der Ungewissheit leider oft als Zeichen der Schwäche ausgelegt. Deshalb denke ich, dass es die Aufgabe der Wissenschaft ist, zu betonen, welche Rolle sie bei der Bewertung der Geschehnisse spielt, was dies für die Maßnahmen bedeutet, die wir ergreifen sollten, und warum diese Ungewissheit einer der besten Gründe dafür ist, dass wir mehr Zeit brauchen, um sie durch eine strengere, wissenschaftliche Bewertung des Virus langsam zu überwinden und dann über die beste langfristige Strategie zu entscheiden.

Wir haben gerne Zahlen, an denen wir uns festhalten können, wenn die dunkle Wolke der Pandemie über unseren Köpfen schwebt. Aber bevor klarere Fakten auftauchen, bevor die Weltgemeinschaft die Situation besser im Griff hat, ist es besser, der Ungewissheit zu widerstehen, als die Fakten zu verewigen, um uns in Sicherheit zu wiegen, oder uns im anderen Extrem in eine Panik zu versetzen, die daher rührt, dass wir besser zu wissen glauben, was vor sich geht, als wir es wirklich tun.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.