Świat, w którym się znajdujemy, jest niepewny. Współczesne teorie neurobiologiczne postrzegają nasze mózgi jako urządzenia nieustannie próbujące podejmować optymalne decyzje w warunkach niepewności.
W czasach, gdy pandemia rozprzestrzenia się po całym świecie, zagrażając życiu, pracy i życiu społecznemu, jakie znamy, niepewność jest wszędzie.
Abstrakcja świata pozbywa się hałasu i łoskotu rzeczywistości, udając poczucie obiektywizmu w obliczu niepewności. Liczby dają wrażenie niedostępności, dając nam coś stabilnego do trzymania się. Czujemy się dzięki nim pocieszeni, a dlaczego miałoby być inaczej? Liczby są niezmiernie użytecznym narzędziem do wprowadzania porządku w świecie, do manipulowania nim z wielkim powodzeniem. Mogą być najważniejszym postępem technologicznym, jaki ludzkość zrobiła od czasu odkrycia ognia.
Liczby jednak nie zawsze są równe liczbom. Liczby wiążą się z nieodłącznym ryzykiem: abstrakcja jest trudna, naukowe dociekania są trudne, a liczby mogą ukrywać walkę za swoją genezą, niepewność pochodzenia za aureolą obiektywnej prawdy, którą promieniują.
Trudności statystyki
Statystyka, według Wikipedii, dotyczy zbierania, organizowania, analizowania, interpretowania i prezentowania danych.
Liczby są jednym z głównych sposobów reprezentowania danych. I wiele liczb pływa w mediach i dyskursie publicznym w tych dniach: wskaźniki zgonów, całkowita liczba przypadków, współczynniki R0, szacunki skuteczności środków zaradczych … ale bardzo często za nimi czają się pytania bez odpowiedzi.
Przed założeniem, co dane mówią o obiektywnym stanie rzeczywistości, należy odpowiedzieć na kilka kluczowych pytań:
Jak dane zostały zebrane i zorganizowane?
Jak je przedstawiono?
Jak należy je interpretować?
Ważność zbierania danych
Covid-19 jest niemal bezprecedensowym wyzwaniem dla globalnej społeczności (nie mówmy o zmianach klimatycznych…) i powoduje, że ludzie na całym świecie wstrzymują zbiorowy oddech. W tym środowisku naturalne jest więc poszukiwanie liczb, które dadzą nam poczucie pewności, co tak naprawdę się dzieje.
Ale działania podjęte w celu opanowania rozprzestrzeniania się wirusa nie są eksperymentem naukowym, dlatego powinniśmy być bardzo ostrożni w traktowaniu ich jak eksperymentu. Jest kilka punktów, w których testy na wirusa znacznie odbiegają od rzeczywistego eksperymentu i w których pojawiają się uprzedzenia. Bardzo ważne jest, by pamiętać, że tak jest w rzeczywistości i że liczby te należy traktować z dużą dozą soli.
Kto jest testowany? Głównie testowanie ludzi podróżujących z „obszarów wysokiego ryzyka” (takich jak Iran, Włochy i Chiny) wywołuje tendencyjność grupy wyboru, co prowadzi do skośnego rozkładu wskazującego, że dla większości ludzi z obszarów wysokiego ryzyka zostali zainfekowani, nawet jeśli ludzie z innych miejsc mogą być również, ale nie są wykrywani.
Porównanie liczb pomiędzy krajami ma ograniczoną wartość, ponieważ liczby testów różnią się znacznie pomiędzy nimi. Podczas gdy South Corea w swoim szczytowym okresie przeprowadza około 10000 testów dziennie, a Niemcy nie są zbyt daleko za tą liczbą, inne kraje testują znacznie mniej i odpowiednio wykrywają znacznie mniejszą liczbę infekcji.
W niektórych miejscach w niektórych okresach, podczas gdy liczba pacjentów z potwierdzoną infekcją Covid-19 wzrasta wykładniczo, tak samo liczba testów wzrasta gwałtownie. W zasadzie, może to prowadzić do dużego wzrostu wykrywalności, nawet jeśli liczba zakażonych pozostaje stała.
Wiele osób nie ma prawie żadnych objawów lub tylko bardzo łagodne objawy, a więc wiele osób nie pozostanie niewykrytych, zwłaszcza jeśli możliwości testowania są nadmiernie ograniczone i dlatego ograniczone do małej puli osób z wybranych grup. Sytuacja w Waszyngtonie, gdzie wirus był obecny na kilka tygodni przed pierwszym potwierdzonym przypadkiem, dobrze podkreśla ten problem.
Więc zanim zaczniemy interpretować dane (taki a taki jest wskaźnik śmiertelności, a taka jest liczba zakażonych pacjentów), musimy zrozumieć, w jaki sposób dane zostały zebrane.
Kilka dni temu na ekranie mojego telefonu pojawił się widget z liczbą potwierdzonych przypadków, wypisaną czerwonymi literami: 201463 osoby zostały zarażone koronawirusem! Biorąc pod uwagę, że rzeczywista liczba globalnych przypadków może się z łatwością różnić o współczynnik 10-50, nie sądzę, by udawanie, że liczy się je do pojedynczej osoby, pomagało w zrozumieniu trudności procesu zbierania danych.
Odsetek śmiertelności jest podobnie często rzucany, ale ma prawie równą ilość niepewności dołączonej do niego: ogromny czynnik zakłócający obejmuje demografię (do 70 procent pacjentów w Niemczech to młodzi ludzie w dobrej formie wracający z wyjazdów narciarskich we Włoszech, co wywołuje kolejny duży wybór grupy stronniczości), podczas gdy we Włoszech duża część dotkniętych ludzi jest stara, częściowo dlatego, że starzy ludzie we Włoszech są silniej zintegrowani z życiem społecznym. Ponadto we Włoszech jest prawdopodobnie o wiele więcej niewykrytych przypadków (weźmy pod uwagę, że 70 Niemców wracających z wakacji w Południowym Tyrolu zostało przebadanych pozytywnie w czasie, gdy w całym kraju były tylko 2 potwierdzone przypadki). To, a także fakt, że Niemcy zaczęli testować więcej i wcześniej, spowodowało prawie 50-krotną różnicę w śmiertelności między dwoma na pozór stosunkowo podobnymi krajami.
Następnie mamy opóźnienia czasowe między infekcją a powrotem do zdrowia, które należy rozważyć, skuteczność opieki krytycznej, rolę palenia i zanieczyszczenia powietrza (wysokie we Włoszech i Chinach, bardziej rozpowszechnione wśród mężczyzn), demografię kraju, pojemność szpitali, kwestię tego, którzy pacjenci są liczeni jako ofiary śmiertelne Covid-19 (pierwszą niemiecką ofiarą był 78-letni pacjent z rakiem w późnym stadium, znajdujący się pod opieką paliatywną, więc można się spierać, do jakiego stopnia jego śmierć powinna być naprawdę rozliczana przez Covid-19), itd.
Dlatego mylące jest mówienie „współczynnik zgonów jest taki a taki” i ocenianie jak niebezpieczny jest Covid-19 w oparciu tylko o te liczby. Jeśli mówimy o wskaźniku śmiertelności, musimy być świadomi skąd on pochodzi i co tak naprawdę mówi.
Przyjęcie ram bayesowskich
W statystyce bayesowskiej prawdopodobieństwo wyraża nasz stopień wiary w zdarzenie. Bayesowskie oszacowanie wielkości zawsze zawiera to, co myślimy, że wiemy o tej wielkości, plus nasze oszacowanie nieodłącznej niepewności tej wielkości.
Zbiór gaussowskich rozkładów prawdopodobieństwa z różnymi kowariancjami. Źródło: Inductiveload / Public domain Liczby wyrażają naszą wiedzę o tym świecie: ale ponieważ ta wiedza jest z konieczności probabilistyczna, wielkości w statystyce bayesowskiej są zamiast tego reprezentowane przez rozkłady prawdopodobieństwa (które mogą być krzywą dzwonową jak na powyższym wykresie) zamiast pojedynczych liczb. Szerokość rozkładu reprezentuje nasz stopień pewności w naszym oszacowaniu. Najwyższy punkt wykresu jest naszym najlepszym przypuszczeniem (średnia gaussiana), ale jeśli rozkład jest naprawdę szeroki, nasze najlepsze przypuszczenie nie mówi nam zbyt wiele.
Jak to wspaniałe, dogłębne spojrzenie na nasze możliwe środki przeciwko niemu wyjaśnia szczegółowo, jest wiele niewiadomych, jeśli chodzi o Covid-19, i zbyt wiele nieznanych niewiadomych, aby posługiwać się jakimikolwiek liczbami ze zbytnią pewnością siebie (wyjaśnia to również, dlaczego silne środki są naszą najlepszą polityką w tej chwili, ponieważ kupują nam czas, aby uzyskać jaśniejszy obraz).
Taki wykres objechał cały świat i pochodzi z pracy opublikowanej w weekend przez Neila Fergusona et al. w Imperial College London.
Niezależnie od tego, jak ważna jest jego wiadomość (doprowadziła do zmian polityki w USA i Wielkiej Brytanii), sposób, w jaki wykres przedstawia krzywe jest mylący. Jakie są ukryte parametry, które zostały włączone do symulacji, i jak duże są ich przedziały ufności? Efekty pogody/różnych środków dystansu społecznego/struktury społecznej/pojawiających się terapii są niepewne, a żaden z tych czynników nie został określony w badaniach empirycznych, ale są to, jak na razie, przypuszczenia.
Jak mówi Jeremy Howard w swoim praktycznym podsumowaniu sytuacji Covid-19, podczas gdy te krzywe wyglądają przerażająco, słupki błędów wokół nich mogą być prawie wielkości samych krzywych.
Wytrzymać niepewność
Podsumowanie: może być trudno zachować spokój w obliczu niepewności, ale jest w tym pewna mądrość.
Niestety, u polityków przyznanie się do niepewności jest często interpretowane jako oznaka słabości. Dlatego uważam, że obowiązkiem społeczności naukowej jest podkreślenie, jaką rolę odgrywa w ocenie tego, co się dzieje, co to oznacza w odniesieniu do środków, które powinniśmy podjąć, i dlaczego ta niepewność jest jednym z najlepszych powodów, dla których potrzebujemy więcej czasu, aby powoli ją pokonać poprzez bardziej rygorystyczną, naukową ocenę wirusa, a następnie zdecydować o najlepszej długoterminowej strategii.
Lubimy mieć liczby, których możemy się trzymać, gdy ciemna chmura pandemii unosi się nad naszymi głowami. Ale zanim pojawią się jaśniejsze fakty, zanim światowa społeczność będzie miała pewniejszy ogląd sytuacji, lepiej jest wytrzymać niepewność, niż utrwalać fakty w celu samooszukiwania nas w komforcie, lub na drugim biegunie, popadać w panikę, która bierze się z myślenia, że wiemy lepiej, co się dzieje, niż wiemy w rzeczywistości.
.