>
O mundo, como o encontramos, é incerto. As teorias neurocientíficas modernas vêem nossos cérebros como dispositivos constantemente tentando tomar decisões ótimas sob incerteza.
>
Numa época em que uma pandemia está se espalhando pelo mundo, ameaçando vidas, empregos e vida social como a conhecemos, a incerteza está em toda parte.
>
A abstração do mundo se livra do barulho e do ruído da realidade, fingindo um senso de objetividade diante da incerteza. Os números dão uma impressão de inatacabilidade, de nos dar algo estável para nos agarrarmos. Eles se sentem reconfortantes para nós, e por que não deveriam? Os números têm fornecido uma ferramenta imensamente útil para trazer ordem ao mundo, para manipulá-la com grande sucesso. Eles podem ser o avanço tecnológico mais importante que a humanidade fez desde a descoberta do fogo.
Mas os números nem sempre são iguais aos números. Os números vêm com um risco inerente: a abstração é difícil, a investigação científica é difícil, e os números podem esconder a luta por trás de sua gênese, a incerteza da origem por trás do halo da verdade objetiva que irradiam.
As dificuldades da estatística
Estatistica, segundo a Wikipédia, diz respeito à coleta, organização, análise, interpretação e apresentação dos dados.
Números são uma das formas centrais de representação dos dados. E muitos números estão flutuando ao redor da mídia e do discurso público hoje em dia: taxas de mortalidade, número total de casos, fatores R0, estimativas da eficácia das contramedidas… mas muitas vezes, há perguntas sem resposta por trás delas.
Antes de assumir o que os dados dizem sobre o estado objetivo da realidade, algumas perguntas-chave têm que ser respondidas:
Como os dados foram coletados e organizados?
Como é apresentado?
Como deve ser interpretado?
A importância da recolha de dados
Covid-19 é um desafio quase sem precedentes para a comunidade global (não falemos de mudança climática…) e tem pessoas em todo o mundo a suster a respiração colectiva. Portanto, neste ambiente, é natural procurar números que nos dêem uma sensação de certeza sobre o que realmente está acontecendo.
Mas as medidas tomadas contra o reinado na propagação do vírus não são uma experiência científica, e por isso devemos ser muito cuidadosos em tratá-lo como um. Há vários pontos em que os testes para o vírus se desviam significativamente de um experimento real, e em que os vieses se infiltram. É muito importante ter em mente que este é, de fato, o caso e que os números estão lá para ser apreciados com um grão significativo de sal.
Quem é testado? A maioria dos testes realizados em pessoas que viajam de “áreas de alto risco” (como o Irão, Itália e China) induz um viés de grupo de selecção, o que leva a uma distribuição distorcida indicando que para a maioria das pessoas de áreas de alto risco foram infectadas, mesmo que as pessoas de outros lugares também possam estar, mas não são detectadas.
Comparar os números entre países é de valor limitado, porque os números dos testes variam muito entre eles. Enquanto a Coréia do Sul no seu auge realizou cerca de 10000 testes por dia, e a Alemanha não está muito atrás desse número, outros países testam muito menos e, consequentemente, detectam números muito menores de infecções.
Em alguns lugares durante alguns períodos, enquanto o número de pacientes com uma infecção Covid-19 confirmada cresce exponencialmente, o número de testes também aumenta rapidamente. Em princípio, isto pode levar a um grande crescimento nas detecções, mesmo que o número de pessoas infectadas permaneça constante.
Muitas pessoas quase não apresentam sintomas ou apresentam apenas sintomas muito leves, e muitas pessoas não passarão despercebidas, especialmente se as capacidades de teste forem excessivamente limitadas e, portanto, restritas a um pequeno grupo de pessoas de grupos selecionados. A situação em Washington, onde o vírus foi detectado várias semanas antes do primeiro caso confirmado, sublinha bem este problema.
Então, antes de procurarmos interpretar os dados (tal e tal é a taxa de mortalidade, e tal é o número de pacientes infectados), precisamos de compreender como é que os dados foram recolhidos.
Alguns dias atrás, um widget apareceu na tela do meu telefone com o número de casos confirmados que pareciam grandes em letras vermelhas: 201463 pessoas tinham sido infectadas com o coronavírus! Considerando o número real de casos globais que poderiam facilmente ser desligados por um fator de 10-50, eu não acho que fingir contá-los até uma única pessoa ajuda a alimentar uma compreensão da dificuldade do processo de coleta de dados.
A taxa de fatalidade dos casos é também muitas vezes jogada ao redor, mas tem uma incerteza quase igual: um fator de confusão imenso inclui demografia (até 70% dos pacientes na Alemanha são jovens em boa forma retornando de viagens de esqui na Itália, o que induz outro grande viés de seleção de grupo), enquanto na Itália uma grande proporção de pessoas afetadas é velha, em parte porque os idosos na Itália são mais fortemente integrados na vida social. E então provavelmente há muito mais casos não detectados na Itália (considere que 70 alemães retornando de férias no Tirol do Sul foram testados positivos em uma época em que todo o estado tinha apenas 2 casos confirmados). Isto, e o facto de a Alemanha ter começado a testar mais e mais cedo, induziu uma diferença na taxa de mortalidade por um factor de quase 50 entre dois países relativamente semelhantes à superfície.
Então, há um intervalo de tempo entre infecção e recuperação a ser considerado, a eficácia dos cuidados críticos, o papel do tabagismo e da poluição do ar (elevado na Itália e na China, e mais prevalente entre os homens), a demografia do país, a capacidade dos hospitais, a questão de quais pacientes são contados como mortes por Covid-19 (a primeira baixa alemã foi um paciente com 78 anos de idade com câncer em estágio tardio nos cuidados paliativos, de modo que se pode argumentar até que ponto sua morte deveria ser realmente contabilizada por Covid-19), etc.
Por isso é enganador dizer “a taxa de mortalidade é isto e aquilo”, “e julgar o quão perigoso o Covid-19 é realmente baseado apenas nestes números. Se falamos de uma taxa de mortalidade, precisamos estar cientes de onde ela vem e o que ela realmente diz.
Adotando um quadro Bayesiano
Na estatística Bayesiana, as probabilidades expressam nosso grau de crença em um evento. Uma estimativa Bayesiana de uma quantidade incorpora sempre o que pensamos saber sobre a quantidade, mais nossa estimativa da incerteza inerente da quantidade.
Um conjunto de distribuições de probabilidade Gaussianas com diferentes covariâncias. Fonte: Inductiveload / Domínio Público Números expressam nosso conhecimento deste mundo: mas como este conhecimento é necessariamente probabilístico, quantidades nas estatísticas Bayesianas são representadas por distribuições de probabilidade (que pode ser uma curva de sino como no gráfico acima) em vez de números únicos. A largura da distribuição representa o nosso grau de certeza na nossa estimativa. O ponto mais alto do gráfico é nosso melhor palpite (a média do Gaussiano), mas se a distribuição é realmente ampla, nosso melhor palpite não nos diz muito.
Como este grande olhar profundo sobre nossas possíveis medidas contra ele explica em detalhes, há muitas incógnitas quando se trata de Covid-19, e muitas incógnitas desconhecidas para empunhar quaisquer números com demasiada confiança (também explica por que medidas fortes são nossa melhor política agora, porque elas nos dão tempo para obter uma imagem mais clara).
>
Toma este gráfico viajou pelo mundo e é de um artigo publicado durante o fim de semana por Neil Ferguson et al. no Imperial College London.
Independentemente da importância de sua mensagem (ela leva a mudanças políticas nos EUA e no Reino Unido), a forma como o gráfico representa as curvas é enganosa. Quais são os parâmetros implícitos que foram ligados à simulação, e de que tamanho são os seus intervalos de confiança? Os efeitos do tempo/diferentes medidas de distanciamento social/estrutura social/ tratamentos emergentes são todos incertos, e nenhum desses fatores foi determinado por estudos empíricos, mas são, até agora, conjecturas.
Como diz Jeremy Howard em seu resumo prático da situação da Covid-19, enquanto essas curvas parecem horríveis, as barras de erro ao seu redor podem ser quase do tamanho das próprias curvas.
Com a incerteza a suportar
Bottom line: pode ser difícil permanecer calmo diante da incerteza, mas há alguma sabedoria nisso.
Felizmente, nos políticos, reconhecer a incerteza é muitas vezes interpretado como um sinal de fraqueza. É por isso que eu acho que é responsabilidade da comunidade científica enfatizar o papel que ela desempenha na avaliação do que está acontecendo, o que isso significa com relação às medidas que devemos tomar, e porque essa incerteza é uma das melhores razões pelas quais precisamos de mais tempo para conquistá-la lentamente através de uma avaliação científica mais rigorosa do vírus, e depois decidir sobre a melhor estratégia a longo prazo.
Gostamos de ter números para nos agarrar quando a nuvem escura da pandemia está pairando sobre todas as nossas cabeças. Mas antes que fatos mais claros surjam, antes que a comunidade global tenha uma compreensão mais firme da situação, é melhor resistir à incerteza do que perpetuar os fatos para nos deixarmos levar pelo conforto, ou no outro extremo, para nos obcecarmos por um pânico que vem de pensarmos que sabemos melhor o que está acontecendo do que realmente sabemos.