Falhas de replicação em psicologia não devidas a diferenças nas populações estudadas

Um esforço em larga escala para replicar resultados em pesquisa psicológica tem rejeitado as alegações de que as falhas na reprodução dos achados sócio-científicos podem ser devidas a diferenças nas populações estudadas.

O esforço recrutou laboratórios em todo o mundo para tentar replicar os resultados de 28 experiências clássicas e contemporâneas de psicologia. Apenas metade foi reproduzida com sucesso usando um limiar rigoroso de significância que foi estabelecido em P< 0,0001 (o valor de P é um teste comum para julgar a força da evidência científica).

A iniciativa amostrou populações de seis continentes, e a equipe por trás do esforço diz que seus achados gerais sugerem que a cultura ou cenário do grupo de participantes não é um fator importante para a replicação dos resultados.

Só escrutínio

A reprodutibilidade dos resultados da pesquisa – e da psicologia em particular – tem sido escrutinada nos últimos anos. Vários esforços têm tentado repetir os resultados publicados numa variedade de campos, com resultados mistos.

O último esforço, chamado Many Labs 2, foi liderado pelo psicólogo Brian Nosek do Center for Open Science em Charlottesville, Virginia. Nosek e seus colegas desenharam seu projeto para lidar com as principais críticas aos esforços de replicação anteriores – incluindo perguntas sobre amostragem e a afirmação de que os protocolos de pesquisa poderiam não ser realizados adequadamente nas tentativas de reprodutibilidade.

Os pesquisadores obtiveram os materiais originais usados em cada experimento, e pediram aos especialistas – em muitos casos, os autores originais dos estudos – que revisassem seus protocolos experimentais com antecedência. Sessenta laboratórios diferentes em 36 países e territórios redesenharam então cada experimento, fornecendo amostras combinadas que foram, em média, 62 vezes maiores do que as originais. Os resultados do esforço são publicados hoje como uma pré-impressão1 e estão programados para serem publicados em Advances in Methods and Practices in Psychological Science.

“Queríamos abordar a reação comum que, naturalmente, a replicação falhou porque as condições mudaram, e as pessoas são diferentes”, diz Nosek. “É uma explicação possível, mas não satisfatória, porque não sabemos por que essa diferença é importante”.

Even sob essas condições, os resultados de apenas 14 dos 28 experimentos foram replicados, e os pesquisadores determinaram que a diversidade das populações estudadas teve pouco efeito sobre os fracassos. “Aqueles que falharam tenderam a falhar em todos os lugares”, diz Nosek.

Para as tentativas de replicação bem sucedidas, o quadro era mais complicado. Para esses estudos, os resultados mostraram algumas diferenças entre as diferentes tentativas de replicação, mas, de modo geral, essa variação foi relativamente pequena.

“A heterogeneidade ocorre, mas não é tão grande quanto pensamos, e não é uma explicação plausível para porque alguns estudos falham em replicar”, diz Nosek. “Ela fecha uma das explicações alternativas óbvias”

Cadeia de replicação

Many Labs 2 é a mais recente de uma série de seis esforços de replicação em larga escala em psicologia. Ele se concentrou em uma série de estudos, nenhum dos quais havia sido examinado por outros grandes projetos de reprodutibilidade.

Incluem estudos clássicos como o trabalho de 1981 do psicólogo Daniel Kahneman2 sobre efeitos de enquadramento, uma forma de viés cognitivo em que as pessoas reagem de forma diferente a uma determinada escolha, dependendo de como ela é apresentada (o estudo foi replicado com sucesso), e pesquisas modernas, incluindo o trabalho3 de Yoel Inbar em 2009 mostrando que as pessoas que estavam mais propensas a experimentar sentimentos de repugnância tendiam a ser mais homofóbicas.

A tentativa de replicar o estudo de Inbar falhou com o rigoroso critério de significância, o que surpreendeu Nosek. “

Inbar, um psicólogo da Universidade de Toronto Scarborough no Canadá, que participou de Many Labs 2, também ficou surpreso que seu trabalho não conseguiu replicar, mas ele não questiona o resultado. “Poderíamos ter tido apenas sorte, já que o tamanho da amostra original era pequeno, ou as atitudes podem ter mudado com o tempo”, diz ele.

Inbar diz que também havia fraquezas em seu estudo original. Por exemplo, ele usou dados inicialmente coletados por um colega para outro estudo.

O foco na reprodutibilidade nos últimos anos significa que Inbar, como muitos psicólogos, mudou a forma como ele trabalha, num esforço para produzir resultados mais confiáveis. “Hoje em dia, eu nunca faria uma análise secundária oportunista como essa”, diz ele.

Não é um doomsayer

Projetos de replicação como o Nosek não estabelecem a taxa geral de replicação em um campo, porque os estudos escolhidos para replicação não são uma amostra representativa. Também não respondem à questão de qual seria uma “boa” taxa de replicação. Os pesquisadores não estão buscando uma pontuação perfeita. “Atingir 100% de reprodutibilidade nos resultados iniciais significaria que estamos sendo muito conservadores e não estamos empurrando o envelope com força suficiente”, diz Nosek.

Um projeto anterior de Many Labs4 replicou com sucesso 10 dos 13 estudos, enquanto outros projetos encontraram taxas de replicação tão baixas quanto 36%. Dos 190 estudos examinados nos 6 grandes esforços combinados, 90 foram replicados com sucesso, para uma taxa de 47%.

Parece muito baixo para Inbar. “Se temos apenas uma chance de replicar com uma amostra grande, isso parece errado”, diz ele.

Mas Fritz Strack, psicólogo da Universidade de Würzburg na Alemanha, não tem certeza de que tais projetos de replicação revelem algo útil sobre o estado da psicologia. Ao contrário, diz ele, cada replicação nos ensina mais sobre o que pode estar afetando o resultado. “Em vez de declarar mais uma descoberta clássica como ‘falso positivo’, os replicadores devem identificar as condições sob as quais um efeito pode ou não ser obtido”, acrescenta ele.

Nosek conta que os esforços de replicação em curso são importantes por duas razões: para assegurar que os resultados da replicação sejam eles próprios replicáveis, e para abordar as críticas de trabalhos anteriores, como este fez. “É assim que a ciência avança: evidências, críticas, mais evidências para examinar a viabilidade das críticas”, diz ele.