Les échecs de reproduction en psychologie ne sont pas dus à des différences dans les populations étudiées

Un effort à grande échelle pour reproduire les résultats de la recherche en psychologie a réfuté les affirmations selon lesquelles les échecs de reproduction des résultats des sciences sociales pourraient être dus à des différences dans les populations étudiées.

L’effort a recruté des laboratoires du monde entier pour essayer de reproduire les résultats de 28 expériences de psychologie classiques et contemporaines. Seule la moitié a été reproduite avec succès en utilisant un seuil strict de signification qui a été fixé à P < 0,0001 (la valeur P est un test commun pour juger de la force des preuves scientifiques).

L’initiative a échantillonné des populations de six continents, et l’équipe à l’origine de cet effort affirme que ses résultats globaux suggèrent que la culture ou le cadre du groupe de participants n’est pas un facteur important pour savoir si les résultats peuvent être reproduits.

Sous examen

La reproductibilité des résultats de la recherche – et de la psychologie en particulier – a fait l’objet d’un examen minutieux ces dernières années. Plusieurs efforts ont tenté de répéter les résultats publiés dans une variété de domaines, avec des résultats mitigés.

Le dernier effort, appelé Many Labs 2, a été dirigé par le psychologue Brian Nosek du Center for Open Science à Charlottesville, en Virginie. Nosek et ses collègues ont conçu leur projet pour répondre aux principales critiques des efforts de réplication précédents – y compris les questions sur l’échantillonnage et l’affirmation que les protocoles de recherche pourraient ne pas être exécutés correctement dans les tentatives de reproductibilité.

Les chercheurs ont obtenu les matériaux originaux utilisés dans chaque expérience et ont demandé à des experts – dans de nombreux cas, les auteurs originaux des études – de revoir leurs protocoles expérimentaux à l’avance. Soixante laboratoires différents dans 36 pays et territoires ont ensuite refait chaque expérience, fournissant des échantillons combinés qui étaient, en moyenne, 62 fois plus grands que les échantillons originaux. Les résultats de cet effort sont publiés aujourd’hui sous forme de préimpression1 et devraient être publiés dans Advances in Methods and Practices in Psychological Science.

« Nous voulions répondre à la réaction courante selon laquelle, bien sûr, la réplication a échoué parce que les conditions ont changé, et que les gens sont différents », explique Nosek. « C’est une explication possible, mais pas satisfaisante, car nous ne savons pas pourquoi cette différence est importante. »

Même dans ces conditions, les résultats de seulement 14 des 28 expériences ont été répliqués, et les chercheurs ont déterminé que la diversité des populations étudiées avait peu d’effet sur les échecs. « Ceux qui ont échoué avaient tendance à échouer partout », dit Nosek.

Pour les tentatives de réplication réussies, le tableau était plus compliqué. Pour ces études, les résultats ont montré quelques différences entre les différentes tentatives de réplication, mais dans l’ensemble, cette variation était relativement faible.

« L’hétérogénéité existe, mais elle n’est pas aussi importante que nous le pensons, et n’est pas une explication plausible de la raison pour laquelle certaines études ne parviennent pas à se répliquer », dit Nosek. « Cela ferme l’une des explications alternatives évidentes. »

Chaîne de réplication

Many Labs 2 est le dernier d’une série de six efforts de réplication à grande échelle en psychologie. Il s’est concentré sur un éventail d’études, dont aucune n’avait été examinée par d’autres grands projets de reproductibilité.

Ils comprennent des études classiques comme les travaux de 19812 du psychologue Daniel Kahneman sur les effets de cadrage, une forme de biais cognitif dans lequel les gens réagissent différemment à un choix particulier selon la façon dont il est présenté (l’étude a été répliquée avec succès), et des recherches modernes, notamment les travaux3 de Yoel Inbar en 2009 montrant que les personnes qui étaient plus susceptibles d’éprouver des sentiments de dégoût avaient tendance à être plus homophobes.

La tentative de réplication de l’étude d’Inbar a échoué avec le critère strict de signification, ce qui a surpris Nosek. « J’avais une grande confiance dans celle-là parce qu’elle est liée à des choses que j’étudie moi-même. »

Inbar, psychologue à l’Université de Toronto Scarborough au Canada, qui a participé à Many Labs 2, a également été surpris que ses travaux n’aient pas réussi à être répliqués, mais il ne remet pas en cause le résultat. « Nous avons peut-être simplement eu de la chance, puisque la taille de l’échantillon initial était petite, ou les attitudes peuvent avoir évolué avec le temps », dit-il.

Inbar dit qu’il y avait aussi des faiblesses dans son étude initiale. Par exemple, il a utilisé des données initialement recueillies par un collègue pour une autre étude.

L’accent mis sur la reproductibilité ces dernières années signifie qu’Inbar, comme de nombreux psychologues, a changé sa façon de travailler dans le but de produire des résultats plus fiables. « De nos jours, je ne prendrais jamais une analyse secondaire opportuniste comme celle-là », dit-il.

Pas un prophète de malheur

Les projets de réplication tels que celui de Nosek n’établissent pas le taux de réplication global dans un domaine, car les études choisies pour la réplication ne constituent pas un échantillon représentatif. Ils ne répondent pas non plus à la question de savoir ce que serait un « bon » taux de réplication. Les chercheurs ne visent pas un score parfait. « Atteindre une reproductibilité de 100 % sur les résultats initiaux signifierait que nous sommes trop conservateurs et que nous ne poussons pas l’enveloppe assez loin », déclare Nosek.

Un précédent projet de Many Labs4 a réussi à répliquer 10 études sur 13, tandis que d’autres projets ont trouvé des taux de réplication aussi bas que 36 %. Sur les 190 études examinées dans les 6 efforts à grande échelle combinés, 90 ont été répliquées avec succès, soit un taux de 47%.

Cela semble trop faible à Inbar. « Si nous n’avons qu’une chance sur deux de répliquer avec un échantillon de grande taille, cela ne semble pas correct », dit-il.

Mais Fritz Strack, psychologue à l’Université de Würzburg en Allemagne, n’est pas sûr que de tels projets de réplication révèlent quoi que ce soit d’utile sur l’état de la psychologie. Au contraire, dit-il, chaque réplication nous en apprend davantage sur ce qui pourrait affecter le résultat. « Au lieu de déclarer qu’une énième découverte classique est un ‘faux positif’, les réplicateurs devraient identifier les conditions dans lesquelles un effet peut et ne peut pas être obtenu », ajoute-t-il.

Nosek réplique que les efforts de réplication en cours sont importants pour deux raisons : pour s’assurer que les résultats de la réplication sont eux-mêmes reproductibles, et pour répondre aux critiques des travaux précédents, comme l’a fait celui-ci. « C’est ainsi que la science progresse : des preuves, des critiques, d’autres preuves pour examiner la viabilité des critiques », dit-il.