Los fallos de replicación en psicología no se deben a las diferencias en las poblaciones de estudio

Un esfuerzo a gran escala para replicar los resultados de la investigación en psicología ha desmentido las afirmaciones de que los fallos en la reproducción de los resultados de las ciencias sociales podrían deberse a las diferencias en las poblaciones de estudio.

La iniciativa reclutó a laboratorios de todo el mundo para intentar replicar los resultados de 28 experimentos de psicología clásicos y contemporáneos. Sólo la mitad se reprodujeron con éxito utilizando un estricto umbral de significación que se fijó en P < 0,0001 (el valor P es una prueba común para juzgar la fuerza de la evidencia científica).

La iniciativa incluyó a poblaciones de seis continentes, y el equipo que la llevó a cabo afirma que sus resultados generales sugieren que la cultura o el entorno del grupo de participantes no es un factor importante a la hora de reproducir los resultados.

Bajo escrutinio

La reproducibilidad de los resultados de la investigación -y de la psicología en particular- ha sido objeto de escrutinio en los últimos años. Se han llevado a cabo varios intentos de repetir los resultados publicados en diversos campos, con resultados dispares.

El último esfuerzo, denominado Many Labs 2, fue dirigido por el psicólogo Brian Nosek, del Center for Open Science de Charlottesville, Virginia. Nosek y sus colegas diseñaron su proyecto para abordar las principales críticas a los esfuerzos de replicación anteriores, incluidas las cuestiones sobre el muestreo y la afirmación de que los protocolos de investigación podrían no llevarse a cabo correctamente en los intentos de reproducibilidad.

Los investigadores obtuvieron los materiales originales utilizados en cada experimento y pidieron a los expertos -en muchos casos, los autores originales de los estudios- que revisaran sus protocolos experimentales por adelantado. A continuación, sesenta laboratorios diferentes de 36 países y territorios rehicieron cada experimento, proporcionando tamaños de muestra combinados que eran, de media, 62 veces mayores que los originales. Los resultados del trabajo se publican hoy como preprint1 y está previsto que se publiquen en Advances in Methods and Practices in Psychological Science.

«Queríamos hacer frente a la reacción común de que, por supuesto, la réplica falló porque las condiciones cambiaron, y las personas son diferentes», dice Nosek. «Es una explicación posible, pero no satisfactoria, porque no sabemos por qué esa diferencia es importante».

Incluso bajo estas condiciones, los resultados de sólo 14 de los 28 experimentos se replicaron, y los investigadores determinaron que la diversidad de las poblaciones de estudio tuvo poco efecto en los fallos. «Los que fracasaron tendían a fracasar en todas partes», dice Nosek.

Para los intentos de replicación con éxito, el panorama era más complicado. En estos estudios, los resultados mostraron algunas diferencias entre los distintos intentos de replicación, pero en general, esa variación fue relativamente pequeña.

«La heterogeneidad se da, pero no es tan grande como pensamos, y no es una explicación plausible de por qué algunos estudios no se replican», dice Nosek. «Cierra una de las explicaciones alternativas obvias».

Cadena de replicación

Many Labs 2 es el último de una serie de seis esfuerzos de replicación a gran escala en psicología. Se centró en una serie de estudios, ninguno de los cuales había sido examinado por otros grandes proyectos de reproducibilidad.

Incluyen estudios clásicos como el trabajo de 19812 del psicólogo Daniel Kahneman sobre los efectos de encuadre, una forma de sesgo cognitivo en el que las personas reaccionan de forma diferente a una elección concreta dependiendo de cómo se presente (el estudio se replicó con éxito), e investigaciones modernas, como el trabajo3 de Yoel Inbar en 2009 que mostraba que las personas que eran más propensas a experimentar sentimientos de asco tendían a ser más homófobas.

El intento de replicar el estudio de Inbar fracasó con el estricto criterio de significación, lo que sorprendió a Nosek. «Tenía mucha confianza en ése porque está relacionado con cosas que yo mismo estudio».

Inbar, psicólogo de la Universidad de Toronto Scarborough, en Canadá, que participó en Many Labs 2, también se sorprendió de que su trabajo no se replicara, pero no cuestiona el resultado. «Podríamos haber tenido suerte, ya que el tamaño de la muestra original era pequeño, o las actitudes pueden haber cambiado con el tiempo», dice.

Inbar dice que también había puntos débiles en su estudio original. Por ejemplo, utilizó los datos recogidos inicialmente por un colega para otro estudio.

La atención prestada a la reproducibilidad en los últimos años significa que Inbar, como muchos psicólogos, ha cambiado su forma de trabajar en un esfuerzo por producir resultados más fiables. «Hoy en día, nunca haría un análisis secundario oportunista como ése», dice.

No soy un agorero

Los proyectos de replicación como el de Nosek no establecen la tasa de replicación general en un campo, porque los estudios elegidos para la replicación no son una muestra representativa. Tampoco responden a la pregunta de cuál sería una «buena» tasa de replicación. Los investigadores no aspiran a una puntuación perfecta. «Alcanzar el 100% de reproducibilidad en los hallazgos iniciales significaría que estamos siendo demasiado conservadores y que no estamos forzando los límites lo suficiente», dice Nosek.

Un proyecto anterior de Many Labs4 replicó con éxito 10 de 13 estudios, mientras que otros proyectos han encontrado tasas de replicación tan bajas como el 36%. De los 190 estudios examinados en los 6 esfuerzos a gran escala combinados, 90 se replicaron con éxito, lo que supone una tasa del 47%.

A Inbar le parece demasiado bajo. «Si sólo tenemos una oportunidad de replicar con una muestra de gran tamaño, parece que está mal», dice.

Pero Fritz Strack, psicólogo de la Universidad de Würzburg (Alemania), no está seguro de que estos proyectos de replicación revelen nada útil sobre el estado de la psicología. Más bien, dice, cada réplica nos enseña más sobre lo que podría estar afectando al resultado. «En lugar de declarar que otro hallazgo clásico es un ‘falso positivo’, los replicadores deberían identificar las condiciones en las que se puede y no se puede obtener un efecto», añade.

Nosek replica que los esfuerzos de replicación en curso son importantes por dos razones: para asegurar que los resultados de la replicación son en sí mismos replicables, y para abordar las críticas de trabajos anteriores, como hizo éste. «Así es como avanza la ciencia: pruebas, críticas, más pruebas para examinar la viabilidad de las críticas», afirma.