Manglende reproduktion i psykologi skyldes ikke forskelle i undersøgelsespopulationer

En storstilet indsats for at reproducere resultater i psykologisk forskning har afvist påstande om, at manglende reproduktion af samfundsvidenskabelige resultater kan skyldes forskelle i undersøgelsespopulationer.

Den indsats rekrutterede laboratorier over hele verden til at forsøge at replikere resultaterne af 28 klassiske og moderne psykologiske eksperimenter. Kun halvdelen blev reproduceret med succes ved hjælp af en streng tærskel for signifikans, der blev fastsat til P < 0,0001 (P-værdien er en almindelig test til at bedømme styrken af videnskabelige beviser).

I initiativet blev der udtaget prøver af befolkninger fra seks kontinenter, og holdet bag indsatsen siger, at de overordnede resultater tyder på, at deltagergruppens kultur eller omgivelser ikke er en vigtig faktor for, om resultaterne kan replikeres.

Under kontrol

Reproducerbarheden af forskningsresultater – og psykologi i særdeleshed – er blevet undersøgt i de seneste år. Flere forsøg har forsøgt at gentage offentliggjorte resultater inden for en række forskellige områder med blandede resultater.

Det seneste forsøg, kaldet Many Labs 2, blev ledet af psykolog Brian Nosek fra Center for Open Science i Charlottesville, Virginia. Nosek og hans kolleger udformede deres projekt for at imødegå større kritikpunkter af tidligere replikationsforsøg – herunder spørgsmål om stikprøveudtagning og påstanden om, at forskningsprotokoller måske ikke udføres korrekt i reproducerbarhedsforsøg.

Forskerne fik fat i de originale materialer, der blev brugt i hvert eksperiment, og bad eksperter – i mange tilfælde de oprindelige forfattere af undersøgelserne – om at gennemgå deres eksperimentelle protokoller på forhånd. Herefter foretog 60 forskellige laboratorier i 36 lande og territorier hvert forsøg på ny, hvilket gav kombinerede stikprøvestørrelser, der i gennemsnit var 62 gange større end de oprindelige. Resultaterne af indsatsen offentliggøres i dag som et preprint1 og er planlagt til at blive offentliggjort i Advances in Methods and Practices in Psychological Science.

“Vi ønskede at imødegå den almindelige reaktion, at replikationen naturligvis mislykkedes, fordi forholdene ændrede sig, og folk er forskellige,” siger Nosek. “Det er en mulig forklaring, men ikke en tilfredsstillende forklaring, fordi vi ikke ved, hvorfor denne forskel er vigtig.”

Selv under disse betingelser blev resultaterne af kun 14 af de 28 eksperimenter replikeret, og forskerne fastslog, at forskelligheden i undersøgelsespopulationerne havde en lille effekt på fiaskoerne. “De forsøg, der mislykkedes, havde en tendens til at mislykkes overalt,” siger Nosek.

For vellykkede replikationsforsøg var billedet mere kompliceret. For disse undersøgelser viste resultaterne nogle forskelle mellem de forskellige replikationsforsøg, men generelt var denne variation relativt lille.

“Heterogenitet forekommer, men den er ikke så stor, som vi tror, og den er ikke en plausibel forklaring på, hvorfor nogle undersøgelser ikke kan replikeres,” siger Nosek. “Det lukker en af de indlysende alternative forklaringer ude.”

Replikationskæde

Many Labs 2 er den seneste i en serie på seks store replikationsforsøg inden for psykologi. Den fokuserede på en række undersøgelser, hvoraf ingen af dem var blevet undersøgt af andre store reproducerbarhedsprojekter.

De omfatter klassiske undersøgelser som psykologen Daniel Kahnemans arbejde2 fra 1981 om framing-effekter, en form for kognitiv bias, hvor folk reagerer forskelligt på et bestemt valg afhængigt af, hvordan det præsenteres (undersøgelsen blev med succes replikeret), og moderne forskning, herunder Yoel Inbars arbejde3 fra 2009, der viste, at folk, der var mere tilbøjelige til at opleve følelser af afsky, havde en tendens til at være mere homofobiske.

Det forsøg på at replikere Inbars undersøgelse mislykkedes med det strenge signifikanskriterium, hvilket overraskede Nosek. “Jeg havde stor tillid til den, fordi den er relateret til ting, jeg selv studerer.”

Inbar, en psykolog ved University of Toronto Scarborough i Canada, som deltog i Many Labs 2, var også overrasket over, at hans arbejde ikke lykkedes at replikere, men han sætter ikke spørgsmålstegn ved resultatet. “Vi kunne bare have været heldige, da den oprindelige stikprøvestørrelse var lille, eller holdningerne kan have ændret sig over tid,” siger han.

Inbar siger, at der også var svagheder i hans oprindelige undersøgelse. For eksempel brugte han data, der oprindeligt blev indsamlet af en kollega til en anden undersøgelse.

Fokuseringen på reproducerbarhed i de seneste år betyder, at Inbar, ligesom mange psykologer, har ændret sin arbejdsmetode i et forsøg på at producere mere pålidelige resultater. “I disse dage ville jeg aldrig tage en opportunistisk sekundær analyse som denne,” siger han.

Ingen dommedagsprofet

Replikationsprojekter som Nosek’s fastslår ikke den samlede replikationsrate på et område, fordi de undersøgelser, der udvælges til replikation, ikke er et repræsentativt udsnit. De giver heller ikke svar på spørgsmålet om, hvad en “god” replikationsfrekvens ville være. Forskerne stræber ikke efter en perfekt score. “Hvis vi opnår 100 % reproducerbarhed på de første resultater, vil det betyde, at vi er for konservative og ikke presser rammerne hårdt nok,” siger Nosek.

Et tidligere Many Labs-projekt4 har med succes replikeret 10 ud af 13 undersøgelser, mens andre projekter har fundet replikationsrater på helt ned til 36 %. Ud af de 190 undersøgelser, der blev undersøgt i de seks store forsøg tilsammen, blev 90 undersøgelser replikeret med succes, hvilket svarer til en replikeringsgrad på 47 %.

Det synes Inbar er for lavt. “Hvis vi kun har en chance for at replikere med en stor stikprøvestørrelse, føles det forkert,” siger han.

Men Fritz Strack, psykolog ved universitetet i Würzburg i Tyskland, er ikke sikker på, at sådanne replikeringsprojekter afslører noget nyttigt om psykologiens tilstand. Han siger snarere, at hver replikation lærer os mere om, hvad der kan påvirke resultatet. “I stedet for at erklære endnu et klassisk fund for “falsk positivt” bør replikatorerne identificere de betingelser, hvorunder en effekt kan og ikke kan opnås,” tilføjer han.

Nosek imødegår, at igangværende replikationsbestræbelser er vigtige af to grunde: for at sikre, at replikationsresultaterne i sig selv kan replikeres, og for at imødegå kritik af tidligere arbejde, som dette gjorde. “Det er sådan, videnskaben udvikler sig: beviser, kritik, flere beviser for at undersøge, om kritikken er holdbar”, siger han.