Replikeringsmisslyckanden inom psykologi beror inte på skillnader i studiepopulationer

En storskalig satsning på att replikera resultat inom psykologiforskningen har avvisat påståendena om att misslyckanden med att reproducera resultat från samhällsvetenskapen kan bero på skillnader i studiepopulationer.

I satsningen rekryterades laboratorier runt om i världen för att försöka replikera resultaten av 28 klassiska och samtida psykologiexperiment. Endast hälften reproducerades framgångsrikt med hjälp av en strikt tröskel för signifikans som sattes till P < 0,0001 (P-värdet är ett vanligt test för att bedöma styrkan i vetenskapliga bevis).

I initiativet togs prov på populationer från sex kontinenter, och teamet bakom insatsen säger att de övergripande resultaten tyder på att deltagargruppens kultur eller miljö inte är en viktig faktor för om resultaten kan replikeras.

Under granskning

Replikerbarheten av forskningsresultat – och psykologi i synnerhet – har granskats under de senaste åren. Flera försök har gjorts för att upprepa publicerade resultat inom en rad olika områden, med blandade resultat.

Det senaste försöket, kallat Many Labs 2, leddes av psykologen Brian Nosek vid Center for Open Science i Charlottesville, Virginia. Nosek och hans kollegor utformade sitt projekt för att bemöta viktig kritik mot tidigare replikeringsförsök – bland annat frågor om urval och påståendet att forskningsprotokoll kanske inte utförs på rätt sätt i reproducerbarhetsförsök.

Forskarna skaffade sig originalmaterialet som användes i varje experiment och bad experter – i många fall studiens originalförfattare – att granska deras experimentprotokoll i förväg. Sextio olika laboratorier i 36 länder och territorier gjorde sedan om varje experiment, vilket gav kombinerade provstorlekar som i genomsnitt var 62 gånger större än de ursprungliga. Resultaten av arbetet publiceras idag som ett preprint1 och planeras att publiceras i Advances in Methods and Practices in Psychological Science.

”Vi ville ta itu med den vanliga reaktionen att replikeringen naturligtvis misslyckades eftersom förhållandena ändrades och människor är olika”, säger Nosek. ”Det är en möjlig förklaring, men inte en tillfredsställande, eftersom vi inte vet varför den skillnaden är viktig.”

Även under dessa förhållanden replikerades resultaten av endast 14 av de 28 experimenten, och forskarna konstaterade att mångfalden i studiepopulationerna hade liten inverkan på misslyckandena. ”De som misslyckades tenderade att misslyckas överallt”, säger Nosek.

För lyckade replikeringsförsök var bilden mer komplicerad. För dessa studier visade resultaten vissa skillnader mellan olika replikeringsförsök, men totalt sett var denna variation relativt liten.

”Heterogenitet förekommer, men den är inte så stor som vi tror och är inte en plausibel förklaring till varför vissa studier misslyckas med att replikera”, säger Nosek. ”Det stänger av en av de uppenbara alternativa förklaringarna.”

Replikationskedja

Many Labs 2 är den senaste i en serie av sex storskaliga replikationsförsök inom psykologi. Det fokuserade på en rad studier, varav ingen hade granskats av andra stora reproducerbarhetsprojekt.

De omfattar klassiska studier som psykologen Daniel Kahnemans arbete2 från 1981 om inramningseffekter, en form av kognitiv bias där människor reagerar olika på ett visst val beroende på hur det presenteras (studien replikerades med framgång), och modern forskning, bland annat Yoel Inbars arbete3 från 2009 som visade att människor som var mer benägna att uppleva känslor av avsky tenderade att vara mer homofobiska.

Försöket att replikera Inbars studie misslyckades med det strikta signifikanskriteriet, vilket förvånade Nosek. ”Jag hade stort förtroende för den eftersom den är relaterad till saker som jag själv studerar.”

Inbar, en psykolog vid University of Toronto Scarborough i Kanada, som deltog i Many Labs 2, blev också förvånad över att hans arbete misslyckades med att replikera, men han ifrågasätter inte resultatet. ”Vi kan ha haft tur, eftersom det ursprungliga urvalet var litet, eller så kan attityderna ha förändrats med tiden”, säger han.

Inbar säger att det också fanns svagheter i hans ursprungliga studie. Till exempel använde han data som ursprungligen samlades in av en kollega för en annan studie.

Fokuseringen på reproducerbarhet under de senaste åren innebär att Inbar, liksom många psykologer, har ändrat sitt arbetssätt i ett försök att producera mer tillförlitliga resultat. ”Numera skulle jag aldrig göra en sådan opportunistisk sekundär analys”, säger han.

Inte en domedagsprofessor

Replikationsprojekt som Noseks fastställer inte den totala replikeringsfrekvensen inom ett område, eftersom de studier som väljs ut för replikering inte är ett representativt urval. De besvarar inte heller frågan om vad en ”bra” replikeringsfrekvens skulle vara. Forskarna strävar inte efter ett perfekt resultat. ”Om vi uppnår 100 % reproducerbarhet på de första resultaten skulle det betyda att vi är för konservativa och inte går tillräckligt långt”, säger Nosek.

I ett tidigare Many Labs-projekt4 lyckades man replikera 10 av 13 studier, medan man i andra projekt har funnit replikeringsfrekvenser som är så låga som 36 %. Av de 190 studier som undersöktes i de sex storskaliga insatserna tillsammans replikerades 90 framgångsrikt, vilket ger en replikeringsgrad på 47 %.

Det verkar för lågt för Inbar. ”Om vi bara har en slumpmässig chans att replikera med ett stort urval känns det fel”, säger han.

Men Fritz Strack, psykolog vid universitetet i Würzburg i Tyskland, är inte säker på att sådana replikeringsprojekt avslöjar något användbart om psykologins tillstånd. Snarare, säger han, lär oss varje replikation mer om vad som kan påverka resultatet. ”I stället för att förklara ännu ett klassiskt resultat som ”falskt positivt” bör replikatorerna identifiera de villkor under vilka en effekt kan och inte kan erhållas”, tillägger han.

Nosek kontrar att pågående replikeringsförsök är viktiga av två anledningar: för att se till att replikeringsresultaten i sig själva kan replikeras och för att bemöta kritik av tidigare arbete, vilket detta arbete gjorde. ”Det är så vetenskapen utvecklas: bevis, kritik, mer bevis för att undersöka om kritiken är hållbar”, säger han.