Mislukte replicaties in de psychologie niet te wijten aan verschillen in studiepopulaties

, Author

Paper in review

Een grootschalige poging om de resultaten van psychologisch onderzoek te repliceren heeft de bewering weerlegd dat de mislukte reproductie van sociaal-wetenschappelijke bevindingen te wijten zou zijn aan verschillen in studiepopulaties.

Er werden laboratoria over de hele wereld aangeworven om te proberen de resultaten van 28 klassieke en hedendaagse psychologie-experimenten te repliceren. Slechts de helft werd met succes gerepliceerd met behulp van een strikte drempel voor significantie die werd vastgesteld op P < 0,0001 (de P-waarde is een gebruikelijke test voor het beoordelen van de sterkte van wetenschappelijk bewijs).

Het initiatief bemonsterde populaties uit zes continenten, en het team achter de inspanning zegt dat de algemene bevindingen suggereren dat de cultuur of setting van de groep deelnemers geen belangrijke factor is in de vraag of resultaten kunnen worden gerepliceerd.

Onder de loep

De reproduceerbaarheid van onderzoeksresultaten – en psychologie in het bijzonder – is de afgelopen jaren onder de loep komen te liggen. Verschillende pogingen hebben gepubliceerde bevindingen op verschillende gebieden proberen te herhalen, met gemengde resultaten.

De laatste poging, Many Labs 2 genaamd, werd geleid door psycholoog Brian Nosek van het Center for Open Science in Charlottesville, Virginia. Nosek en zijn collega’s ontwierpen hun project om belangrijke punten van kritiek op eerdere replicatiepogingen aan te pakken – waaronder vragen over steekproeftrekking en de bewering dat onderzoeksprotocollen mogelijk niet correct worden uitgevoerd in reproduceerbaarheidspogingen.

Onderzoekers verkregen de originele materialen die in elk experiment werden gebruikt, en vroegen deskundigen – in veel gevallen de oorspronkelijke auteurs van de studies – om hun experimentele protocollen van tevoren te beoordelen. Zestig verschillende laboratoria in 36 landen en gebieden hebben vervolgens elk experiment opnieuw uitgevoerd, waarbij gecombineerde steekproeven werden verkregen die gemiddeld 62 maal groter waren dan de oorspronkelijke. De resultaten van de inspanning zijn vandaag gepubliceerd als een preprint1 en zullen worden gepubliceerd in Advances in Methods and Practices in Psychological Science.

“We wilden de veel voorkomende reactie aanpakken dat de replicatie natuurlijk mislukt is omdat de omstandigheden zijn veranderd, en mensen zijn verschillend,” zegt Nosek. “Het is een mogelijke verklaring, maar geen bevredigende, omdat we niet weten waarom dat verschil belangrijk is.”

Zelfs onder deze omstandigheden, werden de resultaten van slechts 14 van de 28 experimenten gerepliceerd, en de onderzoekers stelden vast dat de diversiteit van de studiepopulaties weinig invloed had op de mislukkingen. “Degenen die faalden, hadden de neiging om overal te falen,” zegt Nosek.

Voor succesvolle replicatiepogingen was het beeld ingewikkelder. Voor deze studies vertoonden de resultaten enige verschillen tussen verschillende replicatiepogingen, maar over het algemeen was die variatie relatief klein.

“Heterogeniteit komt voor, maar is niet zo groot als we denken, en is geen plausibele verklaring voor waarom sommige studies er niet in slagen te repliceren,” zegt Nosek. “Het sluit een van de voor de hand liggende alternatieve verklaringen uit.”

Replicatieketen

Many Labs 2 is de laatste in een reeks van zes grootschalige replicatie-inspanningen in de psychologie. Het richtte zich op een reeks studies, waarvan geen enkele door andere grote reproduceerbaarheidsprojecten was bekeken.

Hieronder vallen klassieke studies zoals het werk van psycholoog Daniel Kahneman uit 19812 over framing-effecten, een vorm van cognitieve vooringenomenheid waarbij mensen anders reageren op een bepaalde keuze, afhankelijk van hoe deze wordt gepresenteerd (de studie werd met succes gerepliceerd), en modern onderzoek, waaronder werk3 van Yoel Inbar uit 2009 waaruit bleek dat mensen die vaker gevoelens van walging ervoeren, de neiging hadden om homofoober te zijn.

De poging om Inbar’s studie te repliceren mislukte met het strikte significantiecriterium, wat Nosek verbaasde. “Ik had daar veel vertrouwen in, omdat het verband houdt met dingen die ik zelf bestudeer.”

Inbar, een psycholoog aan de Universiteit van Toronto Scarborough in Canada, die deelnam aan Many Labs 2, was ook verbaasd dat zijn werk mislukte om te repliceren, maar hij stelt de uitkomst niet ter discussie. “We kunnen gewoon geluk hebben gehad, omdat de oorspronkelijke steekproefomvang klein was, of attitudes kunnen in de loop van de tijd zijn verschoven,” zegt hij.

Inbar zegt dat er ook zwakke punten in zijn oorspronkelijke studie waren. Zo gebruikte hij gegevens die aanvankelijk door een collega waren verzameld voor een andere studie.

De focus op reproduceerbaarheid in de afgelopen jaren betekent dat Inbar, net als veel psychologen, zijn manier van werken heeft veranderd in een poging betrouwbaardere resultaten te produceren. “Tegenwoordig zou ik nooit zo’n opportunistische secundaire analyse nemen,” zegt hij.

Geen doemdenker

Replicatieprojecten zoals die van Nosek stellen niet het algehele replicatiepercentage in een vakgebied vast, omdat de studies die voor replicatie zijn gekozen geen representatieve steekproef vormen. Evenmin geven zij een antwoord op de vraag wat een “goed” replicatiepercentage zou zijn. Onderzoekers streven niet naar een perfecte score. “Het bereiken van 100% reproduceerbaarheid van de eerste bevindingen zou betekenen dat we te conservatief zijn en niet hard genoeg ons best doen,” zegt Nosek.

Een eerder Many Labs-project4 heeft met succes 10 van de 13 studies gerepliceerd, terwijl andere projecten replicatiepercentages hebben gevonden die zo laag zijn als 36%. Van de 190 onderzochte studies in de 6 grootschalige inspanningen samen, werden er 90 met succes gerepliceerd, voor een percentage van 47%.

Dat lijkt te laag voor Inbar.

Dat lijkt Inbar te laag. “Als we maar een toevalstreffer hebben bij het repliceren van een grote steekproef, voelt dat verkeerd,” zegt hij.

Maar Fritz Strack, een psycholoog aan de Universiteit van Würzburg in Duitsland, is er niet zeker van dat dergelijke replicatieprojecten iets nuttigs onthullen over de toestand van de psychologie. In plaats daarvan, zegt hij, leert elke replicatie ons meer over wat het resultaat zou kunnen beïnvloeden. “In plaats van de zoveelste klassieke bevinding als ‘vals positief’ te bestempelen, zouden replicators de voorwaarden moeten identificeren waaronder een effect wel en niet kan worden verkregen,” voegt hij eraan toe.

Nosek stelt dat voortdurende replicatie-inspanningen om twee redenen belangrijk zijn: om ervoor te zorgen dat de replicatieresultaten zelf repliceerbaar zijn, en om kritiek op eerder werk aan te pakken, zoals deze deed. “Dat is hoe de wetenschap vooruitgang boekt: bewijs, kritiek, meer bewijs om de levensvatbaarheid van de kritiek te onderzoeken,” zegt hij.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.