Psykologian replikaatiohäiriöt eivät johdu tutkimuspopulaatioiden eroista

Psykologian tutkimustulosten laajamittainen replikointipyrkimys on torjunut väitteet, joiden mukaan yhteiskuntatieteellisten tutkimustulosten replikointihäiriöt saattaisivat johtua tutkimuspopulaatioiden eroista.

Hankkeessa rekrytoitiin laboratorioita ympäri maailmaa yrittämään toistaa 28 klassisen ja nykyaikaisen psykologian kokeen tuloksia. Vain puolet onnistuttiin toistamaan käyttäen tiukkaa merkitsevyysrajaa, joka asetettiin arvoon P < 0,0001 (P-arvo on yleinen testi tieteellisen näytön vahvuuden arvioimiseksi).

Aloitteeseen valittiin väestöjä kuudelta mantereelta, ja ponnistelun takana oleva ryhmä sanoo, että sen yleiset havainnot viittaavat siihen, että osallistujaryhmän kulttuuri tai toimintaympäristö ei ole tärkeä tekijä sen kannalta, voidaanko tulokset toistaa.

Tarkastelun alla

Tutkimustulosten – ja erityisesti psykologian – toistettavuus on joutunut viime vuosina tarkkailun kohteeksi. Julkaistuja tuloksia on yritetty toistaa useilla eri aloilla, ja tulokset ovat olleet vaihtelevia.

Virginian Charlottesvillessä sijaitsevan Center for Open Science -yksikön psykologi Brian Nosek johti viimeisintä yritystä, jota kutsutaan nimellä Many Labs 2 . Nosek ja hänen kollegansa suunnittelivat hankkeensa vastatakseen aiempiin monistamispyrkimyksiin kohdistuneeseen merkittävään kritiikkiin – muun muassa otantaan liittyviin kysymyksiin ja väitteeseen siitä, että tutkimusprotokollia ei välttämättä toteuteta oikein monistamisyrityksissä.

Tutkijat hankkivat kussakin kokeessa käytetyt alkuperäiset materiaalit ja pyysivät asiantuntijoita – monissa tapauksissa tutkimusten alkuperäisiä kirjoittajia – tarkistamaan koeprotokollat etukäteen. Tämän jälkeen kuusikymmentä eri laboratoriota 36 maassa ja alueella teki jokaisen kokeen uudelleen, jolloin saatiin yhteenlasketut näytekoot, jotka olivat keskimäärin 62 kertaa suuremmat kuin alkuperäiset kokeet. Työn tulokset julkaistaan tänään preprint1 -julkaisuna, ja ne on tarkoitus julkaista Advances in Methods and Practices in Psychological Science -lehdessä.

”Halusimme puuttua yleiseen reaktioon, jonka mukaan replikointi ei tietenkään onnistunut, koska olosuhteet muuttuivat ja ihmiset ovat erilaisia”, Nosek sanoo. ”Se on mahdollinen selitys, mutta ei tyydyttävä selitys, koska emme tiedä, miksi tuo ero on tärkeä.”

Silloinkin näissä olosuhteissa 28 kokeesta vain 14:n tulokset pystyttiin toistamaan, ja tutkijat totesivat, että tutkimuspopulaatioiden erilaisuus ei juurikaan vaikuttanut epäonnistumisiin. ”Epäonnistuneilla oli taipumus epäonnistua kaikkialla”, Nosek sanoo.

Onnistuneiden toistokokeiden osalta kuva oli monimutkaisempi. Näiden tutkimusten osalta tulokset osoittivat jonkin verran eroja eri replikointiyritysten välillä, mutta kaiken kaikkiaan tämä vaihtelu oli suhteellisen vähäistä.

”Heterogeenisuutta esiintyy, mutta se ei ole niin suurta kuin luulemme, eikä se ole uskottava selitys sille, miksi joidenkin tutkimusten replikointi epäonnistuu”, Nosek sanoo. ”Se sulkee pois yhden ilmeisistä vaihtoehtoisista selityksistä.”

Replikointiketju

Many Labs 2 on viimeisin kuudesta laajamittaisesta psykologian replikointihankkeesta. Siinä keskityttiin useisiin tutkimuksiin, joista yhtäkään ei ollut tarkasteltu muissa suurissa uusittavuushankkeissa.

Siin kuuluu klassisia tutkimuksia, kuten psykologi Daniel Kahnemanin vuonna 1981 tekemä työ2 kehystämisvaikutuksista, eräänlaisesta kognitiivisesta ennakkoluulosta, jossa ihmiset reagoivat eri tavalla tiettyyn valintaan riippuen siitä, miten se esitetään (tutkimus onnistuttiin replikoimaan), sekä nykyaikaisia tutkimuksia, kuten Yoel Inbarin vuonna 2009 tekemä työ3 , joka osoitti, että ihmiset, jotka todennäköisemmin kokivat vastenmielisyyden tuntemuksia, olivat taipuvaisempia olemaan homofobisempia.

Yritys toistaa Inbarin tutkimus epäonnistui tiukalla merkitsevyyskriteerillä, mikä yllätti Nosekin. ”Olin hyvin luottavainen sen suhteen, koska se liittyy asioihin, joita itse tutkin.”

Kanadalaisen Toronton Scarborough’n yliopiston psykologi Inbar, joka osallistui Many Labs 2 -tutkimukseen, oli myös yllättynyt siitä, että hänen työnsä ei onnistunut replikoitumaan, mutta hän ei kyseenalaista lopputulosta. ”Meillä saattoi olla vain tuuria, koska alkuperäinen otoskoko oli pieni, tai asenteet ovat saattaneet muuttua ajan myötä”, hän sanoo.

Inbar sanoo, että hänen alkuperäisessä tutkimuksessaan oli myös heikkouksia. Hän esimerkiksi käytti tietoja, jotka kollega oli alun perin kerännyt toista tutkimusta varten.

Viime vuosien keskittyminen toistettavuuteen tarkoittaa, että Inbar on monien psykologien tavoin muuttanut työskentelytapojaan pyrkiessään tuottamaan luotettavampia tuloksia. ”Nykyään en ikinä ottaisi tuollaista opportunistista sekundaarianalyysiä”, hän sanoo.

Ei tuomiopäivänsankari

Nosekin kaltaiset monistushankkeet eivät selvitä alan yleistä monistumisastetta, koska monistukseen valitut tutkimukset eivät ole edustava otos. Ne eivät myöskään vastaa kysymykseen siitä, mikä olisi ”hyvä” replikointiaste. Tutkijat eivät pyri täydelliseen tulokseen. ”Jos alkuperäisten tulosten 100 prosentin toistettavuus saavutettaisiin, se tarkoittaisi, että olisimme liian konservatiivisia emmekä yrittäisi tarpeeksi kovaa”, Nosek sanoo.

Ensimmäisessä Many Labs -hankkeessa4 onnistuttiin toistamaan 10 tutkimusta 13:sta, kun taas muissa hankkeissa toistettavuusprosentti on ollut jopa 36 prosenttia. Kuudessa laajamittaisessa hankkeessa tutkituista 190 tutkimuksesta 90 onnistui replikoinnissa, eli replikointiaste oli 47 prosenttia.

Tämä vaikuttaa Inbarista liian alhaiselta. ”Jos meillä on vain kolikonheittomahdollisuus toistamiseen suurella otoskoolla, se tuntuu väärältä”, hän sanoo.

Mutta Fritz Strack, psykologi Würzburgin yliopistossa Saksassa, ei ole varma, että tällaiset toistohankkeet paljastavat mitään hyödyllistä psykologian tilasta. Pikemminkin, hän sanoo, jokainen toisto opettaa meille enemmän siitä, mikä saattaa vaikuttaa tulokseen. ”Sen sijaan, että julistaisimme jälleen yhden klassisen löydöksen ’vääräksi positiiviseksi’, replikoijien pitäisi tunnistaa olosuhteet, joissa vaikutusta voidaan saada aikaan ja joissa sitä ei voida saada”, hän lisää.

Nosek vastustaa, että jatkuvat replikointipyrkimykset ovat tärkeitä kahdesta syystä: varmistaa, että replikointitulokset ovat itsessään replikoitavissa, ja puuttua aiempaan työhön kohdistuvaan kritiikkiin, kuten tässä tutkimuksessa tehtiin. ”Näin tiede edistyy: todisteita, kritiikkiä, lisää todisteita kritiikin kannattavuuden tutkimiseksi”, hän sanoo.