A replikációs kudarcok a pszichológiában nem a vizsgálati populációk közötti különbségeknek tudhatók be

A pszichológiai kutatások eredményeinek megismétlésére irányuló nagyszabású erőfeszítés megcáfolta azokat az állításokat, amelyek szerint a társadalomtudományi eredmények reprodukálásának kudarcai a vizsgálati populációk közötti különbségeknek tudhatók be.

A törekvés a világ minden tájáról toborzott laboratóriumokat, hogy megpróbálják megismételni 28 klasszikus és kortárs pszichológiai kísérlet eredményeit. A szignifikancia szigorú küszöbértékét alkalmazva, amelyet P < 0,0001-ben határoztak meg (a P-érték a tudományos bizonyítékok erősségének megítélésére szolgáló általános teszt), csak a kísérlet felét sikerült reprodukálni.

A kezdeményezés hat kontinensről vett mintát, és az erőfeszítés mögött álló csoport szerint az általános eredmények azt sugallják, hogy a résztvevők csoportjának kultúrája vagy környezete nem fontos tényező abban, hogy az eredmények megismételhetők-e.

Vizsgálat alatt

A kutatási eredmények – és különösen a pszichológia – reprodukálhatósága az elmúlt években vizsgálat tárgyává vált. Számos erőfeszítéssel próbálták megismételni a közzétett eredményeket a legkülönbözőbb területeken, vegyes eredményekkel.

A legutóbbi, Many Labs 2 nevű erőfeszítést Brian Nosek pszichológus vezette a virginiai Charlottesville-ben működő Center for Open Science kutatóközpontból. Nosek és kollégái úgy tervezték meg projektjüket, hogy a korábbi replikációs törekvésekkel kapcsolatos főbb kritikákat – köztük a mintavétellel kapcsolatos kérdéseket és azt az állítást, hogy a reprodukálhatósági kísérletek során a kutatási jegyzőkönyveket esetleg nem megfelelően hajtják végre.

A kutatók megszerezték az egyes kísérletekben felhasznált eredeti anyagokat, és szakértőket – sok esetben a tanulmányok eredeti szerzőit – kértek fel, hogy előzetesen vizsgálják felül a kísérleti jegyzőkönyveiket. Ezután 36 ország és terület hatvan különböző laboratóriumában újra elvégezték az egyes kísérleteket, és olyan kombinált mintaméreteket adtak, amelyek átlagosan 62-szer nagyobbak voltak az eredetinél. Az erőfeszítés eredményeit a mai napon preprint1 formájában közzétették, és a tervek szerint az Advances in Methods and Practices in Psychological Science című folyóiratban fogják publikálni.

“Azzal a gyakori reakcióval akartunk szembenézni, hogy természetesen a replikáció nem sikerült, mert a körülmények megváltoztak, és az emberek különbözőek” – mondja Nosek. “Ez egy lehetséges magyarázat, de nem kielégítő, mert nem tudjuk, miért fontos ez a különbség.”

Még ilyen feltételek mellett is csak 14 kísérlet eredményét sikerült megismételni a 28-ból, és a kutatók megállapították, hogy a vizsgálati populációk sokfélesége kevéssé befolyásolta a kudarcokat. “Azok, amelyek kudarcot vallottak, általában mindenhol kudarcot vallottak” – mondja Nosek.”

A sikeres replikációs kísérletek esetében a kép bonyolultabb volt. Ezeknél a vizsgálatoknál az eredmények némi különbséget mutattak a különböző replikációs kísérletek között, de összességében ez a változatosság viszonylag kicsi volt.

“A heterogenitás előfordul, de nem olyan nagy, mint gondolnánk, és nem hihető magyarázat arra, hogy egyes tanulmányok miért nem replikálódnak” – mondja Nosek. “Ez lezárja az egyik nyilvánvaló alternatív magyarázatot.”

Replikációs lánc

A Many Labs 2 a legújabb a hat nagyszabású replikációs kísérletből álló sorozatban a pszichológiában. Olyan tanulmányok egész sorára összpontosított, amelyek közül egyiket sem vizsgálták más nagy reprodukálhatósági projektek.

Ezek között vannak klasszikus tanulmányok, például Daniel Kahneman pszichológus 1981-es munkája2 a keretezési hatásokról, a kognitív torzítás egy formájáról, amelyben az emberek másképp reagálnak egy adott választásra attól függően, hogy azt hogyan mutatják be (a tanulmányt sikeresen megismételték), és modern kutatások, köztük Yoel Inbar 2009-es munkája3 , amely kimutatta, hogy azok az emberek, akik nagyobb valószínűséggel éltek át undor érzését, hajlamosabbak homofóbnak lenni.

Az Inbar tanulmányának megismétlésére tett kísérlet a szigorú szignifikancia-kritériummal megbukott, ami meglepte Noseket. “Nagyon bíztam benne, mert olyan dolgokhoz kapcsolódik, amelyeket magam is tanulmányozok.”

Inbar, a kanadai Torontói Scarborough Egyetem pszichológusa, aki részt vett a Many Labs 2-ben, szintén meglepődött, hogy a munkája nem sikerült megismételni, de nem kérdőjelezi meg az eredményt. “Lehet, hogy csak szerencsénk volt, mivel az eredeti minta mérete kicsi volt, vagy az idő múlásával megváltozhatott a hozzáállás” – mondja.”

Inbar szerint az eredeti tanulmányának is voltak gyengeségei. Például olyan adatokat használt fel, amelyeket eredetileg egy kollégája gyűjtött egy másik tanulmányhoz.

A reprodukálhatóságra való összpontosítás az utóbbi években azt jelenti, hogy Inbar, sok pszichológushoz hasonlóan, megváltoztatta munkamódszerét, hogy megbízhatóbb eredményeket érjen el. “Manapság már soha nem vállalnék egy ilyen opportunista másodlagos elemzést” – mondja.”

Nem vagyok világvégefutár

A Nosekéhoz hasonló replikációs projektek nem állapítják meg egy terület általános replikációs arányát, mivel a replikációra kiválasztott tanulmányok nem reprezentatív mintát alkotnak. Arra a kérdésre sem adnak választ, hogy mi lenne a “jó” replikációs arány. A kutatók nem törekednek tökéletes eredményre. “A kezdeti eredmények 100%-os reprodukálhatóságának elérése azt jelentené, hogy túl konzervatívak vagyunk, és nem feszegetjük eléggé a húrt” – mondja Nosek.

Egy korábbi Many Labs projekt4 13 tanulmányból 10-et sikerült megismételni, míg más projektek akár 36%-os replikációs arányt is találtak. A 6 nagyszabású erőfeszítés során vizsgált 190 tanulmányból együttesen 90-et sikerült megismételni, ami 47%-os arányt jelent.

Az Inbar számára ez túl alacsonynak tűnik. “Ha nagy mintanagyság mellett is csak egy pénzérme feletti esélyünk van a replikációra, az nem tűnik helyesnek” – mondja.

De Fritz Strack, a németországi Würzburgi Egyetem pszichológusa nem biztos abban, hogy az ilyen replikációs projektek bármi hasznosat elárulnak a pszichológia állapotáról. Inkább azt mondja, hogy minden egyes replikáció többet tanít arról, hogy mi befolyásolhatja az eredményt. “Ahelyett, hogy egy újabb klasszikus eredményt “hamis pozitívnak” nyilvánítanánk, a replikátoroknak azonosítaniuk kellene azokat a feltételeket, amelyek mellett egy hatás elérhető és nem elérhető” – teszi hozzá.”

Nosek azt állítja, hogy a folyamatos replikációs erőfeszítések két okból is fontosak: annak biztosítása, hogy a replikációs eredmények maguk is megismételhetők legyenek, és a korábbi munkákkal kapcsolatos kritikák kezelése, ahogy ez a mostani is tette. “Így fejlődik a tudomány: bizonyítékok, kritika, újabb bizonyítékok a kritikák életképességének vizsgálatára” – mondja.