Eșecurile de replicare în psihologie nu se datorează diferențelor dintre populațiile studiate

Un efort pe scară largă de replicare a rezultatelor în cercetarea psihologică a respins afirmațiile conform cărora eșecurile de reproducere a rezultatelor din științele sociale s-ar putea datora diferențelor dintre populațiile studiate.

Acțiunea a recrutat laboratoare din întreaga lume pentru a încerca să reproducă rezultatele a 28 de experimente clasice și contemporane de psihologie. Doar jumătate dintre ele au fost reproduse cu succes folosind un prag strict de semnificație care a fost stabilit la P < 0,0001 (valoarea P este un test obișnuit pentru a judeca puterea dovezilor științifice).

Inițiativa a eșantionat populații de pe șase continente, iar echipa din spatele efortului spune că rezultatele sale generale sugerează că cultura sau mediul în care se află grupul de participanți nu este un factor important pentru a stabili dacă rezultatele pot fi reproduse.

Sub lupa

Reproductibilitatea rezultatelor cercetării – și în special a psihologiei – a fost supusă unei analize amănunțite în ultimii ani. Mai multe eforturi au încercat să repete rezultatele publicate într-o varietate de domenii, cu rezultate mixte.

Cel mai recent efort, numit Many Labs 2, a fost condus de psihologul Brian Nosek de la Center for Open Science din Charlottesville, Virginia. Nosek și colegii săi și-au conceput proiectul pentru a aborda criticile majore ale eforturilor anterioare de reproducere – inclusiv întrebări legate de eșantionare și afirmația că protocoalele de cercetare ar putea să nu fie efectuate corect în încercările de reproductibilitate.

Cercetătorii au obținut materialele originale folosite în fiecare experiment și au cerut experților – în multe cazuri, autorii originali ai studiilor – să le revizuiască protocoalele experimentale în prealabil. Șaizeci de laboratoare diferite din 36 de țări și teritorii au refăcut apoi fiecare experiment, oferind dimensiuni combinate ale eșantioanelor care au fost, în medie, de 62 de ori mai mari decât cele originale. Rezultatele efortului sunt postate astăzi ca preprint1 și sunt programate să fie publicate în Advances in Methods and Practices in Psychological Science.

„Am vrut să abordăm reacția comună conform căreia, bineînțeles că replicarea a eșuat deoarece condițiile s-au schimbat, iar oamenii sunt diferiți”, spune Nosek. „Este o explicație posibilă, dar nu una satisfăcătoare, pentru că nu știm de ce această diferență este importantă.”

Inclusiv în aceste condiții, rezultatele a doar 14 din cele 28 de experimente au fost replicate, iar cercetătorii au stabilit că diversitatea populațiilor studiate a avut un efect redus asupra eșecurilor. „Cele care au eșuat au avut tendința de a eșua peste tot”, spune Nosek.

Pentru încercările de replicare reușite, imaginea a fost mai complicată. Pentru aceste studii, rezultatele au arătat unele diferențe între diferitele încercări de replicare, dar, în general, această variație a fost relativ mică.

„Există eterogenitate, dar nu este atât de mare pe cât credem noi și nu este o explicație plauzibilă pentru motivul pentru care unele studii nu reușesc să se reproducă”, spune Nosek. „Închide una dintre explicațiile alternative evidente.”

Clanț de replicare

Many Labs 2 este cel mai recent dintr-o serie de șase eforturi de replicare la scară largă în psihologie. Acesta s-a concentrat pe o serie de studii, dintre care niciunul nu fusese analizat de alte proiecte mari de reproductibilitate.

Acestea includ studii clasice, cum ar fi lucrarea din 1981 a psihologului Daniel Kahneman2 privind efectele de încadrare, o formă de prejudecată cognitivă în care oamenii reacționează diferit la o anumită alegere în funcție de modul în care este prezentată (studiul a fost reprodus cu succes), precum și cercetări moderne, inclusiv lucrarea3 lui Yoel Inbar din 2009, care arată că persoanele care au avut mai multe șanse să experimenteze sentimente de dezgust au avut tendința de a fi mai homofobe.

Tentativa de replicare a studiului lui Inbar a eșuat cu criteriul strict de semnificație, ceea ce l-a surprins pe Nosek. „Am avut mare încredere în acesta, deoarece are legătură cu lucruri pe care le studiez eu însumi.”

Inbar, un psiholog de la Universitatea Toronto Scarborough din Canada, care a participat la Many Labs 2, a fost de asemenea surprins că lucrarea sa nu a reușit să fie replicată, dar nu pune la îndoială rezultatul. „S-ar putea să fi fost pur și simplu norocoși, deoarece dimensiunea eșantionului inițial a fost mică, sau atitudinile s-ar putea să se fi schimbat în timp”, spune el.

Inbar spune că au existat, de asemenea, puncte slabe în studiul său inițial. De exemplu, el a folosit date colectate inițial de un coleg pentru un alt studiu.

Accentul pus pe reproductibilitate în ultimii ani înseamnă că Inbar, la fel ca mulți psihologi, a schimbat modul în care lucrează în efortul de a produce rezultate mai fiabile. „În aceste zile, nu aș face niciodată o astfel de analiză secundară oportunistă”, spune el.

Nu sunt un doomsayer

Proiectele de replicare precum cel al lui Nosek nu stabilesc rata generală de replicare într-un domeniu, deoarece studiile alese pentru replicare nu sunt un eșantion reprezentativ. De asemenea, ele nu răspund nici la întrebarea care ar fi o rată de replicare „bună”. Cercetătorii nu urmăresc un scor perfect. „Atingerea unei reproductibilități de 100% în ceea ce privește constatările inițiale ar însemna că suntem prea conservatori și că nu împingem destul de tare limitele”, spune Nosek.

Un proiect anterior al Many Labs4 a replicat cu succes 10 din 13 studii, în timp ce alte proiecte au constatat rate de replicare de până la 36%. Din cele 190 de studii examinate în cadrul celor 6 eforturi la scară largă combinate, 90 au fost replicate cu succes, pentru o rată de 47%.

Ceasta pare prea mică pentru Inbar. „Dacă avem doar o șansă de replicare cu banul, cu o dimensiune mare a eșantionului, acest lucru pare greșit”, spune el.

Dar Fritz Strack, psiholog la Universitatea din Würzburg, Germania, nu este sigur că astfel de proiecte de replicare dezvăluie ceva util despre starea psihologiei. Mai degrabă, spune el, fiecare replicare ne învață mai multe despre ceea ce ar putea afecta rezultatul. „În loc să declare încă o constatare clasică drept un „fals pozitiv”, replicatorii ar trebui să identifice condițiile în care un efect poate și nu poate fi obținut”, adaugă el.

Nosek contrazice că eforturile de replicare în curs de desfășurare sunt importante din două motive: pentru a se asigura că rezultatele replicării sunt ele însele replicabile și pentru a aborda criticile aduse lucrărilor anterioare, așa cum a făcut aceasta. „Acesta este modul în care avansează știința: dovezi, critici, mai multe dovezi pentru a examina viabilitatea criticilor”, spune el.