I fallimenti di replica in psicologia non sono dovuti a differenze nelle popolazioni di studio

Uno sforzo su larga scala per replicare i risultati nella ricerca psicologica ha respinto le affermazioni che i fallimenti di riprodurre i risultati delle scienze sociali potrebbero essere dovuti a differenze nelle popolazioni di studio.

Lo sforzo ha reclutato laboratori in tutto il mondo per cercare di replicare i risultati di 28 esperimenti di psicologia classica e contemporanea. Solo la metà sono stati riprodotti con successo utilizzando una rigorosa soglia di significatività che è stata fissata a P < 0,0001 (il valore P è un test comune per giudicare la forza delle prove scientifiche).

L’iniziativa ha campionato popolazioni di sei continenti, e il team dietro lo sforzo dice che i suoi risultati complessivi suggeriscono che la cultura o l’impostazione del gruppo di partecipanti non è un fattore importante nel fatto che i risultati possano essere replicati.

Sotto esame

La riproducibilità dei risultati della ricerca – e la psicologia in particolare – è stata sotto esame negli ultimi anni. Diversi sforzi hanno cercato di ripetere i risultati pubblicati in una varietà di campi, con risultati misti.

L’ultimo sforzo, chiamato Many Labs 2, è stato guidato dallo psicologo Brian Nosek del Center for Open Science di Charlottesville, Virginia. Nosek e i suoi colleghi hanno progettato il loro progetto per affrontare le principali critiche dei precedenti sforzi di replica – comprese le domande sul campionamento e l’affermazione che i protocolli di ricerca potrebbero non essere eseguiti correttamente nei tentativi di riproducibilità.

I ricercatori hanno ottenuto i materiali originali utilizzati in ogni esperimento e hanno chiesto agli esperti – in molti casi, gli autori originali degli studi – di rivedere i loro protocolli sperimentali in anticipo. Sessanta diversi laboratori in 36 paesi e territori hanno poi rifatto ogni esperimento, fornendo campioni combinati che erano, in media, 62 volte più grandi di quelli originali. I risultati dello sforzo sono pubblicati oggi come preprint1 e sono previsti per essere pubblicati in Advances in Methods and Practices in Psychological Science.

“Abbiamo voluto affrontare la reazione comune che, naturalmente la replica è fallita perché le condizioni sono cambiate, e le persone sono diverse”, dice Nosek. “È una spiegazione possibile, ma non soddisfacente, perché non sappiamo perché questa differenza è importante”.

Anche in queste condizioni, i risultati di solo 14 dei 28 esperimenti sono stati replicati, e i ricercatori hanno determinato che la diversità delle popolazioni di studio aveva poco effetto sui fallimenti. “Quelli che hanno fallito tendevano a fallire ovunque”, dice Nosek.

Per i tentativi di replica riusciti, il quadro era più complicato. Per questi studi, i risultati hanno mostrato alcune differenze tra i diversi tentativi di replica, ma nel complesso, la variazione era relativamente piccola.

“L’eterogeneità si verifica, ma non è così grande come pensiamo, e non è una spiegazione plausibile del perché alcuni studi non riescono a replicarsi”, dice Nosek. “

Catena di replicazione

Many Labs 2 è l’ultimo di una serie di sei sforzi di replicazione su larga scala in psicologia. Si è concentrato su una serie di studi, nessuno dei quali era stato esaminato da altri grandi progetti di riproducibilità.

Comprendono studi classici come il lavoro del 1981 dello psicologo Daniel Kahneman2 sugli effetti di framing, una forma di bias cognitivo in cui le persone reagiscono in modo diverso a una particolare scelta a seconda di come viene presentata (lo studio è stato replicato con successo), e la ricerca moderna, compreso il lavoro3 di Yoel Inbar nel 2009 che mostrava che le persone che avevano più probabilità di provare sentimenti di disgusto tendevano ad essere più omofobiche.

Il tentativo di replicare lo studio di Inbar è fallito con il rigido criterio di significatività, il che ha sorpreso Nosek. “Avevo molta fiducia in quello perché è legato a cose che studio io stesso.”

Inbar, uno psicologo dell’Università di Toronto Scarborough in Canada, che ha partecipato a Many Labs 2, è stato anche sorpreso che il suo lavoro non sia riuscito a replicarsi, ma non mette in discussione il risultato. “Potremmo essere stati solo fortunati, dal momento che la dimensione del campione originale era piccola, o gli atteggiamenti potrebbero essere cambiati nel tempo”, dice.

Inbar dice che c’erano anche dei punti deboli nel suo studio originale. Per esempio, ha usato dati inizialmente raccolti da un collega per un altro studio.

L’attenzione sulla riproducibilità negli ultimi anni significa che Inbar, come molti psicologi, ha cambiato il suo modo di lavorare nel tentativo di produrre risultati più affidabili. “In questi giorni, non farei mai un’analisi secondaria opportunistica come quella”, dice.

Non sono un profeta di sventura

I progetti di replica come quello di Nosek non stabiliscono il tasso di replica generale in un campo, perché gli studi scelti per la replica non sono un campione rappresentativo. Né rispondono alla domanda su quale sia un “buon” tasso di replicazione. I ricercatori non puntano a un punteggio perfetto. “Raggiungere il 100% di riproducibilità sui risultati iniziali significherebbe che siamo troppo conservatori e non spingiamo abbastanza la busta”, dice Nosek.

Un precedente progetto Many Labs4 ha replicato con successo 10 studi su 13, mentre altri progetti hanno trovato tassi di replica fino al 36%. Dei 190 studi esaminati nei 6 sforzi su larga scala combinati, 90 sono stati replicati con successo, per un tasso del 47%.

Questo sembra troppo basso per Inbar. “Se abbiamo solo una possibilità a testa o croce di replicare con un grande campione, questo sembra sbagliato”, dice.

Ma Fritz Strack, uno psicologo dell’Università di Würzburg in Germania, non è sicuro che tali progetti di replica rivelino qualcosa di utile sullo stato della psicologia. Piuttosto, dice, ogni replica ci insegna di più su ciò che potrebbe influenzare il risultato. “Invece di dichiarare l’ennesima scoperta classica un ‘falso positivo’, i replicanti dovrebbero identificare le condizioni in cui un effetto può e non può essere ottenuto”, aggiunge.

Nosek risponde che gli sforzi di replica in corso sono importanti per due motivi: per garantire che i risultati della replica siano essi stessi replicabili e per affrontare le critiche del lavoro precedente, come ha fatto questo. “È così che la scienza progredisce: prove, critiche, altre prove per esaminare la fattibilità delle critiche”, dice.