Niepowodzenia replikacji w psychologii nie wynikają z różnic w populacjach badanych

, Author

Paper being reviewed

Wysiłek na dużą skalę mający na celu replikację wyników w badaniach psychologicznych odrzucił twierdzenia, że niepowodzenia w replikacji wyników nauk społecznych mogą wynikać z różnic w populacjach badanych.

Dążenie to zrekrutowało laboratoria z całego świata do próby odtworzenia wyników 28 klasycznych i współczesnych eksperymentów psychologicznych. Tylko połowa została odtworzona z powodzeniem przy użyciu ścisłego progu istotności, który został ustalony na P < 0,0001 (wartość P jest powszechnym testem do oceny siły dowodów naukowych).

Inicjatywa ta objęła populacje z sześciu kontynentów, a zespół stojący za tym wysiłkiem twierdzi, że jego ogólne ustalenia sugerują, że kultura lub środowisko grupy uczestników nie jest ważnym czynnikiem w tym, czy wyniki mogą być replikowane.

Poddane kontroli

Powtarzalność wyników badań – a psychologia w szczególności – znalazła się pod kontrolą w ostatnich latach. Kilka wysiłków próbowało powtórzyć opublikowane wyniki w różnych dziedzinach, z mieszanymi rezultatami.

Najnowszy wysiłek, nazwany Many Labs 2, był prowadzony przez psychologa Briana Noska z Centrum Otwartej Nauki w Charlottesville, Virginia. Nosek i jego koledzy zaprojektowali swój projekt tak, aby odnieść się do głównych zarzutów wobec poprzednich prób replikacji – w tym pytań dotyczących doboru próby i twierdzenia, że protokoły badawcze mogą nie być wykonywane prawidłowo w próbach odtwarzalności.

Badacze uzyskali oryginalne materiały użyte w każdym eksperymencie i poprosili ekspertów – w wielu przypadkach oryginalnych autorów badań – o wcześniejsze przejrzenie ich protokołów eksperymentalnych. Sześćdziesiąt różnych laboratoriów w 36 krajach i terytoriach następnie redid każdego eksperymentu, zapewniając łączne wielkości próbek, które były, średnio, 62 razy większe niż oryginalne. Wyniki tego wysiłku zostały dziś opublikowane jako preprint1 i mają zostać opublikowane w Advances in Methods and Practices in Psychological Science.

„Chcieliśmy zająć się powszechną reakcją, że oczywiście replikacja nie powiodła się, ponieważ warunki się zmieniły, a ludzie są różni”, mówi Nosek. „Jest to możliwe wyjaśnienie, ale nie satysfakcjonujące, ponieważ nie wiemy, dlaczego ta różnica jest ważna.”

Nawet w tych warunkach, wyniki tylko 14 z 28 eksperymentów zostały zreplikowane, a badacze ustalili, że różnorodność badanych populacji miała niewielki wpływ na niepowodzenia. „Te, które się nie powiodły miały tendencję do niepowodzenia wszędzie”, mówi Nosek.

Dla udanych prób replikacji, obraz był bardziej skomplikowany. Dla tych badań, wyniki pokazały pewne różnice pomiędzy różnymi próbami replikacji, ale ogólnie, to zróżnicowanie było stosunkowo małe.

„Heterogeniczność występuje, ale nie jest tak duża, jak nam się wydaje, i nie jest wiarygodnym wyjaśnieniem, dlaczego niektóre badania nie udaje się replikować”, mówi Nosek. „To zamyka jedno z oczywistych alternatywnych wyjaśnień.”

Łańcuch replikacji

Many Labs 2 jest najnowszym z serii sześciu dużych wysiłków replikacyjnych w psychologii. Skupiono się na szeregu badań, z których żadne nie było analizowane w ramach innych dużych projektów odtwarzalności.

Obejmują one klasyczne badania, takie jak praca psychologa Daniela Kahnemana z 1981 roku2 nad efektem kadrowania, formą uprzedzenia poznawczego, w której ludzie reagują inaczej na określony wybór w zależności od tego, jak jest on przedstawiony (badanie zostało z powodzeniem zreplikowane), oraz współczesne badania, w tym praca3 Yoela Inbara z 2009 roku pokazująca, że ludzie, którzy częściej doświadczali uczucia obrzydzenia, byli bardziej homofobiczni.

Próba replikacji badania Inbara nie powiodła się przy ścisłym kryterium istotności, co zaskoczyło Noska. „Miałem duże zaufanie do tego badania, ponieważ jest ono związane z rzeczami, które sam badam.”

Inbar, psycholog z University of Toronto Scarborough w Kanadzie, który brał udział w Many Labs 2, był również zaskoczony, że jego praca nie została zreplikowana, ale nie kwestionuje wyniku. „Mogliśmy mieć po prostu szczęście, ponieważ oryginalna wielkość próbki była mała, lub postawy mogły się zmienić w czasie,” mówi.

Inbar mówi, że były również słabe punkty w jego oryginalnym badaniu. Na przykład, wykorzystał dane pierwotnie zebrane przez kolegę do innego badania.

Nacisk na odtwarzalność w ostatnich latach oznacza, że Inbar, podobnie jak wielu psychologów, zmienił sposób pracy, starając się uzyskać bardziej wiarygodne wyniki. „W dzisiejszych czasach nigdy nie podjąłbym się oportunistycznej analizy wtórnej, takiej jak ta,” mówi.

Nie jestem sceptykiem

Projekty replikacyjne takie jak Nosek nie ustalają ogólnego wskaźnika replikacji w danej dziedzinie, ponieważ badania wybrane do replikacji nie są reprezentatywną próbką. Nie odpowiadają one również na pytanie, jaki byłby „dobry” wskaźnik replikacji. Naukowcy nie dążą do osiągnięcia idealnego wyniku. „Osiągnięcie 100% odtwarzalności początkowych wyników oznaczałoby, że jesteśmy zbyt konserwatywni i nie staramy się wystarczająco mocno naciskać” – mówi Nosek.

W poprzednim projekcie Many Labs4 udało się zreplikować 10 z 13 badań, podczas gdy w innych projektach wskaźnik replikacji wynosił zaledwie 36%. Z 190 badań przeanalizowanych w 6 dużych wysiłkach łącznie, 90 zostało pomyślnie zreplikowanych, co daje wskaźnik 47%.

To wydaje się zbyt niskie dla Inbara. „Jeśli mamy tylko rzut monetą na replikację przy dużej wielkości próby, to jest to złe uczucie,” mówi.

Ale Fritz Strack, psycholog z Uniwersytetu w Würzburgu w Niemczech, nie jest pewien, że takie projekty replikacji ujawniają cokolwiek użytecznego o stanie psychologii. Raczej, mówi, każda replikacja uczy nas więcej o tym, co może wpływać na wynik. „Zamiast deklarować kolejne klasyczne odkrycie jako 'fałszywie pozytywne’, osoby zajmujące się replikacją powinny zidentyfikować warunki, w których można uzyskać efekt, a w których nie można go uzyskać”, dodaje.

Nosek kontruje, że trwające wysiłki w zakresie replikacji są ważne z dwóch powodów: aby zapewnić, że wyniki replikacji są same w sobie replikowalne, oraz aby odnieść się do krytyki poprzedniej pracy, tak jak to miało miejsce w tym przypadku. „Tak właśnie postępuje nauka: dowody, krytyka, więcej dowodów, aby zbadać wykonalność krytyki,” mówi.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.