Replikationsfehler in der Psychologie nicht auf Unterschiede in den Studienpopulationen zurückzuführen

Ein groß angelegter Versuch, Ergebnisse in der Psychologieforschung zu replizieren, hat Behauptungen zurückgewiesen, dass Fehler bei der Reproduktion sozialwissenschaftlicher Erkenntnisse auf Unterschiede in den Studienpopulationen zurückzuführen sein könnten.

Im Rahmen des Projekts wurden Labors in der ganzen Welt aufgefordert, die Ergebnisse von 28 klassischen und modernen Psychologieexperimenten zu reproduzieren. Nur die Hälfte wurde erfolgreich reproduziert, wobei ein strenger Schwellenwert für die Signifikanz von P < 0,0001 zugrunde gelegt wurde (der P-Wert ist ein gängiger Test zur Beurteilung der Stärke wissenschaftlicher Beweise).

Im Rahmen der Initiative wurden Populationen aus sechs Kontinenten befragt, und das Team, das hinter den Bemühungen steht, sagt, dass die Gesamtergebnisse darauf hindeuten, dass die Kultur oder das Umfeld der Teilnehmergruppe kein wichtiger Faktor dafür ist, ob Ergebnisse reproduziert werden können.

Unter die Lupe genommen

Die Reproduzierbarkeit von Forschungsergebnissen – insbesondere in der Psychologie – ist in den letzten Jahren auf den Prüfstand gekommen. Mehrere Versuche haben versucht, veröffentlichte Ergebnisse in verschiedenen Bereichen zu wiederholen, mit gemischten Ergebnissen.

Der jüngste Versuch, Many Labs 2 genannt, wurde von dem Psychologen Brian Nosek vom Center for Open Science in Charlottesville, Virginia, geleitet. Nosek und seine Kollegen haben ihr Projekt so konzipiert, dass sie die Hauptkritikpunkte früherer Replikationsversuche angehen – darunter Fragen zur Stichprobenziehung und die Behauptung, dass Forschungsprotokolle bei Reproduktionsversuchen möglicherweise nicht ordnungsgemäß durchgeführt werden.

Die Forscher beschafften sich die Originalmaterialien, die in jedem Experiment verwendet wurden, und baten Experten – in vielen Fällen die Originalautoren der Studien -, ihre Versuchsprotokolle im Voraus zu überprüfen. Sechzig verschiedene Labors in 36 Ländern und Gebieten führten dann jedes Experiment erneut durch, wobei die kombinierten Stichprobengrößen im Durchschnitt 62 Mal größer waren als die ursprünglichen. Die Ergebnisse werden heute als Preprint1 veröffentlicht und sollen in der Zeitschrift Advances in Methods and Practices in Psychological Science publiziert werden.

„Wir wollten der weit verbreiteten Reaktion entgegentreten, dass die Replikation natürlich fehlgeschlagen ist, weil sich die Bedingungen geändert haben und die Menschen unterschiedlich sind“, sagt Nosek. „Das ist eine mögliche Erklärung, aber keine befriedigende, weil wir nicht wissen, warum dieser Unterschied so wichtig ist.“

Auch unter diesen Bedingungen konnten die Ergebnisse von nur 14 der 28 Experimente repliziert werden, und die Forscher stellten fest, dass die Vielfalt der Studienpopulationen wenig Einfluss auf die Fehlschläge hatte. „Diejenigen, die scheiterten, scheiterten tendenziell überall“, sagt Nosek.

Bei den erfolgreichen Replikationsversuchen war das Bild komplizierter. Bei diesen Studien zeigten die Ergebnisse zwar einige Unterschiede zwischen den verschiedenen Replikationsversuchen, aber insgesamt waren diese Unterschiede relativ gering.

„Heterogenität kommt vor, aber sie ist nicht so groß, wie wir denken, und ist keine plausible Erklärung dafür, warum manche Studien nicht repliziert werden können“, sagt Nosek. „Sie schließt eine der offensichtlichen alternativen Erklärungen aus.“

Replikationskette

Many Labs 2 ist die letzte in einer Reihe von sechs groß angelegten Replikationsversuchen in der Psychologie. Es konzentrierte sich auf eine Reihe von Studien, von denen keine von anderen großen Reproduzierbarkeitsprojekten untersucht worden war.

Dazu gehören klassische Studien wie die Arbeit des Psychologen Daniel Kahneman aus dem Jahr 19812 zu Framing-Effekten, einer Form der kognitiven Verzerrung, bei der Menschen je nach der Art der Präsentation unterschiedlich auf eine bestimmte Wahl reagieren (die Studie wurde erfolgreich repliziert), sowie moderne Forschungsarbeiten, darunter die Arbeit3 von Yoel Inbar aus dem Jahr 2009, die zeigt, dass Menschen, die eher Ekelgefühle empfinden, tendenziell homophober sind.

Der Versuch, Inbars Studie zu wiederholen, scheiterte an dem strengen Signifikanzkriterium, was Nosek überraschte. „

Inbar, ein Psychologe an der Universität von Toronto Scarborough in Kanada, der an Many Labs 2 teilnahm, war ebenfalls überrascht, dass seine Arbeit nicht repliziert werden konnte, aber er stellt das Ergebnis nicht in Frage. „Wir könnten einfach nur Glück gehabt haben, da die ursprüngliche Stichprobengröße klein war, oder die Einstellungen könnten sich im Laufe der Zeit geändert haben“, sagt er.

Inbar sagt, dass seine ursprüngliche Studie auch Schwächen aufwies. So verwendete er beispielsweise Daten, die ursprünglich von einem Kollegen für eine andere Studie gesammelt worden waren.

Der Fokus auf Reproduzierbarkeit in den letzten Jahren bedeutet, dass Inbar, wie viele Psychologen, seine Arbeitsweise geändert hat, um zuverlässigere Ergebnisse zu erzielen. „Heutzutage würde ich niemals eine opportunistische Sekundäranalyse wie diese durchführen“, sagt er.

Kein Schwarzmaler

Replikationsprojekte wie das von Nosek ermitteln nicht die allgemeine Reproduktionsrate in einem Bereich, da die für die Replikation ausgewählten Studien keine repräsentative Stichprobe darstellen. Sie geben auch keine Antwort auf die Frage, was eine „gute“ Replikationsrate wäre. Die Forscher streben nicht nach einem perfekten Ergebnis. „Eine 100-prozentige Reproduzierbarkeit der ersten Ergebnisse würde bedeuten, dass wir zu konservativ sind und nicht weit genug gehen“, sagt Nosek.

Bei einem früheren Projekt von Many Labs4 wurden 10 von 13 Studien erfolgreich repliziert, während bei anderen Projekten Reproduzierbarkeitsraten von bis zu 36 % festgestellt wurden. Von den 190 Studien, die im Rahmen der 6 groß angelegten Projekte untersucht wurden, konnten 90 erfolgreich repliziert werden, was einer Quote von 47 % entspricht.

Das erscheint Inbar zu niedrig. „Wenn wir nur eine geringe Chance haben, eine große Stichprobe zu replizieren, fühlt sich das falsch an“, sagt er.

Fritz Strack, Psychologe an der Universität Würzburg in Deutschland, ist sich jedoch nicht sicher, ob solche Replikationsprojekte irgendetwas Nützliches über den Stand der Psychologie aussagen. Vielmehr sagt er, dass jede Wiederholung uns mehr darüber lehrt, was das Ergebnis beeinflussen könnte. „Anstatt einen weiteren klassischen Befund als ‚falsch positiv‘ zu deklarieren, sollten die Replikatoren die Bedingungen identifizieren, unter denen ein Effekt erzielt werden kann und unter denen nicht“, fügt er hinzu.

Nosek hält dagegen, dass laufende Replikationsbemühungen aus zwei Gründen wichtig sind: um sicherzustellen, dass die Replikationsergebnisse selbst replizierbar sind, und um Kritik an früheren Arbeiten zu beseitigen, wie es in dieser Arbeit geschehen ist. „So macht die Wissenschaft Fortschritte: Beweise, Kritik, weitere Beweise, um die Stichhaltigkeit der Kritik zu prüfen“, sagt er.