Forschungsreplikations-Problem der Psychologie

Bis jetzt haben viele von Ihnen zweifellos von dem Reproduzierbarkeitsprojekt gehört, bei dem 100 psychologische Befunde Replikationsversuchen unterzogen wurden. Für den Fall, dass Sie nicht damit vertraut sind, waren die Ergebnisse dieses Projekts weniger als eine Bestätigung der Forschung in diesem Bereich: Von den erwarteten 89 Replikationen wurden nur 37 erhalten und die durchschnittliche Größe der Effekte sank dramatisch; Insbesondere die sozialpsychologische Forschung schien in dieser Hinsicht besonders schlecht. Dies deutet darauf hin, dass man in vielen Fällen gut mit vielen psychologischen Befunden mit ein paar Körnern Salz gedient wäre.

Das führt natürlich dazu, dass sich viele Menschen fragen, ob sie nicht so sicher sind, dass ein Effekt sozusagen real ist. Ein mögliches Mittel, durch das Ihr Vertrauen gestärkt werden könnte, ist, ob die fragliche Forschung konzeptuelle Replikationen enthält oder nicht.

Worauf es sich bezieht, sind Fälle, in denen die Autoren eines Manuskripts die Ergebnisse mehrerer verschiedener Studien berichten, die vorgeben, dasselbe zugrunde liegende Ding mit unterschiedlichen Methoden zu messen; das heißt, sie studieren das Thema A mit den Methoden X, Y und Z. Wenn alle diese Ergebnisse positiv ausfallen, sollten Sie mehr Vertrauen haben, dass ein Effekt real ist. In der Tat habe ich ein Papier mehr als einmal abgelehnt, weil ich nur ein einziges Experiment enthielt. Journale wollen oft mehrere Studien in einem Papier sehen, und das ist wahrscheinlich ein Grund dafür: Ein einzelnes Experiment ist sicherlich weniger zuverlässig als mehrere.

Flickr/Michael Caroe Andersen
Es geht nirgendwohin, aber es macht es zumindest zuverlässig
Quelle: Flickr / Michael Caroe Andersen

Laut dem unbekannten Moderator Bericht der Replikationsfehler sind psychologische Forschungsergebnisse im Wesentlichen oft unbeständig. Einige Befunde könnten von der Tageszeit abhängen, zu der Messungen durchgeführt wurden, vom Land der Probe, von bestimmten Details des Reizmaterials, ob der Experimentator ein Mann oder eine Frau ist; Sie nennen es. Mit anderen Worten, es ist möglich, dass diese veröffentlichten Effekte real sind, aber nur in einigen ziemlich spezifischen Kontexten auftreten, von denen wir uns nicht ausreichend bewusst sind; das heißt, sie werden von unbekannten Variablen moderiert. Wenn dies der Fall ist, ist es unwahrscheinlich, dass einige Replikationsanstrengungen erfolgreich sein werden, da es sehr unwahrscheinlich ist, dass alle einzigartigen, unbekannten und nicht geschätzten Moderatoren ebenfalls repliziert werden. Hier kommen konzeptuelle Replikationen ins Spiel: Wenn ein Papier zwei, drei oder mehr verschiedene Versuche enthält, dasselbe Thema zu untersuchen, sollten wir erwarten, dass der Effekt, den sie hervorbringen, eher über eine begrenzte Anzahl von Kontexten hinausreicht und sich wiederholen sollte bereitwilliger.

Das ist eine schmeichelhafte Hypothese zur Erklärung dieser Replikationsfehler; Es gibt einfach nicht genug Replikation, die zur Vorveröffentlichung geht, so dass begrenzte Ergebnisse veröffentlicht werden, als ob sie verallgemeinerbarer wären. Die weniger schmeichelhafte Hypothese ist, dass viele Forscher mangels eines besseren Wortes mit unehrlichen Forschungstaktiken betrügen. Diese Taktiken können eine Hypothese nach der Datenerhebung beinhalten, indem nur Teilnehmer gesammelt werden, bis die Daten sagen, was die Forscher wollen und dann stoppen, indem Proben in verschiedene Gruppen aufgeteilt werden, bis Unterschiede entdeckt werden, und so weiter.

Es gibt auch das berüchtigte Problem von Zeitschriften, die nur positive anstatt negative Ergebnisse veröffentlichen (was einen großen Anreiz zum Schummeln schafft, da die Strafe dafür so gut wie nicht existent ist, solange man nicht nur die Daten zusammenstellt). Aus diesen Gründen lässt die Vorregistrierung von Forschungsergebnissen – die explizit angeben, was Sie im Voraus sehen werden – positive Befunde deutlich fallen. Wenn die Forschung nicht repliziert, weil das System betrogen wird, helfen mehr interne Replikationen (die von den gleichen Autoren) nicht wirklich, wenn es darum geht, externe Replikationen (die von externen Parteien durchgeführt werden) vorherzusagen. Interne Replikationen bieten Forschern lediglich die Möglichkeit, mehrere Betrugsversuche zu melden.

Diese beiden Hypothesen treffen unterschiedliche Vorhersagen bezüglich der Daten aus dem oben erwähnten Reproduzierbarkeitsprojekt: Insbesondere sollte Forschung, die interne Replikationen enthält, mit größerer Wahrscheinlichkeit erfolgreich repliziert werden, wenn die Hypothese des unbekannten Moderators richtig ist. Es wäre sicherlich ein merkwürdiger Sachverhalt von der Perspektive "dieses Ergebnis ist wahr", wenn sich multiple konzeptuelle Replikationen nicht mehr als reproduzierbar erweisen würden als Einzelstudien. Es wäre ähnlich zu sagen, dass Effekte, die repliziert wurden, später nicht mehr replizieren als Effekte, die nicht repliziert wurden. Im Gegensatz dazu hat die Cheating-Hypothese (oder eher höflich, fragwürdige Hypothese der Forschungspraktiken) überhaupt kein Problem mit der Idee, dass interne Replikationen sich als extern replizierbar erweisen könnten wie Einzelstudien; Ein dreimaliges Ausspähen zu betrügen bedeutet nicht, dass es wahr ist, es einmal zu betrügen.

Flickr/vozach1234
Es ist nicht betrügen; es ist nur eine "fragwürdige Teststrategie"
Quelle: Flickr / vozach1234

Dies bringt mich zu einer neuen Arbeit von Kunert (2016), die einige der Daten aus dem Reproduzierbarkeitsprojekt erneut untersuchte. Von den 100 Originalpapieren enthielten 44 interne Replikationen: 20 enthielten nur eine Replikation, 10 wurden zweimal repliziert, 9 wurden dreimal repliziert und 5 enthielten mehr als drei. Diese wurden verglichen mit den 56 Papieren, die keine internen Replikationen enthielten, um zu sehen, welche sich später besser replizieren würden (wie durch Erreichen der statistischen Signifikanz gemessen). Wie sich herausstellte, replizierten Papiere mit internen Replikationen etwa 30% der Zeit extern, während Papiere ohne interne Replikationen in etwa 40% der Zeit extern repliziert wurden. Die intern replizierten Papiere waren nicht nur nicht wesentlich besser, sie waren in dieser Hinsicht sogar etwas schlechter. Eine ähnliche Schlussfolgerung wurde in Bezug auf die durchschnittliche Effektgröße erzielt: Papiere mit internen Replikationen waren nicht wahrscheinlicher, als dass sie später eine größere Effektgröße enthielten, im Vergleich zu Papieren ohne solche Replikationen.

Es ist natürlich möglich, dass Papiere, die interne Replikationen enthalten, sich von Papieren unterscheiden, die solche Replikationen nicht enthalten. Dies bedeutet, dass interne Replikationen möglicherweise eine gute Sache sind, aber ihre positiven Effekte werden durch andere, negative Faktoren aufgewogen. Zum Beispiel könnte jemand, der eine besonders neue Hypothese vorschlägt, geneigt sein, mehr interne Replikationen in ihr Papier aufzunehmen als jemand, der ein etabliertes studiert; Der zweite Forscher benötigt in seinem Artikel keine weiteren Replikationen, um ihn veröffentlichen zu können, da der Effekt bereits in anderen Arbeiten repliziert wurde.

Um diesen Punkt zu untersuchen, nutzte Kunert (2016) die 7 identifizierten Reproduzierbarkeits-Prädiktoren aus der Open Science Collaboration – Studiengebiet, Effekttyp, ursprünglicher P-Wert, ursprüngliche Effektgröße, Replikationsstärke, überraschende Wirkung des Originals und die Herausforderung der Durchführung der Replikation – um zu beurteilen, ob intern replizierte Arbeit in irgendeiner bemerkenswerten Weise von der nicht intern replizierten Probe abweicht. Wie sich herausstellte, waren die beiden Stichproben bei allen Faktoren mit Ausnahme eines Studienfachs insgesamt ziemlich ähnlich. Intern replizierte Effekte kamen häufiger aus der Sozialpsychologie (70%) als aus der kognitiven Psychologie (54%). Wie ich bereits erwähnt habe, tendierten sozialpsychologische Arbeiten dazu, seltener zu replizieren. Der unbekannte Moderatoreffekt wurde jedoch für jedes der Felder nicht besonders gut unterstützt, wenn er einzeln untersucht wurde.

Zusammenfassend kann gesagt werden, dass Papiere, die interne Replikationen enthalten, bei externen Replikationen wahrscheinlich nicht gut abschneiden, was meines Erachtens darauf hindeutet, dass irgendwo etwas falsch läuft. Vielleicht nutzen die Forscher ihre Freiheit, Daten nach eigenem Ermessen zu analysieren und zu sammeln, um die gewünschten Schlussfolgerungen zu erzielen; vielleicht veröffentlichen Journale vorzugsweise die Ergebnisse von Leuten, die Glück hatten, relativ zu denen, die es richtig gemacht haben. Diese Möglichkeiten schließen sich natürlich nicht aus. Nun, ich nehme an, man könnte damit fortfahren, ein Argument zu formulieren, das etwa so lautet: "Papiere, die konzeptuelle Replikationen enthalten, machen eher etwas anderes als Papiere mit nur einer Studie", was möglicherweise den Mangel an Stärke erklärt durch interne Replikationen, und was auch immer "etwas" ist, könnte nicht direkt von den Variablen in der aktuellen Arbeit angesprochen werden. Im Wesentlichen würde ein solches Argument darauf hindeuten, dass es unbekannte Moderatoren gibt.

Flickr/ynnil
"… und diese Schildkröte steht auf der Schale einer noch größeren Schildkröte …"
Quelle: Flickr / ynnil

Auch wenn es wahr ist, dass eine solche Erklärung nicht durch die aktuellen Ergebnisse ausgeschlossen ist, sollte dies nicht als eine Art Standardausschluss verstanden werden, warum diese Forschung sich nicht wiederholt. Die Erklärung der "Forscher betrügt" erscheint mir in diesem Stadium etwas plausibler, da es nicht viele andere offensichtliche Erklärungen dafür gibt, warum scheinbar replizierte Papiere sich nicht besser reproduzieren lassen. Wie Kunert (2016) es klar formuliert:

Dieser Bericht legt nahe, dass es ohne weitreichende Veränderungen der psychologischen Wissenschaft schwierig werden wird, ihn von informellen Beobachtungen, Anekdoten und Vermutungen zu unterscheiden.

Dies bringt uns zu der Frage, was mit dem Problem getan werden könnte. Es gibt prozedurale Wege, das Problem anzugehen – wie Kunerts (2016) Empfehlung, Zeitschriften dazu zu bringen, Publikationen unabhängig von ihren Ergebnissen zu veröffentlichen – aber mein Fokus liegt und bleibt auf den theoretischen Aspekten der Veröffentlichung. Zu viele Arbeiten in der Psychologie werden veröffentlicht, ohne dass die Forscher ihre Ergebnisse in einem sinnvollen Sinn erklären müssten; Stattdessen schreiben sie gewöhnlich ihre Befunde neu oder beschriften sie, oder sie postulieren eine biologisch unplausible Funktion für das, was sie gefunden haben (wie "X lässt die Menschen sich gut fühlen" oder "Selbstkontrollaufgaben sind schwere Stoffwechselabläufe"). Ohne die ernsthafte und konsequente Anwendung der Evolutionstheorie auf die psychologische Forschung werden weiterhin unplausible Effekte veröffentlicht und können sich nicht wiederholen, da es sonst wenig Möglichkeiten gibt zu sagen, ob ein Befund sinnvoll ist. Im Gegensatz dazu finde ich es plausibel, dass unwahrscheinliche Effekte – von Rezensenten, Lesern und Replikatoren – klarer gesehen werden können, wenn sie alle innerhalb des gleichen theoretischen Rahmens liegen; noch besser, die Probleme im Design können leichter identifiziert und berichtigt werden, indem die zugrundeliegende Funktionslogik berücksichtigt wird, was zu produktiver zukünftiger Forschung führt.

Referenzen: Kunert, R. (2016). Interne konzeptuelle Replikationen erhöhen den unabhängigen Replikationserfolg nicht. Psychologische Zeitschrift , DOI 10.3758 / s13423-016-1030-9