Unreine Replikationen

Replikation ist das Rückgrat echter Wissenschaft. Während die harten Wissenschaften wie Physik und Chemie den Wert der Replikation schon lange kannten und praktizierten, haben Psychologen erst kürzlich dieses Problem angesprochen. Zuvor hatten Forscher "Mundpropaganda" kennengelernt, deren Befunde reproduzierbar waren und deren nicht waren. Es ist daher lobenswert, dass dieses wichtige Thema in den Vordergrund rückt.

In den wenigen Jahren, seit die Replikation ernst genommen wurde, gab es große Fortschritte. Zum Beispiel waren die ersten veröffentlichten (und meist gescheiterten) Replikationen Einzelstudien, während kürzliche kooperative Bemühungen mehrere experimentelle Studien berichteten, um sie repräsentativer zu machen, weil ein einzelnes fehlgeschlagenes Replikationsexperiment dies möglicherweise zufällig getan hat und daher leer ist.

Vor ein paar Tagen wurde ein neuer Replikationsfehler veröffentlicht, ebenso wie eine Antwort des Erstautors der ursprünglichen Studie, die Fragen über den Wert von Replikationsstudien aufwirft (siehe den Bericht und Stracks Antwort hier).

Die Bleistiftstudie und ihre Replikation

Flickr/CC 2.0
Quelle: Flickr / CC 2.0

Jedoch können verbleibende Probleme, die mit einem Mangel an theoretischer Raffiniertheit zu tun haben, durch die Replikation eines Experiments über die körperliche Rückmeldung des emotionalen Ausdrucks auf affektive Urteile veranschaulicht werden.

In diesem Experiment von Fritz Strack, Leonard Martin und Sabine Stepper müssen die Teilnehmer einen Stift in einer von zwei Positionen halten, entweder zwischen den Zähnen (linke Seite des Bildes) oder zwischen den Lippen (rechts).

Während der Stift zwischen den Zähnen gehalten wird, werden Muskeln aktiviert, die mit positivem Affekt in Verbindung stehen. Wenn der Stift zwischen den Lippen gehalten wird, werden Muskeln aktiviert, die mit negativen Gefühlen in Zusammenhang stehen. Der Vorteil dieses Verfahrens ist, dass die Teilnehmer nicht bemerken, dass sie lächeln oder schmollen. Die Teilnehmer mussten den Witz von Gary Larson The Far Side Cartoons bewerten.

Strack und Kollegen fanden heraus, dass Teilnehmer, die den Stift zwischen den Zähnen hielten und deshalb lächelten, die Cartoons als lustiger bewerteten als Teilnehmer, die den Stift zwischen den Lippen hielten, wodurch sie schmollen. Dieser Befund bietet Unterstützung für eine emotionale Feedback-Theorie der Emotionen, in der gezeigt wurde, dass das Simulieren eines emotionalen Ausdrucks in Ihrem Gesicht Sie dazu bringt, die Emotion zu fühlen. Die Studie wurde zu einem Zitat-Klassiker und wurde vor einigen Jahren auf der Titelseite von Science vorgestellt .

Eine Gruppe von Forschern begann einen massiven Replikationsversuch. Siebzehn verschiedene Labore wiederholten dieses Experiment und untersuchten, ob sie den Effekt reproduzieren konnten. Das Urteil war eindeutig: Sie konnten nicht. Keines der Experimente erreichte die Effektgröße, die die ursprüngliche Studie hatte, und im Durchschnitt war der Effekt nahe bei Null. Auf Twitter bemerkte ein Forscher: "Ein weiterer klassischer sozialpsychologischer Befund beisst den Staub."

Die Polemik auf Twitter veranlasste mich zu einer Antwort, und es folgte eine Diskussion, die so gut war, wie es nur sein kann, wenn Ihr Argument 140 Zeichen nicht überschreiten darf. Da ich mehr Platz brauche, um dieses Argument zu formulieren, habe ich mich entschlossen, diesen Blog-Beitrag zu schreiben, nicht zuletzt, weil diese und andere Studien kritisch sind.

Ich werde mich auf die theoretischen Auswirkungen von Replikationsfehlern und den Umgang mit möglichen Verunreinigungen, die die Gültigkeit einer Replikationsstudie gefährden, konzentrieren.

Die Frage ist, ob dieser klassische Effekt wirklich "in den Staub beißt"? In seiner Antwort hat Fritz Strack einige Punkte aufgelistet, die die Replikation zweifelhaft machen.

Zum Beispiel wurden 14 von 17 Studien mit Studenten durchgeführt, obwohl die Studie in Fachbüchern für genau diese Zielgruppe weithin zitiert wird. Im Gegensatz zu den Studenten, die an Stracks Studie teilnahmen, für die es unmöglich war, den Befund zu kennen, haben die Studenten vielleicht etwas über die Studie gelesen, auch wenn sie sich möglicherweise nicht daran erinnerten, wenn sie an dem Experiment teilnahmen.

Tatsächlich zeigten die 14 Studien, die mit Studenten durchgeführt wurden, einen Null-Effekt, während die drei Studien mit anderen Teilnehmern eine Gesamtwirkung in Richtung der ursprünglichen Studie zeigten. Zusätzlich wurde eine Kamera auf die Teilnehmer gerichtet, um ihren Gesichtsausdruck zu überwachen. Zahlreiche Forschungsarbeiten haben gezeigt, dass das Zeigen einer Kamera auf Menschen oder das Beobachten auf andere Weise ihr Denken und Verhalten verändert; Warum nicht ihre Urteile über die Komik von Cartoons? Da der Stift-Effekt subtil ist, können kleine "Verunreinigungen" im Experiment den Effekt beeinträchtigen.

Wenn es um Verunreinigungen geht, können Psychologen vom wissenschaftlichen Denken in der Chemie profitieren. Das große Problem der Chemiker ist die Reinheit ihrer Substanzen. Selbst kleine Verunreinigungen können Reaktionen verhindern oder die Ergebnisse verändern. Die Hauptaufgabe der Chemiker besteht oft darin, ihre Substanzen zu reinigen, um den Erfolg ihrer Experimente zu gewährleisten.

Die Arbeit von Psychologen ist noch schwieriger, weil sie ihre Forschung nicht in geschlossenen Systemen mit klar definierten Standardbedingungen betreiben. Systeme in der Psychologie sind offene und experimentelle Ergebnisse, die für subtile Kontexteffekte anfällig sind.

Dies bedeutet, dass winzige Änderungen einen Effekt verändern können, was Replikationsforscher bestätigen. Zum Beispiel können Teilnehmer aus einer anderen Kultur die Anweisungen unterschiedlich interpretieren, und das Experiment kann daher zu unterschiedlichen Ergebnissen führen.

Kein Wunder, dass die Replikationsmisserfolge im großen Open-Science-Framework-Projekt damit zusammenhingen, wie sehr ein Thema von der Kultur abhing. Je kulturspezifischer ein Effekt war, desto schlechter waren seine Chancen, in der Open-Science-Studie repliziert zu werden (vgl. Van Bavela et al., 2016).

Ist die Bleistiftstudie Teil eines degenerativen Forschungsprogramms?

Lassen Sie uns zum Bleistift-Studium zurückkehren. Strack lieferte einige Argumente, die einige berechtigte Zweifel an der "Reinheit" der Replikationsstudien aufwerfen. Einige Psychologen argumentierten, dass dies "SNARKing – fadenscheiniges Picken nach Ergebnissen ist bekannt." Ein anderer Kommentator bedeutete, "Wir nennen es" kritisieren, nachdem die Ergebnisse bekannt sind. "Lakatos nennt es eine degenerative Forschungslinie.

Diese Kommentatoren weisen darauf hin, dass, wenn Sie versuchen, einen Effekt zu replizieren und Sie ihn nicht erhalten, die Entwicklung von Post-hoc-Erklärungen nicht hilfreich ist. Erstens können Sie immer einige Ausreden finden, warum ein Experiment nicht funktioniert hat. Zweitens, und noch wichtiger, ein Effekt sieht nicht robust aus, wenn geringfügige Änderungen den Effekt entfernen. Die Kommentatoren auf Twitter zitierten Lakatos, dass eine solche Forschungslinie auf dem Rückzug ist, es ist degenerativ.

Die Verwendung der degenerativen Forschungslinie von Lakatos ist im Fall von Replikationsfehlern fehlgeleitet. Lakatos dachte nicht an Replikationsfehler, sondern an neue Experimente, die einer Theorie widersprechen. Erklärungen zu liefern, um Ihre Theorie zu verteidigen – oft in Form von Hilfsannahmen, die Ihre Theorie komplizierter machen – ist unproduktiv und zeigt an, dass Ihr Forschungsprogramm auf dem Rückzug ist.

Dies ist jedoch nicht der Fall, der mit der Rückkopplungs-Theorie, die von Stracks Experiment unterstützt wurde, passiert ist. Niemand legte Daten vor, die der Theorie der Rückkopplungen widersprachen. Die Autoren der Replikationsstudie konnten die Ergebnisse einer der Vorzeige-Studien, die die Theorie unterstützten, einfach nicht reproduzieren. Es gibt jedoch noch andere Experimente, die die Theorie der Gesichtsrückkopplung unterstützen. Das Versäumnis, eine Studie zu replizieren – selbst wenn es die bekannteste ist – ändert wenig an der Theorie. Kein Zeichen für ein degeneratives Forschungsprogramm.

Warum der Replikationsfehler die Gesichtsfeedbacktheorie nicht bedroht

Es gibt eine weitere Unterscheidung, die Psychologen beachten müssen, wenn sie von Replikationsfehlern sprechen. Nehmen wir an, Sie studieren eine Intervention, um Menschen durch Gesichtsfeedback glücklich zu machen, zum Beispiel indem Sie einen Stift zwischen die Zähne halten. Sie veröffentlichen eine Studie und empfehlen diese Intervention für den Einsatz in Schulen, bei der Arbeit und zu Hause. Sie machen das universelle Argument, dass diese Intervention unter den meisten Umständen wirksam sein wird.

Kommen Sie mit 17 Replikatoren, die die Ergebnisse nicht reproduzieren können. Da Sie ein universelles Argument vorgebracht haben, ist das Scheitern der Replikation ein tödlicher Schlag, weil es keinen solchen globalen und robusten Effekt gibt. Selbst die Replikation des Effekts mit einer kleineren Effektgröße würde die Relevanz der ursprünglichen Studie beeinträchtigen, wenn sie den Anspruch auf einen universellen Effekt erheben würde.

Strack und seine Kollegen hatten dies jedoch nicht vor Augen. Sie beanspruchten niemals die Universalität der Wirkung, sondern machten das existentielle Argument, dass es Fälle von Erfahrung von affektiven Zuständen durch Gesichtsfeedback gibt.

Kommen Sie mit 17 Replikatoren, die die Ergebnisse nicht reproduzieren können. Da Strack und seine Kollegen ein existenzielles Argument vorbrachten, droht ein Versagen der Replikation die Zuverlässigkeit der Studie und die Gültigkeit der Theorie (wenn dies die einzige Studie war, die dies unterstützt) nur, wenn keine Erklärung mehr vorhanden ist, warum die Replikationsstudie fehlgeschlagen ist.

Dies ist vergleichbar mit Chemikern, die zuerst nach Verunreinigungen in ihrem Experiment suchen, bevor sie bezweifeln, dass sie ein Ergebnis reproduzieren können. Eine solche Diskussion hat nichts mit Neinsammeln und degenerativen Forschungsprogrammen zu tun, sondern mit einem wissenschaftlichen Diskurs, um die Methode zu finden, die funktioniert, wenn es eine gibt.

Wie wir gesehen haben, gibt es zwei Erklärungen, die Zweifel an der Gültigkeit der Replikationsstudie, der Studentenschaft und der Kamera vor dem Gesicht der Teilnehmer aufkommen lassen.

Der Replikationsfehler ist informativ, weil er zeigt, dass dies ein subtiler Effekt ist – was eine Tatsache explizit macht, dass Insider die ganze Zeit wussten, und das ist eine gute Sache.

Das Versagen, dieses Experiment zu replizieren, bedroht die Theorie jedoch aus den oben genannten Gründen nicht. Es muss berücksichtigt werden, dass es wahrscheinlich viel einfacher ist, einen Replikationsfehler zu erhalten als einen stabilen ursprünglichen Effekt, der oft nach vielen Pilottests und Feinabstimmungen erhalten wird.

Schließlich ist das Finden eines Effekts eine gute Nachricht für ein existenzielles Argument, selbst wenn die Effektgröße viel schwächer ist als die ursprüngliche Studie. Aus Sicht einer Theorie sind Effektgrößen nur dann aussagekräftig, wenn Wissenschaftler ein universelles Argument aufstellen oder wenn sie aus einer Studie praktische Implikationen ableiten wollen.

Solange sich das Argument auf die bloße Existenz eines Mechanismus oder Effekts bezieht, spielen Effektgrößen keine Rolle.

Fazit

Replikationsfehler droht nur eine Theorie (1), wenn dies die einzige Studie ist, die die Theorie unterstützt; (2) wenn es eine universelle Behauptung macht. Aktuelle Replikationen wählen oft eine Studie von vielen, die eine Theorie unterstützen, und sie wählen Studien aus, die ein existenzielles Argument unterstützen.

Viele Replikationsfehler sind genau das – Replikationsfehler einzelner Studien. Sie haben keinen großen Einfluss auf die Theorie, und die Diskussion über die Verunreinigungen, die die Gültigkeit einer Replikationsstudie gefährdeten, sollte nicht als schwache Ausrede gewertet werden, sondern als Ausgangspunkt für neue und bessere Replikationsversuche.

Die Botschaft von zu Hause ist, dass Psychologen zwischen der Replikation von Studien, die einen universellen Effekt aufzeigen, mit praktischen Implikationen und Studien, die das existentielle Argument über einen bestimmten Mechanismus machen, unterscheiden müssen.

Die meisten experimentellen Studien über Affekt, Priming oder Ausführungsform, die nicht repliziert wurden, sind von letzterer Art. Da die Theorie hauptsächlich durch andere Belege gestützt wird, hat das Versäumnis, ihre Ergebnisse zu reproduzieren, keine große Relevanz für die Theorie, die diese Studien unterstützen sollten.

Der Blogbeitrag hat viele Diskussionen über die sozialen Medien ausgelöst. Siehe Diskussion auf Facebook hier (Psychological Methods Discussion Group) und hier (PsychMAP).

Für den Befund, dass Reproduzierbarkeit kontextsensitiv ist:

Van Bavela, JJ, Mende-Siedleckia, P., J. Bradya, W., und Reinero, DA (2016). Kontextsensitivität in der wissenschaftlichen Reproduzierbarkeit. PNAS, 113, 6454-6459.

Die faciale Rückkopplungshypothese wird in Kapitel 5 beschrieben:

Reber, R. (2016). Kritisches Gefühl. Wie man Gefühle strategisch einsetzt. Cambridge: Cambridge Universitätspresse.

Weitere Referenzen finden Sie in den obigen Links oder Referenzen.

Bildnachweis: Abbildung verfügbar unter http://tinyurl.com/zm7p9l7 unter CC-Lizenz
https://creativecommons.org/licenses/by/2.0/.