Psychologische Forschung evaluieren

Viele berühmte psychologische Studien können nicht reproduziert werden.

Studien in der Psychologie finden oft unterschiedliche Ergebnisse. Selbst in Bereichen wie der Medizin, wo man meinen könnte, dass eine direkte Beziehung zwischen der getesteten Intervention und ihren Auswirkungen besteht, können die Ergebnisse variieren.

Wikimedia Commons

Stanford Gefängnis-Experiment

Quelle: Wikimedia Commons

Zum Beispiel, eine Studie festgestellt, dass ein Glas Orangensaft pro Tag trinken könnte das Risiko einer Person Typ-2-Diabetes um 18 Prozent zu erhöhen. Forscher an der Universität von Kalifornien, Davis, fanden jedoch, dass das Trinken von 100% Saft das Risiko für mehrere chronische Krankheiten, einschließlich Krebs, reduzierte.

Wikimedia Commons

Weiße Marshmallows

Quelle: Wikimedia Commons

Aber viele denken, dass die Situation in der Psychologie schlechter ist.

Ein kürzlich erschienener Artikel in der New York Times erwähnt einige berühmte psychologische Studien über menschliches Verhalten, die nicht reproduziert werden können, einschließlich des berühmten Stanford Prison Experiments, das zeigte, wie Rollenspieler als Wächter schnell grausam handelten, um Häftlinge zu verspotten, sowie den berühmten “Marshmallow-Test” das zeigte, dass junge Kinder, die die Befriedigung verzögern konnten, Jahre später eine höhere schulische Leistung zeigten als diejenigen, die dies nicht konnten.

Warum variieren die Forschungsergebnisse und können nicht repliziert werden?

Die Beziehung zwischen einer Intervention und ihren Auswirkungen kann von vielen Faktoren abhängen. Und Unterschiede im Kontext oder der Implementierung können einen großen Einfluss auf die Ergebnisse einer Studie haben. Es gibt andere Gründe, warum Studien unterschiedliche Effekte melden könnten: Zufallsfehler könnten die Ergebnisse einer Studie beeinflussen. Forscher können auch bewusst oder unabsichtlich ihre Ergebnisse beeinflussen.

All diese Quellen der Variabilität haben zu Ängsten vor einer “Replikationskrise” in der Psychologie und anderen Sozialwissenschaften geführt. Wie sollten wir angesichts dieser Sorge die psychologische und sozialwissenschaftliche Forschung evaluieren?

Die erste Faustregel ist, sich nicht nur auf eine einzige Studie zu verlassen. Wenn möglich, überprüfen Sie Meta-Analysen oder systematische Reviews, die die Ergebnisse mehrerer Studien kombinieren. Meta-Analysen können glaubwürdigere Beweise liefern. Meta-Analysen können Gründe dafür liefern, warum sich die Ergebnisse unterscheiden.

Eine Meta-Analyse ist eine statistische Analyse, die die Ergebnisse mehrerer Forschungsstudien kombiniert. Das Grundprinzip der Metaanalyse ist, dass hinter allen konzeptuell ähnlichen Forschungsstudien eine gemeinsame Wahrheit steht, aber jede einzelne Studie wurde mit einem gewissen Fehler in einzelnen Studien gemessen. Das Ziel besteht darin, Statistiken zu verwenden, um eine gepoolte Schätzung zu erhalten, die der unbekannten allgemeinen Wahrheit am nächsten kommt. Eine Meta-Analyse ergibt dann einen gewichteten Durchschnitt aus den Ergebnissen aller Einzelstudien.

Abgesehen von einer Schätzung der unbekannten allgemeinen Wahrheit kann die Meta-Analyse auch Ergebnisse aus verschiedenen Studien widerspiegeln und Muster zwischen den Studienergebnissen identifizieren. Es kann auch Quellen für Meinungsverschiedenheiten zwischen diesen Ergebnissen identifizieren. Und es kann andere interessante Beziehungen identifizieren, die im Kontext mehrerer Studien auftauchen. Ein wesentlicher Vorteil des metaanalytischen Ansatzes ist die Aggregation von Informationen, die zu einer höheren statistischen Aussagekraft und einer robusteren Punktschätzung führen, als dies aus dem aus vielen Einzelstudien abgeleiteten Maß möglich ist.

Es gibt jedoch auch einige Einschränkungen des metaanalytischen Ansatzes. Der Forscher muss entscheiden, welche Studien die Ergebnisse der Meta-Analyse beeinflussen können (z. B. nur veröffentlichte Studien). Der Forscher muss entscheiden, wie er nach den Studien sucht. Und der Forscher muss entscheiden, wie er mit unvollständigen Daten umgeht, die Daten analysiert und Publikationsbias berücksichtigt.

Manchmal wollen wir jedoch eine einzelne, individualpsychologische Studie evaluieren. Wie sollen wir das machen? Berücksichtigen Sie bei der Prüfung, wie viel Gewicht eine Studie und ihre Ergebnisse haben, die Stichprobengröße. Bei Studien mit kleinen Stichproben ist es eher unwahrscheinlich, dass sie replizieren. Die positivsten und negativsten Ergebnisse sind häufig diejenigen mit den kleinsten Stichproben oder den größten Konfidenzintervallen. Kleinere Studien versagen eher dazu, sich aufgrund von Zufall teilweise zu replizieren, aber die Auswirkungen können aus zahlreichen Gründen auch geringer sein, wenn die Stichprobengröße zunimmt. Wenn die Studie eine Intervention testet, kann es Kapazitätsengpässe geben, die eine qualitativ hochwertige Implementierung in großem Maßstab verhindern. Kleinere Studien zielen oft auch auf die genau gewünschte Probe ab, die die größten Auswirkungen hätte.

Es gibt eine Argumentation dazu: Wenn Sie zum Beispiel ein teures Diversity-Bildungsprogramm haben, das Sie nur mit einer begrenzten Anzahl von Studenten verwenden können, haben Sie vielleicht nur eine Klasse und haben Studenten, die davon am meisten profitieren könnten. Das heißt, der Effekt wäre wahrscheinlich geringer, wenn Sie die Diversity-Bildung in einer größeren Gruppe durchführen würden. Im Allgemeinen kann es hilfreich sein, darüber nachzudenken, welche Dinge anders sein könnten, wenn das Bildungsprogramm erweitert würde. Zum Beispiel ist es unwahrscheinlich, dass Bildungsprogramme für kleine Vielfalt die breitere Institution, Gemeinschaft oder Gesellschaft beeinflussen. Wenn sie jedoch vergrößert wird, könnte sich die institutionelle, gemeinschaftliche oder gesellschaftliche Kultur als Reaktion verändern.

Berücksichtigen Sie außerdem bestimmte Funktionen des Beispiels, des Kontexts und der Implementierung. Wie sind die Forscher gekommen, um das Diversity-Education-Programm einschließlich der Institution und der Studenten, die sie gemacht haben, zu studieren? Würden Sie erwarten, dass diese Probe besser oder schlechter als die Stichprobe ist, an der Sie interessiert sind? Wenn ich zum Beispiel daran interessiert wäre, das Ergebnis der Unterrichtsmethode zu testen, die ich in meinem Webkonferenzkurs der Psychologie der Vielfalt in Harvard verwendet habe, hätte das Setting (zB Harvard, Webkonferenz, Campus) die Ergebnisse ebenfalls beeinflussen können. Gab es etwas Einzigartiges an der Umgebung, das die Ergebnisse hätte vergrößern können?

Wenn die Studie einen Diversity-Kurs evaluiert, ist es wichtig, wie dieser Kurs umgesetzt wurde. Angenommen, Sie hören, dass ein Webkonferenzkurs über Vielfalt die Zugehörigkeitsgefühl und die Integration von Schülern verbessern kann. Wenn Sie einen ähnlichen Kurs in Erwägung ziehen, möchten Sie wahrscheinlich das Format des Webkonferenzkurses und die Kursinhalte und die Schulung des Lehrpersonals kennen, um beurteilen zu können, ob Sie möglicherweise andere Ergebnisse erzielen.

Sie können auch mehr Vertrauen in die Ergebnisse einer Studie haben, wenn es einen klaren Mechanismus gibt, der die Ergebnisse erklärt und für alle Einstellungen konstant ist. Einige Ergebnisse in der Verhaltensökonomie legen beispielsweise nahe, dass bestimmte Regeln des menschlichen Verhaltens fest verdrahtet sind. Aber diese Mechanismen können schwer aufzudecken sein. Und viele Experimente in der Verhaltensökonomie, die zunächst eine fest verdrahtete Regel widerspiegelten, konnten nicht reproduziert werden, wie zum Beispiel, dass Glück die Geduld und das Lernen erhöht.

Aber wenn es einen überzeugenden Grund gibt, dass wir erwarten könnten, dass die Ergebnisse einer Studie gefunden werden, oder wenn es einen starken theoretischen Grund gibt, dass wir erwarten könnten, dass ein bestimmtes Ergebnis verallgemeinert wird, dann sollten wir den Ergebnissen von a vertrauen Einzelstudie ein wenig mehr. Aber wir sollten prüfen, warum wir glauben, dass es einen überzeugenden Grund gibt.

Schließlich, wenn es zu gut scheint, um wahr zu sein, ist es wahrscheinlich. Dies basiert auf einem Prinzip der Bayesschen Statistik: Fremde Behauptungen sollten stärkere Beweise erfordern, um die “Prioren” oder Überzeugungen zu ändern. Wenn wir unsere Überzeugungen ernst nehmen – und es besteht Grund zu der Annahme, dass Menschen im Durchschnitt ziemlich gut darin sind, Vorhersagen zu treffen – dann sind Wahrscheinlichkeiten, die unwahrscheinlich erscheinen, wahrscheinlicher.

Zusammenfassend ist festzustellen, dass die gesamte psychologische Forschung fehlerbehaftet ist und daher die Ergebnisse variieren können und sich nicht wiederholen. Es ist viel besser, sich darüber im Klaren zu sein, als über die Fehler informiert zu sein, die möglicherweise in der Forschung verborgen bleiben. Die wissenschaftliche Methode wurde entwickelt, um auf empirischen Überlegungen aufzubauen, die uns helfen, Fälle zu lösen, in denen Studien variieren oder sich nicht wiederholen. Die Anwendung der wissenschaftlichen Methode auf das Studium des menschlichen Verhaltens und der Psychologie hat das menschliche Verhalten nicht vereinfacht; stattdessen hat es vorgeschlagen, wie komplex menschliches Verhalten ist.

Verweise

Weissmark, M. (bevorstehend) Die Wissenschaft der Vielfalt . Oxford Universitätspresse, USA.

Weissmark, M. (2004). Streitfragen: Vermächtnis des Holocaust und des Zweiten Weltkriegs . Oxford Universitätspresse, USA.

Weissmark, M. & Giacomo, D. (1998). Psychotherapie effektiv machen. Universität Chicago Press, USA.