Sind die meisten publizierten Ergebnisse der Sozialpsychologie falsch?

Die Sozialpsychologie ist in einer Krise, weil niemand mehr weiß, was sie glauben soll. Die Journale sind jetzt mit fehlgeschlagener Priming-Replikation nach fehlgeschlagener Priming-Replikation gefüllt. (Für Laienleser bezieht sich Priming auf die Idee, dass, wenn Sie eine Idee, ein Konzept, einen Glauben, eine Einstellung oder einen Wert in irgendeiner Weise hervorheben, Ihre nachfolgenden Wahrnehmungen und Verhaltensweisen auf eine Weise beeinflussen können, die gänzlich außerhalb Ihres Bewusstseins liegt als "Automatismus" im Sozialpsychologischen Sprachgebrauch. In der Sozialpsychologie waren Priming-Studien einst von großer Bedeutung, weil veröffentlichte Studien erstaunliche, die Welt verändernde Wirkungen von Priming zeigten. Priming findet oft außerhalb des Gewahrseins statt, also schien das Zeug zu zeigen, dass die Leute nicht wissen, warum sie das tun, was sie die meiste Zeit tun. Tolle! Und wenn Sie denken, dass dies eine Strohhalm-Behauptung ist, denken Sie zurück an die unerträgliche Automatismus des Seins (wenn Sie ein Laien-Leser sind, schauen Sie einfach auf Google Scholar nach).

Die Anstiftung zu älteren Stereotypen führte angeblich dazu, dass die Menschen langsam gingen. Grundgeld führte angeblich dazu, dass Menschen weniger bereit waren zu helfen. Die Offenlegung von Männern für attraktive Frauen führte angeblich zu einer Zunahme der Risikobereitschaft und des auffälligen Konsums. Die Leute hatten keine Kontrolle! Starke, durchsetzungsstarke nonverbale Positionen ("Power-Posen") könnten angeblich Ihr Leben verbessern, indem Sie sowohl Ihr Selbstvertrauen als auch Ihre Behandlung verbessern. Aber all diese Ergebnisse und vieles mehr haben sich als ausreichend schwierig erwiesen, so dass viele Wissenschaftler sie jetzt bestenfalls als zweifelhaft betrachten.

Create Meme
Quelle: Erstelle Meme

Und die Probleme gehen weit über gescheiterte Replikationen von Priming-Studien hinaus. Die stereotype Bedrohungsforschung, die weithin als "Bedrohung entfernen" und "Schwarz-Weiß-Testergebnisse" als gleichwertig interpretiert wird, hat dies nie gezeigt. Implizite Vorurteilsforschung, die weithin als die Existenz von tiefgreifenden rassischen Vorurteilen interpretiert wurde, hat nie gezeigt, dass z. B. implizite Assoziationstestwerte, die angeblich Vorurteile (Werte über 0) widerspiegeln, im Allgemeinen viel diskriminierendem Verhalten entsprechen (mindestens eine Studie zeigte sie entsprechen egalitärem Verhalten). Oder, anders ausgedrückt, einige der berühmtesten und einflussreichsten Wirkungen der Sozialpsychologie, insbesondere die in den letzten 20 Jahren erzielten Wirkungen, wurden durch gescheiterte Replikation nach gescheiterter Replikation und durch die Enthüllung fragwürdiger methodischer, statistischer und interpretativer Aspekte in Frage gestellt Praktiken.

Und es wird schlimmer, bevor es besser wird.

Teil I: Die (Ir?) Replizierbarkeit der Sozialpsychologie

Einige der stärksten Beweise für die Behauptung, dass "die meisten Sozialpsychosen falsch sind", stammen aus einer einzigen Arbeit (Open Science Collaboration, 2015 in Science veröffentlicht), die 2008 veröffentlichte Forschung in verschiedenen Bereichen der Psychologie, einschließlich Sozialpsychologie, untersuchte.

Dieses Papier war eine Multi-Lab-Kollaboration, die versuchte, 52 Studien zu replizieren, die in zwei Top-Social-Psych-Journalen veröffentlicht wurden (Journal of Personality and Social Psychology und Psychological Science). Was als "erfolgreiche Replikation" gilt, ist selbst keine fundierte Wissenschaft. Was als "Beweis dafür gilt, dass die Wirkung real ist", ist keine fundierte Wissenschaft. Also verwendeten sie mehrere Maßnahmen. Abhängig von den Kriterien fanden sie heraus, dass zwischen 25 und 43% der Studien repliziert oder eine wahre Wirkung zeigten.

Bis jetzt klingt das nach "Die meisten sozialpsychologischen Befunde sind falsch" ist ziemlich sicher. Und es könnte sein. Aber ich glaube nicht, dass diese allgemeine Replikationsstudie eine allgemeine Schlussfolgerung rechtfertigt.

Teil II: OSC 2015 ist eine großartige Studie, aber wir sollten sie nicht überinterpretieren

Hier ist der Schlüssel, den OSC NICHT getan hat, was die Schlussfolgerung "die meisten sozialpsychologischen Befunde sind falsch" ungerechtfertigt macht:

Sie identifizierten keine Population von Sozialpsychologischen Studien (sagen wir seit 1950 oder 1970 oder sogar 1990), wählten sie zufällig aus und versuchten sie dann zu replizieren.

Stattdessen beschränkten sie zunächst die Replikationsversuche auf das Jahr 2008. Dann erstellten sie Teilstichproben von Studien (z. B. die ersten 20 in Psychological Science veröffentlichten Artikel). Sie erlaubten dann ihren Replikationsteams, die Papiere auszuwählen, von denen eine Replikation versucht werden sollte. Im Allgemeinen wurden die letzten Studien in Multi-Study-Berichten für Replikationsversuche ausgewählt. Darüber hinaus ist es aus dem in Science veröffentlichten Bericht nicht möglich zu wissen, wie die Replikationsteams das zu replizierende Papier ausgewählt haben. Es ist möglich, dass die Teams in übermäßigem Umfang Studien ausgewählt haben, die Studien berichten, von denen sie dachten, dass sie sich kaum wiederholen würden (es gibt keine Möglichkeit, die über 100 Koautoren dieser Replikationen zu übersehen, was ich nicht getan habe). Dies kann zumindest nicht ausgeschlossen werden.

Ungeachtet dessen kann, wenn keine bona-fide Zufallsauswahl von Studien über einen langen Zeitraum durchgeführt wird, auf der Grundlage dieses Papiers keine allgemeine Schlussfolgerung über die Reproduzierbarkeit von Sozialpsychologie gezogen werden. Zur Hölle, man kann nicht einmal zu klaren Schlussfolgerungen über die Reproduzierbarkeit von Sozialpsychologie gelangen, die 2008 aus dieser Arbeit veröffentlicht wurde.

Natürlich sind diese Einschränkungen nicht gleichbedeutend mit sozialer Sicherheit. Sie bedeuten nicht, dass die Studie definitiv Ergebnisse liefert, die für die Sozialpsychologie nicht repräsentativ sind. Es bedeutet sicherlich, dass viele Dinge veröffentlicht werden, die schwer zu replizieren sind.

Teil III: Replikation in der Sozialpsychologie ist schwierig, selbst wenn die Wirkung als wahr erkannt wird

Jon Krosnick ist Sozialpsychologe / Politologe an der Universität Stanford, der auch international als einer der führenden Survey-Forscher in den Sozialwissenschaften anerkannt ist. Er leitete einmal die American National Election Study, eine landesweit repräsentative Umfrage über politische Ansichten, die seit Jahrzehnten stattfindet, routinemäßig in den NYTimes erscheint und für seine Arbeit zahlreiche Auszeichnungen erhielt.

Vor ein paar Jahren sammelte er Umfragedaten von fast 10.000 Menschen. Eine Reihe von bekannten Umfrageeffekten wurde in dieser großen Stichprobe als statistisch signifikant identifiziert (z. B. Ordnungseffekte, Einwilligung usw.). Anschließend wurden Unterstichproben von etwa 500-1000 Personen untersucht, um die Häufigkeit zu bestimmen, mit der statistisch signifikante Unterstichproben die gleichen Wirkungen zeigen würden.

Trotz der Tatsache, dass die untersuchten Phänomene in der großen Stichprobe in der Regel signifikant waren, fanden die Teilstichproben nur in etwa der Hälfte der Fälle signifikante Beweise für die Wirkung (Analysen sind noch im Gange und die genaue Anzahl von Wiederholungen für jedes Phänomen unterliegt Änderungen). Selbst wenn die 50% -Replikationszahl nur für abschließende Analysen zur Verfügung steht, spricht dies für die Replikationsschwierigkeiten selbst bei großen Stichproben und sogar ohne fragwürdige Forschungspraktiken.

Das sind in gewisser Weise gute Nachrichten. Dies bedeutet, dass z. B. bei kleineren Stichprobenstudien nur 30% oder 40% der Zeit repliziert werden, was nicht unbedingt auf grassierende problematische Praktiken hinweist. Es kann einfach ein Beweis für die großen Auswirkungen der Stichprobenvariabilität und geringfügiger Änderungen im Kontext (z. B. in einem anderen Staat oder Land) oder Verfahren sein. Und es gibt noch mehr gute Nachrichten. Die vorläufigen Ergebnisse des Teams von Krosnick weisen zumindest bei ihren großen Stichproben darauf hin, dass sich 80% der Studien nicht signifikant voneinander unterschieden, unabhängig davon, ob sie signifikante Hinweise auf die Wirkung fanden oder nicht. Auch wenn die endgültige Tally 71% oder 93% oder 80% ist, ist dies ein relativ hohes Replikationsniveau.

Warum ist das wichtig? Es zeigt, wie die Variabilität der Sampling-Variabilität es schwierig machen kann, sogar einen echten Effekt zu erkennen. Es bedeutet auch, dass wir vielleicht unser Verständnis darüber überdenken müssen, wie oft ein Befund repliziert werden muss, damit er glaubwürdig ist und wie wir jemals einen glaubwürdigen Befund von einem unglaublichen Befund unterscheiden können. Viele Wissenschaftler arbeiten gerade an diesem Thema und haben ganz neue statistische Werkzeuge entwickelt, um herauszufinden, was glaubwürdig ist, was nicht ist (p-Kurven, Replikationsindizes, statistische Tests zur Identifizierung und Kontrolle von Publikationsverzerrungen usw.). Die meisten dieser Methoden sind jedoch so neu, dass es wahrscheinlich noch eine Weile dauern wird, bis wir wissen, welche am besten funktioniert.

Teil IV: Die Replizierbarkeit der Sozialpsychologie

Einige Bereiche der Sozialpsychologie sind ein Durcheinander, vor allem solche, die "Social Priming" beinhalten (siehe Referenzen für Links zur Artikeldiskussion über die verschiedenen Grundierungskrisen und die Versäumnisse bei der Replikation). Ich sage nicht, dass alle falsch sind, aber mit einigen wenigen Ausnahmen weiß ich nicht, welche sozialen Priming-Effekte glaubwürdig sind und welche nicht. Kognitive Grundierung ist kein Durcheinander. Es gibt seit langem ausgezeichnete und leicht reproduzierbare Arbeiten zum kognitiven Priming in der kognitiven Psychologie. Nachdem man sich dem Wort "schwarz" ausgesetzt hat, erkennt man schneller spätere Darstellungen des Wortes "schwarz" (im Vergleich zB zu anderen Wörtern wie "grün" oder "Blasphemie").

In meinem Labor, über 30 Jahre, habe ich jedes der folgenden Phänomene repliziert:

  • Stereotype beeinflussen die Art und Weise, wie Menschen ein Individuum beurteilen, wenn den Menschen zu diesem Individuum viele Informationen fehlen (andere als die stereotype Kategorie)
  • Menschen beurteilen Individuen aufgrund ihrer persönlichen Eigenschaften und kaum auf Stereotypen, wenn sie relevante Informationen über die persönlichen Eigenschaften dieser Person haben – z. B. ihre Persönlichkeit, Leistungen, Verhaltensweisen usw.
  • Moderate bis hohe Genauigkeit in vielen demographischen Stereotypen
  • Umfassende Ungenauigkeit bei nationalen Stereotypen, wenn sie anhand von Big-Five-Persönlichkeits-Selbstberichtskriterien bewertet werden
  • Lehrererwartungen erzeugen selbst erfüllende Prophezeiungen im Klassenzimmer – aber diese Effekte sind eher schwach, zerbrechlich und flüchtig (nur wenige andere Forscher würden sie auf diese Weise beschreiben, aber wenn man sich die tatsächlichen Ergebnisse anschaut, dann ist dies fast das, was fast jeder hat) tatsächlich gefunden).
  • Die Erwartungen der Lehrer sagen meist die Leistung der Schüler voraus, weil diese Erwartungen richtig und nicht selbsterfüllend sind.
  • Nichtsdestoweniger beeinflussen die Erwartungen der Lehrer auch ihre eigenen Beurteilungen der Schüler in einem bescheidenen Ausmaß.
  • Die Salienz der Sterblichkeit erhöht den Antisemitismus.
  • Selbstkonsistenz dominiert kognitive Reaktionen auf Leistungsrückmeldungen; Selbstverstärkung dominiert affektive Reaktionen auf Leistungsrückmeldungen
  • Der grundlegende Attributionsfehler
  • Selbstbedienungsvorlieben
  • Politisch motivierte Bestätigungsvorstellungen

Ich habe diese Phänomene nicht entdeckt. Meine Nachbildungen stellen also einen unabhängigen Beweis dafür dar, dass die Phänomene real sind. Keine davon war jedoch eine direkte Replikation. Im modernen Sprachgebrauch waren alle konzeptionelle Replikationen. In der Tat war mir diese Unterscheidung nicht in den Sinn gekommen, als ich diese Studien durchführte. Vor 25 Jahren (oder 15 oder sogar 5) redete niemand über direkte oder konzeptuelle Replikationen, und ich nahm einfach an, dass andere Forschungen ein Phänomen gefunden hatten, und ging darüber, ob ich es auch könnte, normalerweise in den Dienst einiger andere Forschungsanstrengungen (z. B. Rosenthal & Jacobson, 1968 zeigten experimentell induzierte selbsterfüllende Prophezeiungen; ich wollte sehen, ob Erwartungen, die Lehrer selbst entwickelten, ohne sich von Forschern in die Irre zu führen, auch selbsterfüllend waren – sie waren es). Ich habe oft die Phänomene anderer reproduziert (zuletzt haben wir eine erfolgreiche konzeptuelle Nachbildung von Jones '& Harris Pro / Anti-Castro Rede / Korrespondenz Bias-Studie durchgeführt, aber mit Sexualstereotypen, die Verhalten eher einschränken als Forscheranfragen). Nun, die meisten sind nicht die "heiß auffälligen Themen" der letzten 20 Jahre. Kein Priming, kein implizites Vorurteil, keine Machtpositionierung, keine stereotype Bedrohung. Viele, wenn auch nicht alle dieser Befunde werden von ziemlich großen Effektstärken begleitet (was einer der Prädiktoren für den Replikationserfolg in der OSC-Studie 2015 war).

Das ist nur in meinem Labor. Zählen nur Sachen, die ich von anderen Leuten kenne, die in mehr als einem unabhängigen Labor repliziert wurden:

  • Jon Haidts moralische Grundlagen wiederholen sich.
  • Ähnlichkeitsattraktion ist sehr mächtig.
  • Rechtsextreme gegen linke Gruppen und linke Vorurteile gegen rechtsgerichtete Gruppen wiederholen sich immer wieder.
  • Übertreibung politischer Stereotypen repliziert.
  • Vorurteil (Abneigung / Sympathie für eine Gruppe) sagt gewöhnlich alle Arten von Vorurteilen stärker voraus als Stereotypen (Überzeugungen über Gruppen).
  • Oberhalb der Zufallsgenauigkeit wird die Wahrnehmung in Person anhand von dünnen Verhaltensschichten repliziert.
  • Kahneman & Tversky-ähnliche Heuristiken replizieren sich meist.
  • Ingroup-Verzerrungen replizieren die meiste Zeit.
  • Selbstversorgende Selbsteinschätzungen von Kompetenz, Moral und Gesundheit wiederholen sich.
  • In der Personenwahrnehmung suchen Menschen diagnostische Informationen mehr als bestätigende Informationen in fast jeder Studie, die Menschen die Möglichkeit gegeben hat, diagnostische Informationen zu suchen.

So lange man über technische Ergebnisse spricht, als weit verbreitete Überinterpretationen solcher Ergebnisse:

  • rassistische IAT-Werte, die größer als Null sind, werden weitgehend repliziert.
  • Konservative punkten routinemäßig häufiger bei Starrheit und Dogmatismus als Liberale
  • Rasse / Ethnizität und Klassenunterschiede in der akademischen Leistung sind reichlich vorhanden.

Ich bin mir sicher, dass es viele mehr gibt, die ich nicht aufgelistet habe.

Viele Befunde sind einfach zu replizieren.

Auf der anderen Seite ist dies auch keine zufällige Stichprobe von Themen. Es wäre nicht gerechtfertigt, aus meiner persönlichen Erfahrung oder dieser Kopf-an-Kopf-Liste zu schließen, dass soziale Psychotherapie in Ordnung ist, vielen Dank. Und die Probleme gehen weit über die Replikation hinaus, aber das ist ein Schreiben für einen anderen Tag.

Wie werden wir herausfinden, was aus dem riesigen Lagerhaus von fast einem Jahrhundert sozialpsychologischer Forschung tatsächlich gültig und glaubwürdig ist? Wie können wir dramatische, weltverändernde Ergebnisse unterscheiden, die nur Hype, grandioses Geschichtenerzählen, geplagte Ergebnisse, Wunschdenken und letztendlich Schlangenöl sind, von dramatischen, weltverändernden Resultaten, auf die wir wirklich unseren Hut hängen und ausgehen können die Welt verändern mit? Niemand weiß es wirklich noch, und jeder, der behauptet, es zu tun, ohne seine Behauptungen skeptischen Tests wie Pcurves, Replikationsindizes und vorregistrierten Replikationsversuchen unterzogen zu haben, verkauft nur neu verpacktes Schlangenöl.

Für mich gibt es eine einzige, entscheidende Zutat, um das herauszufinden: Vielfalt der Standpunkte und tiefe Skepsis gegenüber den Behauptungen des jeweils anderen. Wenn die Antworten nicht geklärt sind – und vieles in unserer Wissenschaft ist derzeit nicht geklärt -, sind Vielfalt und Skepsis wichtige Werkzeuge, um die Wahrheit aus dem Hype herauszuholen, das Signal aus dem Lärm, echte, die Welt verändernde Ergebnisse aus Schlangenöl.

Gruppendenken und Respekt gegenüber wissenschaftlichen "Autoritäten" und wiederholte "wissenschaftliche" Geschichten, die auf empirischen Füßen von unklarer Festigkeit beruhen, sind eine signifikante Bedrohung für die Gültigkeit der Sozialpsychologie. Eine große Dosis von Demut und Ungewissheit, zumindest in Bezug auf unsere Behauptungen über die Sozialpsychologie, scheinen in Ordnung zu sein. In diesem Sinne ist es wahrscheinlich am besten, extreme Ansprüche zu vermeiden, einschließlich "die meisten sozialpsychologischen Befunde sind falsch", wenn wir nicht wissen, dass sie eine extrem starke Grundlage wissenschaftlicher Unterstützung haben.

Wer wusste, dass Mark Twain ein Wissenschaftler war? "Es ist nicht das, was du nicht weißt, das dich in Schwierigkeiten bringt. Es ist sicher, dass Sie genau wissen, dass es nicht so ist. "

Verweise

Jones, EE & Harris, VA (1967). Die Zuschreibung von Einstellungen. Zeitschrift für experimentelle Sozialpsychologie, 3, 1-24.

Krosnick, JA Replikation. Vortrag beim Treffen der Gesellschaft für Persönlichkeits- und Sozialpsychologie 2015.

Loeb, A. (2014). Vorteile der Vielfalt. Natur: Physik, 10, 616-617.

Offene wissenschaftliche Zusammenarbeit (2015). Schätzung der Reproduzierbarkeit der psychologischen Wissenschaft. Wissenschaft, 349, aac4716. doi: 10.1126 / science.aac4716

Rosenthal, R., und Jacobson, L. (1968a). Pygmalion im Klassenzimmer: Erwartungen der Lehrer und intellektuelle Entwicklung der Schüler. New York: Holt, Rinehart und Winston.

Einfacher Zugriff auf Online-Ressourcen für problematisches Priming und andere schwierig zu replizierende Studien

Kürzliche Grundierungsfehler

Gültige und ungültige Grundierungseffekte

Eine frühe fehlgeschlagene Priming-Replikation

Einhörner der Sozialpsychologie

Sozialpsychologische Einhörner: Fehlgeschlagene Replikationen zerstreuen wissenschaftliche Mythen>

Ist Power-Posing nur Hype?