Ich finde deinen Mangel an Theorie (und Replikationen) störend

Nehmen wir an, Sie sind verantwortlich für eine Gruppe von Kindern. Da Sie ein relativ durchschnittlicher Psychologe sind, haben Sie eine relativ seltsame Hypothese, die Sie testen möchten: Sie wollen sehen, ob das Tragen eines roten Hemdes Kinder am Völkerball besser machen wird. Du denkst zufällig, dass es so sein wird. Ich sage, dass diese Hypothese seltsam ist, weil Sie sie im Grunde nichts abgeleitet haben; es ist nur eine Ahnung. Wenig mehr als eine "wäre es nicht cool, wenn es wahr wäre?" Idee. In jedem Fall wollen Sie einen Test Ihrer Hypothese durchführen. Sie beginnen damit, die Schüler auszurichten, dann gehen Sie an ihnen vorbei und zählen laut: "1, 2, 1, 2, 1 …". Alle Kinder mit einer "1" gehen ein rotes Hemd an und sind zusammen in einem Team; alle Kinder mit einer "2" gehen und suchen sich ein neues Hemd aus, das sie aus einem Stapel nicht roter Hemden anziehen. Sie dienen als Ihre Kontrollgruppe. Die beiden Mannschaften spielen sich dann in einer Runde Völkerball. Das Team, das die roten Hemden trägt, kommt als Sieger hervor. In der Tat gewinnen sie mit einem erheblichen Vorsprung. Das muss bedeuten, dass das Tragen der roten Hemden die Schüler am Völkerball besser gemacht hat, oder? Nun, da Sie ein relativ durchschnittlicher Psychologe sind, würden Sie wahrscheinlich zu dem Schluss kommen, dass die Rothemden eindeutig eine gewisse Wirkung haben. Sicher, Ihre Schlussfolgerung ist zumindest voreilig und wahrscheinlich falsch, aber Sie sind nur ein durchschnittlicher Psychologe: Wir können die Messlatte nicht zu hoch setzen.

"Sprung war erfolgreich (p <0,05)"

Eine kritische Bewertung der Forschung könnte feststellen, dass, nur weil die Kinder nach dem Zufallsprinzip Gruppen zugeteilt wurden, dies nicht bedeutet, dass beide Gruppen gleich anfangs gleich sind. Wenn die Kinder in der Rothemdengruppe vorher noch besser wären, könnte das den Effekt antreiben. Es ist auch wahrscheinlich, dass die Rothemden sehr wenig damit zu tun hatten, welches Team am Ende gewonnen hat. Die drängende Frage hier scheint zu sein, warum sollten wir erwarten, dass rote Hemden etwas bewirken? Es ist nicht so, als ob ein rotes Hemd ein Kind schneller, stärker oder besser fangen oder werfen könnte als vorher; jedenfalls nicht aus irgendeinem theoretischen Grund. Auch diese Hypothese ist seltsam, wenn man ihre Grundlage betrachtet. Nehmen wir an, dass das Tragen von roten Hemden die Kinder tatsächlich leistungsfähiger gemacht hat, weil es Kindern geholfen hat, sich auf ein bereits vorhandenes Können einzustellen. Dies wirft die naheliegende Frage auf: Warum brauchen Kinder ein rotes Hemd, um diese bisher ungenutzte Ressource anzuzapfen? Wenn es sozial wichtig ist, gut im Spiel zu sein – schließlich willst du nicht von den anderen Kindern wegen deiner schlechten Leistung gehänselt werden – und Kinder könnten es besser machen, es scheint, na ja, komisch, dass sie es jemals schlimmer machen würden. Man müsste eine Art von Trade-Off setzen, der durch die Farbe des Shirts beeinflusst wird, was sich als eine Art seltsame Variable für einen bestimmten kognitiven Mechanismus herausstellt.

Dennoch veröffentlichen Sie Ihre Ergebnisse wie jeder Psychologe, der in der Lage ist, ihre akademische Karriere voranzutreiben, im Journal of Inuncplicable Findings. Der "Red Shirt Effect" wird so etwas wie ein Klassiker, berichtet in Intro to Psychology Lehrbüchern. Veröffentlichte Berichte tauchen von verschiedenen Leuten auf, die andere Kinder trugen rote Hemden und führen verschiedene Aufgaben athletische Aufgabe relativ besser aus. Während keines dieser Papiere direkte Replikate Ihrer anfänglichen Studie sind, haben sie auch Kinder, die rote Hemden tragen, die ihre Gleichen übertreffen, also werden sie "begriffliche Replikationen" beschriftet. Denn da die Konzepte in Ordnung zu sein scheinen, greifen sie wahrscheinlich auf denselben zugrunde liegenden Mechanismus zurück. Natürlich befassen sich diese Replikationen immer noch nicht mit den zuvor diskutierten theoretischen Bedenken, so dass einige andere Forscher etwas misstrauisch werden, ob der "Red Shirt Effect" alles ist, was er ist. Ein Teil dieser Bedenken beruht auf einer seltsamen Facette der Funktionsweise von Publikationen: Positive Ergebnisse – diejenigen, die Wirkungen finden – werden tendenziell eher für Veröffentlichungen über Studien bevorzugt, die keine Wirkung zeigen. Dies bedeutet, dass es durchaus andere Forscher geben könnte, die versuchten, den Red Shirt Effect zu nutzen, nichts gefunden haben und aufgrund ihrer null oder widersprüchlichen Ergebnisse auch nichts veröffentlicht haben.

Schließlich erreicht Sie die Nachricht eines Forschungsteams, das versuchte, den Red Shirt Effect ein Dutzend Mal in derselben Zeitung zu wiederholen und nichts zu finden. Noch beunruhigender noch, für Ihre akademische Karriere, jedenfalls, ihre Ergebnisse sahen Veröffentlichung. Natürlich fühlst du dich dadurch ziemlich verärgert. Offensichtlich hat das Forschungsteam etwas falsch gemacht: Vielleicht haben sie nicht den richtigen Farbton des roten Hemdes verwendet; Vielleicht benutzten sie eine andere Marke von Dodge-Bällen in ihrem Studium; vielleicht verhielten sich die Experimentatoren auf eine subtile Art und Weise, die ausreichte, um dem Red Shirt Effect gänzlich entgegenzuwirken. Andererseits, vielleicht hat die Zeitschrift, in der die Ergebnisse veröffentlicht wurden, nicht genügend gute Standards für ihre Rezensenten. Etwas muss hier falsch sein; Das wissen Sie auch, weil Ihr Red Shirt Effect konzeptuell viele Male von anderen Labors repliziert wurde. Der Red Shirt Effect muss einfach da sein; Du hast die Treffer in der Literatur getreu gezählt. Natürlich haben Sie auch die Fehlschläge nicht gezählt, die nie veröffentlicht wurden. Außerdem haben Sie die leicht veränderten Treffer als "konzeptuelle Replikate, aber nicht die leicht veränderten Fehlschläge als" konzeptuelle Diskonfirmationen "gezählt. Es ist Ihnen immer noch nicht gelungen, theoretisch zu erklären, warum wir den Red-Shirt-Effekt sowieso erwarten sollten. Aber warum sollte dir das etwas ausmachen? Ein Teil Ihres Ansehens steht auf dem Spiel.

Und diese Farben laufen nicht! (p <0,05)

In etwas verwandten Nachrichten gab es einige salzige Kommentare vom Sozialpsychologen Ap Dijksterhuis, die auf eine kürzlich durchgeführte Studie (und die Berichterstattung über die Studie und die Zeitschrift, in der sie veröffentlicht wurde) gerichtet waren. ebenso wie die Arbeit anderer über das Aufspüren von Intelligenz (Shanks et al, 2013). Die anfängliche Idee der Intelligenz-Priming war anscheinend, dass Priming-Themen mit professorbezogenen Hinweisen sie besser bei der Beantwortung von Multiple-Choice- und Allgemeinwissen-Fragen machten, während Priming-Themen mit Fußball-Hooligan-bezogenen Hinweisen sie schlechter abschnitten (und nein; Es macht keinen Spaß. Es war wirklich so komisch. Intelligenz selbst ist ein ziemlich unscharfes Konzept, und es scheint, dass es ein schlechter Weg ist, Menschen dazu zu bringen, bei Multiple-Choice-Fragen besser zu denken, wenn man Leute dazu bringt, über Professoren nachzudenken – Menschen, die typischerweise in einigen Bereichen dieses unscharfen Konzepts höher eingestuft werden. Soweit ich das beurteilen kann, gab es keine Theorie darüber, warum Primzahlen so funktionieren sollten oder, genauer gesagt, warum Menschen keinen Zugang zu solchem ​​Wissen haben sollten, wenn sie keine vage, nicht verwandte Primzahl haben. Zumindest wurde keiner diskutiert.

Es war nicht nur so, dass die von Shanks et al. (2013) berichteten Versäumnisse nicht signifikant waren, sondern in die richtige Richtung, wohlgemerkt. sie schienen oft in die falsche Richtung zu gehen. Shanks et al (2013) haben sogar explizit Nachfragemerkmale gesucht, konnten sie aber auch nicht finden. Neun aufeinander folgende Misserfolge sind überraschend angesichts der Tatsache, dass die Intelligenz-Priming-Effekte zuvor als ziemlich groß gemeldet wurden. Es scheint ziemlich eigenartig, dass große Effekte so schnell verschwinden können; Sie hätten sehr gute Chancen gehabt, sich zu replizieren, wenn sie real wären. Shanks et al (2013) weisen zu Recht darauf hin, dass viele der bestätigenden Studien zur Intelligenz-Priming dann Publikationsbias, Forscherfreiheitsgrade bei der Datenanalyse oder beides darstellen könnten. Glücklicherweise erinnerten die salzigen Kommentare von Ap die Leser, dass "die Erkenntnis, dass man Intelligenz gewinnen kann, in 25 Studien in 10 verschiedenen Labors erhalten wurde". Sicher; und wenn ein Batter in der MLB nur die Zeiten zählt, in denen er den Ball während des Schlägers getroffen hat, würde sein Schlagdurchschnitt 1.000 schwanken. Zählen nur die Treffer und nicht die Fehlschläge, wird es sicher so aussehen, als seien Hits üblich, egal wie selten sie sind. Vielleicht sollte Ap mehr über Professoren nachgedacht haben, bevor er seine Kommentare schrieb (obwohl mir gesagt wird, dass Primzahlen sie auch ruinieren, also hat er vielleicht kein Glück).

Ich möchte hinzufügen, dass es ähnliche, salzige Kommentare gab, die von einem anderen Sozialpsychologen, John Bargh, geübt wurden, als seine Arbeit über das Vorbereiten alter Stereotype auf Schrittgeschwindigkeit sich nicht wiederholte (obwohl John seitdem seine Beiträge gelöscht hat). Die beiden Fälle weisen einige markante Ähnlichkeiten auf: Behauptungen anderer "konzeptueller Replikationen", aber keine Behauptungen von "konzeptuellen Fehlschlägen zur Replikation"; persönliche Angriffe auf die Glaubwürdigkeit der Veröffentlichung der Ergebnisse; persönliche Angriffe auf die Forscher, die den Fund nicht wiederholen konnten; sogar persönliche Angriffe auf die Leute, die über die Wiederholungsversuche berichten. Interessanterweise schlug John auch vor, dass der Priming-Effekt anscheinend so zerbrechlich war, dass selbst geringfügige Abweichungen vom ursprünglichen Experiment das Ganze in Unordnung bringen konnten. Nun scheint es mir, dass, wenn Ihr "Effekt" so flüchtig ist, dass selbst geringfügige Änderungen am Forschungsprotokoll ihn vollständig aufheben können, Sie wirklich nicht viel mit der Bedeutung des Effekts zu tun haben, selbst wenn es real wäre . Das ist genau die Art, sich in den Fuß zu schießen, die eine "klügere" Person vielleicht in Betracht gezogen hätte, ihren sonst so überzeugenden Wutanfall zu vernachlässigen.

"Ich habe den Fehler gut repliziert (p <0,05)"

Ich füge der Vollständigkeit halber auch noch hinzu, dass die Priming-Effekte von Stereotype Threat sich ebenfalls nicht gut reproduziert haben. Oh, und die Auswirkungen des depressiven Realismus sind nicht sehr vielversprechend. Dies bringt mich zu meinem letzten Punkt: Angesichts der Risiken, die Forschungsfreiheitsgrade und Publikationsverzerrungen mit sich bringen, wäre es klug, bessere Schutzvorkehrungen gegen diese Art von Problemen zu treffen. Replikationen gehen jedoch nur so weit. Replizierungen erfordern Forscher, die bereit sind, sie zu tun (und sie können belohnungsarme, entmutigende Aktivitäten sein) und Journale, die bereit sind, sie mit ausreichender Häufigkeit zu veröffentlichen (was viele derzeit nicht tun). Dementsprechend glaube ich, dass Wiederholungen uns nur so weit bringen können, das Problem zu beheben. Ein einfaches – wenn auch nur partielles – Heilmittel für das Problem ist, so denke ich, die Einbeziehung der tatsächlichen Theorie in die psychologische Forschung; insbesondere die Evolutionstheorie. Es verhindert zwar nicht, dass falsche Positive veröffentlicht werden, aber es erlaubt zumindest anderen Forschern und Gutachtern, die Behauptungen in den Papieren genauer zu bewerten. Dadurch können schlechte Annahmen besser aussortiert und bessere Forschungsprojekte in Angriff genommen werden, um sie direkt anzusprechen. Außerdem ist das Aktualisieren der alten Theorie und das Bereitstellen von neuem Material ein persönlich wertvolles Unternehmen. Ohne Theorie ist alles, was Sie haben, ein Sammelsurium an Befunden, einige positive, einige negative und keine Ahnung, was Sie mit ihnen machen sollen oder wie sie zu verstehen sind. Ohne Theorie klingen Dinge wie Intelligenz-Priming – oder Red Shirt Effects – stichhaltig.

Referenzen : Shanks, D., Newell, B., Lee, E., Balakrishnan, D., Ekelund, L., Cenac, Z., Kavvadia, F., und Moore, C. (2013). Grundlegendes intelligentes Verhalten: ein schwer fassbares Phänomen PLoS ONE, 8 (4) DOI: 10.1371 / journal.pone.0056515

Copyright Jesse Marczyk