Zähle die Treffer; Nicht die Misses

An verschiedenen Stellen in unserem Leben haben wir alle Anekdoten darüber gelesen oder erzählt bekommen, wie jemand ein Stück seines Lebens umgab. Einige davon (oder zumindest Variationen davon) kommen mir bekannt vor: "Ich habe Brot aus meiner Diät geschnitten und fühlte mich plötzlich viel besser"; "Amy machte ein Vermögen, indem sie von zu Hause aus Diätpillen online verkaufte"; "Nachdem die Ärzte nicht herausfinden konnten, was mit mir los war, fing ich an, diesen Tee zu trinken und meine Infektion löste sich plötzlich auf". Der ganze Sinn solcher Geschichten ist es, eine lockere Verbindung herzustellen, in diesen Fällen: (1) Brot essen macht krank, (2) Diätpillen zu verkaufen ist ein guter Weg, um Geld zu verdienen, und (3) Tee ist nützlich zur Bekämpfung von Infektionen. Einige oder alle dieser Aussagen mögen wahr sein, aber das wirkliche Problem mit diesen Geschichten ist der Mangel an Daten, auf denen sie basieren. Wenn Sie mehr über diese Aussagen wissen wollten, möchten Sie mehr Informationen. Sicher; Sie hätten sich vielleicht besser gefühlt, nachdem Sie diesen Tee getrunken hatten, aber was ist mit den anderen 10 Leuten, die ähnlichen Tee tranken und keine Ergebnisse sahen? Wie wäre es mit all den anderen Menschen, die Diätpillen verkauften, die vom ersten Tag an in der finanziellen Lücke waren und nie wieder herauskamen, weil es tatsächlich ein Betrug ist? Wenn Sie dem Wahrheitswert dieser Anweisungen näher kommen möchten, müssen Sie die Daten als Ganzes betrachten. beide Erfolgsgeschichten und Geschichten des Scheiterns. Geschichten von jemandem, der durch den Verkauf von Diätpillen nicht reich wird, sind jedoch nicht ganz so bewegend und sehen daher nicht das Licht der Welt; zumindest nicht anfangs. Diese Facette von Anekdoten wurde vor einigen Jahren von The Onion beleuchtet (und Clickhole hatte kürzlich eine eigene Aufnahme).

Flickr/Lloyd Morgan
"Zuerst hat er versagt, aber mit einigem positivem Nachdenken hat er immer wieder versagt"
Quelle: Flickr / Lloyd Morgan

Diese Anekdoten versuchen oft, erfolgreiche Fälle (Treffer) ins Rampenlicht zu stellen, während sie die nicht erfolgreichen (Miss) ignorieren, was zu einem einseitigen Bild davon führt, wie die Dinge funktionieren werden. Sie bringen uns nicht viel näher an die Wahrheit. Die meisten Leute, die Psychologie-Forschung erstellen und konsumieren, würden gerne denken, dass Psychologen über diese Art von Anekdoten hinausgehen und nützliche Einsichten in die Funktionsweise des Geistes generieren, aber es gab in letzter Zeit viele Bedenken, wie weit sie im Durchschnitt weiter gehen, vor allem aufgrund der Ergebnisse des Projekts zur Reproduzierbarkeit. Es gab zahlreiche Fragen über die Art und Weise, wie psychologische Forschung betrieben wird: Entweder in Form von Interessenvertretung für bestimmte politische und soziale Positionen (die experimentelle Designs und statistische Interpretationen verzerrt) oder durch selektive Methoden, auf die Daten manipuliert oder berichtet werden erfolgreiche Daten, ohne fehlgeschlagene Vorhersagen zu bestätigen. Das Ergebnis ist eine ganze Reihe von falsch positiven und übertriebenen echten, die in der Literatur auftauchen.

Während diese Bedenken gerechtfertigt sind, ist es schwierig, das Ausmaß der Probleme zu quantifizieren. Schließlich werden nur sehr wenige Forscher herauskommen und sagen, dass sie ihre Experimente oder Daten manipuliert haben, um die gewünschten Ergebnisse zu finden, weil (a) sie nur ihre Karriere schädigen würden und (b) ihnen das in manchen Fällen gar nicht bewusst ist Sie tun es, oder das, was sie tun, ist falsch. Da die meisten psychologischen Forschungen nicht vorregistriert sind und keine Nullbefunde veröffentlicht werden, wird das Herausfinden, was die Forscher zu finden hofften (aber nicht taten), nur durch das Lesen der Literatur zu einem schwierigen Unterfangen. Glücklicherweise bringt ein neues Papier von Franco et al (2016) einige Daten darüber, wie viel Unterreporting vor sich geht. Auch wenn diese Daten (vor allem aufgrund ihrer geringen Stichprobengröße) keineswegs das letzte Wort zu diesem Thema sein werden, bieten sie doch einige der ersten Schritte in die richtige Richtung.

Franco et al (2016) berichten über eine Gruppe von psychologischen Experimenten, deren Fragebögen und Daten öffentlich zugänglich gemacht wurden. Diese stammen insbesondere aus den Time-Sharing-Experimenten für die Sozialwissenschaften (TESS), einem NSF-Programm, in dem Online-Experimente in national repräsentative Bevölkerungsumfragen eingebettet sind. Den Forschern, die TESS nutzen, sind die Grenzen der Fragen, die sie stellen können, streng begrenzt. Das heißt, wir sollten erwarten, dass sie ihre Fragen auf die theoretisch sinnvollsten Fragen beschränken. Mit anderen Worten, wir können ziemlich sicher sein, dass die Forscher einige spezifische Vorhersagen hatten, die sie für jede experimentelle Bedingung und Ergebnismaßnahme zu testen hofften, und dass diese Vorhersagen im Voraus getroffen wurden, um die Daten tatsächlich zu erhalten. Franco et al (2016) konnten dann die TESS-Studien bis zu den eventuellen veröffentlichten Versionen der Papiere verfolgen, um zu sehen, welche experimentellen Manipulationen und Ergebnisse berichtet wurden und welche nicht. Dies stellte den Autoren eine Reihe von 32 halb-vorregistrierten psychologischen Experimenten zur Verfügung, um auf Voreingenommenheit zu reagieren.

Flickr/Pat Kight
Eine kleine Probe werde ich rücksichtslos auf die gesamte psychologische Forschung verallgemeinern
Quelle: Flickr / Pat Kight

Der erste Schritt bestand darin, die Anzahl der experimentellen Bedingungen und Ergebnisvariablen, die in den TESS-Studien vorhanden waren, mit der Anzahl zu vergleichen, die letztlich in veröffentlichten Manuskripten auftauchte (dh berichten die Autoren, was sie getan haben und was sie gemessen haben?). Insgesamt haben 41% der TESS-Studien mindestens eine ihrer Versuchsbedingungen nicht gemeldet; während in den Studien durchschnittlich 2,5 Versuchsbedingungen herrschten, wurde in den veröffentlichten Arbeiten nur ein Durchschnittswert von 1,8 angegeben. Darüber hinaus haben 72% der Papiere nicht alle ihre Ergebnisvariablen gemeldet; während in den Fragebögen durchschnittlich 15,4 Ergebnisvariablen vorkamen, wurden in den veröffentlichten Berichten nur 10,4 erwähnt. Zusammengenommen gab nur etwa 1 von 4 der Experimente an, was sie getan und was sie gemessen hatten. Es überrascht nicht, dass sich dieses Muster auch auf die Größe der berichteten Effekte ausgeweitet hat. In Bezug auf die statistische Signifikanz war der mittlere berichtete p-Wert signifikant (0,02), während der mittlere nicht berichtete p-Wert nicht (0,32) war; zwei Drittel der gemeldeten Tests waren signifikant, während nur ein Viertel der nicht gemeldeten Tests durchgeführt wurde. Schließlich waren die veröffentlichten Effektgrößen ungefähr doppelt so groß wie die nicht veröffentlichten.

Zusammenfassend lässt sich sagen, dass die Psychologieforschung gescheiterte experimentelle Manipulationen, nicht ausgereifte Maßnahmen und kleinere Effekte tendenziell unterschätzt. Das sollte für niemanden überraschen, der viel Zeit mit Psychologieforschern oder Forschern verbracht hat, die versucht haben, Null-Ergebnisse zu veröffentlichen (oder tatsächlich versucht haben, fast alles zu veröffentlichen). Daten sind oft unordentlich und unkooperativ, und die Menschen sind weniger daran interessiert, über die Dinge zu lesen, die nicht funktionieren (es sei denn, sie werden in den richtigen Kontext gestellt, wo Fehler gefunden werden können, z. versuchen, Beweise gegen eine Theorie zu liefern). Nichtsdestoweniger ist das Ergebnis einer solchen selektiven Berichterstattung über etwas, das wie eine ziemlich große Skala aussieht, dass die allgemeine Vertrauenswürdigkeit der gemeldeten psychologischen Forschung immer geringer wird, jeweils eine falsch positive.

Was kann also gegen dieses Problem getan werden? Ein Vorschlag, der häufig umgangen wird, ist die Aussicht, dass Forscher ihre Arbeit im Voraus registrieren sollten, um klar zu machen, welche Analysen sie durchführen werden und welche Vorhersagen sie gemacht haben. Dies war in den vorliegenden Daten (so) der Fall, und Franco et al (2016) unterstützen diese Option. Es erlaubt den Menschen, Forschung als Ganzes zu bewerten, statt sich nur auf die veröffentlichten Berichte zu verlassen. Das ist zwar ein guter Vorschlag, aber es geht nur so weit, den Stand der Literatur zu verbessern. Insbesondere hilft es nicht wirklich dem Problem, dass Zeitschriften keine Null-Ergebnisse veröffentlichen, und es den Forschern auch nicht verbietet, Post-hoc-Analysen ihrer Daten durchzuführen und zusätzliche False-Positives zu erzeugen. Was vielleicht am ehrgeizigsten ist, diese Probleme zu lindern, wäre die kollektive Veränderung der Art und Weise, wie Zeitschriften Publikationen zur Veröffentlichung akzeptieren. In diesem alternativen System würden die Forscher vor der Durchführung der Forschung einen Überblick über ihren Artikel in einem Journal einreichen, wobei sie (a) klarstellen, was ihre Manipulationen sein werden, (b) was ihre Ergebnismaße sein werden und (c) welche statistischen Analysen sie werden sich verpflichten. Dann, und das ist wichtig, bevor entweder der Forscher oder die Zeitschriften wissen, was die Ergebnisse sein werden , wird die Entscheidung getroffen, das Papier zu veröffentlichen oder nicht. Dies würde es ermöglichen, dass Null-Ergebnisse in Mainstream-Zeitschriften Einzug halten, während die Forscher ihre eigenen Lebensläufe erstellen können, wenn die Dinge nicht gut laufen. Im Wesentlichen beseitigt es einige Anreize für Forscher, statistisch zu betrügen. Die Bewertung der Zeitschriften wird dann nicht darauf basieren, ob interessante Ergebnisse entstanden sind, sondern darauf, ob eine ausreichend wichtige Forschungsfrage gestellt wurde.

Flickr/Scott
Was gut ist, wenn man bedenkt, wie oft echte, starke Ergebnisse auftauchen
Quelle: Flickr / Scott

Es gibt jedoch einige Nachteile dieses Vorschlags. Zum einen würde der Plan einige Zeit in Anspruch nehmen, selbst wenn alle an Bord wären. Journale müssten ein Papier für die Veröffentlichung Wochen oder Monate im Voraus der eigentlichen Papierausgabe akzeptieren. Dies würde einige zusätzliche Komplikationen für die Zeitschriften bedeuten, da die Forscher gelegentlich die Forschung überhaupt nicht oder nicht vollständig abschließen können, was mögliche Veröffentlichungslücken birgt. Außerdem wird es manchmal bedeuten, dass eine Ausgabe einer Zeitschrift ohne größere Fortschritte auf dem Gebiet der psychologischen Forschung ausgeht (diesmal fand niemand etwas), was sich negativ auf den Impact-Faktor der betreffenden Zeitschriften auswirken könnte. In der Tat ist dieser letzte Teil wahrscheinlich das größte Hindernis, um das derzeit bestehende Publikationssystem grundlegend zu überarbeiten: Die meisten psychologischen Forschungen werden wahrscheinlich nicht so gut funktionieren, und das wird wahrscheinlich bedeuten, dass weniger Menschen letztendlich am Lesen und Zitieren interessiert sind es. Obwohl es möglich ist, dass Null-Ergebnisse tatsächlich mit ähnlichen Raten wie positive zitiert werden, bleibt abzuwarten, und in Ermangelung dieser Information sehe ich keine Zeitschriften vor, die schrecklich daran interessiert sind, ihre Politik zu ändern und zu übernehmen dieses Risiko.

Referenzen: Franco, A., Malhotra, N. & Simonovits, G. (2016). Unterreporting in psychologischen Experimenten: Nachweis aus einem Studienregister. Sozialpsychologische & Persönlichkeitsforschung, 7 , 8-12.