Angst vor falschen positiven Ergebnissen

Ich bin der einzige Gott, der die Schlüssel / zur Waffenkammer kennt, wo der Blitz versiegelt ist. / Keine Notwendigkeit dafür, nicht hier. / Lass mich dich überzeugen. ~ Aischylos: Die Eumeniden [1]

In einem viel in Umlauf gebrachten Papier, das in der Natur erscheint, fordern Benjamin und 71 Co-Autoren, dass Signifikanzniveaus von der gegenwärtigen Konvention von p <.05 bis .005 verschärft werden. Das Argument ist, dass die veröffentlichte Aufzeichnung der psychologischen Wissenschaft zu viele falsche positive Ergebnisse enthält, die uns dazu führen, an Dinge zu glauben, die nicht so sind, wie das Sasquatch oder das soziale Priming. Eine Verringerung der Signifikanzschwelle würde die Häufigkeit falsch positiver Ergebnisse verringern. Gleichzeitig würden die neuen Übereinkommen, falls sie angenommen würden, helfen, die Replikationskrise zu beheben. Oder würde es? Wenn es schwierig ist, einen .05-Befund bei einem gegebenen Grad an statistischer Stärke zu replizieren, wird es schwierig sein, einen 0,005-Befund bei demselben Leistungspegel zu replizieren. Denken Sie daran, dass statistische Macht die Wahrscheinlichkeit ist, mit einer gegebenen Wahrscheinlichkeit [konventionell] [8] eine Signifikanz zu finden, wenn das ursprüngliche Ergebnis real ist, dh wenn es ein wahres und kein falsch positives ist. Um ihren Vorschlag für die Replikationskrise positiv relevant zu machen, schlagen die Autoren vor, eine niedrigere Signifikanzschwelle nur für neue Hypothesentests anzuwenden. Mit anderen Worten, sie verlangen, dass wir nur bei p <.005 eine neue Forschungsarbeit melden, während wir sie mit p <.05 replizieren dürfen. [Dieser Vorschlag wirft die Frage auf, wie wir wissen, was ein neuer Test ist.]

Dieser Schraubenanpassungsvorschlag ist interessant, aber er kokettiert mit Inkohärenz. Erinnere dich an das alte Sprichwort, dass Gott p = .055 nicht weniger (oder nicht viel weniger) liebt als sie p = .045 liebt (und Professor Gelmans Beweis dafür). Nun ist es Gott auch gleichgültig, welche Studie zuerst durchgeführt wurde und welche als neuartiger Hypothesentest betrachtet wird und welche später durchgeführt wurde. Die Reihenfolge dieser Studien ist theoretisch und statistisch irrelevant (Krueger, 2001). Wenn wir erste und zweite Studien nach verschiedenen statistischen Standards durchführen wollen, können wir das Argument ebenso umkehren. Lassen Sie uns frühe Hypothesentests leicht machen, denn sie wissen noch nicht, was sie sind. Frühe Tests sind explorativ, nicht konfirmatorisch (Sakaluk, 2016). Frühe Tests sind die Art der Nahrungssuche des Wissenschaftlers. Der Wissenschaftler versteht, dass einfache frühe Tests viele Hinweise liefern, die sich später als Sackgassen herausstellen, aber er und sie verstehen auch, dass solche Tests viele Erkenntnisse ergeben, die später als wahre Entdeckungen gezählt werden.

Benjaminet al. kenne die Risiken von falsch negativen Fehlern, aber sie scheinen nicht sehr besorgt zu sein. Dieser Mangel an Besorgnis ist extra-statistisch. Es ist ein Werturteil. Wenn sie glauben, dass die Greuel von Falsch-Positiven größer sind als die Schrecken von Falsch-Negativen, müssen sie eine strengere p-Schwelle befürworten. Weil sie sich für eine strengere p-Schwelle aussprechen, können wir umgekehrt folgern, dass sie falsch-positive Werte verabscheuen (Krueger, 2017). Aber wie einige von uns argumentiert haben, müssen wir überlegen, welche Richtung die Wissenschaft nehmen wird, wenn sie Änderungen in der konventionellen Praxis in Erwägung zieht (Fiedler, Kutzner, & Krueger, 2012). Es gibt jedoch statistische Überlegungen, dass wir die Rate schätzen können, mit der sich falsche Positive und falsche Negative mit Änderungen der p-Schwelle ändern. In Simulationsexperimenten stellen wir fest, dass die Verringerung der p-Schwelle die allgemeine Validität von induktiven Inferenzen verringert (Krueger & Heck, 2017). Dies liegt daran, dass der Anteil von Misses stärker steigt als der Anteil von False Positive. Wenn man darauf besteht, die Signifikanzschwelle angesichts dieser Ergebnisse zu senken, bedeutet dies, dass ein Falschpositiv stärker als ein Nutzen gegenüber einem echten Positiv beeinträchtigt wird.

Und warum .005 und nicht .01 oder .001? Benjaminet al. zugeben, dass die Wahl so willkürlich wie pragmatisch ist. Sie beziehen sich auf soziale Beweise (viele bevorzugen sie) und den erhöhten Bayes-Faktor, der damit einhergeht. Je niedriger der p-Wert ist, desto höher ist der BF, der die alternative Hypothese begünstigt. Dies ist ein Moment der Wahrheit für die Bayesianer unter den Autoren. Die BF ist, wie sich herausstellt, eine logarithmisch-lineare Transformation des p-Wertes. Nichts statistisches wird hinzugefügt, bis die priors eingeschlossen sind, aber das ist eine andere Geschichte.

Der 72-Autoren-Bericht stammt aus der kritischen Literatur zum Signifikanztest. Diese Literatur läuft auf zwei Behauptungen hinaus:

  1. p-Werte sind fatal fehlerhaft im Sinne von inkohärent und unzuverlässig;
  2. p-Werte sind nicht niedrig genug.

Die 72 betonen den letzteren Punkt und heben dadurch die erstere auf. Sicherlich wäre es schwierig, beide Beschwerden in derselben Zeitung zu protokollieren. Es wäre eher wie die alte jüdische Quip, dass "Das Essen war schrecklich, und die Portionen waren so klein!"

Es gibt einen dritten Punkt, bei dem es nicht um statistische Grundlagen geht, sondern um deren Verwendung. Kritiker beklagen, dass Forscher gedankenlos oder sklavisch eine Signifikanzschwelle verwenden, um kategorische Schlussfolgerungen über das Vorhandensein oder Nichtvorhandensein von "etwas" zu ziehen. Nicht einmal Fisher oder Neyman und Pearson befürworteten starre Entscheidungen. Fisher sah 0,05 als einen vernünftigen Schwellenwert an, wenn wenig anderes bekannt ist, und Neyman und Pearson schlugen vor, dass die Forscher 0,05, 0,01 oder 0,001 verwenden sollten, abhängig von den relativen Nutzen der beiden Fehlerarten. Nun sind die 72 nahe daran, eine normative Veränderung zu fordern, ein neues Signifikanzkriterium, das durch gesellschaftlichen Konsens und redaktionelle Fiatbindung verbindlich wäre. Damit begehen die 72, was sonst als die Hauptsünde von ST verurteilt wird, die Zeichnung einer hellen Linie zwischen Sein und Nicht Sein.

Es gibt tatsächlich eine Psychologie der Hell-Linie-Kategorisierung. Der frühe Tajfel (z. B. 1969) schlug eine Akzentuierungstheorie vor , um verschiedene Konsequenzen willkürlicher (und nicht willkürlicher) Kategorisierung zu verstehen. Er berichtete über das reproduzierbare Ergebnis, dass Werte auf einem Kontinuum als kleiner bzw. größer wahrgenommen werden, wenn sie auf die linke (kleinere) oder die rechte (größere) Seite eines Demarkationspunkts fallen (Krueger & Clement, 1994). Die perzeptive Akzentuierung im Bereich der statistischen Indizes und Entscheidungen ist keine besondere Krankheit, die aus ST hervorgeht.

Eine letzte Komplikation, die sich im 72-Bericht versteckt, ist, was mit vergangenen Ergebnissen zu tun hat. Vielleicht meinen die 72, dass alle Ergebnisse mit .05> p> .005 unberücksichtigt bleiben. Diese Schlussfolgerung ergibt sich aus ihrem Vorschlag. Wie oben erwähnt, interessiert sich Gott (und Fisher) nicht für die relative Chronologie der Ergebnisse. Hier kann die 72 einen Unterschied machen. Sie können sich dafür entscheiden, alle ihre eigenen früheren Ergebnisse mit .05> p> .005 aufzuzeichnen und zu verleugnen. Eine eventuelle spätere Replikation dieser Ergebnisse ist unwesentlich, da sie – nach ihrer eigenen Logik – niemals stattgefunden haben sollte.

[1] Aischylos, der Athena diese Worte in den Mund legt, betont die Macht der Überredung über Autorität. Ebenso sollten unsere wissenschaftlichen Praktiken auf vernünftige Argumente und nicht auf Autorisierung reagieren.

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E.-J., Berk, R., … Johnson, V. (2017, 22. Juli). Definieren Sie die statistische Signifikanz neu . Von osf.io/preprints/psyarxiv/mky9j abgerufen

Fiedler, K., Kutzner, F. & Krueger, JI (2012). Der lange Weg von der Kontrolle zur eigentlichen Gültigkeit: Probleme mit einer kurzsichtigen falsch-positiven Debatte. Perspektiven auf psychologische Wissenschaft, 7 , 661-669.

Krueger, J. (2001). Nullhypothesen-Signifikanztest: Zum Überleben einer fehlerhaften Methode. Amerikanischer Psychologe, 56 , 16-26.

Krüger, JI (2017). Rückschluss. In SO Lilienfeld & ID Waldman (Hrsg.), Psychologische Wissenschaft im Fokus: Aktuelle Herausforderungen und Lösungsvorschläge (S. 110-124). New York, NY: Wiley.

Krueger, J. & Clement, RW (1994). Gedächtnisbasierte Urteile über mehrere Kategorien: Eine Überarbeitung und Erweiterung von Tajfels Akzentuierungstheorie. Zeitschrift für Persönlichkeits- und Sozialpsychologie, 67 , 35-47

Krüger, JI & Heck, PR (2017). Der heuristische Wert von p in der induktiven statistischen Inferenz. Grenzen in der Psychologie: Pädagogische Psychologie [Forschungsthema: Epistemologische und ethische Aspekte der sozialwissenschaftlichen Forschung]. https://doi.org/10.3389/fpyg.2017.0908

Sakaluk, JK (2016). Erforschen klein, bestätigt groß: ein alternatives System zu den neuen Statistiken für die fortschreitende kumulative und reproduzierbare psychologische Forschung. Zeitschrift für experimentelle Sozialpsychologie, 66 , 47-54.

Tajfel, H. (1969). Kognitive Aspekte von Vorurteilen. Zeitschrift für soziale Fragen, 25 , 79-97.