Der Statsman klingelt immer zweimal

Schauen Sie sich das Ergebnismuster noch einmal an.

Matej Kastelic/Shutterstock

Quelle: Matej Kastelic / Shutterstock

Diejenigen von Ihnen, die der Szene in der Wissenschaft der Psychologie etwas Aufmerksamkeit schenken, wissen, dass ein anderes Gespenst die Straßen durchstreift und der Name lautet ” Failure to Replicate” . Die meisten Befunde, Wachhunde und Vigilanten, sagen uns, sind falsch, in Psychologie, Medizin und der Herr weiß wo sonst. Die Gründe dafür sind vielfältig, aber ganz oben auf der Liste finden wir menschliche Phänomene. Zusammen sind diese Phänomene unter dem Epitheton von p-Hacking bekannt . Das “p” steht für den von statistischen Signifikanztests gewonnenen p-Wert, und das “Hacken” bezieht sich auf eine Reihe von (selbst-) betrügerischen Praktiken, die diese p-Werte unter den konventionellen 0,05-Schwellenwert drücken, sodass die Ermittler dies erklären können ein Ergebnis, das insofern von Bedeutung ist, als die Nullhypothese des Rauschens die erhaltenen Daten unwahrscheinlich macht.

Wenn wir eine einzige Studie mit einem p-Wert von beispielsweise 0,03 betrachten, können wir aus diesem Ergebnis allein nicht schließen, dass sie gehackt wurde. Wir würden einige Informationen darüber benötigen, wie die Forscher ihren Geschäften nachgingen, oder wir brauchen die Ergebnisse von Replikationsstudien, um nach aufschlussreichen Mustern zu suchen. Wenn es einen Replikationsversuch gibt, der p = .07 ergibt, wäre es genauso tollkühn, den ursprünglichen Befund für nichtig zu erklären, als wäre es schon nach der ersten Studie der Sieg über die Nullhypothese. Es werden mehr Daten benötigt (wie sie heutzutage schreiben).

Angenommen, wir haben mehrere Replikationsstudien. Jetzt verdickt sich die Handlung. Wir können die Verteilung der p-Werte betrachten und die Werkzeuge der p-Kurvenanalyse einsetzen (Simonsohn, Nelson & Simmons, 2014). Die Grundidee ist, dass die Häufigkeitsverteilung der p-Werte unter allen rationalen Annahmen verzerrt sein könnte, sie wäre jedoch unimodal. Es sollte keine lokalen Spitzen geben, und es sollte keine bestimmte Spitze im süßen Bereich zwischen 0,05 und 0,01 liegen. Dieser Bereich ist sowohl bedeutsam als auch ressourcenschonend. Dieser lokale Peak wäre verdächtig, weil wir wissen, dass die Verteilung des p-Wertes unter einer echten Nullhypothese flach (einheitlich) ist und unter einer falschen Nullhypothese zunehmend schräg wird (mit mehr kleinen p-Werten) (Krueger & Heck, 2018). .

Die P-Kurvenanalyse nutzt die verfügbaren Informationen nicht aus. Mit Blick auf eine Reihe von Studien haben wir auch Informationen über die Stichprobengröße (oder Freiheitsgrade) und die Effektgröße. Im Laufe der Studien können die Interkorrelationen zwischen p-Werten, Sample Size (df) und Effect Size (ES) aufschlussreich sein oder zumindest – wie die zeitgenössischen Experten gerne sagen – „Fragen aufwerfen“.

Um das Potenzial für diese Art der Herangehensweise zu veranschaulichen, verwende ich Daten aus einer Veröffentlichung von Lasaletta et al. (2014) wiederum nicht, um die Autoren zu beschimpfen, sondern um eine Art statistische Musteranalyse auszuprobieren. Die Autoren versuchten, die interessante Hypothese zu testen, dass man in einer nostalgischen Einstellung das Bedürfnis nach und die Wertschätzung von Geld reduziert. In sechs Studien stellen sie fest, dass Nostalgie die Zahlungsbereitschaft für Produkte erhöht, die Großzügigkeit im Spiel eines Diktators erhöht, die wahrgenommene Bedeutung des Geldes verringert, den wahrgenommenen Wert des Geldes verringert und die Bereitschaft erweckt, für einen bestimmten Geldbetrag negative Anreize zu ertragen und verringert die wahrgenommene Größe bestimmter Münzen. Die sechs p-Werte sind 0,031, 0,020, 0,045, 0,027, 0,062 und 0,026. Beachten Sie das Clustering im süßen Bereich zwischen 0,05 und 0,01 mit einer tolerierbaren Ausnahme. Dies gibt nur schwachen Grund zur Sorge, da die Autoren möglicherweise eine mittlere Effektgröße vorhergesagt haben, eine Leistungsanalyse durchgeführt und die empfehlenswerte Probe gesammelt haben (aber sie berichten nicht, dass sie dies getan haben). Die Effektgrößen sind 0, 55, .48, .46, .48, .37 und .63. Sie sind mittel (wobei d etwa 0,5 ist, wobei d das Verhältnis der Differenz zwischen den Mittelwerten und der Standardabweichung innerhalb der Gruppe ist). Es gibt aber auch Unterschiede in der df (Stichprobengröße), nämlich 67, 125, 81, 98, 102 und 56.

Jetzt können wir p, df und ES interkorrelieren und fragen, ob die Ergebnisse „Fragen aufwerfen“. Folgendes erhalten wir: Erstens beträgt die Korrelation zwischen p-Werten und ES, r (p, ES), -.71. Größere Effektgrößen gehen mit kleineren p-Werten einher. Dies ist, was wir erwarten würden, wenn wir den gleichen mittleren Effekt für alle sechs Studien vorhergesagt hätten, was zu derselben Leistungsanalyse und demselben Ergebnis führte. Dann würde ES, das in Studien nicht vollkommen identisch ist, negativ mit p korrelieren. Zweitens ist die Korrelation zwischen der Stichprobengröße (df) und der Effektgröße (ES), r (df, ES), -.68. Größere ES gehen mit kleineren Proben. Dies ist, was wir erwarten würden, wenn Unterschiede in der ES vorhergesagt worden wären und die Leistungsanalysen unterschiedliche Empfehlungen für die Probengröße ergeben hätten. Wir haben also eine Korrelation, r (p, ES), die sinnvoll ist, wenn konstantes und mittleres ES vorhergesagt worden wäre, so dass df konstant sein könnte. Und wir haben eine andere Korrelation, r (df, ES), die sinnvoll ist, wenn Variation in ES vorhergesagt worden wäre, so dass kleine Proben für große erwartete Effekte ausreichen würden. Es ist das eine oder das andere, nicht beides.

Zwei widersprüchliche Korrelationen wirft Fragen nach der dritten auf, der Korrelation zwischen df und p. Wir finden r (df, p) = .03. Größere Proben können (im Durchschnitt) die gleichen p-Werte ergeben wie kleine Proben, wenn die Unterschiede in der ES vorhergesagt wurden und die Leistungsanalysen unterschiedliche Probengrößen ergeben. Mit anderen Worten, genau

Leistungsvorhersagen verkleinern den Bereich der erhaltenen p-Werte und entkoppeln sie von df.

Zur Überprüfung ist ES sowohl mit p als auch mit df negativ korreliert. Das heißt, wenn die Effektgröße größer wird, werden sowohl die p-Werte als auch die Abtastgrößen kleiner. Dies ist das widersprüchliche Ergebnis. Wieder können wir uns vorstellen, dass mit zunehmendem ES auch p kleiner wird, ohne dass df geändert wird. Und wir können uns vorstellen, wie der ES mit zunehmender ES kleiner wird, ohne dass sich p stark ändert. Beides kann man sich aber nicht gleichzeitig vorstellen. Wir können jetzt fragen, welche Art von Korrelation zwischen p und df zu erwarten ist, wenn es keine Unterschiede in ES gibt, die negativ mit p und mit df korrelieren. Die partielle Korrelation zwischen p und df, die für ES steuern, beträgt -.89. Ist also die Variation in ES unbekannt, ergeben größere Samples niedrigere p-Werte. Dies ist hier nicht geschehen, und es stellt sich die Frage: Warum gibt es erhebliche Abweichungen in df mit dem Ergebnis, dass df nicht mit p zusammenhängt?

Eine alternative Analyse

Als Antwort auf diesen Essay schlug Uli Schimmack diese Analyse vor:

Der Test auf unzureichende Varianz ist der stärkste Test für Publikationsbias (oder einige andere fischartige QRPs).

Schritt 1
Konvertieren Sie die p-Werte in z-Scores mit z = -qnorm (p / 2)

p = c (0,031, 0,020, 0,045, 0,027, 0,062, 0,026)
z = -qnorm (p / 2)
z
[1] 2.157073 2.326348 2.004654 2.211518 1.866296 2.226212

Schritt 2
Berechnen Sie die Varianz der Z-Scores
var.z = var (z)
var.z
[1] 0,02808286

Schritt 3
Vergleich der beobachteten Varianz mit der erwarteten Varianz (Standardabweichung der Z-Scores = 1)
pchisq (var.z * (k-1), k-1) mit k = Anzahl der p-Werte (6)

> pchisq (var.z * 5,5)
[1] 0,0003738066

Fazit: Die Wahrscheinlichkeit, dass die p-Werte aus einer Reihe unabhängiger Studien stammen, ist sehr gering, p = .0004. Der Fischer hat schon vor langer Zeit festgestellt: „Das politische Prinzip, dass alles durch die Statistik belegt werden kann, ergibt sich aus der Praxis des Präsentierens nur eine ausgewählte Teilmenge der verfügbaren Daten “(Fisher 1955, S. 75) [Dank an Deborah Mayo für das Zitat]

https://replicationindex.wordpress.com/…/the-test-of…/

Verweise

Krueger, JI & Heck, PR (2018). Signifikanzprüfung testen. Collabra: Psychology, 4 (1), 11. DOI: http://doi.org/10.1525/collabra.108.

Lasaletta, JD, Sedikides, C. & Vohs, KD (2014). Nostalgie schwächt das Verlangen nach Geld. Journal of Consumer Research, 41 , 713–729.

Simonsohn, U., Nelson, LD und Simmons, JP (2014). P-Kurve: Ein Schlüssel zur Schublade. Journal of Experimental Psychology: General, 143, 534–547