Das Leben und die Zeiten von P

Wikipedia; public domain
Quelle: Wikipedia; öffentliche Domäne

Totgesagte leben länger. [Die ausgesprochenen Toten leben länger, oder im Vulgärlatein: "Declaravit iam mortuum vivere"] ~ Ursprung unbekannt

Ich hoffe, dass p-Werte legitime Maßnahmen sind. Sonst habe ich nichts in Statistiken gelernt . ~ Lauren Krueger, Studentin für Wirtschaft und Finanzen, Universität Maastricht

Statistik ist über Wahrscheinlichkeit und kein einzelner Wahrscheinlichkeitsindex hat so viel Gebrauch und soviel Missbrauch als der so genannte p- Wert gesehen (sieh hier für einen früheren Aufsatz). Little p drückt die Wahrscheinlichkeit aus, dass die Daten (oder Daten extremer) unter der Annahme sind, dass eine bestimmte Hypothese (dh ein theoretisches Modell der Realität) korrekt ist. Oft ist dieses theoretische Modell ein theoretisches in dem Sinne, dass es davon ausgeht, dass dort nichts ist. Man könnte sagen, ich glaube nicht, dass man den Unterschied – von der reinen Verkostung – zwischen der Zugabe von Milch zu Tee und dem Hinzufügen von Tee zu Milch unterscheiden kann. Zu sagen, dass Sie den Unterschied nicht unterscheiden können, ist zu sagen, dass Sie jedes Mal, wenn Sie es versuchen, eine Wahrscheinlichkeit von 0,5 haben, korrekt zu sein. Wenn dann 8 von 10 Versuchen erfolgreich sind, p = .055 mit einem einseitigen Test. Wir sind zwar von Ihren Erfolgen fasziniert, aber wir würden daraus nicht schließen, dass Sie eine nachweisbare Fähigkeit zum Gießen hatten.

P ist überall. Sei es die Bewertung von Assoziationen zwischen empirischen Variablen oder die Unterschiede in den Mitteln, Medianen, Rängen oder Proportionen, p liefert eine gemeinsame Metrik. Die Teststatistiken können variieren (r, b, t, F, Chi-Quadrat, U oder W), aber p macht sie vergleichbar. Dennoch hassen viele Statistiker p wegen der Fehlinterpretation und des Missbrauchs, die wir alle gesehen haben oder aufgrund dessen, was p nicht ist und nicht vorgibt zu sein, nämlich die Wahrscheinlichkeit der Hypothese, die den Daten gegeben wurde. Die früheren Gründe für Mißmut sind eine Ablenkung, weil sie eine Frage der Rezeption und nicht ihrer Natur sind. Letztere sind strittig, weil p , wenn es sprechen könnte, nicht behaupten würde, seiner inversen bedingten Wahrscheinlichkeit gleich zu sein. Offensichtlich kann die Wahrscheinlichkeit der Daten, die die Hypothese p (D | H) erhalten, nicht die Wahrscheinlichkeit der Hypothese sein, die den Daten p (H | D) gegeben wird. Nur Menschen, die nicht verstehen, wie inverse Bedingungen miteinander verwandt sind, können dies tun, was uns auf das Problem der Ignoranz und des Missbrauchs zurückführt.

Oft wird die Geringschätzung von p durch Missachtung von Nullhypothesentests gemischt oder gerechtfertigt. Die Null- (oder Null-) Hypothese ohne Wirkung wird oft als Strohmann dargestellt. Wir wissen bereits, dass es falsch ist, also zu zeigen, dass es falsch ist, einen niedrigen p- Wert zu melden, ist eine Farce, die sich als Wissenschaft tarnt. "Ja wirklich?" Wissen wir bereits, dass Sie in der Lage sind zu erkennen, ob Tee zu Milch oder Milch zu Tee hinzugefügt wurde (oder die bemerkenswerte "Fähigkeit", ihn nach hinten zu bringen)? Nullhypothesen werden als testbare Vorhersagen aufgestellt, wenn eine vernünftige Person erwarten würde, dass es dort keine gibt. Wenn dann in einem gut entworfenen und replizierten Satz von Studien p niedrig bleibt, haben wir einen (probabilistischen) Existenzbeweis.

Seit einem Jahrhundert wird über die Greueltaten von p geschrieen , und in letzter Zeit erreicht es wieder einen Höhepunkt, zum großen Teil deshalb, weil skandalöse Mißbräuche von p auf uns aufmerksam geworden sind, und nicht, weil die inhärenten Schrecken der Methode enthüllt worden sind, entweder durch intelligente Mathematik oder Auto-da-Fé . An wen wenden Sie sich für ein autoritäres Urteil über p und seine Verwendung? Die American Statistical Association natürlich!

Und siehe! Die ASA stellte sich dieser Aufgabe und gab eine Stellungnahme zu p ab . Der Vorstand berief Experten verschiedener Fachrichtungen zu einer Bewertung ein, und am Ende wurde ein umsichtiger und vorsichtiger Bericht veröffentlicht (Wasserstein & Lazar, 2016). Der Tenor ist, dass der p- Wert einen Beweiswert hat, aber dass er leicht falsch interpretiert und missbraucht wird. Vorsicht ist geboten und andere statistische Instrumente sollten ebenfalls verwendet werden. Dies ist kaum eine Verurteilung von p- Werten als Teufelsarbeit. Es ist auch keine Erklärung, dass alternative Methoden zur Verfügung stehen, die so deutlich überlegen sind, dass Signifikanztests und die Berichterstattung von p aufgegeben werden können und sollten. Mit anderen Worten, der ASA-Bericht ist bemerkenswert, was er nicht sagt. Forscher und ihre Studenten können so weitermachen, wie sie es getan haben, während sie versuchen, ethisch und achtsam zu sein. Nicht mehr und nicht weniger.

Der ASA-Bericht ist die Arbeit eines Ausschusses, der eine Verdichtung einer Reihe von Meinungen in einer Erzählung widerspiegelt, die dazu dient, Meinungsverschiedenheiten im Durchschnitt zu minimieren. Interessanterweise (und dem Kredit der ASA) werden 21 Kommentare zusammen mit dem Bericht als ergänzende Materialien veröffentlicht. Der Mai der Autoren scheint an der Erstellung des ASA-Berichts beteiligt gewesen zu sein, so dass ihre individuellen Einschätzungen ein interessantes Fenster zu den Meinungsverschiedenheiten bieten, die in dem Bericht zusammengefasst sind. Hier einige Themen, die sich in den einzelnen Kommentaren herauskristallisieren:

Vier der Kommentare (Benjamin & Berger, Carlin, Johnson und Rothman) plädieren in meiner Lektüre eindeutig dafür, den p- Wert aufzugeben (dh die Nicht-Aufgabe-Gruppe ist die Mehrheit, p = 0,007, zweischwänzig). Die anderen geben zähneknirschend zu, dass p einige Nutzungen hat, dass andere Methoden (insbesondere Bayessche Berechnungen) die gleichen oder andere Probleme haben, oder dass das "echte" Problem kein bestimmter statistischer Index ist, sondern der breitere erkenntnistheoretische Kontext. Einige der Kommentatoren unterstützen nachdrücklich die Verwendung des p- Wertes, wenn sie richtig verstanden werden. Hier sind einige denkwürdige Zitate aus 7 der 21 Kommentare:

"Was hat den p-Wert in der Wissenschaft während des gesamten 20. Jahrhunderts so nützlich und erfolgreich gemacht, trotz der in der Erklärung so gut beschriebenen Missverständnisse? In gewissem Sinne bietet es eine erste Verteidigungslinie gegen die Zufälligkeit, indem es das Signal vom Rauschen trennt, weil die benötigten Modelle einfacher sind als jedes andere statistische Werkzeug. " ~ Benjamini

"Manchmal ist der p-Wert der einzige Weg, Ungewissheit zu quantifizieren, besonders wenn man neue wissenschaftliche Technologien einsetzt." ~ Benjamini

"P-Werte sind handliche Maße der Extremität und dienen dazu, eine Menge von Zahlen ähnlich wie Z-Scores und Konfidenzintervalle zu beschreiben." ~ Berry

P-Werte "dienen dazu, einen Datensatz von Zahlen zu beschreiben, und in diesem Sinne sind sie nützliche Werkzeuge." ~ Berry

"Es geht nicht darum, P-Werte aufzugeben, es geht darum, schlechte Forschung aufzugeben." ~ Ionannidis

"P-Werte werden weiterhin hilfreiche Einblicke bieten." ~ Ioannidis

P-Werte sind "ein Index für die Beweisbedeutung der Daten innerhalb eines statistischen Modells." ~ Lew

"P-Werte sind eine brauchbare und vertretbare Antwort auf die Frage, was die Daten aussagen." ~ Lew

"Es ist falsch zu behaupten, ein p-Wert sei" ungültig ", weil er auf der Grundlage der einen oder anderen früheren Verteilung nicht mit einer späteren Wahrscheinlichkeit übereinstimmt." ~ Little

"P-Werte sollten für eine begrenzte Rolle als Teil der Maschinerie fehlerstatistischer Ansätze beibehalten werden." ~ Senn

"Die Wissenschaft macht Fortschritte, indem sie mögliche Erklärungen von Daten ausschließt. p-Werte helfen zu beurteilen, ob eine gegebene Erklärung angemessen ist. " ~ Stark

Aber . . .

Missbrauch und Missbrauch bleiben ein Problem. Beim googeln des "p-Wertes" kommt zuerst ein Essay von Deborah Rumsey. Deb schreibt für Dummies.com, dass " ein kleiner p-Wert (typischerweise ≤ 0,05) starke Beweise gegen die Nullhypothese anzeigt, also lehnen Sie die Nullhypothese ab ." Sie bittet uns, ihre Argumentation mit einem Geschmacksbeispiel zu schlucken und uns einzuladen sich vorstellen, dass " eine Pizza-Stelle behauptet, dass ihre Lieferzeiten im Durchschnitt 30 Minuten oder weniger betragen, aber Sie denken, dass es mehr als das ist. Sie führen einen Hypothesentest durch, weil Sie glauben, dass die Nullhypothese Ho, dass die mittlere Lieferzeit maximal 30 Minuten beträgt, falsch ist. Ihre alternative Hypothese (Ha) ist, dass die mittlere Zeit größer als 30 Minuten ist. Sie geben zufällig einige Lieferzeiten ein und führen die Daten durch den Hypothesentest, und Ihr p-Wert ergibt sich zu 0,001, was viel weniger als 0,05 ist. "

Und, um sicher zu sein, dass Sie verstehen, De erklärt, dass " In Wirklichkeit gibt es eine Wahrscheinlichkeit von 0,001, dass Sie fälschlicherweise die Behauptung des Pizzaplatzes zurückweisen werden, dass ihre Lieferfrist weniger als oder gleich 30 Minuten ist ."

War es nur so? Die ASA hat viel zu tun.

Wasserstein, RL & Lazar, NA (2016). Die Aussage der ASA zu p-Werten: Kontext, Prozess und Zweck. Der amerikanische Statistiker, 70 , 129-133. doi: 10.1080 / 00031305.2016.1154108

Kommentare sind hier