Beurteilung unter Unsicherheit: Statistiken und Biases

J. Krueger
Quelle: J. Krüger

Es sind noch einige Frequentisten übrig. ~ Joe Austerweil, während er über ein "haariges" Bayes-Problem grübelte

Signifikanztests werden von vielen ihrer Praktiker als der Hafen der Objektivität, als das Herz der wissenschaftlichen Methode und als der Heilige Gral angesehen, der zu bahnbrechenden Entdeckungen führt. Daten werden gesammelt, eine Teststatistik wird berechnet und die Wahrscheinlichkeit einer Statistik, die mindestens so groß ist, wird gefunden. Wenn diese Wahrscheinlichkeit kleiner als 0,05 ist, wird die Nullhypothese zurückgewiesen. Es wird angenommen, dass etwas anderes, nicht nichts passiert. Typischerweise wird davon ausgegangen, dass "nicht nichts" bei jeder Behandlung die Versuchspersonen von den Kontrollen trennt. Die Methode ist objektiv in dem Sinne, dass jeder, der die Übung kennt, das gleiche Ergebnis erhält.

"Ziel" bedeutet nicht "gültig". Die Validität von Signifikanztestmethoden wird seit einem Jahrhundert in Frage gestellt (eine frühe Kritik findet sich im Buch Hiob ; siehe Arbeitsnotiz). Doch diese Methoden haben Vorrang (zumindest für den Moment; die Party könnte morgen vorbei sein). Warum? Gerd Gigerenzer (irgendwo, irgendwann) beobachtete, dass die Verwendung des p-Wertes, dh die Wahrscheinlichkeit der Daten unter der Nullhypothese p (D | H), das Inverse, dh die Wahrscheinlichkeit der gegebenen Hypothese, ableitet Die Daten, p (H | D), sind eine Instanz der Beurteilung durch die Repräsentativitätsheuristik . Soweit ich mich erinnere, hat er nicht weiter ausgeführt, also werde ich hier sein.

Denken Sie daran (oder schauen Sie nach), dass p (H | D) = p (D | H) * p (H) / pD). Die Daten sprechen mit der Hypothese. Ihre Wirkung (Wahrscheinlichkeit) muss mit dem Verhältnis der Basisraten multipliziert werden, dh die vorherige Wahrscheinlichkeit der Hypothese dividiert durch die Gesamtwahrscheinlichkeit, diese Art von Daten zu finden (unter welcher Hypothese auch immer). Reverend Bayes sagt, du sollst dich vermehren und teilen. Signifikanztests jedoch, die große Verführerin, verleitet den Forscher dazu, direkt von p (D | H) nach p (H | D) zu springen, und die Basisratenverhältnisse werden verdammt. Dieser Unterschied zwischen der Verwendung und dem Ignorieren von Hintergrundinformationen unterscheidet das Denken von der Wahrnehmung in Tversky und Kahnemans Arbeit und in vielen ihrer Inspirationen.

Die Repräsentativitätsheuristik wurde berühmt für ihre definitorische Vernachlässigung, ja Entlassung von Grundtarifen (Priors). Hören wir auf Tversky & Kahneman (TK; 1974): "Viele der probabilistischen Fragen, mit denen sich die Menschen beschäftigen [sind von der Art, die fragt], wie groß ist die Wahrscheinlichkeit, dass das Objekt A zur Klasse B gehört? "A bezieht sich auf die Ergebnisse der Studie, und B ist eine potenzielle zugrunde liegende Realität, wie durch die Hypothese beschrieben. Dann verlassen sich die Menschen bei der Beantwortung solcher Fragen typischerweise auf die Repräsentativitätsheuristik, bei der Wahrscheinlichkeiten durch den Grad bewertet werden, zu dem A repräsentativ für B ist, dh durch den Grad, zu dem A B ähnelt.

TK-Review 6 Merkmale der Beurteilung durch Repräsentativität. Mal sehen, ob sie sich auf Signifikanztests und ihre Praxis beziehen.

[1] Unempfindlichkeit gegenüber vorheriger Wahrscheinlichkeit von Ergebnissen . Gilt das? Ja. Zu einem Fehler. Signifikanztests schließen explizit die vorherige Wahrscheinlichkeit der Nullhypothese oder andere Hypothesen aus. Forscher können ruhig über das Risiko ihres Projekts nachdenken (dh die Chancen, etwas im Gegensatz zu nichts zu finden), aber sie werden nicht dazu aufgefordert, diese Betrachtungen zu formalisieren und ihre Schlussfolgerungen über die Hypothese zu beeinflussen, nachdem sie die Beweise gesammelt haben. In diesem Sinne ist Signifikanztest noch robuster heuristisch als der Garten-Varietät-Repräsentant, den Sie und ich bei der Frage, ob der Freund unserer Tochter in die Kategorie der Idioten gehört, einschätzt (wahrnimmt). Er benimmt sich nicht wie ein Idiot, er sieht auch nicht wie ein Idiot aus. . . und wir ignorieren die Größe der Kategorie von Idioten, dh wir ignorieren, wie wahrscheinlich es a priori ist, dass der junge Mann ein Idiot ist. Übrigens ist es ein wenig komisch, dass TK die Repräsentativitätsheuristik hinsichtlich ihrer definierenden Merkmale und ihrer Ergebnisse einführt. Bayes Vernachlässigung (genauer gesagt "Base Rate Neglect") scheint beide Hüte zu tragen.

[2] Unempfindlichkeit gegenüber Probengröße . Signifikanztests sind empfindlich auf Stichprobengröße, in diesem Sinne ähnelt die Methode nicht der Heuristik. Je größer das Sample, desto wahrscheinlicher ist es, einen Effekt zu entdecken, falls es einen gibt. Wie TK-Anmerkung jedoch zeigen viele Praktiker von Signifikanztests diese Art von Unempfindlichkeit. Es ist, als würden sie über eine bestimmte Art von Repräsentativitätstheorie nachdenken, indem sie eine andere verwenden.

[3] Missverständnisse über den Zufall . Auch dies ist ein Problem von Menschen und nicht von Verfahren. Die Menschen haben schlechte Intuitionen über den Zufall, was ein Grund für ihre Verletzlichkeit ist, von Casinos, Lotteriemanagern und Versicherungskauffrauen ausgebeutet zu werden. Signifikanztests haben Annahmen über den eingebauten Zufall. Sie tragen dazu bei, den p-Wert zu erzeugen.

[4] Unempfindlichkeit gegenüber Vorhersagbarkeit. TK bedeutet hier, dass die Urteile der Menschen von guten Geschichten beeinflusst werden. Sie schätzen den Wert (etwas Positives oder etwas Negatives) vom Wert der Geschichte ab und ignorieren dabei die Zuverlässigkeit der Geschichte, z. B. ob sie auf Expertenmeinungen oder Hörensagen basiert. Signifikanztests – und ich gehe hier ein bisschen aus – haben etwas, was ähnlich aussieht (repräsentativ wie es ist). Die Schlüsse, die es über die Wahrheit oder Falschheit der Nullhypothese (dh die Vorhersagen) vorschlägt, basieren nur auf den Daten und nicht darauf, welche anderen Hypothesen im Spiel sind. Es könnte einfach so passieren, dass der p-Wert unter dem Nullwert niedrig ist, aber der p-Wert unter einer alternativen Hypothese immer noch viel niedriger ist, in welchem ​​Fall ein Bayesianer argumentieren würde, dass es einen relativen Beweis für die Nullhypothese gibt.

[5] Die Illusion der Gültigkeit . TK argumentiert, dass das Vertrauen auf Repräsentativität ein falsches Gefühl der Gültigkeit fördert. Dies müsste so sein, wenn sich die Leute auf eine Heuristik verlassen, die nicht ganz korrekt ist. Wenn sie keine Illusion der Gültigkeit hätten, würden sie sich nicht auf die Heuristik verlassen. Auf jeden Fall verführt Signifikanztest – wie im ersten Satz dieses Aufsatzes erwähnt – dazu, das Forschervolk in gleicher Weise zu illusionieren. Wenn man bedenkt, dass Signifikanztests das Hauptwerkzeug für wissenschaftliche Entdeckungen sind, können sie nur übermütig werden.

[6] Missverständnisse der Regression . Das ist ein guter. Zuletzt aber nicht verloren. Auf der Suche nach Genie und wenig zu finden, "entdeckte" Galton (Sir Francis) die Regression (bis zum Mittelwert). Die Söhne von hervorragenden Männern waren einfach nicht so hervorragend. Heute kennen wir Regression als wesentliches Merkmal einer probabilistischen Welt. Wenn wir jedoch repräsentativ denken, sagen wir A von B voraus, als ob die Korrelation zwischen den beiden Fällen perfekt wäre, auch wenn dies nicht der Fall ist. Im Kontext des Signifikanztests rückt die Regression in den Vordergrund, wenn Forscher davon ausgehen, dass sich signifikante Befunde replizieren. Dies hängt mit den Punkten [2] und [5] zusammen und ist hauptsächlich ein Problem der Benutzer der Tests und nur teilweise ein Problem des p-Wertes; p spricht zwar mit seiner eigenen Replizierbarkeit, aber mit einer sehr tiefen Stimme.

Der Rest der Geschichte ist dies: TK in der längst vergessenen Diskussion ihrer berühmten Zeitung "Es ist nicht überraschend, dass nützliche Heuristiken wie Repräsentativität [. . .] werden beibehalten, obwohl sie gelegentlich zu Fehlern bei der Vorhersage und Schätzung führen. "Da ist es: TK selbst hat behauptet, dass diese Heuristiken nützlich sind und dass wir nicht überrascht sein sollten, dass die Leute sie benutzen. Wenn Signifikanztests tatsächlich – wie ich zu zeigen versucht habe – eine formalisierte Version der Repräsentativitätsheuristik ist, kann noch etwas Leben darin übrig bleiben.

Und was ist mit "nützlich" gemeint? Eine Heuristik ist nützlich, wenn sie hinreichend genaue Urteile und Entscheidungen zu niedrigen Kosten liefert. Wie gut Signifikanztests und ihr p-Wert in dieser Hinsicht funktionieren, wird noch diskutiert. Nach einigen Simulationsarbeiten beginne ich zu denken, dass Signifikanztests nicht so schlecht sind, wie es ist.

Jobnotiz. Hiob, standhafter Mann der Legende, lehnte es ab, die Hypothese, dass Gott gut sei, trotz überwältigender Beweise abzulehnen.

In eigener Sache : Ich protokolliere alle meine Beiträge in der Rubrik "Soziales Leben" und auch unter anderen. Da es keine Rubrik "Statistiken" gibt, finden Sie diesen Beitrag unter "Spiritualität". Gute Arbeit Job.

Tversky, A. & Kahneman, D. (1974). Urteil unter Unsicherheit: Heuristiken und Verzerrungen, Science, 185 , 1124-1131.

Lockere Assoziation : Wenn Sie eine andere, sagen wir "entfernte" Assoziation verschlingen können, wie wäre es mit dieser: Kritiker der Signifikanz testen, dass die Methode gegen die Nullhypothese voreingenommen ist, dh die Idee, dass es "nichts" gibt, wird zu leicht akzeptiert . Bedeutet das, dass die Nullhypothese an Abweisungsempfindlichkeit leidet?

Dieser Beitrag wurde von Ovum Capu t, Ph.D.