Die Statistik der unmöglichen Ergebnisse

supernova

Mulder

Glaubst du an die Existenz von Außerirdischen?

Scully : Logischerweise müsste ich nein sagen. Angesichts der Entfernungen, die benötigt werden, um aus den fernen Regionen des Weltraums zu reisen, würde der Energiebedarf die Fähigkeiten eines Raumschiffs übersteigen

Mulder : Konventionelle Weisheit

Ich habe früher über einen Vortrag des chilenischen Astronomen Mario Hamuy geschrieben. Durch die Untersuchung sehr entfernter Supernovae fanden Hamuy und Kollegen Beweise, die zu der Schlussfolgerung führten, dass sich das Universum mit zunehmender Geschwindigkeit ausdehnt. Vor ihrer Entdeckung hielt dies kaum jemand für möglich. Mehrere Hypothesen bezüglich der Geschwindigkeit der Verlangsamung waren im Spiel, und die Idee, dass die Geschwindigkeit der Expansion konstant ist, war die extremste und phantastischste. Hamuys Daten waren extremer als es die extremste Hypothese erlauben würde, und doch sind diese Daten heute weitgehend akzeptiert, was zu einer neuen Hypothese nach der Tat führt: Die Geschwindigkeit der Expansion beschleunigt sich. Warum das so ist, bleibt noch zu erklären (dunkle Energie, irgendjemand?).

Hamuy zeigte eine Grafik mit mehreren Linien, die jeweils eine bestimmte Expansionsgeschwindigkeit zeigten. Die steilste Linie nahm keine Verzögerung an. Wenn er Daten von den fernen Supernovae zeigte, war die Erwartung, dass sie als Punkte auf einer dieser Linien fallen würden, wodurch die (sich ändernde) Expansionsrate bestätigt würde. Die schockierende Erkenntnis war, dass die Punkte über der steilsten Linie lagen und die Messung ausreichend präzise war, um selbst die steilste Linie außerhalb der Konfidenzintervalle zu halten, die um die Punkte gezogen wurden. Du bekommst das Bild? Durch statistische Signifikanztests war Hamuy (und damit der Rest von uns) gezwungen zu schlussfolgern, dass die Supernova-Daten selbst unter der nächsten Hypothese unwahrscheinlich waren. Wenn (sogar) diese Hypothese abgelehnt werden mußte (die Hypothesen der Verlangsamung wurden erst recht abgelehnt), mußte eine neue Hypothese aufgestellt werden – und zwar mit intergalaktischer Geschwindigkeit. Daher die Rückkehr von Einsteins kosmologischer Konstante und die Ankunft von dunkler (Antigravitation) Energie.

Ich war überzeugt von den Daten und Hamuys Schlussfolgerungen (immer noch). Es schien eine starke Verwendung von Hypothesentests zu sein. Hamuy und sein Team hatten präzise Hypothesen aufgestellt, und die Daten haben sie weggeblasen. Wenn man mit diesen Daten keine Hypothesenprüfung durchführt, welche Alternativen gibt es? Eine Alternative, die ich nur kurz erwähnen möchte, ist die Parameter- oder Effektgrößenschätzung . Befürworter dieses Ansatzes gehen aus und messen, berechnen Mittelwerte (oder andere Arten von aggregierten Statistiken) und Fehlerspannen basierend auf Informationen über die Anzahl und die Streuung der Beobachtungen. Sie zeichnen dann die Mittel und die Konfidenzintervalle, genau wie Hamuy die Entfernung der Supernovae darstellte. Das Problem mit dem reinen Schätzungsansatz ist, dass es atheoretisch ist. Keine Hypothese wird abgelehnt oder bestätigt. Du schaust auf die Punkte und sagst "Es ist was es ist". Du kannst natürlich zentrale Tendenzen schätzen und feststellen, ob die Konfidenzintervalle einen theoretischen Wert enthalten. Wenn sie dies nicht tun, können Sie diesen Wert (und die Theorie, die ihn vorhergesagt hat) höflich ablehnen. Offensichtlich hat diese Strategie den ranzigen Geruch, dass sie versucht, beides zu haben: eine Hypothese abzulehnen, während sie behauptet, nur darauf zu schauen, was ist . Signifikanztests – das muss zugegeben werden – sind in diesem Punkt weniger scheinheilig. Es lehrt uns, was nicht ist.

Die andere Alternative zum klassischen Hypothesentest ist die Bayesianische Hypothesenbewertung . Ich bin der Bayes'schen Sache sympathisch, aber ich sehe Einschränkungen. Hamuys Daten zeigen eine solche Einschränkung, aber lassen Sie mich meine Besorgnis mit einer stilisierten Version der nicht-massiven Daten zeigen, die ich kürzlich auf dieser Seite der Galaxie gefunden habe.

Stellen Sie sich ein experimentelles Spiel vor, in dem Sie mit einer bestimmten Wahrscheinlichkeit kooperieren möchten. Es gibt zwei spezifische Wahrscheinlichkeiten, die aus üblichen spieltheoretischen Annahmen abgeleitet werden können. Eins ist .5 und das andere ist .75. Warum das so ist, ist hier irrelevant. Jetzt sammeln wir Wahrscheinlichkeitsurteile aus einem Pool von Befragten und mitteln sie. Nehmen wir an, der Mittelwert ist .8 und der Standardfehler ist .02. Mit Signifikanztests stellen wir fest, dass der empirische Mittelwert größer ist als der nächste theoretische Wert von 0,75, t = 2,5, p = 0,013. Beachten Sie die Analogie zu Hamuys Fall. Die empirischen Daten sind so extrem, dass sie uns dazu bringen, selbst die nächste theoretische Vorhersage abzulehnen. Wir müssen nicht einmal den empirischen Mittelwert von 0,8 gegenüber dem entfernteren theoretischen Wert von 0,5 testen.

Oder wir? In der Bayes'schen Welt werten wir die Daten im Hinblick auf mehrere (mindestens zwei) sich gegenseitig ausschließende Hypothesen aus und werten diese Hypothesen dann angesichts der Daten neu aus. Um dies zu tun, müssen wir erklären, was die vorherigen Wahrscheinlichkeiten dieser Hypothesen sind, aber wenn sie gleich sind, müssen wir uns keine Sorgen machen. Sie heben sich gegenseitig auf. Das Ziel der Bayesschen Analyse ist es, die relative Unterstützung, die die Hypothesen aus den Daten erhalten, zu artikulieren, und dies wird als Verhältnis ausgedrückt. Wir haben bereits den p-Wert der Daten D unter Hypothese 1 berechnet, die besagt, dass die Wahrscheinlichkeit der Kooperation 0,75 ist. Diese Wahrscheinlichkeit ist p (D | H1) = 0,013. Nun führen wir auch einen Signifikanztest auf der entfernteren Hypothese 2 durch, die besagt, dass die Wahrscheinlichkeit der Kooperation .5 ist und p (D | H2) = 6E-35 findet, was erstaunlich niedrig ist. Wir vervollständigen den Bayes'schen Kreis, indem wir die vorhergehende Wahrscheinlichkeit durch die letztere dividieren, was .013 / 56E-35 = 2E32 ergibt. H1, die besagt, dass die Wahrscheinlichkeit der Kooperation 0,75 ist, wird von den Daten in Bezug auf die Hypothese, die besagt, dass die Wahrscheinlichkeit der Kooperation .5 ist, überwältigend bevorzugt. Der Wert von .75 muss stimmen. Recht?

Nicht so schnell. Angenommen, unsere Daten treffen die Vorhersage von H1-Spot auf, während alles andere gleich bleibt. Jetzt ist p (D | H1) = 1 und p (D | H2) = 4E-27, was uns ein Bayes-Verhältnis von 2E26 gibt. Beachten Sie, dass wir von 2E32 heruntergekommen sind. Mit anderen Worten, jetzt, da die Daten perfekt zu H1 passen, ist die relative Unterstützung für H1 schwächer als zu der Zeit, als die Daten extremer waren als H1, während wir nur durch Signifikanztests H1 abgelehnt hätten. Hier reagieren die Signifikanztester (und die Parameterschätzer) mit Freude. In der Bayes'schen Statistik erhalten Sie nur eine Unterstützung für die Hypothese, die weniger falsch ist, mit der paradoxen Konsequenz, dass die relative Unterstützung für eine Hypothese zunehmen kann, wenn ihre absolute Unterstützung (der Abstand zwischen Daten und Hypothesen) abnimmt.

Bayesianer könnten darauf reagieren, indem sie eine ganze Hypothesenverteilung betrachten. Im vorliegenden Beispiel könnten sie mit einer einheitlichen Verteilung aller Hypothesen von einer 0 Wahrscheinlichkeit der Kooperation auf eine Wahrscheinlichkeit von 1 beginnen. In diesem Fall würde der empirische Befund von 0,8 die stärkste Unterstützung für die Hypothese liefern, dass .8. Wenn sie dies tun würden, wären die Bayesianer von den Parameterschätzern nicht zu unterscheiden. Eine Theorie zu haben bedeutet, einige Dinge schon ausgeschlossen zu haben. Und das ist gut so lange, bis die Realität das Unmögliche wieder auf die Landkarte bringt – wie in Hamuys Observatorium.