Warum Inferenzstatistik?

Stellen Sie sich vor, wir hätten eine Frage: "Unterscheiden sich Männer und Frauen auf X?"

Egal, welches "X" ist – Größe, Empathie, Kenntnis der spanischen Geschichte des 13. Jahrhunderts oder irgendetwas anderes – wir wissen, dass jeder gegebene Mann anders sein wird als jede gegebene Frau, aber was wir nicht wissen ist, wie Männer "weitergehen Durchschnitt "unterscheiden sich von Frauen im Durchschnitt." Das heißt, wenn wir unsere erste Frage gestellt haben, wollten wir wahrscheinlich wissen, wie das Mittel für Männer im Vergleich zu dem Mittel für Frauen ist. Aber wir werden niemals das tatsächliche Mittel für Männer oder das tatsächliche Mittel für Frauen kennen, weil das mehr als 7 Milliarden Menschen messen würde! Also müssen wir irgendwie eine Stichprobe von Männern und eine Auswahl von Frauen holen, vergleichen und daraus eine Schlussfolgerung ziehen.

Nehmen wir an, wir bekommen eine Stichprobe von 100 Männern und 100 Frauen und fragen sie nach der spanischen Geschichte. In unserer Stichprobe sind Frauen durchschnittlich 68% und Männer durchschnittlich 63%. Das ist das Ergebnis für unsere Probe und es ist ein grundsolides Ergebnis. Aber denken Sie daran, wir sind nicht besonders an unserer Stichprobe interessiert – wir interessieren uns für "Männer gegen Frauen", nicht für "Männer, die wir betrachteten" oder "Frauen, die wir zufällig betrachteten". Wir möchten unsere benutzen Stichprobe, um etwas über die größere Population abzuleiten (und das ist es, was das Schlussfolgerung in die inferiente Statistik bringt).

Diese Schlüsse zu ziehen, hat eine große Herausforderung: Jeder Unterschied, den wir in unseren Proben sehen, könnte zufällig sein! Sicher, unsere Gruppe von Männern unterscheidet sich von unserer Gruppe von Frauen, aber das sagt uns nicht viel an sich, denn wenn wir zwei Gruppen von Männern zufällig auswählen würden, würden sie sich auch unterscheiden. Dies ist ein ernstes Problem: Da sich zwei beliebige Stichproben bei fast allem, was wir zu messen versuchen, voneinander unterscheiden (wenn wir genug Details messen können), wie können wir Stichproben verwenden, um Schlussfolgerungen zu ziehen?

Alles ist jedoch nicht verloren, wie uns eine kleine Intuition sagt. Aufgrund zufälliger Zufallswahrscheinlichkeiten gefundene Unterschiede sind wahrscheinlich klein und wahrscheinlich sehr unterschiedlich, wenn wir denselben Test erneut durchführen. Wenn wir unseren Test immer wieder wiederholen könnten (mit neuen Proben), würde es uns helfen, bessere Schlüsse zu ziehen: Wenn wir 20 Mal Proben von 100 Männern und 100 Frauen erhielten, und jedes Mal, wenn wir Frauen 5 Punkte höher als Männer erreichten wäre viel sicherer in unserer Suche. Während die Replikation normalerweise nicht praktikabel ist, können wir anhand eines Beispiels erraten, was passieren würde, wenn wir replizieren würden. Und unsere Intuition kann uns auch hier helfen: Wenn wir einen kleinen Unterschied zwischen den Gruppen feststellen, nachdem wir nur eine kleine Anzahl von Menschen gemessen haben, ist das eher zufälliger Zufall, als wenn wir einen großen Unterschied zwischen den Gruppen nach der Messung von a finden viele Leute. Brechen Sie das auf: 1) Große Unterschiede sind weniger zufällig als kleine Unterschiede, und 2) je größer die Größe der Stichprobe, desto mehr Punkt 1 ist wahr.

Wenn wir einen guten mathematischen Griff auf den "weniger wahrscheinlichen" vs. "wahrscheinlichen" Teil dieser Behauptungen bekommen könnten, könnten wir beginnen, unsere Stichproben zu verwenden, um wirklich gute Vermutungen über die Reproduzierbarkeit unserer Ergebnisse zu machen. Das heißt, wir könnten unsere einzige Stichprobe verwenden, um zuverlässig vorherzusagen, was passieren würde, wenn wir unsere Studie einige Male wiederholen würden. Wir waren uns bereits darüber einig, dass wir, wenn sich das Ergebnis immer wieder wiederholen würde, zuversichtlich wären, Schlussfolgerungen über die größere Bevölkerung zu ziehen. Und jetzt wissen wir, dass wir anhand einer einzigen Stichprobe Rückschlüsse darauf ziehen können, was passieren würde, wenn wir viele Stichproben hätten. Die letzten beiden Sätze zusammenfügen: Wenn wir etwas Mathematik hinter uns haben, können wir unsere einzige Stichprobe verwenden, um zuverlässige Rückschlüsse auf die größere Bevölkerung zu ziehen.

Also, egal welche Inferenzstatistik wir verwenden, die Frage ist immer etwas wie: "Dieser Unterschied, den wir in unserer Stichprobe gefunden haben, ist die Wahrscheinlichkeit, dass wir einen so großen Unterschied gefunden haben , zufällig?" Wenn es unwahrscheinlich ist, dass unser Unterschied beobachtet wurde ist aufgrund des Zufalls, wir sind zuversichtlich, dass es real ist.