In einem kürzlich erschienenen Beitrag habe ich argumentiert, dass, obwohl eine Menge über die grundlegende Rationalität menschlicher (und nichtmenschlicher) Konformität gesagt werden kann, es auch Probleme geben kann. Das Beispiel des Tages war ein Schönheitswettbewerb. Mit zu viel Wahlkopie unter Frauen (Frauen, die Männer wählen, die andere Frauen wählen), können sowohl Frauen als auch Männer im Durchschnitt leiden.
Eine weitere Einschränkung ist die Größe der Mehrheit, die kopiert wird. Angenommen, Sie versuchen die Anzahl der Kugeln in einem Glas zu schätzen. Es gibt mehr Murmeln, als du zählen kannst. Dennoch können Sie anhand des Eindrucks der Größe des Glases und der Größe der einzelnen Murmeln eine Vermutung treffen. Nehmen wir an, Ihnen wird gesagt, dass 100 andere Personen bereits voneinander unabhängige Schätzungen gemacht haben und dass 95% dieser Schätzungen zwischen 700 und 800 liegen. Mit dieser Information ist Ihre beste Strategie, zu schätzen, dass es 750 Murmeln in der Krug. Wenn Sie die Zahl auf 200 schätzen, würden Sie sich als Ausreißer erkennen, dessen Urteilsvermögen nicht vertraut werden sollte. Die aggregierten Informationen der Schätzungen anderer zu verwenden, ist vergleichbar mit der Verwendung der Lebensader "Poll-the-publikum" auf "Wer wird Millionär?" Was aber, wenn Sie die Anzahl der Murmeln auf 200 schätzen, bevor Sie die Schätzungen der anderen kennen? Sobald Sie herausgefunden haben, wie weit Sie vom Rest der Gruppe entfernt sind, sollten Sie nichts dagegen einwenden, wenn Ihre Schätzung als Ausreißer entfernt wird.
In der Regel wird es einfacher, Ausreißer zu identifizieren, wenn die Anzahl der Beobachtungen zunimmt und die Varianz oder diese Beobachtungen abnimmt. Nun nehmen wir an, es gibt nur zwei andere, die beide eine hohe Schätzung abgegeben haben, während Sie eine niedrige Schätzung abgegeben haben. Sollten Sie der Idee, dass ihre Schätzungen wahrscheinlich genauer sind als Sie, rechtmäßig zustimmen, weil sie sich einig sind, während Sie nicht zustimmen? Das ist ein verlockender Gedanke. Vielleicht zeigt die Übereinstimmung Genauigkeit, selbst wenn die Anzahl der übereinstimmenden Personen am logischen Minimum ist.
Ich werde jetzt argumentieren, dass die Vereinbarung ein bloßer Stellvertreter für Genauigkeit und nicht besonders gut ist. Wenn alle Urteile stimmen, stimmen sie alle überein. Die Umkehrung ist jedoch nicht wahr, weil Urteile aus Gründen übereinstimmen können, die nichts mit Genauigkeit zu tun haben. Einer dieser Gründe ist der Zufall.
Der alternative Weg, um fortzufahren, ist, alle drei Urteile zu benutzen (Ihre und die Urteile der zwei anderen) und den Durchschnitt zu berechnen. Der Durchschnitt ist die beste Schätzung des latenten Parameters, den Sie alle erfassen möchten. Gemäß diesem Ansatz ist jeder der drei Richter ein unabhängiges Messinstrument und jede individuelle Beurteilung ist eine Zusammensetzung aus Information (Wahrheit) und Rauschen (Fehler). Es wird angenommen, dass die Fehler voneinander unabhängig sind, und Mittelungsurteile entfernen sie.
Wir haben nun zwei konkurrierende Empfehlungen, wie es weitergehen soll, wenn es zwei hohe und eine niedrige Beurteilung gibt. (A) Entfernen Sie das niedrige Urteil oder überzeugen Sie den Außenrichter, sich der Mehrheit anzuschließen; (B) Durchschnitt der drei Urteile ohne Vorurteil gegen jeden einzelnen von ihnen. Jede Methode hat ihre Befürworter. Das Hauptargument für A ist, dass die niedrige Schätzung "offensichtlich" und ausreißender ist und dass die Übereinstimmung Genauigkeit anzeigt [ich habe diese Idee bereits in Frage gestellt]. Darüber hinaus glauben Befürworter von A, dass Konsensfindung unter Richtern immer heilsam ist. Durch Diskussionen können sich Richter der Wahrheit nähern. Aber welche Wahrheit? Wenn die zwei hohen Richter etwas zugestehen und der niedrige Richter viel zugesteht, könnte das Ergebnis der Durchschnitt sein, der bereits aus den ursprünglichen Urteilen berechnet wurde. Wenn ja, war die Gruppendiskussion eine Verschwendung. Alternativ, wenn nur der Außenrichter einräumt (was wahrscheinlich unter einem asymmetrischen Konformitätsdruck geschieht), ist das Ergebnis, was man erhalten würde, wenn man einfach den Ausreißer ignoriert. Wiederum war die Gruppendiskussion eine Verschwendung von Zeit und Adrenalin. Eine dritte Möglichkeit ist, dass der Außenrichter ein bisschen mehr einräumt als die beiden zustimmenden Richter zusammen. Das Ergebnis ist eine Gruppenbeurteilung, die als gewichteter Durchschnitt beschrieben werden kann, wobei jedes individuelle Gewicht proportional zur Nähe des Urteils zum Gesamtmittelwert ist. Das klingt gut wie eine gute Idee, aber niemand weiß, was die Gewichte genau sein sollten. Zwischen den reinen Strategien A und B gibt es viele Punkte, bei denen die gewichtete Beurteilung enden kann. Daher werde ich im Folgenden nur A und B betrachten.
Mit zwei statistischen Prinzipien können wir feststellen, ob A oder B die bessere Strategie ist, ohne auf Intuition, Plausibilität oder Tradition zu setzen (wir haben es immer so gemacht!). Die erste Methode besteht darin, zu fragen, wie wahrscheinlich die Menge von drei beobachteten Urteilen ist, wenn wir annehmen, dass A oder B korrekt sind. Angenommen, die drei Urteile sind 2, 2 und -2. Stellen Sie sich diese Zahlen als eine Stichprobe aus einer Population mit einer Standardabweichung von 1 vor. Im Gegensatz zur Standardnormalverteilung ist der Mittelwert jedoch nicht 0. Stattdessen ist der Mittelwert entweder 2, wenn wir annehmen, dass die Theorie A korrekt ist. oder es ist .667 (2/3) wenn Theorie B richtig ist. Die gemeinsame Wahrscheinlichkeit, 2, 2 und -2 (oder Zahlen, die extremer sind) zu finden, ergibt sich unter Theorie A zu .000008 und unter Theorie B zu .00003. Das Verhältnis von Letzterem zu Erstem ist 3,75, was bedeutet, dass wenn beide Theorien wurden als gleich wahrscheinlich von Anfang an als wahr betrachtet, Theorie B ist fast viermal wahrscheinlicher als Theorie A. Dieses Ergebnis bedeutet, dass, wenn Sie das außerhalb liegende Urteil entfernen (oder den Dissidentenrichter überzeugen), ihre Meinung ändern, Sie verlieren wichtige Informationen und die resultierende Gruppenbeurteilung wird schlechter.
Die zweite Methode besteht darin, zu fragen, was passieren würde, wenn mehr Urteile von anderen unabhängigen Beobachtern eingeholt würden [es ist nicht notwendig, diese Urteile tatsächlich zu erhalten!] Wir nehmen nun an, dass die Anzahl der diesen Urteilen zugrundeliegenden Zahlen eine Standardnormale ist (M = 0, SD = 1). Daher ist der Satz von Zahlen, der mit der Theorie A nach der Ausreißerentfernung oder -korrektur (2, 2, 2) assoziiert ist, äußerst positiv. Wenn ein anderer Satz von drei Urteilen aus der Population entnommen würde, würde der resultierende Mittelwert höchstwahrscheinlich zwischen 0 und 2 liegen, und näher zu letzterem, da der Messvorgang zuverlässig ist. Da die Messung niemals völlig fehlerfrei ist, erwarten wir eine Regression auf den Mittelwert. Unter der Annahme der Menge von Zahlen, die durch die Theorie B (2, 2, -2) gegeben ist, würde der Mittelwert der zweiten Stichprobe von drei Beurteilungen höchstwahrscheinlich zwischen 0 und 2/3 liegen, und weil die 2/3 weniger extrem als 2 ist, die Größe des erwarteten Regressionseffekts ist unter Theorie B kleiner als unter Theorie A.
Wie diese Übung zeigt, korrigiert das Ignorieren (oder Ausblenden) von Ausreißern in einer kleinen Stichprobe den bekannten Regressionseffekt bei der Messung nicht. stattdessen macht es es schlimmer. Die beste Schätzung unter Theorie B (2/3) ist wahrscheinlich etwas höher als nach einer fortgesetzten Stichprobe. Wenn überhaupt, sollte diese Schätzung reduziert werden. Indem wir den Ausreißer jedoch abschneiden, verschieben wir die Gruppenschätzung von 2/3 auf 2. Indem wir die Schätzung extremer machen, machen wir es wahrscheinlicher, dass sie positiv aufgebläht wird.
Lassen Sie uns den Regressionseffekt mit konkreten Zahlen veranschaulichen. Wenn wir optimistisch davon ausgehen, dass Urteile sehr zuverlässig sind (r = .9), dann wird eine durchschnittliche Beurteilung von 2 (der Mittelwert von 2, 2 und 2) als durchschnittlich von 1,8 repliziert. Im Vergleich dazu wird eine durchschnittliche Bewertung von 2/3 (der Mittelwert von 2, 2 und -2) als .6 repliziert. Beachten Sie, dass das frühere Urteil aufgrund seiner größeren Extremität überhöhter als das letztere ist. Doch nach der Auffassung, dass Übereinstimmung Genauigkeit bedeutet, ist das frühere Urteil das bessere. Wenn wir pessimistischer annehmen, dass Urteile nur eine geringe Reliabilität haben (r = .6), sind die Regressionseffekte größer, zeigen aber das gleiche Muster. Ein ursprünglicher Mittelwert von 2 geht bis zu einem vorhergesagten Wert von 1,2 zurück, und ein ursprünglicher Mittelwert von 2/3 bildet sich auf einen vorhergesagten Wert von 0,4 zurück.
Wenn Sie denken, dass diese Geschichte zu abstrakt ist und dass die Theorien A und B sowieso nichts machen, lassen Sie mich betonen, dass sie sehr wichtig sind, wenn kleine Komitees über Zulassung, Finanzierung, Beförderungen usw. entscheiden Forschung betreiben. Jeder Vorschlag wird von drei Richtern bewertet, und die Punktzahlen jedes Schiedsrichters sind standardisiert. Nur die Besten können finanziert werden. Ein Angebot mit den Bewertungen 2, 2 und 2 ist sicher, ein Angebot mit den Bewertungen 1, 1 und 1 jedoch nicht. Jetzt ist ein dritter Vorschlag von der Art, die oben besprochen wurde (2, 2, -2). Nach Theorie B (einfache Mittelung) macht dieser Vorschlag nicht den Ausschlag. Nach der Theorie A (Ausreißerentfernung) geht dieser Vorschlag über den zweiten hinaus und verhindert möglicherweise, dass er finanziert wird. Gruppendiskussion kann also viel Schaden anrichten. Wenn, wie in diesem Beispiel, relativ hohe Werte von größtem Interesse sind, werden Vorschläge (Personen) mit einem negativen Ausreißer selektiv bevorzugt. In einem Förder- oder Förderungskontext ist niemand an Fällen mit zwei niedrigen und einem hohen Wert interessiert.
Regression wirkt sich auch auf diskrete Entscheidungen aus. Wenn drei Richter einstimmig für die Finanzierung eines Projekts stimmen (einen Kollegen fördern oder einen Verdächtigen entlasten), ist es unvorsichtig zu schlussfolgern, dass alle anderen einverstanden wären, wenn sie gefragt würden. Die wahre Wahrscheinlichkeit von 'aye' ist [wahrscheinlich] kleiner als ihre Wahrscheinlichkeit in der Stichprobe, wenn letztere hoch ist. Wenn zum Beispiel die wahre Wahrscheinlichkeit 0,9 ist, dann ist die Wahrscheinlichkeit, dass eine Stichprobe von 3 unabhängigen Richtern (dh ihre Urteile sind unkorreliert) einstimmig dafür ist, 0,73. Mit anderen Worten, seltene Ereignisse (hier: negative Stimmen) sind in kleinen Stichproben unterrepräsentiert. Nach einer Stichprobe von drei einstimmigen Richtern ist es wahrscheinlich, dass ein echter Konsens nicht perfekt ist. Aber wie unvollkommen ist es? Woher wissen wir, wie viel eine Korrektur zu machen ist?
In diesem Beispiel habe ich angenommen, dass in Wahrheit p = .9, aber p könnte einen anderen Wert als 0 haben [wenn p 0 wäre, könnte keine Ja-Stimme auftreten]. Die elegante Lösung, die von Laplace vorgeschlagen wurde, besteht darin, Ignoranz zu bekennen; Es ist anzunehmen, dass alle Werte von p gleich wahrscheinlich sind. Nachdem wir eine Stichprobe beobachtet haben, können wir fragen, wie wahrscheinlich diese Stichprobe aus jedem möglichen Wert von p gezogen werden sollte. Offensichtlich wurde eine Stichprobe von 3 Ja-Stimmen am wahrscheinlichsten gezogen, wenn p = 0,99, gefolgt von p = 0,98 und so weiter bis p = 0,01. Man braucht eine Integralrechnung, um dies richtig zu machen, aber unter der Annahme der Ignoranz läuft alles auf eine einfache und schöne Formel hinaus. Die beste Schätzung, dh die Schätzung, die Fehler der Regression und Fehler des entgegengesetzten Typs minimiert, ist (k + 1) / (n + 2), wobei k die Anzahl der "Erfolge" [hier, Ja-Stimmen] und ist n ist die Stichprobengröße. Nach der Beobachtung von 3 Ja-Stimmen und keinem Dissens beträgt die Laplace-Schätzung der wahren Unterstützung in der Bevölkerung 4/5 oder p = 0,8. Um Laplace zu ignorieren und p = 1 zu schätzen, wird ein Regressionsfehler beglaubigt, der ein Fünftel der geschätzten Größe ist. Wenn die Stichprobe größer wäre und Einstimmigkeit noch immer zu beobachten wäre, wäre der Fall für die Annahme einer echten Einstimmigkeit stärker [z. B. wenn 30 von 30 beurteilten Richtern mit ja stimmen, ist die Schätzung von p 31/32 oder .969].
Kommen wir zu den Tafeln ohne perfekte Einstimmigkeit zurück. Wenn 29 Ja-Sager einen Nein-Sager ausschließen oder eine Änderung des Geistes veranlassen, verdeckt die Annahme der Einstimmigkeit einen beträchtlichen Regressionseffekt (.094 = 1 – .906). Die gleiche Strategie der Ausgrenzung oder des sozialen Einflusses führt zu einem viel größeren Regressionsfehler in einer kleinen Stichprobe. Wenn 2 Ja-Sager einen Dissidenten ausschließen oder konvertieren, ist der Fehler .4 (1-.6, wobei .6 ist (2 + 1) / (3 + 2).
Die Logik der Messung, Datenintegration und Korrektur für wahrscheinlichen Fehler ist ein harter Verkauf. Viele Menschen haben eine Abneigung gegen Zahlenverarbeitung, weil es mechanisch wirkt. Es scheint so viel humaner zu sein, vernünftige Leute zu unterhalten und einen Konsens zu erreichen. Konsens fühlt sich gut an. Mitglieder der Mehrheit, die sich wahrscheinlich durchsetzen werden, können sich auf den Glauben stützen, sowohl sachlich korrekt als auch sozial überzeugend zu sein (indem sie einen Dissidenten klarstellen). Der ehemalige Dissident hat zumindest die oberflächliche Befriedigung, von der Gruppe akzeptiert zu werden. Die 3 Richter schlafen wohl in dieser Nacht gut und merken nicht, dass sie Unrecht getan haben. Im ursprünglichen Beispiel rangiert ein guter Fall ohne Anfangsvarianz (1, 1, 1) nun unter dem Fall, der von (2, 2, -2) zu (2, 2, 2) anstieg. In einem Finanzierungskontext, in dem es eine scharfe Grenze zwischen Leben und Tod gibt, wird einer der Fälle, der durch den Fall, dass der überprüfte Fall sich erholt hat, einen Rückgang verzeichnen musste, diese Grenze überschreiten. Irrationalität kann Ungerechtigkeit hervorrufen.
Wir können daraus schließen, dass es in der hier betrachteten Art der Entscheidungsfindung vernünftig (und ethisch) ist, jedes Urteil als eine unabhängige Probe von Eins zu behandeln, wie es Theorie B nahelegt. Wenn die Urteile kontinuierlich sind, sollten sie gemittelt werden. Wenn die Urteile diskret sind, sollten sie in Proportionen umgewandelt werden. Beide Arten von Schätzungen können für einen wahrscheinlichen Stichprobenfehler korrigiert werden, um Regressionseffekte zu bekämpfen. Es ist kein Hexenwerk, und die Menschen, die sich dem Urteil unterwerfen, verdienen es, mit den besten Standards behandelt zu werden.
Übrigens, der Herr auf dem Foto ist Sir Francis Galton.