Schwarze Frauen sind nicht (bewertet) weniger attraktiv! Unsere unabhängige Analyse des Gesundheitsdatensatzes hinzufügen

[Dieser Beitrag wurde gemeinsam mit Jelte Wichert geschrieben]

In seinem gutgelesenen Blogbeitrag, der ursprünglich den Titel "Warum schwarze Frauen körperlich weniger attraktiv sind als andere Frauen", kam der Psychologe Satoshi Kanazawa von der London School of Economics (LSE) zu dem Schluss, dass er afroamerikanische Frauen "objektiv" weniger attraktiv fand als europäische amerikanische, asiatische amerikanische und amerikanische Ureinwohnerfrauen. Die unmittelbaren und weit reichenden Antworten auf seine kontroversen Schlussfolgerungen veranlassten die Psychology Today, zuerst den Titel des Blogs zu ändern und ihn später ganz zurückzuziehen.

Innerhalb weniger Tage, nachdem die Post auf der Website erschienen war, kam es zu einem Feuersturm. Blogger aus der ganzen Welt brachten ihre Empörung über die Post zum Ausdruck. Die Reaktionen vieler Leute waren emotional aufgeladen, und das zu Recht. Viele afroamerikanische Frauen, die ihr Leben lang diskriminiert werden müssen, waren verärgert und verletzt. Andere Kritiken versuchten analytisch zu sein, gingen aber nicht auf die Schlüsselfragen ein oder griffen das gesamte Gebiet der Evolutionspsychologie wegen eines Mitglieds der Disziplin an (siehe meine Gedanken dazu hier). Die größte Studentenorganisation in London (mit 120.000 Studenten) forderte Kanazawas Entlassung aus der LSE. Laut ihrem Sprecher hat LSE eine interne Untersuchung des Blogs gestartet, obwohl der LSE-Sprecher die akademische Freiheit seiner Forscher betonte.

Wir stimmen zu, dass Wissenschaftler nicht entlassen werden sollten, wenn sie unhöfliche Aussagen machen, die Menschen beleidigen könnten. Die akademische Freiheit beinhaltet jedoch nicht das Recht (1) Daten falsch zu interpretieren und (2) empirische Ergebnisse zu ignorieren, die gegen die angegebenen Ansprüche verstoßen.

Wir haben die Daten von "Add Health" abgerufen, auf denen Satoshi Kanazawa seine Schlussfolgerungen basierte, um zu sehen, ob seine Ergebnisse einer genauen Prüfung standhalten. Add Health ist eine Studie, die an einer landesweit repräsentativen Stichprobe von Jugendlichen der Klassen 7-12 durchgeführt wurde, die bis zum Erwachsenenalter untersucht wurden. Die Studie umfasst viele, viele Variablen (über 8000 in den öffentlich verfügbaren Datensätzen allein), einschließlich Maßnahmen für soziales, ökonomisches, psychologisches und physisches Wohlbefinden. Als wir den Datensatz zum ersten Mal öffneten, waren wir überwältigt von Variablen! (Eine Sache, der wir Kanazawa danken können, ist, dass wir diese Frage überhaupt erst ansprechen, da wir die Variablen, die er gemacht hat, wahrscheinlich nie gesehen hätten. Außerdem muss angemerkt werden, dass es bei so vielen Variablen zwangsläufig sein muss viele statistisch signifikante Ergebnisse im Datensatz nur aufgrund des Zufalls [1].)

Sobald wir die relevanten Variablen gefunden haben, haben wir die relevanten Analysen durchgeführt und wir haben Folgendes gefunden:

1. Kanazawa erwähnt mehrmals, dass seine Daten zur Attraktivität "objektiv" bewertet werden. Die Attraktivitätsbewertungen der Interviewer zeigen extrem große Unterschiede hinsichtlich der Attraktivität des Interviewten. Zum Beispiel sind die von den Wellen 1 und 2 gesammelten Bewertungen nur bei r = 0,300 korreliert (eine Korrelation reicht von -1,0 bis +1,00), was darauf hindeutet, dass nur magere 9% der Unterschiede in den Bewertungen der zweiten Welle desselben Individuums vorhergesagt werden können auf der Grundlage der ein Jahr zuvor vorgenommenen Bewertungen [2]. Die Bewertungen in den Wellen 3 und 4 korrelierten zwischen den Ratern sogar noch niedriger, bei nur 0,136 – obwohl die Befragten das Erwachsenenalter bis dahin erreicht hatten und daher nicht erwartet wird, dass sie sich in der körperlichen Entwicklung so stark verändern wie die Teenager. Obwohl diese Bewertungen nicht zur gleichen Zeit gemacht wurden, wenn Ratings von Attraktivität weniger als 2% gemeinsame Varianz haben, ist es schwer, mit Kanazawas Behauptung übereinzustimmen, dass Attraktivität objektiv bewertet werden kann.

Die geringe Konvergenz der Ratings zeigt, dass Schönheit in diesem sehr großen und repräsentativen Datensatz meist im Auge des Betrachters liegt. Was wir hier sehen, sind einfache Bewertungen der Attraktivität von Interviewern, deren Geschmack sich stark unterscheidet. Zum Beispiel bewertete ein Interviewer (Nr. 153) 32 Frauen als "durchschnittlich", während ein anderer Interviewer (Nr. 237) fast alle 18 Frauen als "unattraktiv" einstufte. Denn die Bewerter unterscheiden sich stark in ihrer Art die Attraktivität der Befragten erhöhen und da die meisten von ihnen zahlreiche Interviews und Bewertungen durchgeführt haben, muss diese Variationsquelle berücksichtigt werden, wenn die durchschnittlichen Race-Unterschiede bei den Attraktivitätsbewertungen getestet werden. Kanazawa gibt nicht an, dass er das tat.

2. Kanazawa interpretiert seine Ergebnisse in Bezug auf die Attraktivität von Erwachsenen, wobei der Großteil seiner Daten auf den Bewertungen der Attraktivität der Teilnehmer als Teenager basierte. Wenn viele von uns (einschließlich der Autoren dieses Beitrags) unser ganzes Leben lang aufgrund unserer physischen Attraktivität als Teenager beurteilt wurden, wären viele von uns in Schwierigkeiten!

Gesundheit hinzufügen hat derzeit vier "Wellen" oder Phasen. Hier ist ein Diagramm der vier Wellen und der Altersgruppen der vier Wellen:

Beachten Sie, dass nur Welle IV tatsächlich aus "Erwachsenen" besteht. In der Tat ist der Altersbereich für Welle I und Welle II 12-22, mit einem Durchschnittsalter von etwa 16 für beide Wellen.

Stellen Sie sich das Szenario vor. Erwachsene Forscher (leider konnten wir keine Informationen über die eigentlichen Interviewer selbst herausfinden) gingen in die Heime dieser Teilnehmer und bewerteten auf einer Skala von 1 bis 5 (von "sehr" bis "5") ihre eigene subjektive Sicht der körperlichen Attraktivität der Studienteilnehmer unattraktiv "zu" sehr attraktiv "). Vor allem für Waves I und II könnten die Bewertungen unmöglich (wir hoffen!) Sich auf Bewertungen der sexuellen Attraktivität dieser Kinder beziehen. Diskussionen über dieses Thema mit Daten von der Dating-Website OK Cupid sind also hier nicht angebracht.

Nur in den Wellen 3 und 4 waren die Teilnehmer im Durchschnitt alt genug (M = 22,2, SD = 1,9 und M = 29,00 SD = 1,8), um tatsächlich "Frauen" und "Männer" anstelle von Mädchen und Jungen genannt zu werden. Betrachtet man die Daten der Wellen (3 und 4), in denen alle Befragten das legale Erwachsenenalter erreichten, unterstützt das Ergebnismuster Kanazawas Hauptschlussfolgerung nicht mehr.

In Welle 3 fanden wir einen sehr geringen Unterschied in den Attraktivitätsbewertungen zugunsten der europäischen Frauen, aber dieser Effekt ist nicht mehr signifikant, nachdem wir die zufällige Variation aufgrund der Beurteiler berücksichtigt haben.

Jedoch sind nur Daten aus Welle 4 relevant für das Problem, das Kanazawa ansprechen möchte, einfach weil dies die einzige Welle ist, die aus Erwachsenen besteht (sie wurden gesammelt, wenn alle Teilnehmer Erwachsene im Alter von 25-34 waren). Leider enthält Kanazawa keine Präsentation dieser Wave 4-Ergebnisse, obwohl er in den meisten seiner Studien Daten zum Gesundheitszustand verwendet und diese Daten seit über einem Monat verfügbar sind.

Wenn man sich nur auf Welle 4 konzentriert, ist es offensichtlich, dass unter den Frauen in der Stichprobe kein Unterschied zwischen den Ethnien in Bezug auf die Bewertung der physischen Attraktivität besteht . Unterschiede in den Verteilungen für Frauen, wenn sie mit einem regulären (und leicht liberalen) Unabhängigkeitstest getestet werden, sind nicht signifikant und können daher dem Zufall zugeschrieben werden (Pearsons Chi-Quadrat = 15,6, DF = 12, p = 0,210). Hier ist die Grafik, die die Verteilung der Bewertungen (in Prozent) für 1564 europäische Amerikaner, 553 Afroamerikaner, 97 amerikanische Ureinwohner und 96 asiatische amerikanische Frauen zeigt (mit arithmetischen Mitteln unterhalb jeder Gruppe):

Wir analysierten auch die Daten für die Männer in der Stichprobe und der gleichen Welle und fanden, dass die Rassengruppenunterschiede für die Männchen nur signifikant waren (Pearsons Chi-Quadrat = 21,2, DF = 12, p = 0,048), wobei schwarze Männchen zeigten eine etwas höhere allgemeine Attraktivitätsbewertung als die anderen Ethnien ( Anmerkung : Dieses Ergebnis ist statistisch nicht stichhaltig, da es die Abhängigkeit der Datenpunkte aufgrund der Verwendung derselben Bewerter nicht berücksichtigt). Hier ist das Diagramm:

Da dieser sehr kleine Unterschied bei Welle 3 nicht auftrat, würden wir nicht viel daraus machen.

Kanazawa behauptet, nur an den "harten" Wahrheiten der menschlichen Natur interessiert zu sein. Und die Wahrheit ist: Als Erwachsene werden Schwarze Frauen in Nordamerika von den Interviewern der Gesundheitsstudie "Add", die eine der landesweit repräsentativsten Proben ist, die jemals für Untersuchungen zur Verfügung standen, nicht weniger attraktiv bewertet .

Beachten Sie, dass die Daten auf irgendeine Weise hätten herauskommen können, und egal, wie sich herausstellte, wir hätten berichtet, was wir gefunden haben. Wir denken, dies ist ein interessantes und wichtiges Thema der Untersuchung. Andere rigorose, von Experten begutachtete, veröffentlichte Studien (mit einer viel weniger repräsentativen und kleineren Stichprobe der Vereinigten Staaten) haben statistisch signifikante mittlere Unterschiede in der Attraktivitätsbewertung basierend auf ethnischer Zugehörigkeit gezeigt.

Wir sind jedoch der Ansicht, dass solche Forschung in wissenschaftlicher Strenge und Präsentation einen höheren Standard als andere Forschungsthemen haben sollte (siehe hier für ein ähnliches Argument). Dies sollte insbesondere für Themen gelten, die Personen innerhalb einer bestimmten Gruppe möglicherweise Schaden und Leid zufügen können. Die Wissenschaft operiert nicht in einem Vakuum. Rigorose wissenschaftliche Sammlung und verantwortungsvolle wissenschaftliche Berichterstattung sind nicht nur für den Fortschritt der Wissenschaft, sondern auch für die Verbesserung der Gesellschaft von wesentlicher Bedeutung (ist das nicht der Sinn der Psychologie?).

Selbst wenn gute, rigorose Forschungsergebnisse zeigen, dass schwarze Frauen im Durchschnitt in relevanten Merkmalen unterschiedlich bewertet werden (obwohl dies angesichts der Repräsentativität dieses Datensatzes höchst unwahrscheinlich ist), könnte dies Auswirkungen auf den Rassismus haben. Der Weg zur Bekämpfung von Rassismus ist jedoch nicht, ihn zu ignorieren (siehe hier für ein verwandtes Argument), sondern zu verstehen, wie und warum er sich entwickelt, wobei er alle möglichen kausalen Erklärungen vom biologischen über das kulturelle Lernen bis hin zum bio-sozio-kulturellen Bereich unterhält Lernen.

Earl Hunt und Jerry Carlson bieten 10 Grundsätze für Design, Analyse und Berichterstattung, die bei der Erforschung von Gruppenunterschieden sorgfältig geprüft werden sollten (sie konzentrieren sich auf Unterschiede in der Intelligenz, aber ihre Prinzipien gelten auch für die Untersuchung von Unterschieden in der Attraktivität). Das vollständige Papier kann hier heruntergeladen werden und wir hoffen, dass es eine Reihe von Richtlinien für weitere Forscher, die sich zu diesem Thema entscheiden, sowie für Blogger, die diese Erkenntnisse einem breiten Publikum mitteilen möchten, anbieten kann.

Wie die Forscher sagen:

"Wenn Wissenschaftler sich mit Untersuchungen befassen, die für die unmittelbare Sozialpolitik relevant sind, wie Studien über Gruppenunterschiede haben können, ist es die Pflicht der Wissenschaftler, in ihrer Forschung einen höheren wissenschaftlichen Standard anzuwenden, als es für das Ziel der Forschung notwendig wäre nur um die Erforschung der Wissenschaft selbst voranzutreiben. Wir vertreten zu keinem Zeitpunkt die Ansicht, dass bestimmte Kenntnisse mit der Begründung verboten werden sollten, dass sie unsachgemäß verwendet werden könnten. Wir argumentieren, dass, wenn die Chance besteht, dass bestimmte Ergebnisse schnell in öffentliche Debatten und politische Entscheidungen umgesetzt werden, es die Pflicht des Wissenschaftlers ist, sicher zu sein, dass diese Ergebnisse von höchster Qualität sind. "

Kanazawa folgt diesen Richtlinien nicht in all seinen Veröffentlichungen. Zum Beispiel, in einem Papier über Rassenunterschiede im IQ begeht er nicht nur mehrere theoretische Fehler, sondern hat auch keine alternativen Erklärungen in Betracht gezogen. Übrigens nahm er in diesem Papier auch an, die Erde sei flach!

Wenn sie richtig gemacht wird, korrigiert sich die Wissenschaft selbst. Schlechte Wissenschaft und Interpretationen werden durch bessere wissenschaftliche Qualität und vernünftigere und genauere Schlussfolgerungen ersetzt. Wenn Sie den Datensatz "Gesundheit hinzufügen" selbst analysieren möchten, können Sie das tun! Sie können hier Ihre eigene Kopie des Datensatzes anfordern. Wir freuen uns auf eine weitere sinnvolle Diskussion über diese wichtigen Themen, die sich wesentlich auf das Leben vieler Menschen auswirken.

Sie können hier eine ausführlichere, technischere Zusammenfassung unserer Analyse herunterladen.

© 2011 von Scott Barry Kaufman und Jelte Wicherts

Folge Scott auf Twitter oder Facebook . Kontaktiere ihn hier !

[1] Einige mögen mit unserer Verwendung des Wortes "magere" hier auf eine Korrelation von .30 verweisen. Wir sollten beachten, dass diese Korrelationen nicht die typischen Korrelationen sind, die in der Differentiellen Psychologie gefunden werden (zB IQ mit einer Persönlichkeitsvariablen), sondern eher eine Analyse der Inter-Rater-Übereinstimmung. Auf der Basis der Kreuztabellen ist das Cohen's Kappa von Wave1-Wave2 für Frauen .196. Laut Landis und Koch sollte dies als "geringfügige Vereinbarung" interpretiert werden. Kappa für Wave3-Wave4 ist .099- noch schlimmer.

[2] Unsere Argumentation stammt aus der Standard-Pearson-Neyman-Entscheidungstheorie. Wenn man annimmt, dass die Nullhypothese für beispielsweise 1000 potenzielle Tests wahr ist, dann wird erwartet, dass 50 dieser Tests bei Alpha = 05 signifikant sind. Wenn wir in diesen 50 Fällen auf der Basis von p <0,05 schließen, dass tatsächlich ein Effekt vorliegt, begehen wir Fehler vom Typ 1. Ihre Ergebnisse können wohl als "Zufallsbefunde" bezeichnet werden, weil wir nicht erwarten, dass sie replizierbar sind, nur weil die Nullhypothese wahr ist.