Ist Stereotype Threat überkocht, übersteuert und überverkauft?

Der Verkauf von Stereotype Threat

Stereotype Threat ist eines der bekanntesten und einflussreichsten Phänomene in der gesamten Psychologie. Die berühmte Zeitung (Steele & Aronson, 1995), die das Phänomen enthüllte, wurde laut Google Scholar über 5000 Mal zitiert. Und aus gutem Grund.

Die ursprünglichen Studien schienen eine außergewöhnlich bemerkenswerte Entdeckung zu ergeben. Der typischerweise sehr große durchschnittliche Unterschied in den standardisierten Testergebnissen zwischen Afroamerikanern und Weißen war angeblich ein sehr schwacher, oberflächlicher Unterschied, der leicht durch eine von zwei winzigen Anpassungen an die Bedingungen, unter denen solche Tests verabreicht wurden, eliminiert wurde. Angesichts der Tatsache, dass es für Pädagogen und Sozialwissenschaftler seit mehr als 50 Jahren praktisch unmöglich war, Programme zu entwickeln, die rassische Leistungsunterschiede eliminieren, war dies ein "weltverändernder" Befund.

Was war diese kleine Situationsoptimierung? Richten Sie den Test als "psychologische Faktoren bei der Problemlösung" und nicht als Test für "persönliche Faktoren in der Leistung" ein. "Das ist es?", Sagen Sie. Das ist es wirklich. Das sollte funktionieren, denn nach der Theorie der Stereotype Threat werden afroamerikanische Studenten häufig besorgt, Rassendialotypen zu bestätigen, und dies schadet ihrer Leistung. Nach weit verbreiteten Interpretationen der Steele & Aronson (1995) Ergebnisse, wenn man diese Bedrohung entfernt, voila! Rassenunterschiede verschwanden.

Based on Steele & Aronson, 1995
Quelle: Basierend auf Steele & Aronson, 1995

Schwarze Balken sind für afroamerikanische Studenten; Striped Bars sind für weiße Studenten. Diese Zahl basiert auf Ergebnissen, die in Steele & Aronson, 1995, Studie 2 präsentiert wurden. Da sie nur Tests zur Signifikanz von Differenz berichteten und die Werte nicht berichteten, sind die Werte hier Annäherungen, die auf einer von ihnen dargestellten Zahl basieren.

Sieh dir diese Bars an! Sie sind großartig. Als der Test als "Herausforderung" gerahmt wurde, verschwand die gesamte Rassenleistungslücke vollständig! Kein Wunder, dass dieses Papier 5000 Mal zitiert wurde. Eureka! Schließlich hat jemand das Rassenleistungslückenproblem gelöst!

Die Overselling of Stereotyp Threat 1.0: Überkochen der Ergebnisse

Außer sie nicht. Stereotype Bedrohung wurde übertrieben, übertrieben und überverkauft.

Wie kann das sein? Sie können mit Ihren eigenen Augen sehen, können Sie nicht, dass der Rassenunterschied vollständig verdunstet ist, als der Test als Problemlösung gerahmt wurde? Was kann ich dir vielleicht sagen, das könnte etwas anderes vorschlagen?

Die Ergebnisse sind nicht das, was sie scheinen. Es ist sicherlich richtig, dass, wenn die Ergebnisse mittlere Test-Leistungswerte wären, wie sie auf der X-Achse bezeichnet werden, sie tatsächlich ein World-Changing-Ergebnis wären, das zeigt, dass eine einfache situative Optimierung rassische Leistungsunterschiede eliminieren kann.

Aber sieh dir das Y-Axis Label an. Siehst du diesen fiesen kleinen, fast in Sichtweite versteckten "(durch SAT-Scores angepasst)"? Diese Abbildung zeigt keine mittleren Testergebnisse. Weil es keine Mittel zeigt, kann es unmöglich (und nicht) zeigen, dass die Mittel gleich waren.

Es zeigt angepasste mittlere Testergebnisse an, die für frühere SAT-Scores gelten. Dies ändert entscheidend die Bedeutung der Ergebnisse; und es ändert dieses World Changing Result zu etwas Alltäglichem. Insbesondere liefert dieses Ergebnis keinerlei Hinweise darauf, dass der Unterschied in der Rassenleistung sogar reduziert, geschweige denn eliminiert wurde, wie es in einem vor mehr als zehn Jahren erschienenen Artikel zum Ausdruck kommt (Sackett et al., 2004).

Wie kann das sein? Diese falsche Gleichsetzung der Mittel wird durch eine statistische Technik, die Analyse der Kovarianz (ANCOVA), durchgeführt. Wenn die Annahmen für eine ANCOVA erfüllt sind und wenn die Schüler wirklich zufällig Bedingungen zugewiesen wurden, zeigen gleich eingestellte Mittel nicht gleichwertige Mittel an; sie zeigen an, dass die früheren Unterschiede einfach beibehalten wurden. Wenn die statistischen Annahmen nicht erfüllt wurden, ist das Ergebnis nicht interpretierbar. Wenn die zufällige Zuweisung fehlgeschlagen ist, spiegelt das gesamte Ergebnis eine fast nicht interpretierbare nicht-experimentelle Studie wider.

ANCOVA "steuert" für frühere SAT-Scores. Es kann gute Gründe für die Verwendung von ANCOVA geben, aber man sollte niemals einen wahren Mittelwert mit einem "kovariatenadjustierten Mittelwert" verwechseln. Wenn wir vorherige Unterschiede "kontrollieren" (dh sie eliminieren) und keinen Unterschied erhalten, liegt das an keiner Intervention wir haben diesen Unterschied "beseitigt"; Das liegt daran, dass wir den Unterschied statistisch entfernt haben. Natürlich können wir das tun, aber "Gleichheit" wird zu einer statistischen Fiktion, die sich aus der Beseitigung der Unterschiede ergibt, und der Unterschied ist immer noch da. Gleiche angepasste Mittel in ANCOVA können sehr ähnlich sein mit den Worten: "Außer dem durchschnittlichen Höhenunterschied von vier Zoll zwischen Männern und Frauen sind ihre durchschnittlichen Höhen identisch."

Das kann man vielleicht am leichtesten in einer kleinen Analyse sehen, die wir kürzlich zu dem viel weniger umstrittenen Thema der Temperaturunterschiede zwischen Tampa und Anchorage durchgeführt haben. Wir wählten 20 Tage verstreut das ganze Jahr und, was für ein Schock, festgestellt, dass Tampa etwa 40 Grad wärmer als Anchorage war.

Durch die Magie von ANCOVA können wir diesen Unterschied "statistisch" verschwinden lassen. Wir identifizierten einfach die Temperaturen in Tampa und Anchorage am Vortag und führten nun eine ANCOVA durch, "die auf frühere Temperaturen kontrolliert". Abbildung 2A zeigt die enorme Differenz von 40 Grad in der tatsächlichen Temperatur. Fig. 2B zeigt, wie unter Berücksichtigung der früheren Temperaturen kein Temperaturunterschied zwischen Tampa und Anchorage besteht.

Aber natürlich nicht. Zu sagen "es gibt keine Unterschiede, Kontrolle für frühere Unterschiede" ist eine dumme, leere Sache zu sagen. Es ist wie zu sagen: "Es gibt keinen Unterschied, nachdem wir den Unterschied beseitigt haben."

Mit anderen Worten: "In den nicht-bedrohlichen Bedingungen haben afroamerikanische und weiße Schüler gleiche Leistungen erbracht (Kontrolle für frühere Leistungen)" bedeutet im Wesentlichen dasselbe wie "Tampa und Nome haben die gleichen Temperaturen (Kontrolle für frühere Temperaturen)".

2A

Lee Jussim
Quelle: Lee Jussim

2B

Lee Jussim
Quelle: Lee Jussim

Kovariate angepasste Durchschnittstemperaturen, in Nome und Tampa an 20 Tagen im Jahr 2014

Zahlen basieren auf denen, die in Jussim et al. (Im Druck) erscheinen. Statistisch "steuern" für die Temperaturdifferenz zwischen Tampa an den vorhergehenden Tagen, "eliminiert" den Unterschied zwischen Tampa und Nome an den folgenden Tagen. Außer natürlich, das ist eine statistische Fiktion.

Overselling von Stereotype Threat 2.0

In den ersten 10 Jahren nach der Veröffentlichung der ursprünglichen stereotypen Bedrohungsstudien wurden sie routinemäßig verkauft, um zu zeigen, dass "die Bedrohung beseitigt und Rassenunterschiede beseitigt werden" (Jussim, Crawford, Anglin, Stevens und Duarte, im Druck; Sackett et al., 2004; siehe auch Referenzen am Ende).

Als Antwort auf Sackett et al. Kritisierten sogar Steele & Aronson (2004, S. 48), dass dies einfach nicht wahr war:

"Zweitens, Sackett et al. (2004) engen Fokus haben möglicherweise auch dazu geführt, dass sie sich zu viel Sorgen über die Verwendung von Kovarianz-Analyse in Steele und Aronson (1995) Studie. Sie befürchteten, dass diese Analyse die Leser glauben machen ließ, dass Afroamerikaner genauso gut wie Weiße in der nichtdiagnostischen (keine stereotype Bedrohung) Bedingung dieses Experiments abschnitten, obwohl sie ohne diese Anpassung gezeigt hätten, dass sie noch schlechter abschnitten als Weiße. wie vorhergesagt durch den Gruppenunterschied in ihren SATs. Wir, so wie Sackett et al., Bereuen jede Verwirrung, die diese gemeinsame Analyse verursacht haben könnte. "

Sie müssen diese Passage oben genau lesen. Was als Kritik an Sackett et al. Beginnt, begräbt die Erkenntnis , dass Sackett et al. Recht hatten! Die kritische Anerkennung ist es wert, wiederholt zu werden: "… ohne diese Anpassung würden sie zeigen, dass sie noch schlechter abschneiden als Weiße ." Und dennoch, die Behauptung "Steele & Aronson fand heraus, dass Bedrohung entfernen, und Schwarz = Weiß-Testergebnisse" erscheint über und immer wieder (siehe Beispiele am Ende dieses Beitrags).

Aber es wird schlimmer, oder zumindest nicht viel besser. Sozialpsychologen reagieren oft recht defensiv, wenn man uns vorwirft, keine "echte" Wissenschaft zu sein. Einige dieser Vorwürfe werden wahrscheinlich von Leuten geahndet, die unsere Ergebnisse nicht mögen, aber ich würde lieber nicht in der Lage sein, solchen Kritiken viel Glaubwürdigkeit zu verleihen. Und "wahre" Wissenschaften sind selbstkorrekt, wenn festgestellt wurde, dass sie ungültige Schlussfolgerungen fördern.

Also, wie machen wir Selbstkorrektur? Häufig finden sich nun Behauptungen wie die folgenden:

Schmader, Johns und Forbes (2008, S. 336) behaupteten, dass die ursprünglichen Studien (Steele & Aronson, 1995) zeigten: "… Afroamerikanische College-Studenten erbrachten schlechtere Leistungen als ihre weißen Kollegen bei standardisierten Testfragen, als diese Aufgabe beschrieben wurde Sie sahen ihre Fähigkeiten als diagnostisch für ihre verbalen Fähigkeiten, aber ihre Leistung entsprach der ihrer weißen Kollegen, wenn dieselben Fragen einfach als Übung in der Problemlösung formuliert wurden (und nach Berücksichtigung früherer SAT-Bewertungen). "

In ähnlicher Weise schrieben Walton, Spencer und Erman (2013, S. 5): "In einer klassischen Serie von Studien zeigten schwarze Schüler schlechter als weiße Schüler auf einem GRE-Test, der als Bewertung der verbalen Fähigkeiten beschrieben wurde stereotyp. Aber wenn derselbe Test als nicht-wertbestimmend beschrieben wurde – was das Stereotyp irrelevant machte – liefen sowohl Schwarze als auch Weiße (Kontrolle für SAT-Werte; Steele & Aronson, 1995). "

Diese Aussagen sind technisch wahr, sehr verworren und nicht einzigartig für diese Papiere. Die Sprache muss verworren sein, denn für die Aussagen, um technisch wahr zu sein, muss die Erklärung, dass afroamerikanische und weiße Noten "gleichwertig" in nicht-bedrohlichen Bedingungen sind, zurückgelegt werden, indem die Klammern bezüglich "Kontrolle früherer SAT-Scores" hinzugefügt werden. Dieses "Zurückgehen" macht die Schlussfolgerung statistisch wahr, aber ebenso aussagekräftig wie die Aussage, dass Tampa und Anchorage gleiche Temperaturen haben (Kontrolle für die Vortemperatur). Das tatsächliche Ergebnis – bereits bestehende Unterschiede bestanden auch unter keinen Bedrohungsbedingungen – wird in diesen Beschreibungen von Steele & Aronson (1995) nie ausdrücklich erwähnt.

Nun, in Fairness, nicht alle Stereotype Bedrohung Forscher beteiligen sich an dieser Overdelling der Ergebnisse, und sogar viele, die auch anerkennen, wenn andere Forschung als Steele & Aronson (1995) diskutieren, dass stereotype Bedrohung bietet keine vollständige Erklärung der rassischen Leistung Unterschiede. Darüber hinaus zeigen die Ergebnisse unter den "bedrohlichen" (Test der verbalen Fähigkeit) Bedingungen, dass etwas Interessantes in den ursprünglichen Studien passierte – weil diese Mittel eingestellt sind, zeigen sie, dass rassische Leistungsunterschiede zunahmen, als afroamerikanische Studenten glaubten, dass sie getestet wurden ihre verbale Fähigkeit. Bedrohliche afroamerikanische Studenten auf diese Art schienen zumindest in diesen Studien ihre Leistung zu verschlechtern.

Stereotype Bedrohung ist wahrscheinlich nicht so schlimm wie der Kauf einer Brücke für eine Wüste in Arizona. Jedoch werden viele Reviews und sogar Meta-Analysen von Stereotype Threat von "Befürwortern" durchgeführt – diejenigen, die die Idee enthusiastisch angenommen haben, haben viele Forschungsergebnisse veröffentlicht, die die Wichtigkeit von stereotypen Bedrohungen demonstrieren und die, selten, wenn überhaupt, die Arbeiten zu skeptischen Fälschungsversuchen.

Skeptische Analysen wecken Zweifel an der Macht der Stereotype Threat

Eine "heterodoxe Analyse" stellt eine etablierte Orthodoxie in Frage (Kleinbuchstaben "h" bezieht sich auf die Idee, Orthodoxien herauszufordern; ich werde Großbuchstaben "H" verwenden, um auf HeterodoxAcademy-Mitglieder und Stipendien zu verweisen). Advocacy-Tests sind solche, die "beweisen", wie groß oder wichtig ein Phänomen ist (oder wie wenig und unwichtig es ist, je nachdem, ob groß oder klein die Advocacy-Agenda vorantreibt). Sie sind "demonstrativ" und einige von uns glauben, dass sie genauso viel oder mehr Theater sind wie die Wissenschaft. Ich bin der Ansicht, dass wahre Wissenschaft skeptische Tests beinhaltet, um geschätzte Theorien und Überzeugungen zu verfälschen, wie Karl Popper. Ohne falsche Fälschung können kluge Leute fast alles "beweisen". Sie können es normalerweise sogar mit starker Fälschung tun, aber es ist mindestens schwieriger.

Sydney Festival
Quelle: Sydney Festival

Lediglich der Versuch, einen geliebten Glauben zu verfälschen, birgt jedoch oft Risiken für den Fälscher, was von Kopernikus über Galilei und Darwin gut bekannt ist. Es ist heute ebenso wahr, aber diese geheiligten heiligen Überzeugungen, zumindest in den Sozialwissenschaften, beinhalten oft eine gewisse Variation des "Egalitarismus". Stereotype Bedrohung ist natürlich ein großes rhetorisches Werkzeug auf der Suche nach Egalitarismus (" Oh, sieh dir die fadenscheinige Situationsbasis für rassische Unterschiede in der Leistung an "). Es ist daher beruflich riskant, Ideen zu hinterfragen, die einer egalitären Rhetorik dienen.

Es gab jedoch eine kleine Handvoll skeptischer Analysen, die von Außenstehenden durchgeführt wurden, von Leuten, die keinen wesentlichen Teil ihrer Karriere auf die reale oder eingebildete Bedeutung von Stereotype Threat gesetzt hatten. Zum Beispiel führte Flore & Wicherts (2015) die einzige Meta-Analyse durch, von der ich weiß, dass sie stereotype Bedrohungsbefunde einer ganzen Familie von skeptischen Tests wie P-Kurven, Trichter- und Wald-Plots und Tests auf Überschreitung von signifikante Ergebnisse. Die Ergebnisse sind nicht schön und zeigen, dass die Effekte hauptsächlich in den wenig leistungsfähigen, kleinskaligen Studien auftreten und entweder verschwinden oder sich in den hochleistungsfähigen großskaligen Studien komplett umkehren. Uli Schimmack hat auch gezeigt, dass stereotype Bedrohungsstudien mit erheblichen Schwierigkeiten bei der Replikation behaftet sind.

Wie die Amy Wax (2009) von Heterodox Academy so treffend bemerkt hat, wurden stereotype Bedrohungseffekte bei Afroamerikanern meist in sehr ausgewählten und nicht repräsentativen Stichproben gefunden. Es wurde eine Reihe von Randbedingungen vorgeschlagen, was eine andere Art zu sagen ist: "Es könnte nur für ausgewählte Personen unter ausgewählten Umständen gelten." Dies bedeutet jedoch nicht, dass stereotype Bedrohung nicht existiert. Es bedeutet jedoch, dass die Verallgemeinerbarkeit der Ergebnisse und das wahrscheinliche Ausmaß, in dem sie einen Großteil der sehr großen rassischen Unterschiede in der akademischen Leistung erklären, bestenfalls fragwürdig, unbekannt und sicherlich nicht "besiedelte Wissenschaft" ist.

Was wird als nächstes passieren?

Höchstwahrscheinlich werden Stereotyp-Bedrohungsforscher einfach weiter marschieren, als ob nichts passiert wäre. Sie werden wahrscheinlich ihr Revier verteidigen und überzeugende Kritiken ihrer Ergebnisse ignorieren (oder bestreiten, dass sie überzeugend sind). Wenn sie überhaupt antworten, werden sie wahrscheinlich produzieren, nicht Entschuldigung für die Irreführung so vieler Menschen, sondern Apologie – Verteidigung ihrer Positionen und Ansprüche. Solange heterodoxe Kritiker selten sind, können Stereotype Threat Advocates diesen Weg wahrscheinlich fortsetzen, weil ihre Arbeit wahrscheinlich nur gedämpfter und intermittierender skeptischer Kontrolle unterliegen wird. Wenn es darum geht, Karriere zu machen, veröffentlicht zu werden, Zuschüsse zu bekommen usw., ist dies wahrscheinlich eine sehr effektive Strategie. Egalitäre Erzählungen, egal wie ungerechtfertigt oder schwach ihre wissenschaftliche Grundlage, neigen dazu, sehr gut unter Grant-Agenturen und Journal-Rezensenten zu spielen. Das bringt uns zurück zu einer der wichtigsten Inspirationen für HeterodoxAcademy: Die wissenschaftlichen Fehlfunktionen, die aus dem Mangel an intellektueller und politischer Vielfalt in der Akademie resultieren

Wie könnte es anders sein?

Ich hoffe, diese pessimistische Sichtweise ist falsch. Ich lade jeden Befürworter stereotyper Bedrohung dazu ein, sich zu melden und anzuerkennen, wie das Gebiet schief gegangen ist und wie es besser werden kann. Das wäre großartig, nicht nur, weil die Leute Stereotype Threat verstehen, und nicht nur, um etwas zu tun, um den wissenschaftlichen Status und die Glaubwürdigkeit meines Bereichs der Sozialpsychologie zu erhöhen (obwohl es beides tun würde). Die Behandlung der richtigen sozialen Krankheit (akademische Ungleichheit) mit einer schwachen oder ineffektiven "Medizin" ist ebenso wirksam wie die Behandlung einer Lungenentzündung mit Aspirin. Die Überwindung stereotyper Drohung schadet jenen, denen die Forschung tatsächlich helfen soll. Dies ist besonders ergreifend, wenn man "Opportunitätskosten" betrachtet – die Millionen von Zuschüssen, die für Stereotype Threat Research ausgegeben wurden, die zu anderen Arten von unfinanziertem Research geflossen sein könnten, und der Journalbereich, der Stereotype Threats gewidmet ist, die zu soliderer Forschung hätten führen können Dies hätte möglicherweise einen größeren Beitrag zum grundlegenden Verständnis der menschlichen Psychologie und / oder zu akademischen Interventionen geleistet, die auf Phänomene abzielen, die größere Unterschiede hervorrufen können, wie zum Beispiel die Qualität der von den Schülern aus der Bildungsminorität erreichten Qualität zu verbessern.

Verweise

Flore, PC & Wichert, JM (2014). Beeinflusst Stereotype Threat die Leistung von Mädchen in stereotypen Domänen? Eine Meta-Analyse. Zeitschrift für Schulpsychologie, 53 , 25-44.

Jussim, L., Crawford, JT, Anglin, SM, Stevens, ST, und Duarte, JL (im Druck). Interpretationen und Methoden: Hin zu einer effektiveren selbstkorrigierenden Sozialpsychologie. Zeitschrift für experimentelle Sozialpsychologie.

Sackett, PR, Hardison, CM & Cullen, MJ (2004). Zur Interpretation von Stereotype Threat als Berücksichtigung von African American-White-Unterschieden bei kognitiven Tests. Amerikanischer Psychologe, 59 , 7-13.

Schmader, T., Johns, M. & Forbes, C. (2008). Ein integriertes Prozessmodell für stereotype Bedrohungseffekte auf die Leistung. Psychologische Überprüfung, 115, 336-356.

Steele, CM, & Aronson, JA (2004). Stereotype Threat lebt nicht allein von Steele und Aronson (1995). Amerikanischer Psychologe, 59 , 47-48.

Walton, GM, Spencer, SJ, und Erman, S. (2013). Affirmative Meritokratie. Soziale Fragen und Überprüfung der Politik, 7 , 1-35.

Wachs, A. (2009). Stereotype Threat: Ein Fall von Overclaim-Syndrom? In CH Sommers (Ed.), Die Wissenschaft über Frauen und Wissenschaft (S. 132-169). Washington DC: AIE Presse.

Weitere Beispiele, wie Steele & Aronsons Ergebnisse routinemäßig falsch dargestellt oder falsch interpretiert werden, zeigen, dass "Bedrohung entfernen, und Schwarz = Weiß-Werte":

http://www.reducingstereotypethreat.org/definition.html (abgerufen am 29/29/15):

"Wenn das Rennen nicht betont wurde, haben schwarze Schüler besser und gleichberechtigt mit weißen Schülern abgeschnitten."

http://www.apa.org/research/action/stereotype.aspx (abgerufen am 29/29/15):

"In dem Zustand, in dem kein Stereotyp vorkommt – in dem der exakt gleiche Test als eine Laboraufgabe beschrieben wurde, die nicht auf Fähigkeit hinweist -, stieg die Leistung der Schwarzen auf die der gleich qualifizierten Weißen. "

Pigliucci, M. (2013). Was sollen wir vom Konzept der Rasse machen? Gedanken eines Philosophen-Wissenschaftlers. Studium der Geschichte und Philosophie der biologischen und biomedizinischen Wissenschaften, 44 , 272-277. Seite 276:

"Steele und Aronson (1995) untersuchten unter anderem IQ-Tests und ETS-Tests (z. B. SATs, GREs etc.), um zu sehen, ob menschliche intellektuelle Leistung mit einfachen psychologischen Tricks manipuliert werden kann, die negative Stereotype über eine Gruppe der Probanden auslösen identifizieren sich mit. Es ist notorisch, dass der Trick funktioniert hat, und als Ergebnis können wir fast die ganze Kluft zwischen Weißen und Schwarzen bei Intelligenztests als ein Artefakt von Stereotype Threat erklären, eine bisher unbekannte Tendenz der Testsituation. "