Als ich meinen Bachelor-Kurs über Evolutionspsychologie lehrte, war mein Ansatz zum Testen und Bewerten einzigartig. Über diese Philosophie können Sie hier etwas genauer lesen, aber der Kern meiner Methode bestand darin, Multiple-Choice-Formate ausdrücklich zugunsten von Kurz-Essay-Fragen mit uneingeschränkter Revisionsfähigkeit seitens der Studenten zu vermeiden. Ich befürwortete dieses Prüfungsformat aus einer Reihe von Gründen, von denen ich hauptsächlich a) Ich hatte das Gefühl, dass Multiple-Choice-Tests nicht gut genug waren, um zu beurteilen, wie gut Schüler das Material verstanden haben (Auswendiglernen und gutes Raten ist nicht gleichbedeutend), und (b) Es war mir nicht wirklich wichtig, meine Schüler so zu benoten, wie es mir wichtig war, sie dazu zu bringen, das Material zu lernen. Wenn sie es bei ihrem ersten Versuch nicht richtig verstanden haben (und sehr wenige Studenten), wollte ich, dass sie die Fähigkeit und Motivation haben, weiter damit zu arbeiten, bis sie es richtig gemacht haben (was schließlich der Fall war; der Klassendurchschnitt für jede Prüfung begann um eine 70 und stieg auf eine 90). Für die Zwecke der heutigen Diskussion ist der wichtige Punkt hier, dass meine Prüfungen etwas kognitiv anspruchsvoller waren als gewöhnlich und laut einer neuen Arbeit bedeutet das, dass ich unbeabsichtigt meine Prüfungen auf eine Art und Weise beeinflusst habe, die "historisch unterernährte Gruppen" benachteiligt Frauen und die Armen.
Was mich an diesem Papier faszinierte, war jedoch die erste Pressemitteilung, die es begleitet hat. Konkret wurde den Autoren gesagt, dass etwas, das ich gefunden habe, na ja, ein bisschen seltsam ist:
"Auf den ersten Blick könnte man annehmen, dass die Unterschiede in der Prüfungsleistung auf akademischen Fähigkeiten beruhen. Wir haben dies jedoch in unserer Studie kontrolliert, indem wir die durchschnittlichen Noten der Schüler in unsere Analyse einbezogen haben. "
Die Autoren scheinen also zu glauben, dass eine Leistungslücke bei akademischen Prüfungen unabhängig von den akademischen Fähigkeiten (was auch immer diese mit sich bringen) besteht. Das warf die unmittelbare Frage in mir auf, wie man weiß, dass Fähigkeiten dieselben sind, es sei denn, man hat eine Methode, sie zu testen. Es scheint ein bisschen seltsam zu sagen, dass die Fähigkeiten auf der Basis einer Reihe von Tests die gleichen sind (diejenigen, die eingehende GPAs zur Verfügung gestellt haben), aber dann weiter zu suggerieren, dass Fähigkeiten die gleichen sind, wenn eine andere Reihe von Tests ein gegenteiliges Ergebnis liefert. Um meine Neugierde zu beruhigen, verfolgte ich die Zeitung, um zu sehen, was tatsächlich gemeldet wurde; Immerhin bekommen diese kleinen Nachrichten die Details oft falsch. Leider schien dieser die Ansichten des Autors genau zu erfassen.
Fangen wir mit einem kurzen Überblick darüber an, was die Autoren gesehen haben. Die Studie von Wright et al (2016) basiert auf Daten, die im Rahmen von drei Einführungsbiologiekursen im Alter von drei Jahren mit 26 verschiedenen Instruktoren, etwa 5.000 Studenten und 87 verschiedenen Prüfungen gesammelt wurden. Ohne zu sehr ins Detail zu gehen, wurden die Tests durchgeführt wurden von unabhängigen Prüfern auf ihre kognitive Herausforderung, ihr Format und die Einstufung der Schüler nach Geschlecht und sozioökonomischem Status (SES; gemessen an der Frage, ob sie für ein Finanzhilfeprogramm qualifiziert waren) beurteilt. Um die akademischen Fähigkeiten zu überprüfen und zu kontrollieren, haben Wright et al. (2016) auch das GPA des ersten Studienjahres der Studenten betrachtet, die in den Biologieunterricht kommen (basierend auf ungefähr 45 Credits, wird uns gesagt). Da die Autoren für das eingehende GPA kontrolliert haben, hoffen sie, den Leser davon zu überzeugen:
Dies impliziert, dass diese Studenten durch mindestens eine Maßnahme gleiche akademische Fähigkeiten besitzen und, wenn sie unterschiedliche Ergebnisse bei Prüfungen haben, dann beeinflussen andere Faktoren als ihre Fähigkeit wahrscheinlich ihre Leistung.
Nun könnte man argumentieren, dass es mehr akademische Fähigkeiten gibt, als von einem GPA erfasst werden – und genau deshalb werde ich es in einer Minute tun -, aber machen wir weiter mit dem, was die Autoren zuerst gefunden haben.
Kognitive herausfordernde Tests waren in der Tat, na ja, herausfordernder. Ein statistisch durchschnittlicher männlicher Schüler zum Beispiel würde erwartet, dass er bei dem schwierigsten Test in seiner Stichprobe ungefähr 12% schlechter ist als der einfachste. Dieser Effekt war jedoch nicht derselbe zwischen den Geschlechtern. Unter Verwendung statistisch durchschnittlicher Männer und Frauen, bei denen die Tests am wenigsten kognitiv herausforderten, gab es tatsächlich keine Leistungslücke (etwa 1,7% erwartete Differenz, die Männer begünstigt); Als die Tests jedoch am kognitivsten waren, stieg die erwartete Lücke auf einen erstaunlichen … 3,2% Unterschied. Während also der Unterschied zwischen den Geschlechtern fast nominell verdoppelt wurde, was die praktische Bedeutung des Wortes betrifft, war seine Größe so groß, dass sie wahrscheinlich nicht wahrgenommen würde, wenn man nicht wirklich danach suchte. Ein ähnliches Muster wurde für SES entdeckt: wenn die Tests einfach waren, gab es praktisch keinen Unterschied zwischen diesen niedrigen oder hohen SES (1,3% bevorzugen die höheren); wenn die Tests jedoch maximal herausfordernd waren, stieg dieser erwartete Unterschied auf etwa 3,5%.
Zu diesen Ergebnissen gibt es viel zu sagen und wie sie in das Papier eingebunden sind. Erstens, wie ich bereits erwähnte, sind sie wirklich kleine Unterschiede; Es gibt nur sehr wenige Fälle, in denen ein Unterschied von 1-3% bei den Testergebnissen einen Schüler zum Scheitern bringt. Daher glaube ich nicht, dass es einen wirklichen Grund gibt, sich Sorgen zu machen oder die Tests anzupassen. Praktisch sowieso nicht.
Es gibt jedoch größere theoretische Probleme, die in dem Papier auftauchen. Eine davon ist, dass die Autoren den Ausdruck "für akademische Fähigkeiten kontrolliert" so oft verwenden, dass ein Leser tatsächlich glauben könnte, dass dies das Ergebnis einer einfachen Wiederholung ist. Das Problem ist natürlich, dass die Autoren das nicht kontrolliert haben ; sie kontrollierten für GPA. Leider sind diese beiden Dinge für Wright et al. (2016) keine Synonyme. Wie ich bereits sagte, ist es seltsam zu sagen, dass die akademische Fähigkeit die gleiche ist, weil ein Satz von Tests (ankommender GPA) sagt, dass sie es sind, während ein anderer Satz dies nicht tut. Die früheren Tests scheinen aus keinem vernünftigen Grund privilegiert zu sein. Aufgrund dieser ungerechtfertigten Interpretation verlieren die Autoren die Fähigkeit, darüber zu sprechen, wie diese Lücken aufgrund eines Leistungsunterschieds entstehen könnten. Dies ist ein nützlicher rhetorischer Zug, wenn man an Advocacy interessiert ist – weil das bedeutet, dass die Kluft unfair ist und irgendwie behoben werden sollte – aber nicht, wenn man nach der Wahrheit sucht.
Ein anderes, ziemlich großes Problem in diesem Artikel ist, dass die Autoren, soweit ich das beurteilen konnte, vorhergesagt haben, dass sie diese Effekte finden würden, ohne jemals wirklich eine Erklärung dafür zu geben, wie oder warum diese Vorhersage entstand. Das war der Grund für ihre Erwartung, dass Männer die Frauen übertreffen würden und die Reichen die Armen übertreffen würden? Dies stellt ein Problem dar, da die Autoren am Ende des Artikels einige mögliche (ungeprüfte) Erklärungen für ihre Ergebnisse veröffentlichen. Der erste ist Stereotype Threat: die Idee, dass bestimmte Gruppen von Menschen aufgrund von negativen Stereotypen über ihre Leistung bei Tests schlecht abschneiden. Dies ist aus zwei Gründen eine schlechte Anpassung an die Daten: Erstens, während Wright et al. (2016) behaupten, dass Stereotype "gut dokumentiert" sind, versagt sie tatsächlich bei der Replikation (zusätzlich zu wenig theoretischen Sinn). Zweitens, selbst wenn es sich um eine reale Sache handelt, erfordert die stereotype Bedrohung, wie sie typischerweise untersucht wird, dass das Geschlecht vor dem Test hervorstechend gemacht wird. Als ich während meiner gesamten College-Erfahrung insgesamt null Tests vorfand, die mein Geschlecht hervorbrachten, viel weniger mein SES, kann ich nur annehmen, dass die fraglichen Tests es auch nicht taten. Damit Stereotype Threat als Erklärung funktionieren kann, müssten Frauen und Arme unter einer konstanten Stereotype-Bedrohung stehen. Dies wiederum würde die Dokumentation und die stereotype Bedrohung durch die Schüler in erster Linie schwierig machen, da Sie niemals einen Zustand haben könnten, in dem Ihre Subjekte es nicht erleben. Kurz gesagt, Stereotype Threat scheint eine schlechte Passform zu sein.
Die anderen Erklärungen, die für diesen Unterschied zwischen den Geschlechtern gemacht werden, sind die Möglichkeit, dass Frauen und arme Schüler mehr feste Ansichten über Intelligenz als über Wachstum haben, also sich aus dem Material zurückziehen, anstatt sich zu verbessern (dh "wir müssen ihre eigenen verändern Denkweisen, um diese gewaltige Lücke von 2% zu schließen, oder die Möglichkeit, dass die Testfragen selbst so geschrieben werden, dass sie die Denkfähigkeit der Leute subjektiv beeinflussen (das Beispiel der Autoren ist, dass eine Frage über die Anwendung eines Konzepts auf Sport gefällt) Männer, im Verhältnis zu Frauen, da Männer Sport mehr genießen). Angesichts der Tatsache, dass die Autoren Zugang zu den Testfragen hatten, schien es, als hätten sie die letztere Möglichkeit zumindest in einigen Details untersuchen können (zumindest vielleicht, indem sie prüften, ob von weiblichen Instruktoren geschriebene Tests zu anderen Ergebnissen führten als die von männlichen oder indem Sie den Inhalt der Fragen selbst untersuchen, um zu sehen, ob sich Frauen bei geschlechtsspezifischen Problemen schlechter geschlagen haben. Warum sie solche Analysen nicht durchgeführt haben, kann ich nicht sagen.
Zusammenfassend lässt sich sagen, dass diese sehr geringen durchschnittlichen Unterschiede, die aufgedeckt wurden, leicht erfasst werden konnten – ganz einfach – weil GPA kein volles Maß für die akademischen Fähigkeiten eines Studenten ist. In der Tat, wenn die Tests, die die Erstsemester-GPA bestimmen, nicht die kognitiv anspruchsvollste sind (wie man vielleicht erwarten würde, da die Schüler meist allgemeine Einführungskurse mit großen Klassen nehmen würden), dann könnten die Schüler mehr erscheinen ähnlich in der Fähigkeit als sie tatsächlich waren. Man kann sich dieses stereotypisch-männliche Beispiel vorstellen (das wird die Fähigkeit von Frauen, darüber nachzudenken, erheblich einschränken): Stellen Sie sich vor, ich testete Menschen in einem Raum mit Gewichten von 1-15 Pfund und bat sie, sich jedes Mal zu rollen. Dies würde mir ein schlechtes Gefühl für zugrundeliegende Unterschiede in der Stärke geben, weil der Bereich der getesteten Fähigkeiten eingeschränkt war. Vorausgesetzt, ich würde sie bitten, dasselbe mit Gewichten von 1-100 Pfund in der nächsten Woche zu machen, könnte ich schlussfolgern, dass es etwas über die Gewichte – und nicht die Fähigkeiten der Leute – ist, wenn es darum ging herauszufinden, warum plötzlich Unterschiede auftraten fälschlicherweise glaube ich schon beim ersten Mal für ihre Fähigkeiten kontrolliert zu haben).
Jetzt weiß ich nicht, ob so etwas wirklich verantwortlich ist, aber wenn die Tests, die die Erstsemester-GPA bestimmen, die gleichen Fähigkeiten zu den gleichen Abschlüssen wie in den Biologiekursen anzapfen, dann hätte das GPA-Controlling dafür sorgen müssen potenzielles Problem. Da das GPA nicht kontrolliert wurde, bin ich sicher, dass es einen Unterschied in den Tests hinsichtlich der von ihnen gemessenen Fähigkeiten gibt.
Referenzen: Wright, C., Eddy, S., Wenderoth, M., Abshire, E., Blankenbiller, M. & Brownell, S. (2016). Kognitive Schwierigkeit und Format der Prüfungen prognostiziert Geschlecht und sozioökonomische Lücken in der Prüfungsleistung von Studenten in einführenden Biologiekursen. Biowissenschaften, 15.