Akademische Perversion

Als Ausbilder habe ich es mir zur Aufgabe gemacht, eine einzigartige Art von Bewertungsrichtlinien für meine Schüler zu erstellen. Insbesondere sind alle Tests in Kurzform verfasst und Korrekturen sind nach Erhalt einer Note zulässig. Dies stellt sicher, dass die Schüler immer eine gewisse Motivation haben, herauszufinden, was sie falsch gemacht haben, und sie zu verbessern. Mit anderen Worten, ich entwerfe meine Bewertung, um Anreize für das Lernen zu geben. Aus der Perspektive einer abstrakten Perspektive auf den Wert von Bildung scheint dies eine vernünftige Perspektive zu sein (zumindest für mich, obwohl ich nicht gehört habe, dass einer meiner Kollegen mit der Methode argumentiert). Es ist auch, aus Mangel an einem besseren Wort, eine dumme Sache für mich, aus einer professionellen Perspektive zu tun. Was ich hier meine, ist, dass – auf dem Arbeitsmarkt – meine Fähigkeit, Schüler erfolgreich zum Lernen zu bringen, nicht gerade Anreiz ist, oder zumindest ist es der Eindruck, den andere mit mehr Einsicht an mich weitergegeben haben. Nicht nur, dass die Leute in Einstellungsgremien nicht besonders daran interessiert sind, wie viel Zeit ich meinen Lernenden widmen möchte (es ist nicht das erste, was sie sehen, oder sogar in den Top 3, denke ich), sondern die Zeit, die ich mache Investieren Sie in diese Methode der Bewertung ist Zeit, die ich nicht verbringe, andere Dinge zu tun, die sie schätzen, wie Zuschüsse suchen oder versuchen, so viele Papiere wie möglich in den renommiertesten Verkaufsstellen zu veröffentlichen.

Explosm.net
"Wenn du so schlau bist, wieso bist du nicht reich?"
Quelle: Explosm.de

Und meine Bewertungsmethode erfordert ziemlich viel Zeit. Wenn jeder Test etwa 5-10 Minuten dauert, um zu bewerten und Kommentare abzugeben, und Sie eine Klasse von etwa 100 Schülern anstarren, sagt Ihnen einige schnelle Mathematik, dass jede Runde der Einstufung etwa 8 bis 16 Stunden dauern wird. Im Gegensatz dazu könnte ich meinen Studenten stattdessen einen Multiple-Choice-Test anbieten, der fast automatisch benotet werden könnte, wodurch sich meine Zeit in nur wenigen Minuten reduziert. Im Laufe eines Semesters konnte ich dann 24 bis 48 Stunden dem Lernen der Schüler widmen (über drei Tests hinweg), oder ich konnte stattdessen Noten in etwa 15 Minuten mit anderen Methoden erstellen. Soweit jemand in einem Einstellungsausschuss in der Lage ist zu sagen, dass diese beiden Optionen effektiv gleichwertig sind. Sicher, man hilft den Schülern, besser zu lernen, aber es ist nicht gerade ein Anreiz für ein professionelles Niveau , wenn man gut darin ist, Schüler zum Lernen zu bringen . Diese 24 bis 48 Stunden hätten stattdessen ausgegeben werden können, um Zuschüsse zu erhalten oder Papiere zu schreiben, und – wichtiger – pro 100 Studenten; Wenn Sie drei oder mehr Klassen pro Semester unterrichten, steigt diese Zahl.

Diese Anreize erstrecken sich nicht nur auf Tests und Benotungen. Wenn sich die ausschreibenden Ausschüsse nicht so sehr mit den Lernergebnissen meiner Schüler befassen, hat das Auswirkungen darauf, wie viel Zeit ich damit verbringen sollte, mein Vortragsmaterial zu gestalten. Nehmen wir an, ich stand vor der Aufgabe, meine Schüler über Informationen zu unterrichten, die mir nicht besonders bekannt waren, sei es das Thema der Klasse als Ganzes oder eine bestimmte neue Information innerhalb des sonst so vertrauten Themas. Ich könnte den zeitaufwendigen Weg nehmen und mich mit den Informationen vertraut machen, relevante Primärquellen aufspüren, sie eingehend lesen, ihre Stärken und Schwächen einschätzen und Nachforschungen zu diesem Thema anstellen. Ich könnte auch den kurzen Weg gehen und einfach den Abschnitt über die Abstracts / Diskussionen des Artikels lesen oder einfach über die Zusammenfassung der Forschung berichten, die von Lehrbuchautoren oder Materialien des Herausgebers zur Verfügung gestellt wird.

Wenn Ihr Ziel ungefähr 12 Wochen Vortragsmaterial vorsieht, ist es ziemlich klar, welche Methode am meisten Zeit spart. Wenn Sie über gut recherchierte Kurse mit vielen Informationen verfügen, für die Sie kein Experte sind, warum sollten wir nicht erwarten, dass Professoren diesen Weg gehen? Stolz vielleicht – viele Professoren wollen gut in ihrem Job sein und ihren Studenten helfen -, aber es scheint, dass andere Anreize gegen die Bereitstellung von Zeit für hochwertige Bildung drängen, wenn man sich eine attraktive Anstellung verschaffen will *. Ich habe gehört, dass das Lehren von mehr als einem Lehrer als Ablenkung bezeichnet wird, und weist stark darauf hin, wo sie Anreize wahrnehmen.

Die Implikationen dieser Bedenken hinsichtlich der Anreize gehen über persönliche Frustrationen hinaus, die ich vielleicht habe, und sie fangen an, einen größeren Teil des Rampenlichts zu bekommen. Eines der jüngsten Ereignisse, die dieses Problem hervorhoben, wurde die Replikationskrise genannt, in der viele veröffentlichte Ergebnisse nicht wieder auftauchten, als unabhängige Forschungsteams sie aufsuchten. Dies war auch keine nennenswerte Minderheit; In der Psychologie waren es weit über 50%. Es gibt wenig Zweifel daran, dass ein gesunder Teil dieses Sachverhalts den Forschern zu verdanken ist, die gezielt fragwürdige Methoden verwenden, um publizierbare Ergebnisse zu finden, aber warum sollten sie das überhaupt tun? Warum sind sie so motiviert, diese Ergebnisse zu finden? Auch hier spielt Stolz eine Rolle, aber ein anderer Teil dieser Antwort dreht sich um die Anreizstruktur der Wissenschaft: Wenn Wissenschaftler aufgrund ihrer Fähigkeit, Ergebnisse zu veröffentlichen, beurteilt, eingestellt, gefördert und finanziert werden, erhalten sie einen Anreiz um möglichst viele dieser Ergebnisse zu veröffentlichen, auch wenn die Ergebnisse selbst nicht besonders vertrauenswürdig sind (sie werden auch davon abgehalten, in vielen Fällen negative Ergebnisse zu veröffentlichen, die andere Probleme verursachen).

Ein neues Papier diskutiert diese Anreize in der Wissenschaft (Edwards & Roy, 2017), die mit einer einfachen Prämisse beginnen: Akademische Forscher sind Menschen. Wie andere Menschen reagieren wir auch auf bestimmte Anreize. Während die Anreizstrukturen in der Wissenschaft möglicherweise mit guten Absichten geschaffen wurden, droht immer eine Bedrohung durch das Gesetz der unbeabsichtigten Konsequenzen. In diesem Fall sind diese unbeabsichtigten Konsequenzen, wie sie als Goodhart-Gesetz bezeichnet werden, die wie folgt ausgedrückt werden können: " Jede beobachtete statistische Regelmäßigkeit wird dazu neigen zusammenzufallen, wenn Druck zu Kontrollzwecken ausgeübt wird" oder " wenn eine Maßnahme zum Ziel wird es hört auf, ein gutes Maß zu sein . "Im Wesentlichen bedeutet diese Idee, dass Leute dem Buchstaben des Gesetzes, anstatt dem Geist folgen.

Flickr/alan schoolar
Quelle: Flickr / Alan Schuler

Um dies in ein akademisches Beispiel zu bringen, könnte eine Universität intelligente und aufschlussreiche Professoren einstellen. Die Beurteilung von Intelligenz und Einsicht ist jedoch schwierig, und statt diese Merkmale zu bewerten, bewertet die Universität Proxy-Messungen von ihnen; etwas, das tendenziell mit Intelligenz und Einsicht verbunden ist, aber selbst keines dieser Dinge ist. In diesem Fall könnte man bemerken, dass intelligente, aufschlussreiche Professoren dazu neigen , mehr Artikel zu veröffentlichen als ihre Kollegen. Da die Anzahl der Publikationen, die jemand veröffentlicht, viel einfacher zu messen ist, misst die Universität diese Variable einfach, anstatt zu bestimmen, wer sie einstellen und promoten soll. Während die Veröffentlichungsaufzeichnungen anfänglich gute Prädiktoren für die Leistung sind, beginnt diese Korrelation zu sinken, sobald sie zum Ziel der Bewertung geworden sind. Da die Veröffentlichungspapiere per se zu dem Zielverhalten wurden, an dem die Menschen gemessen werden , beginnen sie, diese Variable zu maximieren, anstatt die Sache, die sie überhaupt messen sollte . Anstatt weniger Qualitätspapiere zu veröffentlichen, veröffentlichen sie viele Artikel, die es schlechter machen, uns zu helfen, die Welt zu verstehen.

In ähnlichem Sinne könnten die Noten der Schüler auf einem standardisierten Test ein gutes Maß für die Effektivität eines Lehrers sein; Effizientere Lehrer tendieren dazu, Schüler zu schaffen, die mehr lernen und in der Folge besser werden. Wenn jedoch die armen Lehrer bestraft werden und ihnen gesagt wird, dass sie ihre Leistung verbessern oder einen neuen Job finden sollen, könnten die Lehrer versuchen, das System zu spielen. Anstatt ihre Schüler nun ganzheitlich über ein Thema zu unterrichten, das zu echtem Lernen führt, beginnen sie mit dem Unterricht. Anstatt, zum Beispiel, Chemie unterrichtet zu werden, beginnen die Studenten, dass sie lernen, wie man einen Chemie-Test macht , und die beiden sind entschieden nicht dasselbe. Solange Lehrer nur auf die Noten ihrer Schüler eingeschätzt werden, die diese Tests machen, ist dies die Anreizstruktur, die am Ende geschaffen wird.

Flickr/biologycorner
Quelle: Flickr / Biologiecorner

Abgesehen davon, dass die Anzahl der Veröffentlichungen, die Wissenschaftler veröffentlichen können, nur beeinflusst wird, werden eine Reihe weiterer möglicher unbeabsichtigter Konsequenzen von Anreizstrukturen diskutiert. Eine davon beinhaltet Maßnahmen zur Qualität der veröffentlichten Arbeit. Wir könnten erwarten, dass theoretisch und empirisch sinnvolle Arbeiten mehr Zitate erhalten als schwächere Arbeiten. Da die Aussagekraft eines Papiers jedoch nicht direkt beurteilt werden kann, betrachten wir Proxy-Maßnahmen, wie z. B. die Zitierhäufigkeit (wie oft ein Papier von anderen Arbeiten oder Autoren zitiert wird). Die Konsequenz? Personen, die häufiger ihre eigene Arbeit zitieren, und Peer-Reviewer, die ihre Arbeit anfordern, werden von Leuten zitiert, die in diesem Bereich publizieren möchten. Die Anzahl der sinnlosen Zitate ist aufgebläht. Es gibt auch Anreize für die Veröffentlichung in "guten" oder renommierten Zeitschriften; diejenigen, von denen angenommen wird, dass sie vorzugsweise sinnvolle Arbeiten veröffentlichen. Wiederum können wir nicht nur beurteilen, wie "gut" eine Zeitschrift ist, also verwenden wir andere Metriken, wie oft die Zeitungen aus dieser Zeitschrift zitiert werden. Das Endergebnis ist hier dasselbe, wo Journale es vorziehen würden, Artikel zu veröffentlichen, in denen Artikel zitiert werden, die sie zuvor veröffentlicht haben. Wenn die Universitäten nach bestimmten Metriken eingestuft werden, werden sie einen Anreiz erhalten, diese Metriken zu spielen oder sie einfach falsch zu melden. Offensichtlich wurden einige Colleges dabei erwischt, dass sie nur an dieser Front logen, um ihre Rangliste zu verbessern, während andere ihre Rangliste verbessern können, ohne ihre Institution wirklich zu verbessern.

Es gibt viele solche Beispiele, die wir ausführen könnten (und ich empfehle Ihnen, das Papier selbst aus genau diesem Grund zu lesen), aber der größere Punkt, den ich diskutieren wollte, war, was das alles auf einer breiteren Skala bedeutet. In dem Maße, in dem diejenigen, die bereit sind, das System zu betrügen, für ihr Verhalten belohnt werden, werden diejenigen, die weniger schummeln wollen, verdrängt, und da haben wir ein echtes Problem in unseren Händen. Für die Perspektive berichtet Fanelli (2009), dass 2% der Wissenschaftler zugeben, Daten zu erstellen, und 10% berichten, dass sie im Durchschnitt weniger offene, aber immer noch fragwürdige Praktiken anwenden; Er berichtet auch, dass, wenn sie gefragt werden, ob sie einen Fall von Gleichaltrigen kennen, die solche Dinge tun , diese Zahlen um 14% bzw. 30% sind. Während diese Zahlen nicht einfach zu interpretieren sind (es ist möglich, dass manche Leute viel betrügen, mehrere Leute von denselben Fällen wissen, oder dass man womöglich bereit ist zu betrügen, wenn sich die Gelegenheit bietet, selbst wenn sie es zum Beispiel noch nicht gegeben hat ), sollten sie als Anlass zur Besorgnis sehr ernst genommen werden.

(Es ist auch erwähnenswert, dass Edwards & Roy den Fanelli-Befund falsch darstellen, indem sie seine Obergrenze als Durchschnitt angeben, wodurch das Problem des akademischen Fehlverhaltens so schlecht wie möglich erscheint. Dies ist wahrscheinlich nur ein Fehler, aber es unterstreicht die Möglichkeit dass Fehler wahrscheinlich auch der Anreizstruktur folgen, nicht nur Betrug: Genauso wie Forscher Anreize haben, ihre eigenen Ergebnisse zu überbewerten, haben sie auch Anreize, die Ergebnisse anderer zu hoch zu bewerten, um ihre Argumente überzeugend zu machen.

Flickr/Jacob
Was ironisch ist für ein Papier, das sich über Anreize beschwert, Ergebnisse zu übertreiben.
Quelle: Flickr / Jacob

Wenn es nicht nur darum geht, dass eine Handvoll schlechter Äpfel innerhalb der akademischen Welt zu einem Problem von, sagen wir, Betrügereien mit ihren Daten beiträgt, sondern eine nennenswerte Minderheit von ihnen ist, hat dies das Potenzial, mindestens zwei große Konsequenzen zu haben. Erstens kann es mehr Nicht-Betrüger ermutigen, Betrüger zu werden. Wenn ich beobachten würde, wie meine Kollegen das System betrügen und dafür belohnt werden, könnte es sein, dass ich dazu ermutigt werde, mich selbst zu betrügen, um mit (sehr) begrenzten Möglichkeiten für Arbeit oder Finanzierung fertig zu werden. Parallels können auf die Verwendung von Steroiden im Sport bezogen werden, wo diejenigen, die zunächst keine Steroide verwenden wollen, ermutigt werden können, wenn genug ihrer Mitbewerber dies tun.

Die zweite Konsequenz ist, dass, wenn mehr Menschen an dieser Art von Kultur teilnehmen, das Vertrauen der Öffentlichkeit in die Universitäten – und möglicherweise in die wissenschaftliche Forschung im Allgemeinen – untergräbt. Mit dem Verfall des öffentlichen Glaubens sinkt die Finanzierung und die Skepsis gegenüber Forschungsergebnissen; Beide Antworten sind berechtigt (warum würden Sie Forscher finanzieren, denen Sie nicht vertrauen können?) und sich Sorgen machen, denn es gibt wichtige Probleme, die die Forschung lösen kann, aber nur, wenn die Menschen bereit sind zuzuhören.

* Um fair zu sein, ist es nicht so, dass meine Fähigkeit als Lehrer für die Einstellung von Ausschüssen völlig irrelevant ist; Es ist nicht nur diese Fähigkeit, die anderen Bedenken nachgeht (dh, meine Lehrfähigkeiten könnten erst untersucht werden, nachdem sie die Suche durch Zuschüsse und Publikationen eingeschränkt haben), aber meine Lehrfähigkeiten selbst werden nicht wirklich bewertet. Bewertet werden meine studentischen Bewertungen und das ist eindeutig nicht das Gleiche.

Verweise

Edwards, M. & Roy, S. (2017). Akademische Forschung im 21. Jahrhundert: Aufrechterhaltung wissenschaftlicher Integrität in einem Klima perverser Anreize und Hyperwettbewerbe. Umwelttechnikwissenschaft, 34, 51-61.

Fanelli, D. (2009). Wie viele Wissenschaftler fabrizieren und verfälschen die Forschung? Eine systematische Überprüfung und Meta-Analyse von Umfragedaten. Plus eins. 4, e5738