Replikation und Generalisierbarkeit von evidenzbasierten Verfahren

Von Scott C. Marley

Das diesjährige Motto der Abteilung 15 lautet "Auswirkungen der Bildung vor K bis Gray", was bedeutet, dass sich unser Bereich positiv auf alle Lernpopulationen auswirken soll. Ein klarer Weg, die Bildung bei allen Bevölkerungen zu beeinflussen, besteht darin, die Probleme anzugehen, die in der Literatur als "Replikationskrise" bezeichnet wurden. Die Schönheit der Replikationskrise bietet weitreichende Möglichkeiten für ein bedeutendes Wachstum auf dem Gebiet der Bildungspsychologie. Mein Standpunkt ist, dass Pädagogen oft nicht auf die Umsetzung evidenzbasierter Praktiken reagieren, da die Replizierbarkeit und die damit verbundene Frage der Generalisierbarkeit mit Glaubwürdigkeit verbunden sind. Es gibt systematische Ansätze, um diese beiden Überlegungen anzugehen, die von Produzenten und Konsumenten von Bildungsforschung häufig vernachlässigt werden. Aber zuerst gebe ich ein konkretes Beispiel aus meiner Schullehrertage, das die Glaubwürdigkeitsherausforderungen darstellt, denen sich die Bildungspsychologie gegenüber sieht, wenn sie als ein Bereich relevant für "Pre-K to Grey" Bildungsleiter ist. Dann gebe ich eine Begründung dafür, warum "mehr Forschung notwendig ist", aber – was noch wichtiger ist – ich schlage vor, dass eine glaubwürdigere Forschung über Einheiten, Behandlungen, Ergebnisse und Einstellungen hinweg erforderlich ist.

Zu Beginn meiner Karriere war ich ein Lehrer der vierten Klasse in einem ländlichen Indianerreservat. Die Kinder aus der Gemeinschaft waren überwiegend Zweitsprachlern aus niedrigen sozioökonomischen Haushalten. Die Schulen des Distrikts wurden als leistungsschwach eingestuft oder scheiterten, und als Reaktion darauf mussten die Schulen "evidenzbasierte Praktiken" anwenden. Obwohl ich ein Befürworter von Pädagogen bin, die wissenschaftliche Beweise verwenden, um Entscheidungen zu treffen, halte ich das für wichtig für Produzenten und Konsumenten, die Grenzen der Literatur zu evidenzbasierten Praktiken zu erkennen (für relevante Diskussionen siehe Marley & Levin, 2011). Ohne ein starkes Verständnis dieser Einschränkungen wird man wahrscheinlich zwei Formen des "Wunschdenkens" zum Opfer fallen, was zu einem ungerechtfertigten Optimismus in Bezug auf die Wirksamkeit von Bildungsmaßnahmen führen kann.

Die erste Form des Wunschdenkens ist die Überzeugung, dass eine Intervention sehr komplexe Bildungsprobleme mit allen Bevölkerungen lösen kann. Diese Annahme stimmt mit der Idee überein, dass eine Intervention sich als wirksam erweisen kann und nicht durch die Beweise gestützt wird, die auf die Wirksamkeit einer Intervention hindeuten. Der Beweis geht von einer perfekten Kenntnis der Interventionseffektivität aus, während eine Fokussierung auf die besten Beweise anerkennt, dass Wissen immer unvollständig ist und sich ändern kann (für relevante Diskussionen siehe Guba & Lincoln, 1994). Die zweite Form des Wunschdenkens ist die Überzeugung, dass ein Ergebnis das Ergebnis einer einzigen erkennbaren Ursache ist (z. B. "schlechte Leseleistung ist aufgrund von <Einfügen der am wenigsten bevorzugten Geschmack> Anweisung"). Nach Wunschdenken muss man nur die magische Kugel finden, die einzelne Sache damit angreifen und das Problem ist gelöst. Es ist so einfach !! Wir sollten es jetzt tun !! Warum haben wir nicht angefangen ?! Aber die Lösungen für Bildungsprobleme sind fast nie offensichtlich oder einfach.

Es gibt wahrscheinlich viele Gründe, warum Pädagogen dem Wert der Bildungsforschung skeptisch gegenüber stehen, von denen einige pädagogische Psychologen ansprechen können. Eine mögliche Erklärung, die angesprochen werden kann , ist, dass Pädagogen informell erkennen können , dass Bildungsforschung Glaubwürdigkeitsprobleme hat (Hsieh et al., 2005). Zum Beispiel wurde meine Reservierungsschule, nachdem sie als "leistungsschwach" bezeichnet wurde, von sogenannten Experten, die nie in einem ländlichen Reservat unterrichtet hatten, saniert. Ihre primäre Empfehlung war, dass die Schule eine evidenzbasierte Intervention annimmt. Zu dieser Zeit hatte ich den Eindruck, dass der Kontext, in dem die Beweise für die vorgeschlagene Intervention gesammelt wurden, sich wesentlich von dem Kontext unterschied, in dem ich unterrichtete. Mit anderen Worten, die Generalisierbarkeit der evidenzbasierten Intervention war fraglich. Die Generalisierbarkeit von Forschungsergebnissen – zusammen mit dem damit verbundenen Problem der Replizierbarkeit – könnte sehr wohl der Grund dafür sein, dass in gezielten Kontexten "mehr Forschung benötigt wird" als je zuvor. Lassen Sie uns jedoch diese gängige Formulierung am Ende der empirischen Arbeiten ergänzen, so dass " glaubwürdigere Forschung erforderlich ist". Replikation und Verallgemeinerbarkeit sind zwei Glaubwürdigkeitsindikatoren (mehr zu anderen wichtigen Glaubwürdigkeitsindikatoren siehe Levin, 1994, 2004). Das brauchen mehr Aufmerksamkeit, bevor Bildungsforscher, Berater und andere mit ihren pädagogischen Empfehlungen zu schwerfällig werden.

Der erste Glaubwürdigkeitsindikator, bevor pädagogische Empfehlungen ausgesprochen werden, besteht darin, dass die Ergebnisse repliziert werden müssen, um zu bestimmen, ob ein bestimmtes Ergebnis robust oder eine Anomalie ist (für eine detaillierte Diskussion siehe Schmidt, 2009). Ein Problem besteht darin, dass die Sozialwissenschaften einen Publikationsbias haben, der mit der Veröffentlichung positiver Ergebnisse verbunden ist, die Anomalien sind. Die zweite Sorge ist, dass Replikationen selten in Bildungszeitschriften veröffentlicht werden (Makel & Plucker, 2014). Das Fehlen von Replikationsstudien wird oft Journalredakteuren, Rezensenten und Erteilungsagenturen zugeschrieben, die eine Neuheit erwarten. Wenn dies der Fall ist, könnte die Konzentration auf die Neuheit der Ergebnisse Belohnungsstrukturen fördern, die den Wert von Replikationsstudien minimieren (Koole & Lakens, 2012). Ein Mangel an Replikationsstudien begrenzt eindeutig, wie zuversichtlich wir Rückschlüsse auf die Wirksamkeit eines Instruktionsansatzes machen können. Diese Einschränkung wird in Empfehlungen, die verschiedenen evidenzbasierten Praktiken beigefügt sind, nicht oft erwähnt.

Die zweite Anforderung besteht darin, die Verallgemeinerbarkeit der Befunde sorgfältig zu prüfen, um ein hohes Maß an äußerer Validität sicherzustellen, bevor Empfehlungen an Pädagogen gegeben werden (Shadish, Cook & Campbell, 2002). In Bezug auf Studien, die die Effektivität von Instruktionsinterventionen anhand von Stichproben von College-Studenten oder anderen "einzigartigen" Stichproben untersuchen, können Bedenken geäußert werden. Mit "einzigartig" meine ich Stichproben von Teilnehmern, die sich daran erinnerten, ihre elterliche Einverständniserklärung mit einer Unterschrift zurückzubringen, Teilnehmer, die der Durchführung von Umfragen zustimmen, oder andere vergleichbare Arten, in denen sich eine Stichprobe von Populationen unterscheidet, die in der Natur existieren.

Wie gehen Produzenten und Konsumenten der Bildungsforschung mit den Herausforderungen der Bildungsforschung um? Als ein Bereich können wir uns an die Standards für pädagogische und psychologische Tests (AERA, APA, & NCME, 1999) wenden. Die Standards veranlassen Testhersteller und Anwender, sich der Bedingungen bewusst zu sein, unter denen gültige Schlussfolgerungen am ehesten aus Testergebnissen resultieren. In einigen der Normen wird betont, dass Bevölkerungsgruppen nicht austauschbar sind, und es wird erwartet, dass die Testproduzenten und -nutzer untersuchen, wie sich die Scores der Teilnehmer in einem neuen Kontext verhalten. Mit anderen Worten, es wird erwartet, dass Replikationen sicherstellen, dass Testergebnisse in Kontexten richtig interpretiert werden, die sich wesentlich vom ursprünglichen Kontext unterscheiden. Ein ähnlicher Ansatz ist mit der Interventionsforschung gerechtfertigt, wenn die Literaturbasis als glaubwürdig betrachtet werden soll, bis die Praktiker fundierte Entscheidungen treffen können. Mehrere Rahmen wurden vorgeschlagen, um die Generalisierbarkeit von Forschungsergebnissen zu verbessern. Ein solcher Rahmen wäre, die von Cronbach (Cronbach & Shapiro, 1982) vorgeschlagenen klassischen Verallgemeinerungsaspekte in ein repliziertes und erweitertes Modell der programmatischen Forschung einzubeziehen. Dies würde der Literaturbasis dringend benötigte Glaubwürdigkeit verleihen.

Laut Cronbachs klassischem UTOS-Framework können Verallgemeinerbarkeitsuntersuchungen übergreifend über Nits, T rationen, O utome r und S ettings hinweg erfolgen. Jede der Komponenten des Frameworks bietet ausreichend Platz für Forscher, um Forschungsergebnisse zu replizieren und zu erweitern, und für Konsumenten, um den Grad an Vertrauen zu bewerten, den sie bei einer Intervention haben sollten. Vielleicht würden Zeitschriftenredakteure, Rezensenten und Finanzierungsagenturen eher die Veröffentlichung und Finanzierung von Studien in Betracht ziehen, die sich explizit in einem UTOS-Framework mit replizierten Erweiterungen befinden, und weniger Gewicht auf die Neuheit der ursprünglichen Ideen und Ergebnisse legen? Wenn eine glaubwürdige Forschung stattfinden soll, die alle Populationen von "Pre-K bis Gray" betrifft, werden diese oder vergleichbare systematische Ansätze zur Replikation und Verallgemeinerung der Ergebnisse wahrscheinlich Früchte tragen. Wenn die Leser an der diesjährigen APA-Konferenz in Toronto Interesse an Replikations- und Verallgemeinerungsgesprächen haben, sollten Sie in Erwägung ziehen, an der kollaborativen Programmierung teilzunehmen, die Abteilung 15 mit anderen Abteilungen in der unten aufgeführten "Replikationskrise" durchführt.

Session Title: Die Replikationskrise – Was uns hierher gebracht hat und wohin wir gehen müssen

Vortragsart: Symposium

Datum: Do 08/06 10:00 – 11:50 Uhr

Abteilung / Sponsor: CPG-Zentrale Programmgruppe; Co-Liste: 30, 3, 5, 6, 10, 15, 24, 26

Gebäude / Zimmer: Kongresszentrum / Zimmer 716A Südgebäude-Ebene 700

Verweise:

American Educational Research Association, American Psychological Association, und National Council für die Messung der Messung in der Bildung. (1999). Standards für pädagogische und psychologische Tests. Washington, DC: Amerikanische Psychologische Vereinigung.

Cronbach, LJ, & Shapiro, K. (1982). Gestaltung von Evaluationen von Bildungs- und Sozialprogrammen . Jossey-Bass Inc. Pub.

Guba, EG, & Lincoln, YS (1994). Konkurrierende Paradigmen in der qualitativen Forschung. Handbuch der qualitativen Forschung , 2, 163-194.

Hsieh, P., Acee, T., Chung, W.-H., Hsieh, Y.-P., Kim, H., Thomas, GD, Levin, JR, Robinson, DH (2005). Ist die pädagogische Interventionsforschung rückläufig? Zeitschrift für Pädagogische Psychologie , 97 (4), 523.

Koole, SL, & Lakens, D. (2012). Belohnungsreplikationen sind eine sichere und einfache Möglichkeit, die psychologische Wissenschaft zu verbessern. Perspektiven auf die psychologische Wissenschaft , 7 (6), 608-614.

Levin, JR (1994). Erstellung von pädagogischen Interventionsstudien, die sowohl glaubwürdig als auch glaubwürdig sind. Pädagogische Psychologie Review, 6 (3), 231-243.

Levin, JR (2004). Random Gedanken zur (Un) Glaubwürdigkeit der pädagogisch-psychologischen Interventionsforschung. Pädagogischer Psychologe , 39 (3), 173-184.

Marley, SC, und Levin, JR (2011). Wann sind präskriptive Aussagen in der Bildungsforschung gerechtfertigt? Pädagogische Psychologie Review, 23 (2), 197-206.

Schmidt, S. (2009). Sollen wir es wirklich nochmal machen? Der starke Replikationsbegriff wird in den Sozialwissenschaften vernachlässigt. Überprüfung der Allgemeinen Psychologie , 13 (2), 90.

Shadish, WR, Cook, TD, und Campbell, DT (2002). Experimentelle und quasi-experimentelle Designs für verallgemeinerte kausale Inferenz. Ew York, NY: Houghton Mifflin.