Wo Operant Conditioning falsch ging

Operant Conditioning ist BF Skinners Name für instrumentelles Lernen: Lernen durch Konsequenzen. Keine neue Idee, natürlich. Die Menschheit hat es immer verstanden, Kinder und Tiere durch Belohnung und Bestrafung zu unterrichten. Was Skinners Label den letzten Schliff gab, war seine Erfindung einer brillianten Methode, diese Art des Lernens in einzelnen Organismen zu studieren. Die Skinner-Box und der kumulative Recorder waren ein unschlagbares Duo.

JS image
Quelle: JS Bild

Die Konditionierung der Operanten schreitet zunächst schnell voran. Die Entdeckung von Verstärkungsplänen enthüllte ungeahnte Regelmäßigkeiten. Jeder neue Bewehrungsplan ergab ein neues Muster kumulativer Aufzeichnungen: die "Jakobsmuschel" mit festem Intervall, stetige Reaktion auf variables Intervall und Break-and-Run bei Zeitplänen mit festem Verhältnis. Die Muster waren zuverlässig und konnten wiederhergestellt werden, nachdem der Organismus auf ein neues Verfahren umgestellt wurde. Die Daten erlaubten die vollständige Nutzung der experimentellen Methode innerhalb des Organismus: Vergleichen des Verhaltens eines einzelnen Tieres, das reversibel zwei verschiedenen Verfahren ausgesetzt war, anstatt zwei Gruppen von Tieren zu vergleichen. Gruppenergebnisse gelten für Gruppen; sie können oder können nicht auf die Personen zutreffen, die eine Gruppe bilden. Im Jahr 2016 haben 52% der Briten den Brexit genehmigt; aber jeder einzelne war entweder 100% für oder 100% dagegen. Allzu oft gingen die Forscher davon aus, dass Gruppendaten, die eine glatte Lernkurve zeigen, dazu führen, dass auch einzelne Probanden allmählich lernen. Sie nicht.

Der nächste natürliche Schritt wäre gewesen, die Prozesse zu entschlüsseln, die hinter der Reihenfolge der kumulativen Aufzeichnungen stehen. Was passiert in dieser Interaktion zwischen dem Zeitplan-Verfahren und dem individuellen Organismus, der zu diesen auffälligen Gesetzmäßigkeiten führt? Mit anderen Worten, was lernt der Organismus und wie lernt er? Was ist der Prozess?

Das Feld hat diesen Schritt nicht unternommen. In dieser Notiz werde ich versuchen zu erklären, warum.

Drei Dinge haben verhindert, dass die operante Konditionierung sich zu einer Wissenschaft entwickelt hat: eine Beschränkung der Methode, eine Überbewertung der Ordnung und das Misstrauen gegenüber der Theorie.

Die Methode. Die kumulative Aufzeichnung war in einer Hinsicht ein phantastischer Durchbruch: Sie ermöglichte das Studium des Verhaltens eines einzelnen Tieres in Echtzeit. Bis zu Skinner bestanden die Daten der Tierpsychologie hauptsächlich aus Gruppendurchschnitten – wie viele Tiere in der Gruppe X oder Y zum Beispiel links oder rechts im Labyrinth gewandert sind. Nicht nur einzelne Tiere gingen in der Gruppe verloren, auch die tatsächlichen Zeiten – wie lange hat die Ratte im Labyrinth gebraucht, um zu entscheiden, wie schnell sie gelaufen ist? Was hat es vor der Entscheidung erforscht?

Aber das Skinner-Box-Setup ist auch begrenzt – auf eine oder einige vordefinierte Antworten und auf Änderungen in ihrer Häufigkeit. Operante Konditionierung beinhaltet tatsächlich die Auswahl aus einem Repertoire von Aktivitäten: das Trial- Bit von Trial-and-Error. Die Skinner-Box-Methode fördert das Studium von nur einer oder zwei bereits erlernten Antworten. Von dem Repertoire, das (in Skinners Worten) aus "anderen Gründen" – von all den möglichen Verhaltensweisen, die unter der Schwelle lauern, aber ausgewählt werden können – von jenen verdeckten Antworten, die für das instrumentelle Lernen so essentiell sind, ausgesendet wird (in Skinners Worten) nicht erwähnenswert.

Zu viel Ordnung? Das zweite Problem ist ein ungeprüfter Respekt für geordnete Daten: glatte Kurven, die einfache, atheoretische Eigenschaften des Verhaltens messen könnten. Fred Skinner zitierte häufig Pawlow: "Kontrolliere deine Bedingungen und du wirst Ordnung sehen." Aber in welcher Reihenfolge? Ist nur eine Bestellung wert? Oder sind einige geordnete Ergebnisse vielleicht informativer als andere?

Der einfachste Weg, Ordnung zu schaffen, um Schwankungen zu reduzieren, ist ein Durchschnitt . Skinnerexperimente beinhalten einzelne Tiere, so dass die Methode die Mittelung über Tiere hinweg verhindert. Aber warum nicht all diese Pucks oder Hebel drücken? Skinner selbst schien eine Begründung zu liefern. In einem seiner wenigen theoretischen Exkursionen schlug er vor, dass Antworten eine Stärke haben , die der Antwortwahrscheinlichkeit entspricht . Er hat die Idee nie wirklich begründet, aber es ist so plausibel, dass wenig Rechtfertigung erforderlich scheint.

Der nächste Schritt war entscheidend: Wie misst man die Antwortwahrscheinlichkeit? Rate der Antwort ist ein offensichtlicher Kandidat. Aber kumulative Aufzeichnungen zeigen, dass die Antwortrate von Moment zu Moment bei den meisten Verstärkungsplänen variiert. Bei festen Intervallen reagieren die Probanden zum Beispiel nach jeder Verstärkung sofort und beschleunigen dann langsam auf ein Maximum, wenn sich die Zeit für die nächste Verstärkung nähert. Ein Plan mit festem Intervall (FI) sorgt dafür, dass die erste Antwort nach einer festgelegten Zeit, I genannt , verstärkt wird. Die Nachverstärkungszeit ist ein zuverlässiger Hinweis darauf, wann die nächste Belohnung verfügbar sein wird. Organismen passen sich entsprechend an und warten einen festen Bruchteil der Zeit, bevor ich anfange zu antworten.

Aber in einem anderen Zeitplan, Variable-Intervall (VI), ist die Zeit variabel. Wenn es von Augenblick zu Augenblick völlig zufällig ist und der Organismus mit einer gleichmäßigen Rate antwortet, gibt die Nachverstärkungszeit keine Information über die Wahrscheinlichkeit, dass die nächste Antwort belohnt wird. Organismen passen sich an den Mangel an Information an, indem sie mit variablem Intervall zeitlich unveränderlich reagieren. Diese Eigenschaft von VI machte es zu einem offensichtlichen Werkzeug. Die konstante Antwortrate, die es erzeugt, schien eine einfache Möglichkeit zu bieten, Skinners Antwortstärke zu messen. Daher ist das am häufigsten verwendete Datum in der Operantenpsychologie die Antwortrate, die durch einen VI-Plan aufrechterhalten wird. Rate wird normalerweise anhand der Anzahl der Antworten gemessen, die über einen Zeitraum von Minuten oder Stunden auftreten.

Eine andere Möglichkeit, die Variabilität zu reduzieren, ist die negative Rückkopplung. Ein thermostatisch geregeltes HVAC-System heizt auf, wenn die Innentemperatur unter einen voreingestellten Wert fällt, und kühlt ab, wenn es darüber steigt. Auf diese Weise reduziert es die Variation der Haustemperatur, die andernfalls auftreten würde, wenn die Außentemperatur schwankt. Jede Art von negativer Rückkopplung verringert die Variation der Regelgröße. Je effektiver die Rückkopplung ist, desto geringer ist leider die Variation der abhängigen Variablen und desto weniger können wir über den Rückkopplungsmechanismus selbst erfahren. Ein perfekter negativer Feedback-Prozess ist unsichtbar.

Operant Konditionierung beinhaltet definitionsgemäß Feedback, da die erhaltene Belohnung von den gemachten Antworten abhängt. Je mehr der Organismus reagiert, desto mehr Belohnung erhält er – abhängig von den Beschränkungen des jeweils gültigen Verstärkungsplans. Das ist eine positive Rückmeldung. Aber das am meisten untersuchte Operantenauswahlverfahren – gleichzeitige Intervallplanung – beinhaltet auch eine negative Rückkopplung . Wenn die Wahl zwischen zwei Zeitplänen mit variablem Intervall liegt, ist die Auszahlungswahrscheinlichkeit für den Wechsel zum anderen umso höher, je mehr Zeit für eine Auswahl aufgewendet wird. Also, egal wie unterschiedlich die Auszahlungsraten für die Entscheidungen sind, der Organismus wird sich niemals nur auf einen fixieren. Das Ergebnis ist eine sehr regelmäßige Beziehung zwischen Wahlpräferenz und relativer Auszahlung – das Matching-Gesetz . (Für die vollständige technische Geschichte, schauen Sie sich Adaptives Verhalten und Lernen an, 2016)

Mit fortschreitender Technologie konvergierten diese beiden Dinge: der Wunsch nach Ordnung, der durch Mittelung und negatives Feedback ermöglicht wurde, und Skinners Vorstellung, dass die Antwortwahrscheinlichkeit eine angemessene – die angemessene – abhängige Variable ist. Variabel-Intervall-Pläne entweder einzeln oder in Zwei-Wahl-Situationen, wurde zu einer Art von Messgerät. Die Reaktionsrate auf VI ist stabil – keine Wartezeiten, Pausen oder plötzliche Spitzen. Es schien eine einfache und direkte Möglichkeit zu bieten, die Antwortwahrscheinlichkeit zu messen. Die Antwortquote als Reaktionswahrscheinlichkeit auf die theoretische Idee der Rate als irgendwie gleichwertig zur Antwortstärke war nur ein kurzer Schritt. Das Übereinstimmungsgesetz wurde somit als ein allgemeiner Grundsatz angesehen. Die Forscher sahen darin nicht nur die Wahl der Tiere, sondern das Wahlverhalten der Menschen in realen Situationen.

Theory Response-Stärke ist ein theoretisches Konstrukt. Es geht weit über die Ansprechrate oder tatsächlich jede andere direkt messbare Menge hinaus. Leider denken die meisten Leute, dass sie wissen, was sie mit "Stärke" meinen. Die skinnerianische Tradition machte es schwierig zu erkennen, dass mehr benötigt wird.

Eine bahnbrechende Studie von George Reynolds von 1961 illustriert das Problem (obwohl George es nie auf diese Weise gesehen hat). Hier ist eine vereinfachte Version: Stellen Sie sich zwei Versuchsbedingungen und zwei identische Tauben vor. Jede Bedingung wird für mehrere tägliche Sitzungen ausgeführt. In Zustand A pickt Taube A einen roten Schlüssel für die Futterbelohnung, die auf einem VI 30-s-Plan geliefert wird. In Bedingung B pickt die Taube B einen grünen Schlüssel für die Futterbelohnung, die auf einem VI 15-s-Plan geliefert wird. Da beide Futterraten relativ hoch sind, picken die Tauben nach langwieriger Exposition in beiden Fällen sehr schnell: Die Ansprechraten – also die "Stärken" – werden ungefähr gleich sein. Ändere nun die Vorgehensweise für beide Tauben. Statt eines einzelnen Zeitplans wechseln sich zwei Zeitpläne für jeweils eine Minute über eine einstündige experimentelle Sitzung ab. Der hinzugefügte zweite Zeitplan ist für beide Tauben gleich: VI 15 s, signalisiert durch eine gelbe Taste (abwechselnd werden zwei signalisierte Zeitpläne auf diese Weise als Mehrfachzeitplan bezeichnet). So befindet sich Taube A auf einem mehr VI 30 VI 15 (rote und gelbe Reize) und Taube B auf einem Mult VI 15 VI 15 (grüne und gelbe Reize). Zusammenfassend sind die beiden experimentellen Bedingungen (Stimulusfarben in ()):

Versuch A: VI 30 (rot); mult VI 30 (Rot) VI 15 (Gelb)

Versuch B: VI 15 (grün); mult VI 15 (Grün) VI 15 (Gelb)

Sehen Sie sich nun die zweite Bedingung für jede Taube an. Es überrascht nicht, dass sich die Ansprechrate von B in Grün nicht ändert. All das, was sich für ihn verändert hat, ist die Schlüsselfarbe – von Grün die ganze Zeit bis Grün und Gelb abwechselnd, beide mit der gleichen Auszahlung. Aber die Ansprechrate von A in Rot, der VI 30-Stimulus, wird sehr gedrückt sein, und die Ansprechrate in Gelb für A wird beträchtlich höher sein als die Gelb-Ansprechrate von B, obwohl der VI 15-s-Plan in beiden gleich ist. Der Effekt auf die Antwort in dem gelben Stimulus durch Taube A, eine Erhöhung der Ansprechrate, wenn ein gegebener Plan mit einem magereren wechselt, wird als positiver Verhaltenskontrast bezeichnet, und der Ratenabfall in dem magereren Plan für Taube A ist ein negativer Kontrast.

Die Reaktion von And B in Gegenwart der roten und grünen Stimuli in der ersten Bedingung ist sehr ähnlich und sollte daher die Stärke der beiden Antworten sein. Aber die ganz andere Wirkung des Hinzufügens des alternativen gelben Stimulus, der sich auf dem reicheren Zeitplan auf die zwei Tiere in der zweiten Bedingung auszahlt, zeigt, dass es nicht ist.

Der Konsens, dass die Antwortrate ein angemessenes Maß für die "Stärke" einer operanten Antwort ist, ist falsch. Die stetige Rate, die von VI-Listen eingehalten wird, ist irreführend. Es sieht wie ein einfaches Maß an Stärke aus. Wegen der Betonung der Ordnung durch Skinner, weil der gemittelte Antwort- und Feedback-reiche gleichzeitige Intervallplan dies zu liefern schien und weil es einfach war, die Antwortwahrscheinlichkeit mit der Antwortrate gleichzusetzen, wurde die Idee begründet. Doch schon in den 1950er Jahren war bekannt, dass die Antwortrate selbst manipuliert werden kann – zum Beispiel durch so genannte differential-extension-of-low-rate (DRL) -Pläne.

Schlussfolgerung Zwei Faktoren – Skinners Einzelorganismus-Methode und der Wunsch nach Ordnung – konspirierten, um der Ansprechrate eine primäre Rolle bei der operanten Konditionierung zu geben. Die Rate wurde als ein Maß für die Antwortstärke angenommen. Aber ein dritter Faktor, die Verachtung für die Theorie, bedeutete, dass diese Verbindung nie gründlich hinterfragt wurde. Es ist natürlich falsch: Response-Rate entspricht nicht Response-Stärke. Tatsächlich ist das Kraftkonzept selbst schlecht definiert. Daher ist die Betonung der Antwortquote als abhängige Variable wahrscheinlich ein Fehler. Wenn die Stärke Idee ist, das Ende der Rate als ihr bestes Maß zu überleben, ist etwas mehr erforderlich: eine Theorie über die Faktoren, die eine operante Antwort kontrollieren. Aber weil Skinner erfolgreich erklärt hatte, dass Theorien des Lernens nicht notwendig sind , gab es viele Jahre lang keine adäquate Theorie (siehe The New Behaviorism, 2014, um mehr über die Geschichte der Skinnerschen Theorie zu erfahren).