Jump to content

Математические принципы армирования

Математические принципы подкрепления ( MPR ) представляют собой набор математических уравнений, сформулированных Питером Киллином и его коллегами, пытающимися описать и предсказать наиболее фундаментальные аспекты поведения (Killeen & Sitomer, 2003).

Три ключевых принципа MPR — возбуждение, ограничение и связь — описывают, как стимулы мотивируют реакцию, как ее ограничивает время и как подкрепления становятся связанными с конкретными реакциями соответственно. Для этих основных принципов предусмотрены математические модели , позволяющие сформулировать необходимую детализацию фактических данных.

Первый принцип: возбуждение

[ редактировать ]

Первый основной принцип MPR – это возбуждение . Под возбуждением понимается активация поведения путем предъявления стимулов . Повышение уровня активности после неоднократного предъявления стимулов является фундаментальным аспектом обусловленности . Киллин, Хэнсон и Осборн (1978) предположили, что дополнительное (или обусловленное расписанием) поведение обычно является частью репертуара организма. Предоставление стимулов увеличивает частоту адъюнктивного поведения , вызывая повышенный уровень общей активности или возбуждения в организмах.

Киллин и Хансон (1978) подвергали голубей однократному ежедневному кормлению в экспериментальной камере и измеряли общую активность в течение 15 минут после кормления. Они показали, что уровень активности слегка повышался непосредственно после кормления, а затем медленно снижался с течением времени. Скорость распада можно описать следующей функцией:

b 1 = y-пересечение (ответов в минуту)
t = время в секундах с момента кормления
= постоянная времени
e = основание натурального логарифма

Временной ход всей теоретической модели общей деятельности моделируется следующим уравнением:

А = возбуждение
I = временное торможение
C = конкурирующее поведение

Чтобы лучше концептуализировать эту модель, представьте, как будет выглядеть скорость реагирования для каждого из этих процессов в отдельности. В отсутствие временного торможения или конкурирующих реакций уровень возбуждения останется высоким, а скорость реакции будет изображаться почти горизонтальной линией с очень небольшим отрицательным наклоном. Непосредственно после подачи пищи временное торможение достигает максимального уровня. С течением времени он быстро снижается, и можно ожидать, что скорость реакции за короткое время увеличится до уровня возбуждения. Конкурирующее поведение, такое как отслеживание цели или осмотр бункера, сведено к минимуму непосредственно после подачи еды. Такое поведение усиливается по мере прохождения интервала, поэтому показатель общей активности будет постепенно уменьшаться. Вычитание этих двух кривых дает прогнозируемый уровень общей активности.

Киллин и др. (1978) затем увеличили частоту кормления с ежедневного до каждых фиксированных секунд. Они показали, что общий уровень активности существенно увеличился по сравнению с уровнем ежедневного предъявления. скорости ответа Асимптоты были самыми высокими для самых высоких показателей подкрепления. Эти эксперименты показывают, что уровень возбуждения пропорционален скорости подстрекательства, а асимптотический уровень увеличивается при повторном предъявлении стимулов. Повышение уровня активности при неоднократном предъявлении стимулов называется кумуляцией возбуждения. Первый принцип MPR гласит, что уровень возбуждения пропорционален скорости подкрепления . , где:

A = уровень возбуждения

а = конкретная активация

r = скорость армирования

(Киллин и Ситомер, 2003).

Второй принцип: ограничение

[ редактировать ]

Очевидным, но часто упускаемым из виду фактором при анализе распределения ответов является то, что ответы не являются мгновенными, а требуют некоторого времени для появления (Killeen, 1994). Эти ограничения на скорость ответов часто объясняются конкуренцией со стороны других ответов, но реже тем фактом, что ответы не всегда могут отправляться с той же скоростью, с которой они получены (Killeen & Sitomer, 2003). Этот ограничивающий фактор необходимо учитывать, чтобы правильно охарактеризовать, каким может быть реагирование теоретически, а каким оно будет эмпирически.

Организм может получать импульсы для реагирования с определенной скоростью. При низких скоростях подкрепления вызванная и излучаемая скорость будут приближаться друг к другу. Однако при высоких темпах подкрепления эта вызванная скорость снижается из-за количества времени, необходимого для выдачи ответа. Скорость ответа, , обычно измеряется как количество ответов, происходящих за эпоху, разделенное на продолжительность эпохи. Взаимное значение дает типичную меру взаимного ответа (IRT), среднее время от начала одного ответа до начала другого (Killeen & Sitomer, 2003). На самом деле это время цикла, а не время между ответами. Согласно Киллину и Ситомеру (2003), IRT состоит из двух подинтервалов — времени, необходимого для выдачи ответа, плюс время между ответами, . Следовательно, скорость ответа можно измерить либо путем деления количества ответов на время цикла:

,

или как количество ответов, разделенное на фактическое время между ответами:

.

Эта мгновенная скорость, может быть лучшей мерой, поскольку характер операндума может произвольно меняться в ходе эксперимента (Killeen & Sitomer, 2003).

Киллин, Холл, Рейли и Кеттл (2002) показали, что если мгновенная скорость реагирования пропорциональна скорости подкрепления, , затем фундаментальное уравнение для результатов MPR. Киллин и Ситомер (2003) показали, что:

если

затем ,

и перестановка дает:

Хотя ответы могут быть получены со скоростью, пропорциональной , они могут излучаться только со скоростью из-за стеснения. Второй принцип MPR гласит, что время, необходимое для ответа, ограничивает скорость ответа (Killeen & Sitomer, 2003).

Третий принцип: сцепление

[ редактировать ]

Связывание — это окончательная концепция MPR, которая связывает все процессы воедино и позволяет делать конкретные прогнозы поведения с различными графиками подкрепления. Связь означает связь между реакциями и подкреплениями. Целевая реакция — это реакция, интересующая экспериментатора, но любая реакция может стать ассоциированной с подкреплением. Непредвиденные обстоятельства подкрепления относятся к тому, как планируется подкрепление в соответствии с целевой реакцией (Killeen & Sitomer, 2003), а конкретный график подкрепления фактически определяет, как реакции связаны с подкреплением. Третий принцип MPR гласит, что степень связи между реакцией и подкреплением уменьшается с увеличением расстояния между ними (Killeen & Sitomer, 2003). связи Коэффициенты , обозначенные как , даны для разных режимов армирования. Когда коэффициенты связи вставляются в модель ограничений активации, получаются полные модели кондиционирования:

Это фундаментальное уравнение MPR. Точка после является заполнителем для конкретных изучаемых непредвиденных обстоятельств подкрепления (Killeen & Sitomer, 2003).

Графики армирования с фиксированным соотношением

[ редактировать ]

Скорость подкрепления для схем с фиксированным соотношением легко рассчитать, поскольку скорость подкрепления прямо пропорциональна скорости реагирования и обратно пропорциональна требованию соотношения (Killeen, 1994). Таким образом, функция обратной связи по расписанию:

.

Подстановка этой функции в полную модель дает уравнение движения графиков соотношений (Killeen & Sitomer, 2003). Киллин (1994, 2003) показал, что самый последний ответ в последовательности ответов имеет наибольший вес и ему присваивается вес , уход для остальных ответов. Предпоследний ответ получает , третий обратно получает . ответу присваивается вес

Сумма этого ряда представляет собой коэффициент связи для графиков с фиксированным соотношением:

Непрерывное приближение этого:

где — это внутренняя скорость разрушения памяти. Вставка скорости подкрепления и коэффициента связи в модель ограничений активации дает прогнозируемые скорости ответа для графиков FR:

Это уравнение предсказывает низкую скорость ответа при низких требованиях к соотношению из-за вытеснения памяти из-за потребительского поведения. Однако такие низкие показатели встречаются не всегда. Соединение ответов может выходить за рамки предыдущего подкрепления и дополнительного параметра, добавляется для учета этого. Киллин и Ситомер (2003) показали, что коэффициент связи для графиков FR тогда становится:

— это количество ответов, предшествующих предыдущему подкреплению, которые способствуют силе ответа. которая колеблется от 0 до 1 – это степень стирания целевой реакции из памяти при подаче подкрепления. ( ) Если , стирание завершено и можно использовать более простое уравнение FR.

Графики армирования с переменным соотношением

[ редактировать ]

По данным Киллин и Ситомер (2003), продолжительность реакции может влиять на скорость ухудшения памяти. Когда продолжительность реакции различается как внутри организмов, так и между ними, необходима более полная модель. заменяется на урожайность:

Идеализированные графики с переменным соотношением со средним требованием реагирования имеют постоянную вероятность реакции, заканчивающейся подкреплением (Bizo, Kettle & Killeen, 2001). Последняя реакция, заканчивающаяся подкреплением, всегда должна иметь место и получает усиление . Предпоследний ответ происходит с вероятностью и получает усиление . Сумма этого процесса до бесконечности равна (Killeen 2001, Приложение):

[ нужна ссылка ]

Коэффициент связи для графиков VR в конечном итоге составит:

Умножение на степень стирания памяти дает:

Коэффициент связи затем можно вставить в модель ограничений активации так же, как коэффициент связи для графиков FR, чтобы получить прогнозируемую скорость ответа в рамках графиков VR:

В интервальных расписаниях функция обратной связи по расписанию

где — это минимальное среднее время между подкреплениями (Killeen, 1994). Связь в интервальных графиках слабее, чем в соотношениях, поскольку интервальные графики одинаково усиливают все реакции, предшествующие целевой, а не только целевую реакцию. Лишь некоторая доля память укрепляется. При наличии требования к реагированию окончательный целевой ответ должен иметь силу . Все предыдущие реакции, целевые или нецелевые, получают усиление .

Графики с фиксированным временем — это простейшие графики, зависящие от времени, в которых организмы должны просто ждать t секунд для получения стимула. Киллин (1994) переосмыслил временные требования как требования к реагированию и интегрировал содержимое памяти от одного стимула к другому. Это дает содержимому памяти следующее:

Н

MN= lò e-lndn

0

Это степень насыщенности памяти всеми реакциями, как целевыми, так и нецелевыми, вызванными в контексте (Killeen, 1994). Решение этого уравнения дает коэффициент связи для графиков с фиксированным временем:

с = г (1-е-фунт)

где – доля целевых ответов в траектории ответа. Разложение в степенной ряд дает следующее приближение:

в» рлбт

1+lbt

Это уравнение предсказывает серьезную нестабильность для неусловных графиков подкрепления.

Графики с фиксированными интервалами гарантируют усиление целевой реакции b=w1, поскольку подкрепление зависит от этой последней, непрерывной реакции (Killeen, 1994). Эта связь эквивалентна связи в расписаниях FR 1.

w1=b=1-эл.

Оставшаяся часть связи обусловлена ​​памятью о предыдущем поведении. Коэффициент связи для графиков FI составляет:

с= b +r(1-b-e-lbt).

Графики с переменным временем аналогичны графикам со случайным соотношением в том, что существует постоянная вероятность подкрепления, но эти подкрепления устанавливаются во времени, а не в ответах. Вероятность отсутствия подкрепления до некоторого времени t' является экспоненциальной функцией этого времени, при этом постоянная времени t является средним IRI графика (Killeen, 1994). Чтобы получить коэффициент связи, необходимо проинтегрировать вероятность того, что расписание не закончилось, взвешенную по содержимому памяти.

M= lò e-n't/te-ln' dn'

0

В этом уравнении t'=n't, где t — небольшая единица времени. Киллин (1994) объясняет, что первый экспоненциальный член — это распределение подкрепления, тогда как второй член — это взвешивание этого распределения в памяти. Решение этого интеграла и умножение на константу связи r дает степень заполнения памяти в расписаниях VT:

c=rlbt

1+lbt

Это тот же коэффициент связи, что и для графика FT, за исключением того, что это точное решение для графиков VT, а не приближение. Опять же, функция обратной связи в этих неусловных графиках предсказывает серьезную нестабильность реагирования.

Как и в случае с графиками FI, графики с переменным интервалом гарантируют целевую связь отклика b. Простое добавление b к уравнению VT дает:

M= b+ lò e-n't/te-ln' dn'

1

Решение интеграла и умножение на r дает коэффициент связи для графиков VI:

с = b+(1-b) rlbt

1+lbt

Коэффициенты связи для всех графиков вставляются в модель ограничений активации, чтобы получить прогнозируемую общую скорость ответа. Третий принцип MPR гласит, что связь между реакцией и подкреплением уменьшается с увеличением времени между ними (Killeen & Sitomer, 2003).

Математические принципы подкрепления описывают, как стимулы подпитывают поведение, как его ограничивает время и как им управляют непредвиденные обстоятельства. Это общая теория подкрепления, которая сочетает в себе смежность и корреляцию как процессы объяснения поведения. Многие реакции, предшествующие подкреплению, могут коррелировать с подкреплением, но окончательный ответ получает наибольший вес в памяти. Для трех основных принципов предусмотрены конкретные модели, позволяющие сформулировать прогнозируемые модели реагирования во многих различных ситуациях и при различных схемах подкрепления. Коэффициенты связи для каждого режима армирования выводятся и вставляются в фундаментальное уравнение, чтобы получить общую прогнозируемую скорость реагирования.

Источники

[ редактировать ]
  • Бизо, Лос-Анджелес, Кеттл, Л.К. и Киллин, PR (2001). «Животные не всегда быстрее реагируют на большее количество еды: парадоксальный эффект стимулирования». Обучение и поведение животных , 29 , 66–78.
  • Киллин, PR (1994). «Математические основы армирования». Поведенческие и мозговые науки , 17 , 105-172.
  • Киллин, PR, Холл, SS, Рейли, член парламента и Кеттл, LC (2002). «Молекулярный анализ основных компонентов силы реакции». Журнал экспериментального анализа поведения , 78 , 127–160.
  • Киллин, П.Р., Хэнсон, С.Дж., и Осборн, С.Р. (1978). «Возбуждение: его происхождение и проявление как скорость реакции». Психологический обзор . Том 85 № 6 . п. 571-81
  • Киллин, PR и Ситомер, MT (2003). «МПР». Поведенческие процессы , 62 , 49-64
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c28a14aa9fd5fdcc7449c139adb1ec99__1699336860
URL1:https://arc.ask3.ru/arc/aa/c2/99/c28a14aa9fd5fdcc7449c139adb1ec99.html
Заголовок, (Title) документа по адресу, URL1:
Mathematical principles of reinforcement - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)