Jump to content

Обучающийся автомат

(Перенаправлено с «Обучение автоматов» )

Обучающийся автомат это один из типов алгоритмов машинного обучения , изучаемый с 1970-х годов. Обучающиеся автоматы выбирают свои текущие действия на основе прошлого опыта окружающей среды. Это попадет в область обучения с подкреплением, если среда является стохастической и процесс принятия решений Маркова используется (MDP).

Исследования обучающихся автоматов можно отнести к работам Михаила Львовича Цетлина в начале 1960-х годов в Советском Союзе. Вместе с некоторыми коллегами он опубликовал сборник статей о том, как использовать матрицы для описания автоматных функций. Дополнительно Цетлин работал над разумным и коллективным поведением автоматов , а также над играми-автоматами . Обучающиеся автоматы также исследовались исследователями в США в 1960-х годах. Однако термин « обучающийся автомат» не использовался до тех пор, пока Нарендра и Татачар не представили его в обзорной статье в 1974 году.

Определение

[ редактировать ]

Обучающийся автомат — это адаптивная единица принятия решений, расположенная в случайной среде, которая обучается оптимальному действию посредством повторяющихся взаимодействий со своей средой. Действия выбираются в соответствии с определенным распределением вероятностей, которое обновляется на основе реакции окружающей среды, которую автомат получает при выполнении определенного действия.

Что касается области обучения с подкреплением , обучающиеся автоматы характеризуются как итераторы политики . В отличие от других методов обучения с подкреплением, итераторы политики напрямую манипулируют политикой π. Другим примером итераторов политики являются эволюционные алгоритмы .

Формально Нарендра и Татачар определяют стохастический автомат как состоящий из:

  • набор X возможных входов,
  • множество Φ = { Φ 1 , ..., Φ s } возможных внутренних состояний,
  • набор α = {α 1 , ..., α r } возможных выходов или действий с r s ,
  • вектор вероятности начального состояния p(0) = ≪ p 1 (0), ..., p s (0) ≫,
  • A вычислимая функция , которая после каждого временного шага t генерирует p ( t +1) из p ( t ), текущего входного сигнала и текущего состояния, и
  • функция G : Φ → α, которая генерирует выходные данные на каждом временном шаге.

В своей статье они исследуют только стохастические автоматы с r = s и G , которые являются биективными , что позволяет им путать действия и состояния. Состояния такого автомата соответствуют состояниям « марковского процесса с дискретными состояниями и дискретными параметрами ». [1] На каждом временном шаге t =0,1,2,3,... автомат считывает входные данные из своей среды, обновляет p ( t ) до p ( t +1) на A , случайным образом выбирает состояние-преемник в соответствии с вероятности p ( t +1) и выводит соответствующее действие. Среда автомата, в свою очередь, считывает действие и отправляет автомату следующий ввод. входной набор X Часто используется без штрафа и штрафа = { 0,1 }, где 0 и 1 соответствуют реакции среды соответственно; в этом случае автомат должен научиться минимизировать количество штрафных реакций, а петля обратной связи автомата и среды называется «П-моделью». В более общем смысле, «Q-модель» допускает произвольный конечный входной набор X а «S-модель» использует интервал [0,1] действительных чисел в качестве X. , [2]

Визуализированная демонстрация [3] [4] / Художественное произведение одного обучающегося автомата было разработано исследовательской группой μSystems (microSystems) в Университете Ньюкасла.

Автоматы обучения с конечным набором действий

[ редактировать ]

Автоматы обучения с конечным набором действий (FALA) - это класс обучающих автоматов, для которых количество возможных действий конечно или, выражаясь математическими терминами, для которых размер набора действий конечен. [5]

См. также

[ редактировать ]

Литература

[ редактировать ]
  • Филип Аранзулла и Джон Меллор ( Домашняя страница ):
    • Меллор Дж. и Аранзулла П. (2000): «Использование среды ответа S-модели с обучением [sic] схемам маршрутизации на основе автоматов для IP-сетей», Proc. Восьмой семинар ИФИП по моделированию и оценке производительности сетей ATM и IP, стр. 56/1-56/12, Илкли, Великобритания.
    • Аранзулла П. и Меллор Дж. (1997): «Сравнение двух алгоритмов маршрутизации, требующих уменьшения передачи сигналов при применении к сетям ATM», Proc. Четырнадцатый британский симпозиум по телетрафику по проектированию производительности информационных систем, стр. 20/1-20/4, UMIST, Манчестер, Великобритания.
  • Нарендра К.; Татачар МАЛ (июль 1974 г.). «Обучающиеся автоматы – обзор» (PDF) . Транзакции IEEE по системам, человеку и кибернетике . СМК-4 (4): 323–334. CiteSeerX   10.1.1.295.2280 . дои : 10.1109/tsmc.1974.5408453 .
  • Цетлин М.Л. Теория автоматизации и моделирование биологических систем. Академическая пресса; 1973. [ постоянная мертвая ссылка ]
  1. ^ (Нарендра, Татачар, 1974) стр.325 слева
  2. ^ (Нарендра, Татачар, 1974) стр.325 справа
  3. ^ JieGH (11 ноября 2019 г.), JieGH/The-Ruler-of-Tsetlin-Automaton , получено 22 июля 2020 г.
  4. ^ «Правитель-Цетлин-Автомат» . www.youtube.com . Проверено 22 июля 2020 г.
  5. ^ Татачар, МАЛ; Састри, П.С. (декабрь 2002 г.). «Разновидности обучающихся автоматов: обзор» (PDF) . Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 32 (6): 711–722. дои : 10.1109/TSMCB.2002.1049606 . ПМИД   18244878 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5c076be2fd524c1ad722c087e0a115e6__1715790780
URL1:https://arc.ask3.ru/arc/aa/5c/e6/5c076be2fd524c1ad722c087e0a115e6.html
Заголовок, (Title) документа по адресу, URL1:
Learning automaton - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)