Обучающийся автомат

— Обучающийся автомат это один из типов алгоритмов машинного обучения , изучаемый с 1970-х годов. Обучающиеся автоматы выбирают свои текущие действия на основе прошлого опыта окружающей среды. Это попадет в область обучения с подкреплением, если среда является стохастической и процесс принятия решений Маркова используется (MDP).

История [ править ]

Исследования обучающихся автоматов можно проследить до работы Михаила Львовича Цетлина в начале 1960-х годов в Советском Союзе. Вместе с некоторыми коллегами он опубликовал сборник статей о том, как использовать матрицы для описания автоматных функций. Дополнительно Цетлин работал над разумным и коллективным поведением автоматов , а также над играми-автоматами . Обучающиеся автоматы также исследовались исследователями в США в 1960-х годах. Однако термин « обучающийся автомат» не использовался до тех пор, пока Нарендра и Татачар не представили его в обзорной статье в 1974 году.

Определение [ править ]

Автомат обучения — это адаптивная единица принятия решений, расположенная в случайной среде, которая обучается оптимальному действию посредством повторяющихся взаимодействий со своей средой. Действия выбираются в соответствии с определенным распределением вероятностей, которое обновляется на основе реакции окружающей среды, которую автомат получает при выполнении определенного действия.

Что касается области обучения с подкреплением , обучающиеся автоматы характеризуются как итераторы политики . В отличие от других методов обучения с подкреплением, итераторы политики напрямую манипулируют политикой π. Другим примером итераторов политики являются эволюционные алгоритмы .

Формально Нарендра и Татачар определяют стохастический автомат как состоящий из:

набор X возможных входов,
множество Φ = { Φ ₁ , ..., Φ _s } возможных внутренних состояний,
набор α = {α ₁ , ..., α _r } возможных выходов или действий с r ≤ s ,
вектор вероятности начального состояния p(0) = ≪ p ₁ (0), ..., p _s (0) ≫,
A вычислимая функция , которая после каждого временного шага t генерирует p ( t +1) из p ( t ), текущего входного сигнала и текущего состояния, и
функция G : Φ → α, которая генерирует выходные данные на каждом временном шаге.

В своей статье они исследуют только стохастические автоматы с r = s и G , которые являются биективными , что позволяет им путать действия и состояния.Состояния такого автомата соответствуют состояниям « марковского процесса с дискретными состояниями и дискретными параметрами ». ^[1]На каждом временном шаге t =0,1,2,3,... автомат считывает входные данные из своей среды, обновляет p ( t ) до p ( t +1) на A , случайным образом выбирает состояние-преемник в соответствии с вероятности p ( t +1) и выводит соответствующее действие. Среда автомата, в свою очередь, считывает действие и отправляет автомату следующий ввод. входной набор X Часто используется без штрафа и штрафа = { 0,1 }, где 0 и 1 соответствуют реакции среды соответственно; в этом случае автомат должен научиться минимизировать количество штрафных реакций, а петля обратной связи автомата и среды называется «П-моделью». В более общем смысле, «Q-модель» допускает произвольный конечный входной набор X а «S-модель» использует интервал [0,1] действительных чисел в качестве X. , ^[2]

Визуализированная демонстрация ^[3]^[4]/ Художественное произведение одного обучающегося автомата было разработано исследовательской группой μSystems (microSystems) в Университете Ньюкасла.

Автоматы обучения с действий набором конечным

Автоматы обучения с конечным набором действий (FALA) - это класс обучающих автоматов, для которых количество возможных действий конечно или, выражаясь математическими терминами, для которых размер набора действий конечен. ^[5]

См. также [ править ]

Литература [ править ]

Филип Аранзулла и Джон Меллор ( Домашняя страница ):
- Меллор Дж. и Аранзулла П. (2000): «Использование среды ответа S-модели с обучением [sic] схемам маршрутизации на основе автоматов для IP-сетей», Proc. Восьмой семинар ИФИП по моделированию и оценке производительности сетей ATM и IP, стр. 56/1-56/12, Илкли, Великобритания.
- Аранзулла П. и Меллор Дж. (1997): «Сравнение двух алгоритмов маршрутизации, требующих уменьшения передачи сигналов при применении к сетям ATM», Proc. Четырнадцатый британский симпозиум по телетрафику по проектированию производительности информационных систем, стр. 20/1-20/4, UMIST, Манчестер, Великобритания.
Нарендра К.; Татачар МАЛ (июль 1974 г.). «Обучающиеся автоматы – обзор» (PDF) . Транзакции IEEE по системам, человеку и кибернетике . СМК-4 (4): 323–334. CiteSeerX 10.1.1.295.2280 . дои : 10.1109/tsmc.1974.5408453 .
Цетлин М.Л. Теория автоматизации и моделирование биологических систем. Академическая пресса; 1973. ^{[ постоянная мертвая ссылка ]}

Ссылки [ править ]

^ (Нарендра, Татачар, 1974) стр.325 слева
^ (Нарендра, Татачар, 1974) стр.325 справа
^ JieGH (11 ноября 2019 г.), JieGH/The-Ruler-of-Tsetlin-Automaton , получено 22 июля 2020 г.
^ «Правитель-Цетлин-Автомат» . www.youtube.com . Проверено 22 июля 2020 г.
^ Татачар, МАЛ; Састри, П.С. (декабрь 2002 г.). «Разновидности обучающихся автоматов: обзор» (PDF) . Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 32 (6): 711–722. дои : 10.1109/TSMCB.2002.1049606 . ПМИД 18244878 .

[1] (Нарендра, Татачар, 1974) стр.325 слева

[2] (Нарендра, Татачар, 1974) стр.325 справа

[3] JieGH (11 ноября 2019 г.), JieGH/The-Ruler-of-Tsetlin-Automaton , получено 22 июля 2020 г.

[4] «Правитель-Цетлин-Автомат» . www.youtube.com . Проверено 22 июля 2020 г.

[Thathachar2002-5] Татачар, МАЛ; Састри, П.С. (декабрь 2002 г.). «Разновидности обучающихся автоматов: обзор» (PDF) . Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 32 (6): 711–722. дои : 10.1109/TSMCB.2002.1049606 . ПМИД 18244878 .

[1]

[2]

[3]

[4]

[5]