Обучающийся автомат
— Обучающийся автомат это один из типов алгоритмов машинного обучения , изучаемый с 1970-х годов. Обучающиеся автоматы выбирают свои текущие действия на основе прошлого опыта окружающей среды. Это попадет в область обучения с подкреплением, если среда является стохастической и процесс принятия решений Маркова используется (MDP).
История
[ редактировать ]Исследования обучающихся автоматов можно проследить до работы Михаила Львовича Цетлина в начале 1960-х годов в Советском Союзе. Вместе с некоторыми коллегами он опубликовал сборник статей о том, как использовать матрицы для описания автоматных функций. Дополнительно Цетлин работал над разумным и коллективным поведением автоматов , а также над играми-автоматами . Обучающиеся автоматы также исследовались исследователями в США в 1960-х годах. Однако термин «автомат обучения» не использовался до тех пор, пока Нарендра и Татачар не представили его в обзорной статье в 1974 году.
Определение
[ редактировать ]Автомат обучения — это адаптивная единица принятия решений, расположенная в случайной среде, которая обучается оптимальному действию посредством повторяющихся взаимодействий со своей средой. Действия выбираются в соответствии с определенным распределением вероятностей, которое обновляется на основе реакции окружающей среды, которую автомат получает при выполнении определенного действия.
Что касается области обучения с подкреплением , обучающиеся автоматы характеризуются как итераторы политики . В отличие от других методов обучения с подкреплением, итераторы политики напрямую манипулируют политикой π. Другим примером итераторов политики являются эволюционные алгоритмы .
Формально Нарендра и Татачар определяют стохастический автомат как состоящий из:
- набор X возможных входов,
- множество Φ = { Φ 1 , ..., Φ s } возможных внутренних состояний,
- набор α = {α 1 , ..., α r } возможных выходов или действий с r ≤ s ,
- вектор вероятности начального состояния p(0) = ≪ p 1 (0), ..., p s (0) ≫,
- A вычислимая функция , которая после каждого временного шага t генерирует p ( t +1) из p ( t ), текущего входного сигнала и текущего состояния, и
- функция G : Φ → α, которая генерирует выходные данные на каждом временном шаге.
В своей статье они исследуют только стохастические автоматы с r = s и G , которые являются биективными , что позволяет им путать действия и состояния. Состояния такого автомата соответствуют состояниям « марковского процесса с дискретными состояниями и дискретными параметрами ». [1] На каждом временном шаге t =0,1,2,3,... автомат считывает входные данные из своей среды, обновляет p ( t ) до p ( t +1) на A , случайным образом выбирает состояние-преемник в соответствии с вероятности p ( t +1) и выводит соответствующее действие. Среда автомата, в свою очередь, считывает действие и отправляет автомату следующий ввод. входной набор X Часто используется без штрафа и штрафа = { 0,1 }, где 0 и 1 соответствуют реакции среды соответственно; в этом случае автомат должен научиться минимизировать количество штрафных реакций, а петля обратной связи автомата и среды называется «П-моделью». В более общем смысле, «Q-модель» допускает произвольный конечный входной набор X а «S-модель» использует интервал [0,1] действительных чисел в качестве X. , [2]
Визуализированная демонстрация [3] [4] / Художественное произведение одного обучающегося автомата было разработано исследовательской группой μSystems (microSystems) в Университете Ньюкасла.
Автоматы обучения с конечным набором действий
[ редактировать ]Автоматы обучения с конечным набором действий (FALA) — это класс обучающих автоматов, для которых количество возможных действий конечно или, выражаясь более математическими терминами, для которых размер набора действий конечен. [5]
См. также
[ редактировать ]Литература
[ редактировать ]- Филип Аранзулла и Джон Меллор ( Домашняя страница ):
- Меллор Дж. и Аранзулла П. (2000): «Использование среды ответа S-модели с обучением [sic] схемам маршрутизации на основе автоматов для IP-сетей», Proc. Восьмой семинар ИФИП по моделированию и оценке производительности сетей ATM и IP, стр. 56/1-56/12, Илкли, Великобритания.
- Аранзулла П. и Меллор Дж. (1997): «Сравнение двух алгоритмов маршрутизации, требующих уменьшения передачи сигналов при применении к сетям ATM», Proc. Четырнадцатый британский симпозиум по телетрафику по проектированию производительности информационных систем, стр. 20/1-20/4, UMIST, Манчестер, Великобритания.
- Нарендра К.; Татачар МАЛ (июль 1974 г.). «Обучающиеся автоматы – обзор» (PDF) . Транзакции IEEE по системам, человеку и кибернетике . СМК-4 (4): 323–334. CiteSeerX 10.1.1.295.2280 . дои : 10.1109/tsmc.1974.5408453 .
- Цетлин М.Л. Теория автоматизации и моделирование биологических систем. Академическая пресса; 1973. [ постоянная мертвая ссылка ]
Ссылки
[ редактировать ]- ^ (Нарендра, Татачар, 1974) стр.325 слева
- ^ (Нарендра, Татачар, 1974) стр.325 справа
- ^ JieGH (11 ноября 2019 г.), JieGH/The-Ruler-of-Tsetlin-Automaton , получено 22 июля 2020 г.
- ^ «Правитель-Цетлин-Автомат» . www.youtube.com . Проверено 22 июля 2020 г.
- ^ Татачар, МАЛ; Састри, П.С. (декабрь 2002 г.). «Разновидности обучающихся автоматов: обзор» (PDF) . Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 32 (6): 711–722. дои : 10.1109/TSMCB.2002.1049606 . ПМИД 18244878 .