Ограниченная машина Больцмана

Ограниченная машина Больцмана ( RBM ) (также называемая ограниченной моделью Шеррингтона-Киркпатрика с внешним полем или ограниченной стохастической моделью Изинга-Ленца-Литтла ) представляет собой генеративную стохастическую искусственную нейронную сеть , которая может изучать распределение вероятностей по набору входных данных. ^[1]

под названием Harmonium Первоначально RBM были предложены Полом Смоленским в 1986 году. ^[2] и приобрели известность после того, как Джеффри Хинтон и его коллеги использовали для них алгоритмы быстрого обучения в середине 2000-х годов. RBM нашли применение в уменьшении размерности , ^[3] классификация , ^[4] совместная фильтрация , ^[5] особенность обучения , ^[6] тематическое моделирование , ^[7] иммунология , ^[8] и даже квантовая механика многих тел . ^[9]^[10] Их можно обучать как под присмотром , так и без присмотра , в зависимости от задачи. ^{[ нужна ссылка ]}

Как следует из названия, RBM являются вариантом машин Больцмана с тем ограничением, что их нейроны должны формировать двудольный граф :

пара узлов из каждой из двух групп блоков (обычно называемых «видимыми» и «скрытыми» блоками соответственно) может иметь симметричное соединение между собой; и
между узлами внутри группы нет связей.

Напротив, «неограниченные» машины Больцмана могут иметь связи между скрытыми блоками . Это ограничение позволяет использовать более эффективные алгоритмы обучения , чем доступные для общего класса машин Больцмана, в частности на основе градиента алгоритм контрастивной дивергенции . ^[11]

Ограниченные машины Больцмана также можно использовать в глубокого обучения сетях . В частности, сети глубоких убеждений могут быть сформированы путем «наложения» RBM и, при необходимости, точной настройки полученной глубокой сети с помощью градиентного спуска и обратного распространения ошибки . ^[12]

Структура [ править ]

Стандартный тип RBM имеет скрытые и видимые двоичные ( логические ) единицы измерения и состоит из матрицы весов. $W$ размера $m\times n$ . Каждый весовой элемент $(w_{i,j})$ матрицы связана со связью между видимым (входным) блоком $v_{i}$ и скрытый блок $h_{j}$ . Кроме того, существуют веса смещения (смещения). $a_{i}$ для $v_{i}$ и $b_{j}$ для $h_{j}$ . Учитывая веса и смещения, энергия конфигурации (пара логических векторов) $(v, h)$ определяется как

E(v,h)=-\sum _{i}a_{i}v_{i}-\sum _{j}b_{j}h_{j}-\sum _{i}\sum _{j}v_{i}w_{i,j}h_{j}

или, в матричной записи,

E(v,h)=-a^{\mathrm {T} }v-b^{\mathrm {T} }h-v^{\mathrm {T} }Wh.

Эта энергетическая функция аналогична функции сети Хопфилда . Как и в случае с обычными машинами Больцмана, совместное распределение вероятностей для видимых и скрытых векторов определяется через функцию энергии следующим образом: ^[13]

P(v,h)={\frac {1}{Z}}e^{-E(v,h)}

где $Z$ является статистической суммой, определяемой как сумма $e^{-E(v,h)}$ по всем возможным конфигурациям, что можно интерпретировать как нормализующую константу , гарантирующую, что сумма вероятностей равна 1. Предельная вероятность видимого вектора представляет собой сумму $P(v,h)$ по всем возможным конфигурациям скрытых слоев, ^[13]

P(v)={\frac {1}{Z}}\sum _{\{h\}}e^{-E(v,h)}

,

и наоборот. Поскольку базовая структура графа RBM является двудольной (что означает отсутствие внутриуровневых связей), активации скрытых модулей взаимно независимы, учитывая активацию видимых модулей. И наоборот, видимые активации юнитов взаимно независимы, учитывая активацию скрытых юнитов. ^[11] То есть для m видимых единиц и n скрытых единиц условная вероятность конфигурации видимых единиц $v$ при заданной конфигурации скрытых единиц $h$ равна

P(v|h)=\prod _{i=1}^{m}P(v_{i}|h)

.

И наоборот, условная вероятность $h$ при условии $v$ равна

P(h|v)=\prod _{j=1}^{n}P(h_{j}|v)

.

Индивидуальные вероятности активации определяются выражением

P(h_{j}=1|v)=\sigma \left(b_{j}+\sum _{i=1}^{m}w_{i,j}v_{i}\right)

и

\,P(v_{i}=1|h)=\sigma \left(a_{i}+\sum _{j=1}^{n}w_{i,j}h_{j}\right)

где $\sigma$ обозначает логистическую сигмовидную форму .

Видимые единицы ограниченной машины Больцмана могут быть полиномиальными , хотя скрытые единицы — это Бернулли . ^{[ нужны разъяснения ]} В этом случае логистическая функция для видимых единиц заменяется функцией softmax.

P(v_{i}^{k}=1|h)={\frac {\exp(a_{i}^{k}+\Sigma _{j}W_{ij}^{k}h_{j})}{\Sigma _{k'=1}^{K}\exp(a_{i}^{k'}+\Sigma _{j}W_{ij}^{k'}h_{j})}}

где K — количество дискретных значений, которые имеют видимые значения. Они применяются при тематическом моделировании, ^[7] и рекомендательные системы . ^[5]

Связь с другими моделями [ править ]

Ограниченные машины Больцмана представляют собой частный случай машин Больцмана и марковских случайных полей . ^[14]^[15]

Графическая модель УОР соответствует модели факторного анализа . ^[16]

Алгоритм обучения [ править ]

Ограниченные машины Больцмана обучены максимизировать произведение вероятностей, присвоенных некоторому обучающему набору. $V$ (матрица, каждая строка которой рассматривается как видимый вектор $v$ ),

\arg \max _{W}\prod _{v\in V}P(v)

или, что то же самое, чтобы максимизировать ожидаемую логарифмическую вероятность обучающей выборки $v$ выбрано случайно из $V$ : ^[14]^[15]

\arg \max _{W}\mathbb {E} \left[\log P(v)\right]

Алгоритм, чаще всего используемый для обучения RBM, то есть для оптимизации весовой матрицы. $W$ , — это алгоритм контрастивной дивергенции (CD), предложенный Хинтоном , первоначально разработанный для обучения PoE ( продукт экспертов ). моделей ^[17]^[18]Алгоритм выполняет выборку Гиббса и используется внутри процедуры градиентного спуска (аналогично тому, как обратное распространение ошибки используется внутри такой процедуры при обучении нейронных сетей прямого распространения) для вычисления обновления веса.

Базовую одноэтапную процедуру контрастной дивергенции (CD-1) для одного образца можно резюмировать следующим образом:

Возьмите обучающую выборку $v$ , вычислите вероятности скрытых единиц и выберите скрытый вектор активации $h$ из этого распределения вероятностей.
Вычислите внешнее произведение v $и$ h $и$ назовите его положительным градиентом .
Из $h$ выберите реконструкцию $v'$ видимых единиц, затем повторите выборку скрытых активаций $h'$ из этого. (этап выборки Гиббса)
Вычислите внешнее произведение v $'$ и $h'$ и назовите его отрицательным градиентом .
Пусть обновление весовой матрицы $W$ быть положительным градиентом минус отрицательный градиент, умноженным на некоторую скорость обучения: $\Delta W=\epsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$ .
Аналогично обновите смещения $a$ и $b$ : $\Delta a=\epsilon (v-v')$ , $\Delta b=\epsilon (h-h')$ .

Практическое руководство по обучению RBM, написанное Хинтоном, можно найти на его домашней странице. ^[13]

Больцмана Многоуровневая ограниченная машина

Разница между штабелированными ограниченными машинами Больцмана и RBM заключается в том, что RBM имеет боковые связи внутри слоя, которые запрещены для облегчения анализа. С другой стороны, Stacked Boltzmann состоит из комбинации неконтролируемой трехслойной сети с симметричными весами и контролируемого тонко настроенного верхнего слоя для распознавания трех классов.
Использование Stacked Boltzmann предназначено для понимания естественных языков , извлечения документов , создания изображений и классификации. Эти функции обучаются с помощью неконтролируемого предварительного обучения и/или контролируемой тонкой настройки. В отличие от ненаправленного симметричного верхнего слоя, с двусторонним несимметричным слоем для подключения для RBM. Ограниченная больцмановская связность является трехслойной с несимметричными весами, причем две сети объединены в одну.
Stacked Boltzmann действительно имеет сходство с RBM: нейрон для Stacked Boltzmann представляет собой стохастический бинарный нейрон Хопфилда, который аналогичен ограниченной машине Больцмана. Энергия как Ограниченного Больцмана, так и RBM определяется вероятностной мерой Гибба: $E=-{\frac {1}{2}}\sum _{i,j}{w_{ij}{s_{i}}{s_{j}}}+\sum _{i}{\theta _{i}}{s_{i}}$ . Тренировочный процесс Restricted Boltzmann аналогичен RBM. Ограниченное обучение Больцмана по одному слою за раз и приближение к равновесному состоянию с помощью 3-сегментного прохода без выполнения обратного распространения. Ограниченный метод Больцмана использует как контролируемый, так и неконтролируемый метод на различных RBM для предварительного обучения классификации и распознаванию. В обучении используется контрастивная дивергенция с выборкой Гиббса: Δw _ij = e*(p _ij - p' _ij )
Ограниченная сила Больцмана заключается в том, что он выполняет нелинейное преобразование, поэтому его легко расширять и он может создавать иерархический уровень функций. Слабость заключается в том, что он имеет сложные вычисления для целочисленных и действительных нейронов. Он не следует градиенту какой-либо функции, поэтому приближение контрастного расхождения к максимальному правдоподобию является импровизированным. ^[13]

Литература [ править ]

Фишер, Ася; Игель, Кристиан (2012), «Введение в ограниченные машины Больцмана», Прогресс в распознавании образов, анализе изображений, компьютерном зрении и приложениях , Конспекты лекций по информатике, том. 7441, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 14–36, doi : 10.1007/978-3-642-33275-3_2 , ISBN 978-3-642-33274-6

См. также [ править ]

Ссылки [ править ]

^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975), «Разрешимая модель спинового стекла», Physical Review Letters , 35 (35): 1792–1796, Бибкод : 1975PhRvL..35.1792S , doi : 10.1103/PhysRevLett.35.1792
^ Смоленский, Павел (1986). «Глава 6: Обработка информации в динамических системах: основы теории гармонии» (PDF) . В Румельхарте, Дэвид Э.; Маклелланд, Джеймс Л. (ред.). Параллельная распределенная обработка: исследования микроструктуры познания, Том 1: Основы . МТИ Пресс. стр. 194–281 . ISBN 0-262-68053-Х .
^ Хинтон, GE; Салахутдинов Р.Р. (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Наука . 313 (5786): 504–507. Бибкод : 2006Sci...313..504H . дои : 10.1126/science.1127647 . ПМИД 16873662 . S2CID 1658773 . Архивировано из оригинала (PDF) 23 декабря 2015 г. Проверено 2 декабря 2015 г.
^ Ларошель, Х.; Бенджио, Ю. (2008). Классификация с использованием дискриминационных ограниченных машин Больцмана (PDF) . Материалы 25-й международной конференции по машинному обучению - ICML '08. п. 536. дои : 10.1145/1390156.1390224 . ISBN 978-1-60558-205-4 .
^ Jump up to: ^а ^б Салахутдинов Р.; Мних, А.; Хинтон, Г. (2007). Ограниченные машины Больцмана для совместной фильтрации . Материалы 24-й международной конференции по машинному обучению - ICML '07. п. 791. дои : 10.1145/1273496.1273596 . ISBN 978-1-59593-793-3 .
^ Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей в обучении функций без учителя (PDF) . Международная конференция по искусственному интеллекту и статистике (AISTATS). Архивировано из оригинала (PDF) 20 декабря 2014 г. Проверено 19 декабря 2014 г.
^ Jump up to: ^а ^б Руслан Салахутдинов и Джеффри Хинтон (2010). Реплицированный softmax: модель ненаправленной темы. Архивировано 25 мая 2012 г. на Wayback Machine . Нейронные системы обработки информации 23 .
^ Брави, Барбара; Ди Джоаккино, Андреа; Фернандес-де-Коссио-Диас, Хорхе; Вальчак, Александра М; Мора, Тьерри; Кокко, Симона; Монассон, Реми (08 сентября 2023 г.). Битбол, Анн-Флоренция; Эйзен, Майкл Б. (ред.). «Подход к переносу обучения для прогнозирования иммуногенности антигена и специфичности рецептора Т-клеток» . электронная жизнь . 12 : е85126. дои : 10.7554/eLife.85126 . ISSN 2050-084X . ПМЦ 10522340 . ПМИД 37681658 .
^ Карлео, Джузеппе; Тройер, Матиас (10 февраля 2017 г.). «Решение квантовой задачи многих тел с помощью искусственных нейронных сетей». Наука . 355 (6325): 602–606. arXiv : 1606.02318 . Бибкод : 2017Sci...355..602C . дои : 10.1126/science.aag2302 . ISSN 0036-8075 . ПМИД 28183973 . S2CID 206651104 .
^ Мелько, Роджер Г.; Карлео, Джузеппе; Карраскилья, Хуан; Сирак, Дж. Игнасио (сентябрь 2019 г.). «Ограниченные машины Больцмана в квантовой физике». Физика природы . 15 (9): 887–892. Бибкод : 2019NatPh..15..887M . дои : 10.1038/s41567-019-0545-1 . ISSN 1745-2481 . S2CID 256704838 .
^ Jump up to: ^а ^б Мигель А. Каррейра-Перпиньян и Джеффри Хинтон (2005). О контрастном дивергентном обучении . Искусственный интеллект и статистика .
^ Хинтон, Г. (2009). «Сети глубоких убеждений» . Схоларпедия . 4 (5): 5947. Бибкод : 2009SchpJ...4.5947H . doi : 10.4249/scholarpedia.5947 .
^ Jump up to: ^а ^б ^с ^д Джеффри Хинтон (2010). Практическое руководство по обучению ограниченных машин Больцмана . UTML TR 2010–003, Университет Торонто.
^ Jump up to: ^а ^б Суцкевер, Илья; Тилеман, Тиймен (2010). «О свойствах конвергенции контрастной дивергенции» (PDF) . Учеб. 13-я Международная конференция. Об искусственном интеллекте и статистике (AISTATS) . Архивировано из оригинала (PDF) 10 июня 2015 г.
^ Jump up to: ^а ^б Ася Фишер и Кристиан Игель. Машины Больцмана с ограниченным обучением: введение. Архивировано 10 июня 2015 г. на Wayback Machine . Распознавание образов 47, стр. 25–39, 2014 г.
^ Мария Анхелика Куэто; Джейсон Мортон; Бернд Штурмфельс (2010). «Геометрия ограниченной машины Больцмана». Алгебраические методы в статистике и теории вероятностей . 516 . Американское математическое общество. arXiv : 0908.4425 . Бибкод : 2009arXiv0908.4425A .
^ Джеффри Хинтон (1999). Продукция экспертов . ИКАНН, 1999 год .
^ Хинтон, GE (2002). «Продукты обучения экспертов путем минимизации контрастного расхождения» (PDF) . Нейронные вычисления . 14 (8): 1771–1800. дои : 10.1162/089976602760128018 . ПМИД 12180402 . S2CID 207596505 .

Библиография [ править ]

Чен, Эдвин (18 июля 2011 г.). «Введение в ограниченные машины Больцмана» . Блог Эдвина Чена .
Николсон, Крис; Гибсон, Адам. «Учебное пособие для начинающих по ограниченным машинам Больцмана» . Deeplearning4j Документация . Архивировано из оригинала 11 февраля 2017 г. Проверено 15 ноября 2018 г. {{cite web}}: CS1 maint: bot: исходный статус URL неизвестен ( ссылка )
Николсон, Крис; Гибсон, Адам. «Понимание УОР» . Документация Deeplearning4j . Архивировано из оригинала 20 сентября 2016 г. Проверено 29 декабря 2014 г.

Внешние ссылки [ править ]

на Python Реализация RBM Бернулли и учебное пособие
SimpleRBM — это очень небольшой код RBM (24 КБ), который поможет вам узнать, как учатся и работают RBM.
Реализация Джулии машин с ограниченным доступом Больцмана: https://github.com/cossio/RestrictedBoltzmannMachines.jl

[1] Шеррингтон, Дэвид; Киркпатрик, Скотт (1975), «Разрешимая модель спинового стекла», Physical Review Letters , 35 (35): 1792–1796, Бибкод : 1975PhRvL..35.1792S , doi : 10.1103/PhysRevLett.35.1792

[2] Смоленский, Павел (1986). «Глава 6: Обработка информации в динамических системах: основы теории гармонии» (PDF) . В Румельхарте, Дэвид Э.; Маклелланд, Джеймс Л. (ред.). Параллельная распределенная обработка: исследования микроструктуры познания, Том 1: Основы . МТИ Пресс. стр. 194–281 . ISBN 0-262-68053-Х .

[3] Хинтон, GE; Салахутдинов Р.Р. (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Наука . 313 (5786): 504–507. Бибкод : 2006Sci...313..504H . дои : 10.1126/science.1127647 . ПМИД 16873662 . S2CID 1658773 . Архивировано из оригинала (PDF) 23 декабря 2015 г. Проверено 2 декабря 2015 г.

[4] Ларошель, Х.; Бенджио, Ю. (2008). Классификация с использованием дискриминационных ограниченных машин Больцмана (PDF) . Материалы 25-й международной конференции по машинному обучению - ICML '08. п. 536. дои : 10.1145/1390156.1390224 . ISBN 978-1-60558-205-4 .

[softCF-5] Jump up to: ^а ^б Салахутдинов Р.; Мних, А.; Хинтон, Г. (2007). Ограниченные машины Больцмана для совместной фильтрации . Материалы 24-й международной конференции по машинному обучению - ICML '07. п. 791. дои : 10.1145/1273496.1273596 . ISBN 978-1-59593-793-3 .

[coates2011-6] Коутс, Адам; Ли, Хонглак; Нг, Эндрю Ю. (2011). Анализ однослойных сетей в обучении функций без учителя (PDF) . Международная конференция по искусственному интеллекту и статистике (AISTATS). Архивировано из оригинала (PDF) 20 декабря 2014 г. Проверено 19 декабря 2014 г.

[softTM-7] Jump up to: ^а ^б Руслан Салахутдинов и Джеффри Хинтон (2010). Реплицированный softmax: модель ненаправленной темы. Архивировано 25 мая 2012 г. на Wayback Machine . Нейронные системы обработки информации 23 .

[8] Брави, Барбара; Ди Джоаккино, Андреа; Фернандес-де-Коссио-Диас, Хорхе; Вальчак, Александра М; Мора, Тьерри; Кокко, Симона; Монассон, Реми (08 сентября 2023 г.). Битбол, Анн-Флоренция; Эйзен, Майкл Б. (ред.). «Подход к переносу обучения для прогнозирования иммуногенности антигена и специфичности рецептора Т-клеток» . электронная жизнь . 12 : е85126. дои : 10.7554/eLife.85126 . ISSN 2050-084X . ПМЦ 10522340 . ПМИД 37681658 .

[9] Карлео, Джузеппе; Тройер, Матиас (10 февраля 2017 г.). «Решение квантовой задачи многих тел с помощью искусственных нейронных сетей». Наука . 355 (6325): 602–606. arXiv : 1606.02318 . Бибкод : 2017Sci...355..602C . дои : 10.1126/science.aag2302 . ISSN 0036-8075 . ПМИД 28183973 . S2CID 206651104 .

[10] Мелько, Роджер Г.; Карлео, Джузеппе; Карраскилья, Хуан; Сирак, Дж. Игнасио (сентябрь 2019 г.). «Ограниченные машины Больцмана в квантовой физике». Физика природы . 15 (9): 887–892. Бибкод : 2019NatPh..15..887M . дои : 10.1038/s41567-019-0545-1 . ISSN 1745-2481 . S2CID 256704838 .

[oncd-11] Jump up to: ^а ^б Мигель А. Каррейра-Перпиньян и Джеффри Хинтон (2005). О контрастном дивергентном обучении . Искусственный интеллект и статистика .

[12] Хинтон, Г. (2009). «Сети глубоких убеждений» . Схоларпедия . 4 (5): 5947. Бибкод : 2009SchpJ...4.5947H . doi : 10.4249/scholarpedia.5947 .

[guide-13] Jump up to: ^а ^б ^с ^д Джеффри Хинтон (2010). Практическое руководство по обучению ограниченных машин Больцмана . UTML TR 2010–003, Университет Торонто.

[cdconvergence-14] Jump up to: ^а ^б Суцкевер, Илья; Тилеман, Тиймен (2010). «О свойствах конвергенции контрастной дивергенции» (PDF) . Учеб. 13-я Международная конференция. Об искусственном интеллекте и статистике (AISTATS) . Архивировано из оригинала (PDF) 10 июня 2015 г.

[RBMTutorial-15] Jump up to: ^а ^б Ася Фишер и Кристиан Игель. Машины Больцмана с ограниченным обучением: введение. Архивировано 10 июня 2015 г. на Wayback Machine . Распознавание образов 47, стр. 25–39, 2014 г.

[16] Мария Анхелика Куэто; Джейсон Мортон; Бернд Штурмфельс (2010). «Геометрия ограниченной машины Больцмана». Алгебраические методы в статистике и теории вероятностей . 516 . Американское математическое общество. arXiv : 0908.4425 . Бибкод : 2009arXiv0908.4425A .

[17] Джеффри Хинтон (1999). Продукция экспертов . ИКАНН, 1999 год .

[18] Хинтон, GE (2002). «Продукты обучения экспертов путем минимизации контрастного расхождения» (PDF) . Нейронные вычисления . 14 (8): 1771–1800. дои : 10.1162/089976602760128018 . ПМИД 12180402 . S2CID 207596505 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]