Машина Больцмана
Машина Больцмана (также называемая моделью Шеррингтона-Киркпатрика с внешним полем или стохастической моделью Изинга ), названная в честь Людвига Больцмана, представляет собой стохастическую модель спинового стекла с внешним полем, т. е. модель Шеррингтона-Киркпатрика , [ 1 ] это стохастическая модель Изинга . Это метод статистической физики, применяемый в контексте когнитивной науки . [ 2 ] Его также классифицируют как марковское случайное поле . [ 3 ]
Машины Больцмана теоретически интригуют из-за локальности и хеббианской природы их алгоритма обучения (обучающихся по правилу Хебба), а также из-за их параллелизма и сходства их динамики с простыми физическими процессами . Машины Больцмана с неограниченной связностью не оказались полезными для решения практических задач машинного обучения или вывода , но если связность правильно ограничена, обучение можно сделать достаточно эффективным, чтобы его можно было использовать для решения практических задач. [ 4 ]
Они названы в честь распределения Больцмана в статистической механике , которое используется в их функции выборки . Их активно популяризировали и продвигали Джеффри Хинтон , Терри Сейновски и Янн Лекун в сообществах когнитивных наук, особенно в области машинного обучения . [ 2 ] как часть « энергетических моделей » (EBM), поскольку гамильтонианы спиновых стекол как энергия используются в качестве отправной точки для определения задачи обучения. [ 5 ]
Структура
[ редактировать ]Машина Больцмана, как и модель Шеррингтона-Киркпатрика , представляет собой сеть блоков с полной «энергией» ( гамильтонианом ), определенной для всей сети. Его единицы выдают двоичные результаты. Машинные веса Больцмана стохастические . Глобальная энергия в машине Больцмана по форме идентична машинам Хопфилда и моделям Изинга :
Где:
- это сила соединения между блоком и единица .
- это государство, , единицы .
- это смещение единицы в глобальной энергетической функции. ( — порог активации устройства.)
Часто веса представлены в виде симметричной матрицы с нулями по диагонали.
Вероятность единичного состояния
[ редактировать ]Разница в глобальной энергии, возникающей в результате работы одного устройства равное 0 (выключено) против 1 (включено), записано , предполагая симметричную матрицу весов, определяется как:
Это можно выразить как разность энергий двух состояний:
Замена энергии каждого состояния его относительной вероятностью в соответствии с фактором Больцмана (свойство распределения Больцмана , заключающееся в том, что энергия состояния пропорциональна отрицательной логарифмической вероятности этого состояния) дает:
где - постоянная Больцмана , которая включена в искусственное представление о температуре. . Затем мы переставляем члены и считаем, что вероятность включения и выключения устройства должна в сумме равняться единице:
Решение для , вероятность того, что -й юнит включен дает:
где скаляр называется температурой системы. Это соотношение является источником логистической функции , находящейся в вероятностных выражениях в вариантах машины Больцмана.
Равновесное состояние
[ редактировать ]Сеть работает путем многократного выбора устройства и сброса его состояния. После достаточно долгой работы при определенной температуре вероятность глобального состояния сети зависит только от энергии этого глобального состояния в соответствии с распределением Больцмана , а не от начального состояния, из которого был запущен процесс. Это означает, что логарифмические вероятности глобальных состояний становятся линейными по своим энергиям. Это соотношение верно, когда машина находится «в тепловом равновесии », а это означает, что распределение вероятностей глобальных состояний сходится. Запуск сети начинается с высокой температуры, ее температура постепенно снижается до достижения теплового равновесия при более низкой температуре. Затем оно может сходиться к распределению, в котором уровень энергии колеблется вокруг глобального минимума. Этот процесс называется имитацией отжига .
Чтобы обучить сеть так, чтобы вероятность ее сходимости к глобальному состоянию в соответствии с внешним распределением по этим состояниям, веса должны быть установлены так, чтобы глобальные состояния с наибольшей вероятностью получали наименьшую энергию. Это достигается путем обучения.
Обучение
[ редактировать ]Единицы в машине Больцмана разделены на «видимые» единицы V и «скрытые» единицы H. Видимые единицы — это те, которые получают информацию из «окружения», т.е. обучающий набор представляет собой набор двоичных векторов по множество V. Распределение по обучающему набору обозначается .
Распределение по глобальным состояниям сходится, когда машина Больцмана достигает теплового равновесия . Мы обозначим это распределение после того, как мы маргинализируем его по скрытым единицам, как .
Наша цель — приблизиться к «реальному» распределению. используя производится машиной. Сходство двух распределений измеряется расхождением Кульбака – Лейблера , :
где сумма ведется по всем возможным состояниям . является функцией весов, так как они определяют энергию состояния, а энергия определяет , как и обещает распределение Больцмана. Алгоритм градиентного спуска изменяет заданный вес, , вычитая частную производную относительно веса.
Тренировка на машине Больцмана включает в себя два чередующихся этапа. Одна из них — «положительная» фаза, когда состояния видимых единиц фиксируются к определенному вектору двоичного состояния, выбранному из обучающего набора (согласно ). Другая — это «негативная» фаза, когда сети разрешено работать свободно, т. е. состояние только входных узлов определяется внешними данными, а выходным узлам разрешено плавающее состояние. Градиент по отношению к заданному весу, , определяется уравнением: [ 2 ]
где:
- — это вероятность того, что блоки i и j включены, когда машина находится в равновесии на положительной фазе.
- — это вероятность того, что блоки i и j включены, когда машина находится в равновесии на отрицательной фазе.
- обозначает скорость обучения
Этот результат следует из того, что при тепловом равновесии вероятность любого глобального государства когда сеть работает автономно, определяется распределением Больцмана.
Это правило обучения биологически правдоподобно, поскольку единственная информация, необходимая для изменения весов, предоставляется «локальной» информацией. То есть соединению ( биологически синапсу ) не нужна информация ни о чем, кроме двух нейронов, которые оно соединяет. Это более биологически реалистично, чем информация, необходимая для соединения во многих других алгоритмах обучения нейронных сетей, таких как обратное распространение ошибки .
Обучение машины Больцмана не использует алгоритм EM , который широко используется в машинном обучении . Минимизация KL-дивергенции эквивалентна максимизации логарифмического правдоподобия данных. Таким образом, процедура обучения выполняет градиентное восхождение на основе логарифмического правдоподобия наблюдаемых данных. В этом отличие от алгоритма EM, где апостериорное распределение скрытых узлов должно быть рассчитано до максимизации ожидаемого значения полной вероятности данных во время M-шага.
Обучение смещений аналогично, но использует только активность одного узла:
Проблемы
[ редактировать ]Теоретически машина Больцмана представляет собой довольно общую вычислительную среду. Например, при обучении на фотографиях машина теоретически моделирует распространение фотографий и может использовать эту модель, например, для завершения частичной фотографии.
К сожалению, машины Больцмана сталкиваются с серьезной практической проблемой, а именно: кажется, что они перестают правильно обучаться, когда машина масштабируется до чего-то большего, чем тривиальный размер. [ нужна ссылка ] Это связано с важными эффектами, а именно:
- требуемый временной порядок для сбора статистики равновесия растет экспоненциально с размером машины и с величиной силы соединения. [ нужна ссылка ]
- Сила связи более пластична, когда связанные единицы имеют вероятности активации, промежуточные между нулем и единицей, что приводит к так называемой ловушке дисперсии. силы соединения Конечным эффектом является то, что шум приводит к случайному блужданию до тех пор, пока активность не достигнет насыщения.
Типы
[ редактировать ]Ограниченная машина Больцмана
[ редактировать ]Хотя обучение в обычных машинах Больцмана непрактично, его можно сделать весьма эффективным в ограниченной машине Больцмана (RBM), которая не допускает внутриуровневых связей между скрытыми и видимыми модулями, т.е. нет связи между видимыми и видимыми и скрытыми со скрытыми модулями. . После обучения одного RBM деятельность его скрытых подразделений можно рассматривать как данные для обучения RBM более высокого уровня. Этот метод объединения RBM позволяет эффективно обучать множество слоев скрытых модулей и является одной из наиболее распространенных стратегий глубокого обучения . По мере добавления каждого нового слоя генеративная модель улучшается.
Расширение ограниченной машины Больцмана позволяет использовать вещественные данные, а не двоичные данные. [ 6 ]
Одним из примеров практического применения RBM является распознавание речи. [ 7 ]
Глубокая машина Больцмана
[ редактировать ]Глубокая машина Больцмана (DBM) — это тип двоичного попарного марковского случайного поля ( неориентированная вероятностная графическая модель ) с несколькими слоями скрытых случайных величин . Это сеть симметрично связанных стохастических двоичных единиц . Он состоит из набора видимых единиц. и слои скрытых юнитов . Никакие соединения не связывают модули одного и того же уровня (например, RBM ). Для DBM , вероятность, присвоенная вектору ν, равна
где представляют собой набор скрытых единиц, а — параметры модели, представляющие видимо-скрытые и скрыто-скрытые взаимодействия. [ 8 ] В DBN только два верхних слоя образуют ограниченную машину Больцмана (которая представляет собой неориентированную графическую модель ), а нижние уровни образуют направленную генеративную модель. В DBM все слои симметричны и ненаправлены.
Как и DBN , DBM могут изучать сложные и абстрактные внутренние представления входных данных в таких задачах, как распознавание объектов или речи , используя ограниченные размеченные данные для точной настройки представлений, построенных с использованием большого набора немаркированных сенсорных входных данных. Однако, в отличие от DBN и глубоких сверточных нейронных сетей , они выполняют процедуру вывода и обучения в обоих направлениях, снизу вверх и сверху вниз, что позволяет DBM лучше раскрывать представления входных структур. [ 9 ] [ 10 ] [ 11 ]
Однако низкая скорость DBM ограничивает их производительность и функциональность. Поскольку точное обучение с максимальным правдоподобием невозможно для DBM, возможно только приблизительное обучение с максимальным правдоподобием. Другой вариант — использовать вывод среднего поля для оценки ожиданий, зависящих от данных, и аппроксимации ожидаемой достаточной статистики с помощью цепи Маркова Монте-Карло (MCMC). [ 8 ] Этот приблизительный вывод, который необходимо сделать для каждого тестового ввода, примерно в 25–50 раз медленнее, чем один проход «снизу вверх» в DBM. Это делает совместную оптимизацию непрактичной для больших наборов данных и ограничивает использование DBM для таких задач, как представление объектов.
Мультимодальная глубинная машина Больцмана
[ редактировать ]Мультимодальные глубинные машины Больцмана успешно используются для классификации и поиска недостающих данных. Точность классификации мультимодальной глубокой машины Больцмана превосходит машины опорных векторов , скрытое распределение Дирихле и сеть глубоких убеждений , когда модели тестируются на данных как с модальностями изображения-текста, так и с одной модальностью. [ нужна ссылка ] Мультимодальные глубокие машины Больцмана также способны предсказывать недостающие модальности с учетом наблюдаемых с достаточно хорошей точностью. [ нужна ссылка ] Самостоятельное обучение создает более интересную и мощную модель мультимодальности. OpenAI разработала CLIP и DALL-E модели , которые произвели революцию в мультимодальности.
Мультимодальное глубокое обучение используется для скрининга рака – по крайней мере, одна разрабатываемая система объединяет такие разные типы данных. [ 12 ] [ 13 ]RBM с шипами и плитами
[ редактировать ]Потребность в глубоком обучении с действительными входными данными, как в гауссовских с шипами и плитами RBM, привела к созданию RBM ( ss RBM ), который моделирует входные данные с непрерывными значениями и двоичными скрытыми переменными . [ 14 ] Подобно базовым RBM и их вариантам, RBM с шипами и плитами представляет собой двудольный граф , в то время как, как и RBM G , видимые единицы (входные данные) имеют действительные значения. Разница заключается в скрытом слое, где каждая скрытая единица имеет двоичную переменную пика и переменную плиты с действительным знаком. Шип — это дискретная вероятностная масса в нуле, а плита — это плотность в непрерывной области; [ 15 ] их смесь образует априор . [ 16 ]
Расширение ss RBM, называемое μ-ss RBM, обеспечивает дополнительные возможности моделирования с использованием дополнительных членов в функции энергии . Один из этих терминов позволяет модели сформировать условное распределение пиковых переменных путем исключения переменных плиты с учетом наблюдения.
По математике
[ редактировать ]В более общей математической терминологии распределение Больцмана также известно как мера Гиббса . В статистике и машинном обучении это называется лог-линейной моделью . В глубоком обучении распределение Больцмана используется в распределении выборки стохастических нейронных сетей, таких как машина Больцмана.
История
[ редактировать ]Машина Больцмана основана на модели спинового стекла Шеррингтона-Киркпатрика стохастической модели Изинга . [ 17 ]
Оригинальный вклад в применение таких энергетических моделей в когнитивной науке появился в работах Хинтона и Сейновски. [ 18 ] [ 19 ]
Основополагающая публикация Джона Хопфилда связала физику и статистическую механику, упоминая спиновые стекла. [ 20 ]
Идея применения модели Изинга с отожженной выборкой Гиббса присутствует в Дугласа Хофштадтера Copycat . проекте [ 21 ] [ 22 ]
Подобные идеи (со сменой знака энергетической функции) встречаются в Павла Смоленского «Теории гармонии» .
Явная аналогия, проведенная со статистической механикой в формулировке машины Больцмана, привела к использованию терминологии, заимствованной из физики (например, «энергия», а не «гармония»), которая стала стандартом в этой области. Широкому распространению этой терминологии, возможно, способствовал тот факт, что ее использование привело к заимствованию множества концепций и методов статистической механики. Различные предложения использовать для вывода моделируемый отжиг, очевидно, были независимыми.
Модели Изинга стали рассматриваться как частный случай марковских случайных полей , которые находят широкое применение в лингвистике , робототехнике , компьютерном зрении и искусственном интеллекте .
См. также
[ редактировать ]- Ограниченная машина Больцмана
- Машина Гельмгольца
- Марковское случайное поле (MRF)
- Модель Изинга (модель Ленца – Изинга)
- Сеть Хопфилда
- Правило обучения [ 23 ] который использует условную «локальную» информацию, может быть получен из обратной формы ,
- .
Ссылки
[ редактировать ]- ^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975), «Разрешимая модель спинового стекла», Physical Review Letters , 35 (35): 1792–1796, Бибкод : 1975PhRvL..35.1792S , doi : 10.1103/PhysRevLett.35.1792
- ^ Jump up to: а б с Экли, Дэвид Х.; Хинтон, Джеффри Э.; Сейновский, Терренс Дж. (1985). «Алгоритм обучения для машин Больцмана» (PDF) . Когнитивная наука . 9 (1): 147–169. дои : 10.1207/s15516709cog0901_7 . Архивировано из оригинала (PDF) 18 июля 2011 года.
- ^ Хинтон, Джеффри Э. (24 мая 2007 г.). «Машина Больцмана» . Схоларпедия . 2 (5): 1668. Бибкод : 2007SchpJ...2.1668H . doi : 10.4249/scholarpedia.1668 . ISSN 1941-6016 .
- ^ Осборн, Томас Р. (1 января 1990 г.). «Быстрое обучение машин Больцмана с локальным торможением» . Международная конференция по нейронным сетям . Спрингер Нидерланды. стр. 785 . дои : 10.1007/978-94-009-0643-3_76 . ISBN 978-0-7923-0831-7 .
- ^ Нейкамп, Э.; Хилл, Мэн; Хан, Т. (2020), «Об анатомии обучения энергетических моделей на основе максимального правдоподобия на основе MCMC» , Труды конференции AAAI по искусственному интеллекту , 4 (34): 5272–5280, arXiv : 1903.12370 , doi : 10.1609/aaai.v34i04.5973
- ^ Последние разработки в области глубокого обучения , 22 марта 2010 г., заархивировано из оригинала 22 декабря 2021 г. , получено 17 февраля 2020 г.
- ^ Ю, Донг; Даль, Джордж; Асеро, Алекс; Дэн, Ли (2011). «Контекстно-зависимые предварительно обученные глубокие нейронные сети для распознавания речи с большим словарным запасом» (PDF) . Исследования Майкрософт . 20 .
- ^ Jump up to: а б Хинтон, Джеффри; Салахутдинов, Руслан (2012). «Лучший способ предварительной подготовки глубоких машин Больцмана» (PDF) . Достижения в области нейронных технологий . 3 : 1–9. Архивировано из оригинала (PDF) 13 августа 2017 г. Проверено 18 августа 2017 г.
- ^ Хинтон, Джеффри; Салахутдинов, Руслан (2009). «Эффективное обучение глубоких машин Больцмана» (PDF) . Материалы Двенадцатой Международной конференции по искусственному интеллекту и статистике . Том. 3. С. 448–455. Архивировано из оригинала (PDF) 6 ноября 2015 г. Проверено 18 августа 2017 г.
- ^ Бенджио, Йошуа; ЛеКун, Янн (2007). «Масштабирование алгоритмов обучения в сторону ИИ» (PDF) . Университет Монреаля (препринт).
- ^ Ларошель, Хьюго; Салахутдинов, Руслан (2010). «Эффективное обучение глубоких машин Больцмана» (PDF) . Материалы тринадцатой Международной конференции по искусственному интеллекту и статистике . стр. 693–700. Архивировано из оригинала (PDF) 14 августа 2017 г. Проверено 18 августа 2017 г.
- ^ Квач, Катянна. «Ученые из Гарварда создают мультимодальную систему искусственного интеллекта для прогнозирования рака» . Регистр . Архивировано из оригинала 20 сентября 2022 года . Проверено 16 сентября 2022 г.
- ^ Чен, Ричард Дж.; Лу, Мин Ю.; Уильямсон, Дрю ФК; Чен, Тиффани Ю.; Липкова Яна; Нур, Захра; Шабан, Мухаммед; Шейди, Маха; Уильямс, Мане; Джу, Бумджин; Махмуд, Фейсал (8 августа 2022 г.). «Интегративный гистологически-геномный анализ панрака посредством мультимодального глубокого обучения» . Раковая клетка . 40 (8): 865–878.e6. doi : 10.1016/j.ccell.2022.07.004 . ISSN 1535-6108 . ПМЦ 10397370 . ПМИД 35944502 . S2CID 251456162 .
- Пресс-релиз Учебной больницы: «Новая технология искусственного интеллекта объединяет несколько типов данных для прогнозирования исходов рака» . Больница Бригама и Женщины черезmedicalxpress.com . Архивировано из оригинала 20 сентября 2022 года . Проверено 18 сентября 2022 г.
- ^ Курвиль, Аарон; Бергстра, Джеймс; Бенджио, Йошуа (2011). «Машина Больцмана с ограничением шипов и плит» (PDF) . JMLR: Материалы семинара и конференции . 15 : 233–241. Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 25 августа 2019 г.
- ^ Курвиль, Аарон; Бергстра, Джеймс; Бенджио, Йошуа (2011). «Неконтролируемые модели изображений с помощью RBM с шипами и плитами» (PDF) . Материалы 28-й Международной конференции по машинному обучению . Том. 10. С. 1–8. Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 25 августа 2019 г.
- ^ Митчелл, Т; Бошан, Дж (1988). «Выбор байесовской переменной в линейной регрессии». Журнал Американской статистической ассоциации . 83 (404): 1023–1032. дои : 10.1080/01621459.1988.10478694 .
- ^ Шеррингтон, Дэвид; Киркпатрик, Скотт (29 декабря 1975 г.). «Разрешимая модель спинового стекла». Письма о физических отзывах . 35 (26): 1792–1796. Бибкод : 1975PhRvL..35.1792S . doi : 10.1103/physrevlett.35.1792 . ISSN 0031-9007 .
- ^ Хинтон, Джеффри; Сейновски, Терренс Дж. (май 1983 г.). Анализ совместных вычислений . 5-й ежегодный конгресс Общества когнитивных наук. Рочестер, Нью-Йорк . Проверено 17 февраля 2020 г. [ постоянная мертвая ссылка ]
- ^ Хинтон, Джеффри Э.; Сейновски, Терренс Дж. (июнь 1983 г.). Оптимальный перцептивный вывод . Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). Вашингтон, округ Колумбия: Компьютерное общество IEEE. стр. 448–453.
- ^ Хопфилд, Джей-Джей (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями» . Труды Национальной академии наук Соединенных Штатов Америки . 79 (8). [сн]: 2554–8. Бибкод : 1982PNAS...79.2554H . дои : 10.1073/pnas.79.8.2554 . OCLC 848771572 . ПМЦ 346238 . ПМИД 6953413 .
- ^ Хофштадтер, доктор медицинских наук (январь 1984 г.). Проект Copycat: эксперимент в области недетерминизма и творческих аналогий . Центр оборонной технической информации. OCLC 227617764 .
- ^ Хофштадтер, Дуглас Р. (1988). «Недетерминированный подход к аналогии с использованием модели ферромагнетизма Изинга». В Кайаниелло, Эдуардо Р. (ред.). Физика познавательных процессов . Тинек, Нью-Джерси: World Scientific. ISBN 9971-5-0255-0 . OCLC 750950619 .
- ^ Лиу, К.-Ю.; Лин, С.-Л. (1989). «Другой вариант машины Больцмана». Международная совместная конференция по нейронным сетям . Вашингтон, округ Колумбия, США: IEEE. стр. 449–454. дои : 10.1109/IJCNN.1989.118618 .
Дальнейшее чтение
[ редактировать ]- Хинтон, Джорджия ; Сейновский, Т.Дж. (1986). Д. Е. Румельхарт; Дж. Л. Макклелланд (ред.). «Обучение и переобучение на машинах Больцмана» (PDF) . Параллельная распределенная обработка: исследования микроструктуры познания. Том 1: Основы : 282–317. Архивировано из оригинала (PDF) 5 июля 2010 г.
- Хинтон, GE (2002). «Продукты обучения экспертов путем минимизации контрастного расхождения» (PDF) . Нейронные вычисления . 14 (8): 1771–1800. CiteSeerX 10.1.1.35.8613 . дои : 10.1162/089976602760128018 . ПМИД 12180402 . S2CID 207596505 .
- Хинтон, GE ; Осиндеро, С.; Тех, Ю. (2006). «Алгоритм быстрого обучения для сетей глубокого доверия» (PDF ) Нейронные вычисления . 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527 . ПМИД 16764513 . S2CID 2309950 .
- Котари П. (2020): https://www.forbes.com/sites/tomtaulli/2020/02/02/coronavirus-can-ai-artificial-intelligence-make-a-difference/?sh=1eca51e55817
- Монтуфар, Гвидо (2018). «Ограниченные машины Больцмана: введение и обзор» (PDF) . МПИ МиС (Препринт) . Проверено 1 августа 2023 г.