Энергоориентированная модель

EBM Энергетическая модель ( на основе проблем с ) (также называемая каноническим ансамблевым обучением (CEL) или обучением через канонический ансамбль (LCE) ) — это применение канонической ансамблевой формулировки статистической физики для обучения данными. Этот подход заметно проявляется в генеративных моделях (GM).

EBM обеспечивают единую основу для многих вероятностных и невероятностных подходов к такому обучению, особенно для обучения графических и других структурированных моделей. ^{[ нужна ссылка ]}

EBM изучает характеристики целевого набора данных и генерирует аналогичный, но более крупный набор данных. EBM обнаруживают скрытые переменные набора данных и генерируют новые наборы данных с аналогичным распределением.

Энергетические генеративные нейронные сети ^[1]^[2] — это класс генеративных моделей , целью которых является изучение явного распределения вероятностей данных в форме энергетических моделей, чьи энергетические функции параметризуются современными глубокими нейронными сетями .

Машины Больцмана представляют собой особую форму энергетических моделей со специфической параметризацией энергии. ^[3]

Описание

Для данного входа $x$ , модель описывает энергию $E_{\theta }(x)$ такое, что распределение Больцмана $P_{\theta }(x)=\exp(-\beta E_{\theta }(x))/Z(\theta )$ - это вероятность (плотность) и обычно $\beta =1$ .

Поскольку константа нормировки $Z(\theta ):=\int _{x\in X}dx\exp(-\beta E_{\theta }(x))$ , также известная как статистическая сумма , зависит от всех факторов Больцмана всех возможных входных данных. $x$ его невозможно легко вычислить или надежно оценить во время обучения, просто используя стандартную оценку максимального правдоподобия .

Однако для максимизации вероятности во время обучения градиент логарифма правдоподобия одного обучающего примера $x$ задается с помощью правила цепочки

\partial _{\theta }\log \left(P_{\theta }(x)\right)=\mathbb {E} _{x'\sim P_{\theta }}[\partial _{\theta }E_{\theta }(x')]-\partial _{\theta }E_{\theta }(x)\,(*)

Ожидаемое значение градиента в приведенной выше формуле можно приблизительно оценить, взяв образцы. $x'$ из распределения $P_{\theta }$ с использованием цепи Маркова Монте-Карло (MCMC) ^[4]

Ранние модели, основанные на энергии, такие как машина Больцмана 2003 года от Хинтона, оценивали это ожидание с помощью блочного пробоотборника Гиббса . В новых подходах используются более эффективные образцы рисования стохастической градиентной динамики Ланжевена (LD), используя: ^[5]

x_{0}'\sim P_{0},x_{i+1}'=x_{i}'-{\frac {\alpha }{2}}{\frac {\partial E_{\theta }(x_{i}')}{\partial x_{i}'}}+\epsilon ,

и $\epsilon \sim {\mathcal {N}}(0,\alpha )$ . Буфер воспроизведения прошлых значений $x_{i}'$ используется с LD для инициализации модуля оптимизации.

Параметры $\theta$ Таким образом, нейронная сеть обучается генеративным способом с помощью оценки максимального правдоподобия на основе MCMC: ^[6] Процесс обучения следует схеме «анализ путем синтеза», где на каждой итерации обучения алгоритм выбирает синтезированные примеры из текущей модели с помощью градиентного метода MCMC, например, динамики Ланжевена или гибридного Монте-Карло , а затем обновляет модель. параметры $\theta$ на основе разницы между обучающими примерами и синтезированными, см. уравнение $(*)$ . Этот процесс можно интерпретировать как попеременный поиск режима и процесс переключения режима, а также имеет состязательную интерпретацию. ^[7]^[8]

В конце концов, модель изучает функцию $E_{\theta }$ который связывает низкие энергии с правильными значениями, а более высокие энергии - с неправильными значениями.

После обучения с учетом конвергентной энергетической модели $E_{\theta }$ , алгоритм Метрополиса – Гастингса можно использовать для получения новых выборок. Вероятность принятия определяется выражением: $P_{acc}(x_{i}\to x^{*})=\min \left(1,{\frac {P_{\theta }(x^{*})}{P_{\theta }(x_{i})}}\right).$

История

Термин «энергетические модели» был впервые использован в JMLR 2003 года. статье ^[9] где авторы определили обобщение анализа независимых компонентов на избыточную настройку с использованием EBM. В других ранних работах по EBM предлагались модели, которые представляли энергию как совокупность скрытых и наблюдаемых переменных.

Характеристики

EBM демонстрируют полезные свойства:

Простота и стабильность. EBM — единственный объект, который необходимо спроектировать и обучить. Отдельные сети не нужно обучать для обеспечения баланса.
Адаптивное время вычислений. EBM может генерировать четкие, разнообразные выборки или (быстрее) грубые, менее разнообразные выборки. Учитывая бесконечное время, эта процедура дает истинные образцы. ^[7]
Гибкость. В вариационных автоэнкодерах (VAE) и моделях на основе потоков генератор изучает отображение непрерывного пространства в (возможно) прерывистое пространство, содержащее различные режимы данных. EBM могут научиться назначать низкие энергии непересекающимся областям (несколько режимов).
Адаптивная генерация — генераторы EBM неявно определяются распределением вероятностей и автоматически адаптируются по мере изменения распределения (без обучения), позволяя EBM обращаться к областям, где обучение генератора непрактично, а также минимизировать коллапс режима и избегать ложных режимов из-за пределов. - образцы раздачи. ^[4]
Композиционность. Индивидуальные модели представляют собой ненормализованные распределения вероятностей, позволяющие комбинировать модели с помощью результатов работы экспертов или других иерархических методов.

Результаты эксперимента

В наборах данных изображений, таких как CIFAR-10 и ImageNet 32x32, модель EBM относительно быстро генерировала высококачественные изображения. Он поддерживал объединение функций, полученных из изображений одного типа, для создания изображений других типов. Он смог сделать обобщение, используя наборы данных вне распределения, превосходя по эффективности модели, основанные на потоке, и авторегрессионные модели . EBM был относительно устойчив к состязательным возмущениям и вел себя лучше, чем модели, специально обученные против них с помощью обучения классификации.

Приложения

Целевые приложения включают обработку естественного языка , робототехнику и компьютерное зрение .

Первой генеративной нейронной сетью, основанной на энергии, является генеративная ConvNet, предложенная в 2016 году для шаблонов изображений, где нейронная сеть представляет собой сверточную нейронную сеть . ^[10]^[11] Модель была обобщена на различные области для изучения распределения видео. ^[7]^[2] и 3D-вокселы. ^[12] В своих вариантах они сделаны более эффективными. ^[13]^[14]^[15]^[16]^[17]^[18] Они оказались полезными для генерации данных (например, синтеза изображений, синтеза видео, ^[7] синтез 3D-форм, ^[4] и т. д.), восстановление данных (например, восстановление видео с отсутствующими пикселями или кадрами изображения, ^[7] 3D super-resolution, ^[4] и т. д.), реконструкция данных (например, реконструкция изображений и линейная интерполяция ^[14]).

Альтернативы

EBM конкурируют с такими методами, как вариационные автокодировщики (VAE), генеративно-состязательные сети (GAN) или нормализующие потоки .

Расширения

Совместные энергетические модели

Совместные модели ( на основе энергии JEM), предложенные в 2020 году Гратволом и др., позволяют softmax интерпретировать любой классификатор с выходной мощностью как модель на основе энергии. Ключевое наблюдение заключается в том, что такой классификатор обучен прогнозировать условную вероятность. $p_{\theta }(y|x)={\frac {e^{{\vec {f}}_{\theta }(x)[y]}}{\sum _{j=1}^{K}e^{{\vec {f}}_{\theta }(x)[j]}}}\ \ {\text{ for }}y=1,\dotsc ,K{\text{ and }}{\vec {f}}_{\theta }=(f_{1},\dotsc ,f_{K})\in \mathbb {R} ^{K},$ где ${\vec {f}}_{\theta }(x)[y]$ - y-й индекс логитов ${\vec {f}}$ соответствующий классу y. Без каких-либо изменений логитов было предложено по-новому интерпретировать логиты для описания совместной плотности вероятности:

p_{\theta }(y,x)={\frac {e^{{\vec {f}}_{\theta }(x)[y]}}{Z(\theta )}},

с неизвестной функцией раздела $Z(\theta )$ и энергия $E_{\theta }(x,y)=-f_{\theta }(x)[y]$ . Путем маргинализации мы получаем ненормированную плотность

p_{\theta }(x)=\sum _{y}p_{\theta }(y,x)=\sum _{y}{\frac {e^{{\vec {f}}_{\theta }(x)[y]}}{Z(\theta )}}=:\exp(-E_{\theta }(x)),

поэтому,

E_{\theta }(x)=-\log \left(\sum _{y}{\frac {e^{{\vec {f}}_{\theta }(x)[y]}}{Z(\theta )}}\right),

так что любой классификатор можно использовать для определения энергетической функции $E_{\theta }(x)$ .

См. также

Литература

Неявная генерация и обобщение в энергетических моделях Илун Ду, Игорь Мордач https://arxiv.org/abs/1903.08689
Ваш классификатор тайно является моделью, основанной на энергии, и вы должны относиться к нему как к таковой, Уилл Гратвол, Куан-Чие Ван, Йорн-Хенрик Якобсен, Дэвид Дювено, Мохаммад Норузи, Кевин Сверски https://arxiv.org/abs/1912.03263

Ссылки

^ Цзяньвэнь; Чжу, Сун- ) . ; Чун Ин , Се ( 2016 Нянь
^ Jump up to: ^а ^б Се, Цзяньвэнь; Чжу, Сун-Чун; Ву, Ин Нянь (2019). «Изучение пространственно-временных генеративных сверточных сетей на основе энергии для динамических паттернов». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 43 (2): 516–531. arXiv : 1909.11975 . Бибкод : 2019arXiv190911975X . дои : 10.1109/tpami.2019.2934852 . ISSN 0162-8828 . ПМИД 31425020 . S2CID 201098397 .
^ «Изучение глубокой архитектуры для искусственного интеллекта», Йошуа Бенджио, стр. 54, https://books.google.de/books?id=cq5ewg7FniMC&pg=PA54
^ Jump up to: ^а ^б ^с ^д Ду, Илунь; Мордач, Игорь (20 марта 2019 г.). «Неявная генерация и обобщение в энергетических моделях». arXiv : 1903.08689 [ cs.LG ].
^ Гратвол, Уилл и др. «Ваш классификатор тайно представляет собой модель, основанную на энергии, и вы должны относиться к ней как к таковой». Препринт arXiv arXiv:1912.03263 (2019).
^ Барбу, Адриан; Чжу, Сон-Чун (2020). Методы Монте-Карло . Спрингер.
^ Jump up to: ^а ^б ^с ^д ^и Се, Цзяньвэнь; Чжу, Сун-Чун; У, Ин Нянь (июль 2017 г.). «Синтез динамических паттернов с помощью пространственно-временной генеративной сети ConvNet». Конференция IEEE 2017 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 1061–1069. arXiv : 1606.00972 . дои : 10.1109/cvpr.2017.119 . ISBN 978-1-5386-0457-1 . S2CID 763074 .
^ Ву, Ин Нянь; Се, Цзяньвэнь; Лу, Ян; Чжу, Сон-Чун (2018). «Редкие и глубокие обобщения модели FRAME». Анналы математических наук и приложений . 3 (1): 211–254. дои : 10.4310/amsa.2018.v3.n1.a7 . ISSN 2380-288X .
^ Да, да, почему; Веллинг, Макс; Осиндеро, Саймон; Хинтон, Джеффри Э. (декабрь 2003 г.). «Энергетические модели для разреженных сверхполных представлений» . JMLR . 4 (декабрь): 1235–1260.
^ Лекун, Ю.; Ботту, Л.; Бенджио, Ю.; Хаффнер, П. (1998). «Градиентное обучение применительно к распознаванию документов». Труды IEEE . 86 (11): 2278–2324. дои : 10.1109/5.726791 . ISSN 0018-9219 . S2CID 14542261 .
^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . НИПС .
^ Се, Цзяньвэнь; Чжэн, Цзилун; Гао, Жуйци; Ван, Вэньгуань; Чжу, Сун-Чун; У, Ин Нянь (июнь 2018 г.). «Изучение сетей дескрипторов для синтеза и анализа трехмерных форм». Конференция IEEE/CVF 2018 по компьютерному зрению и распознаванию образов . IEEE. стр. 8629–8638. arXiv : 1804.00586 . Бибкод : 2018arXiv180400586X . дои : 10.1109/cvpr.2018.00900 . ISBN 978-1-5386-6420-9 . S2CID 4564025 .
^ Гао, Жуйци; Лу, Ян; Чжоу, Цзюньпей; Чжу, Сун-Чун; У, Ин Нянь (июнь 2018 г.). «Изучение генеративных сверточных сетей посредством многосеточного моделирования и выборки». Конференция IEEE/CVF 2018 по компьютерному зрению и распознаванию образов . IEEE. стр. 9155–9164. arXiv : 1709.08868 . дои : 10.1109/cvpr.2018.00954 . ISBN 978-1-5386-6420-9 . S2CID 4566195 .
^ Jump up to: ^а ^б Нянь, Эрик Хилл, Чжу, Сун-Чун, Ин Нянь (2019). Нийкамп, Чжу, Сун-Чун Ву, Ин Модель .NeurIPS.OCLC 1106340764 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка ) CS1 maint: несколько имен: список авторов ( ссылка )
^ Цай, Сюй; Ву, Ян; Ли, Гуаньбинь; Чен, Цзилян; Линь, Лян (17 июля 2019 г.). «Возвращение к FRAME: взгляд на интерпретацию, основанный на эволюции частиц» . Материалы конференции AAAI по искусственному интеллекту . 33 : 3256–3263. arXiv : 1812.01186 . дои : 10.1609/aaai.v33i01.33013256 . ISSN 2374-3468 .
^ Се, Цзяньвэнь; Лу, Ян; Гао, Жуйци; Чжу, Сун-Чун; Ву, Ин Нянь (01 января 2020 г.). «Совместное обучение сетей дескрипторов и генераторов». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 42 (1): 27–45. arXiv : 1609.09408 . дои : 10.1109/tpami.2018.2879081 . ISSN 0162-8828 . ПМИД 30387724 . S2CID 7759006 .
^ Се, Цзяньвэнь; Лу, Ян; Гао, Жуйци; Гао, Сон-Чун (2018). «Совместное изучение энергетической модели и модели со скрытыми переменными посредством обучения MCMC» . Тридцать вторая конференция AAAI по искусственному интеллекту . 32 . дои : 10.1609/aaai.v32i1.11834 . S2CID 9212174 .
^ Хан, Тиан; Нейкамп, Эрик; Фан, Сяолинь; Хилл, Митч; Чжу, Сун-Чун; У, Ин Нянь (июнь 2019 г.). «Треугольник дивергенции для совместного обучения модели генератора, энергетической модели и модели вывода». Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 8662–8671. дои : 10.1109/cvpr.2019.00887 . ISBN 978-1-7281-3293-8 . S2CID 57189202 .

Внешние ссылки

«Летняя школа CIAR NCAP» . www.cs.toronto.edu . Проверено 27 декабря 2019 г.
Даян, Питер; Хинтон, Джеффри; Нил, Рэдфорд; Земель, Ричард С. (1999), «Машина Гельмгольца», обучение без учителя , MIT Press, doi : 10.7551/mitpress/7011.003.0017 , ISBN 978-0-262-28803-3
Хинтон, Джеффри Э. (август 2002 г.). «Продукты обучения экспертов путем минимизации контрастного расхождения». Нейронные вычисления . 14 (8): 1771–1800. дои : 10.1162/089976602760128018 . ISSN 0899-7667 . ПМИД 12180402 . S2CID 207596505 .
Салахутдинов Руслан; Хинтон, Джеффри (15 апреля 2009 г.). «Глубинные машины Больцмана» . Искусственный интеллект и статистика : 448–455.

[:0Xie-1] Цзяньвэнь; Чжу, Сун- ) . ; Чун Ин , Се ( 2016 Нянь

[:3Xie2-2] Jump up to: ^а ^б Се, Цзяньвэнь; Чжу, Сун-Чун; Ву, Ин Нянь (2019). «Изучение пространственно-временных генеративных сверточных сетей на основе энергии для динамических паттернов». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 43 (2): 516–531. arXiv : 1909.11975 . Бибкод : 2019arXiv190911975X . дои : 10.1109/tpami.2019.2934852 . ISSN 0162-8828 . ПМИД 31425020 . S2CID 201098397 .

[3] «Изучение глубокой архитектуры для искусственного интеллекта», Йошуа Бенджио, стр. 54, https://books.google.de/books?id=cq5ewg7FniMC&pg=PA54

[:2-4] Jump up to: ^а ^б ^с ^д Ду, Илунь; Мордач, Игорь (20 марта 2019 г.). «Неявная генерация и обобщение в энергетических моделях». arXiv : 1903.08689 [ cs.LG ].

[5] Гратвол, Уилл и др. «Ваш классификатор тайно представляет собой модель, основанную на энергии, и вы должны относиться к ней как к таковой». Препринт arXiv arXiv:1912.03263 (2019).

[6] Барбу, Адриан; Чжу, Сон-Чун (2020). Методы Монте-Карло . Спрингер.

[:1Wu-7] Jump up to: ^а ^б ^с ^д ^и Се, Цзяньвэнь; Чжу, Сун-Чун; У, Ин Нянь (июль 2017 г.). «Синтез динамических паттернов с помощью пространственно-временной генеративной сети ConvNet». Конференция IEEE 2017 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 1061–1069. arXiv : 1606.00972 . дои : 10.1109/cvpr.2017.119 . ISBN 978-1-5386-0457-1 . S2CID 763074 .

[8] Ву, Ин Нянь; Се, Цзяньвэнь; Лу, Ян; Чжу, Сон-Чун (2018). «Редкие и глубокие обобщения модели FRAME». Анналы математических наук и приложений . 3 (1): 211–254. дои : 10.4310/amsa.2018.v3.n1.a7 . ISSN 2380-288X .

[9] Да, да, почему; Веллинг, Макс; Осиндеро, Саймон; Хинтон, Джеффри Э. (декабрь 2003 г.). «Энергетические модели для разреженных сверхполных представлений» . JMLR . 4 (декабрь): 1235–1260.

[10] Лекун, Ю.; Ботту, Л.; Бенджио, Ю.; Хаффнер, П. (1998). «Градиентное обучение применительно к распознаванию документов». Труды IEEE . 86 (11): 2278–2324. дои : 10.1109/5.726791 . ISSN 0018-9219 . S2CID 14542261 .

[11] Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . НИПС .

[12] Се, Цзяньвэнь; Чжэн, Цзилун; Гао, Жуйци; Ван, Вэньгуань; Чжу, Сун-Чун; У, Ин Нянь (июнь 2018 г.). «Изучение сетей дескрипторов для синтеза и анализа трехмерных форм». Конференция IEEE/CVF 2018 по компьютерному зрению и распознаванию образов . IEEE. стр. 8629–8638. arXiv : 1804.00586 . Бибкод : 2018arXiv180400586X . дои : 10.1109/cvpr.2018.00900 . ISBN 978-1-5386-6420-9 . S2CID 4564025 .

[13] Гао, Жуйци; Лу, Ян; Чжоу, Цзюньпей; Чжу, Сун-Чун; У, Ин Нянь (июнь 2018 г.). «Изучение генеративных сверточных сетей посредством многосеточного моделирования и выборки». Конференция IEEE/CVF 2018 по компьютерному зрению и распознаванию образов . IEEE. стр. 9155–9164. arXiv : 1709.08868 . дои : 10.1109/cvpr.2018.00954 . ISBN 978-1-5386-6420-9 . S2CID 4566195 .

[:4-14] Jump up to: ^а ^б Нянь, Эрик Хилл, Чжу, Сун-Чун, Ин Нянь (2019). Нийкамп, Чжу, Сун-Чун Ву, Ин Модель .NeurIPS.OCLC 1106340764 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка ) CS1 maint: несколько имен: список авторов ( ссылка )

[15] Цай, Сюй; Ву, Ян; Ли, Гуаньбинь; Чен, Цзилян; Линь, Лян (17 июля 2019 г.). «Возвращение к FRAME: взгляд на интерпретацию, основанный на эволюции частиц» . Материалы конференции AAAI по искусственному интеллекту . 33 : 3256–3263. arXiv : 1812.01186 . дои : 10.1609/aaai.v33i01.33013256 . ISSN 2374-3468 .

[16] Се, Цзяньвэнь; Лу, Ян; Гао, Жуйци; Чжу, Сун-Чун; Ву, Ин Нянь (01 января 2020 г.). «Совместное обучение сетей дескрипторов и генераторов». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 42 (1): 27–45. arXiv : 1609.09408 . дои : 10.1109/tpami.2018.2879081 . ISSN 0162-8828 . ПМИД 30387724 . S2CID 7759006 .

[17] Се, Цзяньвэнь; Лу, Ян; Гао, Жуйци; Гао, Сон-Чун (2018). «Совместное изучение энергетической модели и модели со скрытыми переменными посредством обучения MCMC» . Тридцать вторая конференция AAAI по искусственному интеллекту . 32 . дои : 10.1609/aaai.v32i1.11834 . S2CID 9212174 .

[18] Хан, Тиан; Нейкамп, Эрик; Фан, Сяолинь; Хилл, Митч; Чжу, Сун-Чун; У, Ин Нянь (июнь 2019 г.). «Треугольник дивергенции для совместного обучения модели генератора, энергетической модели и модели вывода». Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 8662–8671. дои : 10.1109/cvpr.2019.00887 . ISBN 978-1-7281-3293-8 . S2CID 57189202 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]