Вассерштейн ГАН
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Генеративно-состязательная сеть Вассерштейна (WGAN) — это вариант генеративно-состязательной сети (GAN), предложенный в 2017 году, целью которого является «повышение стабильности обучения, избавление от таких проблем, как коллапс режима, и предоставление значимых кривых обучения, полезных для отладки и поиска гиперпараметров». ". [1] [2]
По сравнению с исходным дискриминатором GAN, дискриминатор GAN Вассерштейна обеспечивает лучший обучающий сигнал для генератора. Это позволяет обучению быть более стабильным, когда генератор изучает распределения в пространствах очень большой размерности.
Мотивация
[ редактировать ]Игра ГАН
[ редактировать ]Оригинальный метод GAN основан на игре GAN, игре с нулевой суммой, в которой участвуют два игрока: генератор и дискриминатор. Игра определена в вероятностном пространстве генератора , Набор стратегий представляет собой набор всех вероятностных мер на , а набор стратегий дискриминатора — это набор измеримых функций .
Цель игры: Генератор стремится минимизировать его, а дискриминатор — максимизировать.
Основная теорема игры GAN гласит, что
Теорема (оптимальный дискриминатор вычисляет расхождение Дженсена – Шеннона) — Для любой стратегии фиксированного генератора , пусть оптимальным ответом будет , затем
где производная – производная Радона–Никодима , а – расхождение Дженсена–Шеннона .
Повторите игру GAN много раз, каждый раз сначала двигаясь генератор, а потом дискриминатор. Каждый раз генератор изменения, дискриминатор должен адаптироваться, приближаясь к идеальному Поскольку мы действительно заинтересованы в , функция дискриминатора само по себе довольно неинтересно. Он просто отслеживает отношение правдоподобия между распределением генератора и эталонным распределением. В состоянии равновесия дискриминатор просто выводит постоянно, отказавшись от попыток воспринять какую-либо разницу. [примечание 1]
Конкретно в игре GAN починим генератор и улучшайте дискриминатор шаг за шагом, используя быть дискриминатором на шаге . Тогда мы (в идеале) имеем Итак, мы видим, что дискриминатор на самом деле ограничивает нижнюю границу .
Расстояние Вассерштейна
[ редактировать ]Таким образом, мы видим, что задача дискриминатора состоит в основном в том, чтобы обеспечивать генератору обратную связь о том, «насколько он далек от совершенства», где «далеко» определяется как расхождение Дженсена-Шеннона.
Естественно, это дает возможность использовать другие критерии дальности. Существует множество возможных расхождений на выбор, например семейство f-дивергенций , которое дает f-GAN. [3]
GAN Вассерштейна получается с использованием метрики Вассерштейна , которая удовлетворяет «теореме двойного представления», что делает его очень эффективным для вычислений:
Теорема (двойственность Канторовича-Рубинштейна) — Когда вероятностное пространство является метрическим пространством, то для любого фиксированного , где является нормой Липшица .
Доказательство можно найти на главной странице метрики Вассерштейна .
Определение
[ редактировать ]Согласно двойственности Канторовича-Рубинштейна, определение GAN Вассерштейна ясно:
Игра Вассерштейна GAN определяется вероятностным пространством. , где является метрическим пространством и константой .
Есть 2 игрока: генератор и дискриминатор (также называемый «критик»).
генератора Набор стратегий представляет собой набор всех вероятностных мер. на .
Множество стратегий дискриминатора представляет собой множество измеримых функций типа с ограниченной липшицевой нормой: .
Игра Вассерштейна GAN — это игра с нулевой суммой и целевой функцией.
Генератор идет первым, а дискриминатор — вторым. Генератор стремится минимизировать цель, а дискриминатор стремится максимизировать цель:
По двойственности Канторовича-Рубинштейна для любой порождающей стратегии , оптимальный ответ дискриминатора , такой, что Следовательно, если дискриминатор хороший, генератор будет постоянно стремиться минимизировать , и оптимальная стратегия для генератора — это просто , как и должно быть.
Сравнение с ГАН
[ редактировать ]В игре Вассерштейна GAN дискриминатор обеспечивает лучший градиент, чем в игре GAN.
Рассмотрим, например, игру на реальной линии, в которой оба и являются гауссовскими. Тогда оптимальный критик Вассерштейна и оптимальный дискриминатор GAN построены, как показано ниже:
Для фиксированного дискриминатора генератор должен минимизировать следующие цели:
- Для ГАН, .
- Для Вассерштейна ГАН, .
Позволять параметризоваться , то мы можем выполнить стохастический градиентный спуск , используя две несмещенные оценки градиента: где мы использовали трюк с репараметризацией . [примечание 2]
Как показано, генератор в GAN мотивирован позволить своему «скатиться с вершины» . Аналогично и для генератора Вассерштейна GAN.
Для Вассерштейна ГАН, почти везде имеет градиент 1, а для GAN имеет пологий уклон посередине и крутой уклон в других местах. В результате дисперсия оценки в GAN обычно намного больше, чем в GAN Вассерштейна. См. также рисунок 3. [1]
Проблема с гораздо более серьезен в реальных ситуациях машинного обучения. Рассмотрите возможность обучения GAN для создания ImageNet — коллекции фотографий размером 256 на 256 пикселей. Пространство всех таких фотографий и распространение изображений ImageNet, , концентрируется на многообразии гораздо меньшей размерности в нем. Следовательно, любая генераторная стратегия почти наверняка будет полностью непересекающимся с , изготовление . Таким образом, хороший дискриминатор может почти идеально различать от , а также любой близко к . Таким образом, градиент , не создавая обучающего сигнала для генератора.
Подробные теоремы можно найти в . [4]
Обучение GAN Вассерштейна
[ редактировать ]Обучение генератора в GAN Вассерштейна — это просто градиентный спуск , такой же, как в GAN (или большинстве методов глубокого обучения), но обучение дискриминатора отличается, поскольку теперь дискриминатор ограничен ограниченной липшицевой нормой. Для этого существует несколько методов.
Верхняя граница нормы Липшица
[ редактировать ]Пусть функция дискриминатора будет реализован многослойным перцептроном : где , и фиксированная функция активации с . Например, функция гиперболического тангенса удовлетворяет требованию.
Тогда для любого , позволять , мы имеем по правилу цепочки : Таким образом, липшицева норма ограничен сверху где — операторная норма матрицы, т. е. наибольшее сингулярное значение матрицы, т. е. спектральный радиус матрицы (эти понятия одинаковы для матриц, но различны для общих линейных операторов ).
С , у нас есть , и, следовательно, верхняя граница: Таким образом, если мы сможем оценить операторные нормы сверху каждой матрицы мы можем оценить сверху липшицеву норму .
Отсечение веса
[ редактировать ]Поскольку для любого матрица , позволять , у нас есть путем обрезки всех записей с точностью до некоторого интервала , у нас есть банка, связанная .
Это метод ограничения веса, предложенный в оригинальной статье. [1]
Спектральная нормализация
[ редактировать ]Спектральный радиус можно эффективно вычислить по следующему алгоритму:
ВХОДНАЯ матрица и первоначальное предположение
Итерировать к сближению . Это собственный вектор с собственным значением .
ВОЗВРАЩАТЬСЯ
Путем переназначения после каждого обновления дискриминатора мы можем оценить верхнюю границу , и, таким образом, верхняя граница .
Алгоритм можно дополнительно ускорить за счет запоминания : На шаге , магазин . Затем на шаге , использовать как начальное предположение для алгоритма. С очень близко к , так и есть близко к , так что это обеспечивает быструю сходимость.
Это метод спектральной нормализации. [5]
Градиентный штраф
[ редактировать ]Вместо строгого ограничения , мы можем просто добавить к дискриминатору термин «штраф за градиент» вида где — это фиксированное распределение, используемое для оценки того, насколько дискриминатор нарушил требование нормы Липшица.Дискриминатор, пытаясь минимизировать новую функцию потерь, естественно, принесет близко к повсюду, тем самым создавая .
Это метод градиентного штрафа. [6]
Дальнейшее чтение
[ редактировать ]- От GAN к WGAN
- Вассерштейн ГАН и двойственность Канторовича-Рубинштейна
- Обучение в глубину: Вассерштейн ГАН
См. также
[ редактировать ]- Генеративно-состязательная сеть
- Метрика Вассерштейна
- Расстояние землеройной машины
- Теория транспорта
Ссылки
[ редактировать ]- ^ Jump up to: а б с Арджовский, Мартин; Чинтала, Сумит; Ботту, Леон (17 июля 2017 г.). «Генераторно-состязательные сети Вассерштейна» . Международная конференция по машинному обучению . ПМЛР: 214–223.
- ^ Вен, Лилиан (18 апреля 2019 г.). «От ГАН до ВГАН». arXiv : 1904.08994 [ cs.LG ].
- ^ Новозин, Себастьян; Чеке, Ботонд; Томиока, Рёта (2016). «f-GAN: обучение генеративных нейронных сэмплеров с использованием минимизации вариационной дивергенции» . Достижения в области нейронных систем обработки информации . 29 . Curran Associates, Inc. arXiv : 1606.00709 .
- ^ Арджовский, Мартин; Ботту, Леон (01 января 2017 г.). «К принципиальным методам обучения генеративно-состязательных сетей» . arXiv : 1701.04862 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Миято, Такеру; Катаока, Тошики; Кояма, Масанори; Ёсида, Юичи (16 февраля 2018 г.). «Спектральная нормализация для генеративно-состязательных сетей». arXiv : 1802.05957 [ cs.LG ].
- ^ Гулраджани, Ишаан; Ахмед, Фарук; Арджовский, Мартин; Дюмулен, Винсент; Курвиль, Аарон С. (2017). «Улучшенная подготовка ГАН Вассерштейна» . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
Примечания
[ редактировать ]- ^ На практике генератор никогда не сможет достичь идеальной имитации, и поэтому у дискриминатора будет мотивация воспринимать разницу, что позволит использовать его для других задач, таких как выполнение классификации ImageNet без присмотра .
- ^ На практике это делается не так, поскольку в целом трудноразрешима, но теоретически она поучительна.