Jump to content

Диффузионная модель

(Перенаправлено из моделей диффузии )

В машинном обучении модели диффузии , также известные как вероятностные модели диффузии или генеративные модели на основе оценок , представляют собой класс моделей со скрытыми переменными генеративных . Диффузионная модель состоит из трех основных компонентов: прямого процесса, обратного процесса и процедуры отбора проб. [ 1 ] Цель моделей диффузии — изучить процесс распространения для данного набора данных, чтобы этот процесс мог генерировать новые элементы, которые распределяются так же, как исходный набор данных. Модель диффузии моделирует данные, сгенерированные в процессе диффузии, при этом новые данные совершают случайное блуждание с дрейфом через пространство всех возможных данных. [ 2 ] Обученную диффузионную модель можно отбирать разными способами, некоторые из которых более эффективны, но менее качественны, чем другие.

Существуют различные эквивалентные формализмы, включая цепи Маркова , вероятностные модели диффузии с шумоподавлением, сети оценок, обусловленные шумом, и стохастические дифференциальные уравнения. [ 3 ] Обычно их обучают с помощью вариационного вывода . [ 4 ] Модель, отвечающую за шумоподавление, обычно называют « магистралью ». Магистраль может быть любого типа, но обычно это U-сети или трансформаторы .

По состоянию на 2024 год Диффузионные модели в основном используются для компьютерного зрения задач , включая шумоподавление изображений , закрашивание , суперразрешение и генерацию изображений . Обычно они включают в себя обучение нейронной сети последовательному шумоподавлению изображений, размытых гауссовским шумом . [ 2 ] [ 5 ] Модель обучена обратить вспять процесс добавления шума к изображению. После обучения сходимости его можно использовать для генерации изображения, начиная с изображения, состоящего из случайного шума, для итеративного шумоподавления сети. , вызвали широкий коммерческий интерес Генераторы изображений на основе диффузии, такие как Stable Diffusion и DALL-E . Эти модели обычно сочетают модели диффузии с другими моделями, такими как кодировщики текста и модули перекрестного внимания, чтобы обеспечить генерацию с учетом текста. [ 6 ]

Модели диффузии также нашли применение в обработке естественного языка (НЛП). [ 7 ] особенно в таких областях, как генерация текста [ 8 ] [ 9 ] и обобщение. [ 10 ]

Модель шумоподавления и диффузии

[ редактировать ]

Неравновесная термодинамика

[ редактировать ]

Модели диффузии были представлены в 2015 году как метод изучения модели, которая может выполнять выборку из очень сложного распределения вероятностей. Они использовали методы неравновесной термодинамики , особенно диффузию . [ 11 ]

Рассмотрим, например, как можно смоделировать распространение всех естественных фотографий. Каждое изображение является точкой в ​​пространстве всех изображений, а распределение естественных фотографий представляет собой «облако» в пространстве, которое, многократно добавляя к изображениям шум, распространяется на остальную часть пространства изображения, пока не облако становится практически неотличимым от распределения Гаусса. . Модель, которая может приблизительно устранить диффузию, может затем использоваться для выборки из исходного распределения. Это изучается в «неравновесной» термодинамике, поскольку начальное распределение не находится в равновесии, в отличие от конечного распределения.

Равновесное распределение представляет собой распределение Гаусса. , с PDF . Это и есть Максвелла-Больцмана в потенциальной яме. распределение частиц при температуре 1. Начальное распределение, будучи сильно неравновесным, будет диффундировать в сторону равновесного распределения, совершая смещенные случайные шаги, которые представляют собой сумму чистой случайности (например, броуновского ходока ) и градиентного спуска вниз по потенциальной яме. Случайность необходима: если бы частицы испытывали только градиентный спуск, то все они упадут в начало координат, разрушая распределение.

Вероятностная модель диффузии с шумоподавлением (DDPM)

[ редактировать ]

В документе 2020 года была предложена вероятностная модель шумоподавления диффузии (DDPM), которая улучшает предыдущий метод за счет вариационного вывода . [ 4 ]

Прямая диффузия

[ редактировать ]

Чтобы представить модель, нам потребуются некоторые обозначения.

  • являются фиксированными константами.
  • это нормальное распределение со средним значением и дисперсия , и плотность вероятности при .
  • Вертикальная черта обозначает кондиционирование .

Процесс прямой диффузии начинается в некоторой отправной точке. , где — это распределение вероятностей, которое необходимо изучить, затем неоднократно добавляет к нему шум с помощью где образцы IID из . Это сделано так, что для любого стартового распределения , у нас есть сходящиеся к .

Тогда весь процесс диффузии удовлетворяет условию или где является константой нормализации и часто опускается. В частности, отметим, что является гауссовским процессом , который дает нам значительную свободу в перепараметризации . Например, с помощью стандартных манипуляций с гауссовским процессом: В частности, обратите внимание, что для больших , переменная сходится к . То есть после достаточно длительного процесса диффузии мы получаем некоторое это очень близко к со всеми следами оригинала ушел.

Например, поскольку мы можем попробовать непосредственно «за один шаг», вместо прохождения всех промежуточных этапов .

Вывод путем перепараметризации

Мы знаем является гауссовой, и это еще один гауссиан. Мы также знаем, что они независимы. Таким образом, мы можем выполнить репараметризацию: где являются гауссианами IID.

Есть 5 переменных и два линейных уравнения. Два источника случайности: , который можно перепараметризовать путем вращения, поскольку гауссово распределение IID вращательно-симметрично.

Подставив уравнения, мы можем решить первую перепараметризацию: где является гауссианой с нулевым средним значением и единицей дисперсии.

Чтобы найти второй, дополним матрицу вращения:

Поскольку все вращательные матрицы имеют вид , мы знаем, что матрица должна быть и поскольку обратная матрица вращения является ее транспонированием,

Подключая обратно и упрощая, мы имеем

Обратная диффузия

[ редактировать ]

Ключевая идея DDPM заключается в использовании нейронной сети, параметризованной . Сеть принимает два аргумента и выводит вектор и матрица , так что каждый шаг процесса прямой диффузии может быть приблизительно отменен . Это дает нам процесс обратной диффузии. определяется Теперь цель состоит в том, чтобы узнать такие параметры, что настолько близок к насколько это возможно. Для этого мы используем оценку максимального правдоподобия с вариационным выводом.

Вариационный вывод

[ редактировать ]

утверждает Неравенство ELBO , что , и приняв еще одно математическое ожидание, получим Мы видим, что максимизация величины справа даст нам нижнюю границу вероятности наблюдаемых данных. Это позволяет нам выполнить вариационный вывод.

Определить функцию потерь и теперь цель состоит в том, чтобы минимизировать потери за счет стохастического градиентного спуска. Выражение можно упростить до [ 12 ] где не зависит от параметра, поэтому его можно игнорировать. С также не зависит от параметра, член также можно игнорировать. Это оставляет только с быть сведено к минимуму.

Сеть прогнозирования шума

[ редактировать ]

С , это говорит о том, что мы должны использовать ; однако сеть не имеет доступа к , и поэтому вместо этого ему приходится его оценивать. Теперь, поскольку , мы можем написать , где это какой-то неизвестный гауссов шум. Теперь мы видим, что оценка эквивалентно оценке .

Поэтому пусть сеть выводит вектор шума , и пусть он предсказывает Осталось спроектировать . В документе DDPM предлагалось не изучать его (поскольку это приводило к «нестабильному обучению и ухудшению качества выборки»), а исправлять его с некоторой ценностью. , где либо дал аналогичную производительность.

При этом потеря упрощается до которое можно минимизировать с помощью стохастического градиентного спуска. В статье эмпирически отмечено, что еще более простая функция потерь привели к созданию более качественных моделей.

Генеративная модель на основе оценок

[ редактировать ]

Генеративная модель на основе оценок — это еще одна формулировка диффузного моделирования. Их также называют сетью условной оценки шума (NCSN) или сопоставлением оценок с динамикой Ланжевена (SMLD). [ 13 ] [ 14 ]

Сопоставление очков

[ редактировать ]

Идея оценочных функций

[ редактировать ]

Рассмотрим задачу генерации изображений. Позволять представляют изображение, и пусть быть распределением вероятностей по всем возможным изображениям. Если у нас есть само по себе, то мы можем с уверенностью сказать, насколько вероятен тот или иной образ. Однако в целом это неразрешимо.

Чаще всего нас не интересует абсолютная вероятность определенного изображения. Вместо этого нас обычно интересует только то, насколько вероятно определенное изображение по сравнению с его непосредственными соседями — например, насколько более вероятно изображение кошки по сравнению с некоторыми его небольшими вариантами? Что более вероятно, если изображение содержит два уса или три, или с добавлением некоторого гауссовского шума?

Следовательно, мы на самом деле совершенно не заинтересованы в сам по себе, а, скорее, . Это имеет два основных эффекта:

  • Во-первых, нам больше не нужно нормализовать , но можно использовать любой , где — любая неизвестная константа, которая нас не интересует.
  • Во-вторых, мы сравниваем соседи , к

Пусть функция оценки будет ; тогда подумаем, что мы можем сделать с .

Как оказалось, позволяет нам брать образцы из с помощью термодинамики. В частности, если у нас есть функция потенциальной энергии и много частиц в потенциальной яме, то распределение в состоянии термодинамического равновесия является распределением Больцмана . При температуре , распределение Больцмана в точности .

Поэтому для моделирования , мы можем начать с частицы, отобранной при любом удобном распределении (например, стандартном распределении Гаусса), а затем смоделировать движение частицы вперед в соответствии с уравнением Ланжевена а распределение Больцмана, согласно уравнению Фоккера-Планка, представляет собой уникальное термодинамическое равновесие . Поэтому независимо от того, какое распространение имеет, распределение сходится по распределению к как .

Изучение функции оценки

[ редактировать ]

Учитывая плотность , мы хотим узнать аппроксимацию оценочной функции . Это сопоставление очков . [ 15 ] Обычно сопоставление оценок формализуется как минимизация дивергенции Фишера. функции . Разлагая интеграл и производя интегрирование по частям, давая нам функцию потерь, также известную как правило оценки Хюваринена , которую можно минимизировать с помощью стохастического градиентного спуска.

Отжиг функции оценки

[ редактировать ]

Предположим, нам нужно смоделировать распространение изображений, и мы хотим , изображение с белым шумом. Теперь большинство изображений с белым шумом не похожи на реальные изображения, поэтому для больших участков . Это представляет проблему для изучения оценочной функции, поскольку, если в определенной точке нет выборок, мы не сможем изучить оценочную функцию в этой точке. Если мы не знаем функцию оценки в этот момент мы не можем навязать частице уравнение эволюции во времени: Чтобы справиться с этой проблемой, мы проводим отжиг . Если слишком отличается от распределения белого шума, затем постепенно добавляйте шум, пока он не станет неотличим от распределения белого шума. То есть мы выполняем прямое распространение, затем изучаем функцию оценки, а затем используем функцию оценки для выполнения обратной диффузии.

Непрерывные диффузионные процессы

[ редактировать ]

Процесс прямой диффузии

[ редактировать ]

Рассмотрим снова процесс прямой диффузии, но на этот раз в непрерывном времени: Взяв пределе, мы получаем непрерывный диффузионный процесс в виде стохастического дифференциального уравнения : где является винеровским процессом (многомерным броуновским движением).

Теперь уравнение представляет собой в точности частный случай перезатухающего уравнения Ланжевена. где – тензор диффузии, это температура, а поле потенциальной энергии. Если мы заменим в , мы восстанавливаем приведенное выше уравнение. Это объясняет, почему в диффузионных моделях иногда используется фраза «динамика Ланжевена».

Теперь приведенное выше уравнение относится к стохастическому движению одной частицы. Предположим, у нас есть облако частиц, распределенных согласно во время , то через долгое время облако частиц установится в устойчивое распределение . Позволять быть плотностью облака частиц в момент времени , тогда мы имеем и цель состоит в том, чтобы каким-то образом повернуть этот процесс вспять, чтобы мы могли начать с конца и вернуться к началу.

По уравнению Фоккера-Планка плотность облака изменяется согласно закону где это размерность пространства, а оператор Лапласа .

Процесс обратной диффузии

[ редактировать ]

Если мы решили на время , то мы сможем точно обратить вспять эволюцию облака. Предположим, мы начнем с другого облака частиц с плотностью , и пусть частицы в облаке развиваются согласно затем, подставив уравнение Фоккера-Планка, мы находим, что . Таким образом, это облако точек является исходным облаком, развивающимся в обратном направлении. [ 16 ]

Сеть условной оценки шума (NCSN)

[ редактировать ]

На непрерывном пределе и так В частности, мы видим, что можем напрямую отбирать образцы из любой точки процесса непрерывной диффузии, минуя промежуточные этапы, предварительно отбирая образцы. , тогда получи . То есть мы можем быстро провести выборку для любого .

Теперь определим определенное распределение вероятностей над , то функция потерь при сопоставлении оценок определяется как ожидаемое расхождение Фишера: После тренировки, , поэтому мы можем выполнить процесс обратной диффузии, сначала выбрав выборку , затем интегрируя SDE из к : Это можно сделать любым методом интегрирования СДУ, например методом Эйлера-Маруямы .

Название «сеть условной оценки шума» объясняется следующим образом:

  • «сеть», потому что реализован в виде нейронной сети.
  • «оценка», поскольку выходные данные сети интерпретируются как аппроксимация функции оценки. .
  • «шум условный», потому что равно размытым добавленным гауссовским шумом, который увеличивается со временем, поэтому функция оценки зависит от количества добавленного шума.

Их эквивалентность

[ редактировать ]

DDPM и генеративные модели на основе оценок эквивалентны. [ 17 ] Это означает, что сеть, обученная с использованием DDPM, может использоваться как NCSN, и наоборот.

Мы знаем, что , поэтому по формуле Твиди имеем Как описано ранее, функция потерь DDPM равна с где . Путем замены переменных и член внутри становится регрессией по методу наименьших квадратов, поэтому, если сеть действительно достигает глобального минимума потерь, то мы имеем .

Теперь непрерывный предел обратного уравнения дает нам точно то же уравнение, что и диффузия на основе оценок:

Основные варианты

[ редактировать ]

Неявная модель шумоподавления и диффузии (DIM)

[ редактировать ]

Исходный метод DDPM для генерации изображений медленный, поскольку процесс прямой диффузии обычно занимает произвести распределение казаться близким к гауссову. Однако это означает, что процесс обратной диффузии также занимает 1000 шагов. В отличие от процесса прямой диффузии, который может пропускать этапы по мере является гауссовским для всех , процесс обратной диффузии не позволяет пропускать шаги. Например, для выборки требует, чтобы модель сначала выполнила выборку . Попытка напрямую сэмплировать потребует от нас маргинализации , что, как правило, неразрешимо.

НЕТ [ 18 ] — это метод, позволяющий взять любую модель, обученную на потерях DDPM, и использовать ее для выборки с пропуском некоторых шагов, жертвуя регулируемым уровнем качества. Если мы преобразуем случай марковской цепи в DDPM в немарковский случай, DDIM соответствует случаю, когда обратный процесс имеет дисперсию, равную 0. Другими словами, обратный процесс (а также прямой процесс) является детерминированным. При меньшем количестве шагов выборки DDIM превосходит DDPM.

Модель скрытой диффузии (LDM)

[ редактировать ]

Поскольку модель диффузии является общим методом моделирования распределений вероятностей, если кто-то хочет смоделировать распределение по изображениям, можно сначала закодировать изображения в пространство более низкой размерности с помощью кодера, а затем использовать модель диффузии для моделирования распределения по закодированным изображениям. изображения. Затем, чтобы сгенерировать изображение, можно выполнить выборку из модели диффузии, а затем использовать декодер для декодирования ее в изображение. [ 19 ]

Пара кодер-декодер чаще всего представляет собой вариационный автоэнкодер (VAE).

Руководство по классификатору

[ редактировать ]

Предположим, мы хотим сделать выборку не из всего распределения изображений, а в зависимости от описания изображения. Мы хотим использовать не общее изображение, а изображение, соответствующее описанию «черный кот с красными глазами». Как правило, мы хотим выполнить выборку из распределения , где колеблется по изображениям, и варьируется по классам изображений (описание «черный кот с красными глазами» — это всего лишь очень подробный класс, а класс «кот» — лишь очень расплывчатое описание).

С точки зрения модели канала с шумом мы можем понять этот процесс следующим образом: при условии описания , мы представляем, что запрашивающий действительно имел в виду изображение , но изображение прошло через зашумленный канал и получилось искаженным, т.к. . Генерация изображений — это не что иное, как вывод о том, что имел в виду запрашивающий.

Другими словами, генерация условного изображения — это просто «перевод с текстового языка на графический язык». Затем, как и в модели с шумным каналом, мы используем теорему Байеса, чтобы получить другими словами, если у нас есть хорошая модель пространства всех изображений и хороший переводчик изображений в классы, мы получаем переводчик классов в изображения «бесплатно». В уравнении обратной диффузии оценка можно заменить на где - это функция оценки, обученная, как описано ранее, и находится с помощью дифференцируемого классификатора изображений.

С температурой

[ редактировать ]

Образцы модели диффузии на основе классификатора из , который сосредоточен вокруг максимума апостериорной оценки . Если мы хотим заставить модель двигаться в направлении оценки максимального правдоподобия , мы можем использовать где интерпретируется как обратная температура . В контексте диффузионных моделей ее обычно называют шкалой наведения . Высокий заставит модель выбирать из распределения, сконцентрированного вокруг . Это часто улучшает качество создаваемых изображений. [ 20 ]

Это можно сделать просто с помощью SGLD с помощью

Руководство без классификаторов (CFG)

[ редактировать ]

Если у нас нет классификатора , мы все равно можем извлечь один из самой модели изображения: [ 21 ] Такая модель обычно обучается, предъявляя ей оба и , что позволяет моделировать оба и .

Пробоотборники

[ редактировать ]

Учитывая диффузионную модель, можно рассматривать ее либо как непрерывный процесс и производить выборку из нее путем интегрирования СДУ, либо можно рассматривать ее как дискретный процесс и выполнять выборку из нее, повторяя дискретные шаги. Выбор «шумового графика» также может повлиять на качество образцов. С точки зрения DDPM можно использовать сам DDPM (с шумом) или DDIM (с регулируемым уровнем шума). Случай добавления шума иногда называют предковой выборкой. [ 22 ] Можно интерполировать между шумом и отсутствием шума. Обозначается количество шума («значение эта») в документе DDIM, с обозначающий отсутствие шума (как в детерминированном DDIM), и обозначающий полный шум (как в DDPM).

С точки зрения СДУ можно использовать любой из методов численного интегрирования , например, метод Эйлера-Маруямы , метод Хойна , линейные многошаговые методы и т. д. Как и в дискретном случае, во время интегрирования можно добавлять регулируемое количество шума. .

Обзор и сравнение сэмплеров в контексте генерации изображений. [ 23 ]

Модель диффузии на основе потока

[ редактировать ]

Говоря абстрактно, идея диффузионной модели состоит в том, чтобы взять неизвестное распределение вероятностей (распределение естественно выглядящих изображений), а затем постепенно преобразовать его в известное распределение вероятностей (стандартное распределение Гаусса), построив абсолютно непрерывный путь вероятностей, соединяющий их. Вероятностный путь фактически неявно определяется оценочной функцией .

В моделях диффузии с шумоподавлением прямой процесс добавляет шум, а обратный процесс удаляет шум. И прямой, и обратный процессы являются СДУ , хотя прямой процесс интегрируется в замкнутой форме, поэтому его можно выполнить без вычислительных затрат. Обратный процесс не интегрируется в замкнутой форме, поэтому его необходимо интегрировать шаг за шагом с помощью стандартных решателей SDE, что может быть очень дорогим. Вероятностный путь в модели диффузии определяется с помощью процесса Ито , и детерминированный процесс можно восстановить, используя формулировку потока ОДУ вероятности. [ 2 ]

В моделях диффузии, основанных на потоке, прямой процесс представляет собой как детерминированный поток вдоль векторного поля, зависящего от времени, так и обратный процесс представляет собой то же самое векторное поле, но идущее назад. Оба процесса являются решениями ОДУ . Если векторное поле ведет себя хорошо, ОДУ также будет вести себя хорошо.

Учитывая два распределения и , модель потока представляет собой зависящее от времени поле скорости в , так что если мы начнем с выборки точки , и пусть он движется согласно полю скоростей: в итоге мы получаем точку . Решение приведенного выше ОДУ определяют вероятностный путь оператором меры Pushforward . В частности, у человека есть .

Вероятностный путь и поле скорости также удовлетворяют уравнению непрерывности в смысле распределения вероятностей: Чтобы построить вероятностный путь, мы начинаем с построения условного вероятностного пути. и соответствующее поле условной скорости на некотором условном распределении . Естественным выбором является гауссовский путь условной вероятности: Поле условной скорости, которое соответствует геодезическому пути между условным гауссовским путем, равно Затем вычисляются вероятностный путь и поле скоростей путем маргинализации

Оптимальный транспортный поток

[ редактировать ]

Идея оптимального транспортного потока [ 24 ] заключается в построении вероятностного пути, минимизирующего метрику Вассерштейна . Распределение, на котором мы основываемся, является оптимальным транспортным планом между и : и , где – это оптимальный план транспортировки, который можно аппроксимировать оптимальной транспортировкой мини-партий.

Ректифицированный поток

[ редактировать ]

Идея выпрямленного потока [ 25 ] [ 26 ] заключается в изучении модели потока, в которой скорость почти постоянна вдоль каждого пути потока. Это выгодно, потому что мы можем интегрировать вдоль такого векторного поля всего за несколько шагов. Например, если ОДУ следует по совершенно прямым путям, это упрощает , что позволяет получить точные решения за один шаг. На практике мы не можем достичь такого совершенства, но когда поле потока близко к нему, мы можем сделать несколько больших шагов вместо множества маленьких шагов.

Линейная интерполяция Ректифицированный поток Выпрямленный выпрямленный поток [1]

Общая идея состоит в том, чтобы начать с двух дистрибутивов. и , затем построим поле течения из него, затем повторно применить операцию «перекомпоновки» для получения последовательных полей потока. , каждый прямее предыдущего. Когда поле потока становится достаточно прямым для приложения, мы останавливаемся.

Вообще говоря, для любого дифференцируемого во времени процесса , можно оценить, решив:

В выпрямленном потоке, вводя сильные априорные данные о том, что промежуточные траектории являются прямыми, можно достичь как теоретической значимости для оптимальной транспортировки, так и вычислительной эффективности, поскольку ОДУ с прямыми путями можно моделировать точно без дискретизации по времени.

Транспорт ректифицированным потоком [ 25 ]

В частности, выпрямленный поток стремится сопоставить ОДУ с маргинальными распределениями линейной интерполяции между точками из распределений. и . Учитывая наблюдения и , каноническая линейная интерполяция дает тривиальный случай , который невозможно причинно смоделировать без . Чтобы решить эту проблему, «проецируется» в пространство причинно моделируемых ОДУ путем минимизации потерь метода наименьших квадратов относительно направления :

Пара данных может быть любое соединение и , обычно независимый (т.е. ), полученный путем случайного объединения наблюдений из и . Этот процесс гарантирует, что траектории точно отражают карту плотности траектории, но меняют маршрут на пересечениях, чтобы обеспечить причинно-следственную связь. Этот процесс исправления также известен как согласование потоков. [ 27 ] Стохастическая интерполяция, [ 28 ] и Альфа-смешение. [ нужна ссылка ]

Процесс перекомпоновки [ 25 ]

Отличительной особенностью выпрямленного потока является его способность к « перекомпоновке », которая выпрямляет траекторию путей ОДУ. Обозначим выпрямленный поток вызванный из как . Рекурсивно применяя это оператор генерирует серию выпрямленных потоков . Этот процесс «оплавления» не только снижает транспортные расходы, но и выпрямляет пути ректифицированных потоков, делая пути становятся более прямыми с увеличением .

Выпрямленный поток включает нелинейное расширение, где линейная интерполяция заменяется любой дифференцируемой во времени кривой, соединяющей и , заданный . Эта структура охватывает DDIM и ODE потока вероятности как особые случаи с особым выбором и . Однако в случае, когда путь не является прямым, процесс оплавления больше не обеспечивает снижение затрат на выпуклую транспортировку, а также больше не выпрямляет пути . [ 25 ]

Выбор архитектуры

[ редактировать ]
Архитектура стабильной диффузии
Процесс шумоподавления, используемый Stable Diffusion

Диффузионная модель

[ редактировать ]

Для генерации изображений с помощью DDPM нам нужна нейронная сеть, которая требует времени и шумное изображение и предсказывает шум от этого. Поскольку прогнозирование шума аналогично прогнозированию изображения с шумоподавлением, его вычитание из Архитектуры с шумоподавлением, как правило, работают хорошо. Например, U-Net , которая оказалась хорошей для шумоподавления изображений, часто используется для шумоподавления диффузионных моделей, генерирующих изображения. [ 29 ]

Для DDPM базовая архитектура («магистраль») не обязательно должна быть U-Net. Ему просто нужно каким-то образом предсказать шум. Например, диффузионный преобразователь (DiT) использует преобразователь для прогнозирования средней и диагональной ковариации шума с учетом текстовой обработки и частично очищенного от шума изображения. Это то же самое, что и стандартная модель диффузии шумоподавления на основе U-Net, с трансформатором, заменяющим U-Net. [ 30 ] смесь специалистов - Трансформатор. Также можно применить [ 31 ]

DDPM можно использовать для моделирования общего распределения данных, а не только естественно выглядящих изображений. Например, распространение человеческого движения. [ 32 ] моделирует траекторию движения человека с помощью DDPM. Каждая траектория движения человека представляет собой последовательность поз, представленных либо поворотами суставов, либо позициями. Он использует сеть трансформаторов для создания менее шумной траектории из шумной.

Кондиционирование

[ редактировать ]

Базовая модель диффузии может генерировать только безоговорочно из всего распределения. Например, модель диффузии, изученная в ImageNet, будет генерировать изображения, которые выглядят как случайное изображение из ImageNet. Чтобы генерировать изображения только из одной категории, нужно будет наложить условие. Какое бы условие вы ни хотели наложить, нужно сначала преобразовать условие в вектор чисел с плавающей запятой, а затем передать его в базовую нейронную сеть модели диффузии. Однако у человека есть свобода выбора, как преобразовать обусловленность в вектор.

Стабильная диффузия, например, налагает обусловленность в форме механизма перекрестного внимания , где запрос является промежуточным представлением изображения в U-Net, а ключ и значение являются векторами обусловленности. Кондиционирование можно выборочно применять только к частям изображения, а новые виды условий можно точно настроить на основе базовой модели, как это используется в ControlNet. [ 33 ]

В качестве особенно простого примера рассмотрим зарисовку изображения . Условия , эталонное изображение и , маска для рисования . Кондиционирование применяется на каждом этапе процесса обратной диффузии путем первой выборки проб. , шумная версия , затем заменив с , где означает поэлементное умножение . [ 34 ]

Кондиционирование не ограничивается простым созданием изображений из определенной категории или в соответствии с определенным заголовком (как в случае преобразования текста в изображение). Например, [ 32 ] продемонстрировано создание движений человека на основе аудиоклипа ходьбы человека (позволяющего синхронизировать движение со звуковой дорожкой), видео бега человека или текстового описания движения человека и т. д.

Апскейлинг

[ редактировать ]

Поскольку создание изображения занимает много времени, можно попытаться создать небольшое изображение с помощью базовой модели диффузии, а затем масштабировать его с помощью других моделей. Масштабирование может быть выполнено с помощью GAN , [ 35 ] Трансформатор , [ 36 ] или методы обработки сигналов, такие как передискретизация Ланцоша .

Сами модели диффузии могут использоваться для масштабирования. Каскадная модель диффузии объединяет несколько моделей диффузии одну за другой в стиле Progressive GAN . Самый низкий уровень — это стандартная модель диффузии, которая генерирует изображение размером 32x32, затем изображение будет масштабироваться с помощью модели диффузии, специально обученной для масштабирования, и процесс повторяется. [ 29 ]

Более подробно диффузионный апскейлер обучается следующим образом: [ 29 ]

  • Образец , где это изображение с высоким разрешением, это то же изображение, но уменьшенное до низкого разрешения, и это условность, которой может быть подпись к изображению, класс изображения и т. д.
  • Пример двух белых шумов , два временных шага . Вычислите зашумленные версии изображений с высоким и низким разрешением: .
  • Обучите сеть шумоподавления прогнозировать данный . То есть применить градиентный спуск к о потере L2 .

В этом разделе собраны некоторые известные диффузионные модели и кратко описана их архитектура.

Серия DALL-E от OpenAI представляет собой модели изображений с условным распространением текста.

Первая версия DALL-E (2021 г.) на самом деле не является диффузной моделью. Вместо этого он использует архитектуру Transformer, которая генерирует последовательность токенов, которая затем преобразуется в изображение декодером дискретного VAE. Вместе с DALL-E был выпущен классификатор CLIP, который использовался DALL-E для ранжирования сгенерированных изображений в зависимости от того, насколько близко изображение соответствует тексту.

ГЛАЙД (2022-03) [ 37 ] — это диффузионная модель стоимостью 3,5 миллиарда долларов, а небольшая версия была выпущена публично. [ 6 ] Вскоре после этого был выпущен DALL-E 2 (2022–04). [ 38 ] DALL-E 2 — это 3,5-миллиардная модель каскадной диффузии, которая генерирует изображения из текста путем «инвертирования кодера изображений CLIP», метода, который они назвали «unCLIP».

Сора (2024-02) — модель диффузионного трансформатора (DiT).

Стабильность ИИ

[ редактировать ]

Stable Diffusion (2022-08), выпущенный Stability AI, состоит из модели скрытой диффузии с шумоподавлением (860 миллионов параметров), VAE и текстового кодировщика. Сеть шумоподавления представляет собой U-Net с блоками перекрестного внимания, позволяющими генерировать условные изображения. [ 39 ] [ 19 ]

Стабильная диффузия 3 (2024-02) [ 40 ] изменил модель скрытой диффузии с UNet на модель Transformer, и поэтому это DiT. Он использует выпрямленный поток.

Стабильное видео 4D (2024-07) [ 41 ] — это модель скрытой диффузии для видео трехмерных объектов.

Изображение (2022-05) [ 42 ] [ 43 ] использует языковую модель T5 для кодирования входного текста во вложения. Это модель каскадной диффузии, состоящая из трех этапов. На первом этапе белый шум удаляется до изображения размером 64×64 при условии встраивания текста. На втором этапе изображение масштабируется до 64×64→256×256 при условии встраивания текста. Третий шаг аналогичен: масштабирование до 256×256→1024×1024. Все три сети шумоподавления являются U-сетями.

Imagen 2 (2023-12) также основан на диффузии. Он может генерировать изображения на основе подсказки, сочетающей изображения и текст. Никакой дополнительной информации нет. [ 44 ]

Veo (2024-05) генерирует видео путем скрытой диффузии. Распространение обусловлено вектором, который кодирует как текстовую, так и графическую подсказку. [ 45 ]

См. также

[ редактировать ]

Дальнейшее чтение

[ редактировать ]
  • Руководство: чит-код для диффузионных моделей . Обзор руководства по классификатору и руководства без классификатора, свет на математические детали.
  • Математические детали в статье опущены.
    • «Сила диффузионных моделей» . АстраБлог . 2022-09-25 . Проверено 25 сентября 2023 г.
    • Вен, Лилиан (11 июля 2021 г.). «Что такое диффузионные модели?» . lilianweng.github.io . Проверено 25 сентября 2023 г.
  1. ^ Чанг, Цзыи; Кулиерис, Джордж Алекс; Шум, Хьюберт П.Х. (2023). «Об основах проектирования диффузионных моделей: обзор». arXiv : 2306.04542 [ cs.LG ].
  2. ^ Jump up to: а б с Сун, Ян; Золь-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абхишек; Эрмон, Стефано; Пул, Бен (10 февраля 2021 г.). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [ cs.LG ].
  3. ^ Портной Флоринель-Алин; Хондру, Влад; Ионеску, Раду Тудор; Шах, Мубарак (2023). «Модели диффузии в зрении: обзор». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 45 (9): 10850–10869. arXiv : 2209.04747 . два : 10.1109/TPAMI.2023.3261988 . ПМИД   37030794 . S2CID   252199918 .
  4. ^ Jump up to: а б Эй, Джонатан; Джайн, Аджай; Аббель, Питер (2020). «Вероятностные модели диффузии с шумоподавлением» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 6840–6851.
  5. ^ Гу, Шуян, Бао, Цзяньминь; Вэнь, Чжан, Бо; Чен, Юань, Лу; «Векторная квантовая диффузионная модель для синтеза текста в изображение» . : 2111.14822 [ cs.CV ].
  6. ^ Jump up to: а б GLIDE , OpenAI, 22 сентября 2023 г. , получено 24 сентября 2023 г.
  7. ^ Ли, Ифань; Чжоу, Кун; Чжао, Уэйн Синь; Вэнь, Цзи-Ронг (август 2023 г.). «Модели диффузии для неавторегрессионной генерации текста: обзор» . Материалы тридцать второй международной совместной конференции по искусственному интеллекту . Калифорния: Международные совместные конференции по организации искусственного интеллекта. стр. 6692–6701. arXiv : 2303.06574 . дои : 10.24963/ijcai.2023/750 . ISBN  978-1-956792-03-4 .
  8. ^ Хан, Сяочуан; Кумар, Сачин; Цветков, Юлия (2023). «SSD-LM: полуавторегрессионная симплексная языковая модель диффузии для генерации текста и модульного управления» . Материалы 61-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 11575–11596. arXiv : 2210.17432 . doi : 10.18653/v1/2023.acl-long.647 .
  9. ^ Сюй, Вэйцзе; Ху, Вэньсян; Ву, Фанью; Сенгамеду, Шринивасан (2023 г.). «DeTiME: Тематическое моделирование с расширенной диффузией с использованием LLM на основе кодировщика-декодера» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606 .
  10. ^ Чжан, Хаопэн; Лю, Сяо; Чжан, Цзявэй (2023). «DiffuSum: экстракционное суммирование с расширенным поколением с помощью диффузии» . Выводы Ассоциации компьютерной лингвистики: ACL 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 13089–13100. arXiv : 2305.01735 . doi : 10.18653/v1/2023.findings-acl.828 .
  11. ^ Золь-Дикштейн, Яша; Вайс, Эрик; Махешваранатан, Ниру; Гангули, Сурья (01 июня 2015 г.). «Глубокое обучение без учителя с использованием неравновесной термодинамики» (PDF) . Материалы 32-й Международной конференции по машинному обучению . 37 . ПМЛР: 2256–2265.
  12. ^ Вен, Лилиан (11 июля 2021 г.). «Что такое диффузионные модели?» . lilianweng.github.io . Проверено 24 сентября 2023 г.
  13. ^ «Генераторное моделирование путем оценки градиентов распределения данных | Ян Сун» . yang-song.net . Проверено 24 сентября 2023 г.
  14. ^ Сун, Ян; Золь-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абхишек; Эрмон, Стефано; Пул, Бен (10 февраля 2021 г.). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [ cs.LG ].
  15. ^ «Сопоставление срезов оценок: масштабируемый подход к плотности и оценке оценок | Ян Сун» . yang-song.net . Проверено 24 сентября 2023 г.
  16. ^ Андерсон, Брайан Д.О. (май 1982 г.). «Модели уравнений диффузии в обратном времени» . Случайные процессы и их приложения . 12 (3): 313–326. дои : 10.1016/0304-4149(82)90051-5 . ISSN   0304-4149 .
  17. ^ Луо, Кальвин (2022). «Понимание моделей диффузии: единая точка зрения». arXiv : 2208.11970v1 [ cs.LG ].
  18. ^ Сун, Цзямин; Мэн, Ченлинь; Эрмон, Стефано (3 октября 2023 г.). «Неявные модели диффузии с шумоподавлением». arXiv : 2010.02502 [ cs.LG ].
  19. ^ Jump up to: а б Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьорн (13 апреля 2022 г.). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии». arXiv : 2112.10752 [ cs.CV ].
  20. ^ Дхаривал, Прафулла; Никол, Алекс (01 июня 2021 г.). «Модели диффузии превосходят GAN по синтезу изображений». arXiv : 2105.05233 [ cs.LG ].
  21. ^ Эй, Джонатан; Салиманс, Тим (25 июля 2022 г.). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [ cs.LG ].
  22. ^ Ян, Чжилун; Хун, Шэнда; Чжао, Юэ, Вэньтао; Ян, Мин-Сюань (2022). и приложения». arXiv : 2206.00364 [ cs.CV ].
  23. ^ Каррас, Теро; Айттала, Миика; Айла, Тимо; Лайне, Самули (2022). «Выяснение пространства проектирования генеративных моделей, основанных на диффузии». arXiv : 2206.00364v2 [ cs.CV ].
  24. ^ Тонг, Александр; Фатрас, Килиан; Малкин, Николай; Юге, Гийом; Чжан, Янлей; Ректор-Брукс, Джаррид; Вольф, Гай; Бенджио, Йошуа (8 ноября 2023 г.). «Улучшение и обобщение генеративных моделей на основе потоков с оптимальной мини-пакетной транспортировкой» . Труды по исследованиям машинного обучения . ISSN   2835-8856 .
  25. ^ Jump up to: а б с д Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (07 сентября 2022 г.). «Прямой и быстрый поток: учимся генерировать и передавать данные с помощью выпрямленного потока». arXiv : 2209.03003 [ cs.LG ].
  26. ^ Лю, Цян (29 сентября 2022 г.). «Выпрямленный поток: подход к оптимальной транспортировке, сохраняющий маржинальность». arXiv : 2209.14577 [ stat.ML ].
  27. ^ Липман, Ярон; Чен, Рики TQ; Бен-Хаму, Хели; Никель, Максимилиан; Ле, Мэтт (08 февраля 2023 г.), Согласование потоков для генеративного моделирования , arXiv : 2210.02747
  28. ^ Альберго, Майкл С.; Ванден-Эйнден, Эрик (09 марта 2023 г.), Построение нормализующих потоков с помощью стохастических интерполянтов , arXiv : 2209.15571
  29. ^ Jump up to: а б с Эй, Джонатан; Сахария, Читван; Чан, Уильям; Флит, Дэвид Дж.; Норузи, Мохаммед; Салиманс, Тим (01 января 2022 г.). «Модели каскадной диффузии для создания изображений высокой точности» . Журнал исследований машинного обучения . 23 (1): 47:2249–47:2281. arXiv : 2106.15282 . ISSN   1532-4435 .
  30. ^ Пиблс, Уильям; Се, Сайнин (март 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748v2 [ cs.CV ].
  31. ^ Фей, Чжэнцун; Ю, Чанцянь; Ли, Дебан; Хуан, Цзюньши (16 июля 2024 г.), Масштабирование диффузионных трансформаторов до 16 миллиардов параметров , doi : 10.48550/arXiv.2407.11633 , получено 25 июля 2024 г.
  32. ^ Jump up to: а б Тевет, Гай; Рааб, Сигал; Гордон, Брайан; Шафир, Джонатан; Коэн-Ор, Дэниел; Бермано, Амит Х. (2022). «Модель диффузии движения человека». arXiv : 2209.14916 [ cs.CV ].
  33. ^ Чжан, Львмин; Рао, Аньи; Агравала, Маниш (2023). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [ cs.CV ].
  34. ^ Лугмайр, Андреас; Данельян, Мартин; Ромеро, Андрес; Ю, Фишер; Тимофте, Раду; Ван Гул, Люк (2022). «RePaint: Inpainting с использованием вероятностных моделей диффузии с шумоподавлением». arXiv : 2201.09865v4 [ cs.CV ].
  35. ^ Ван, Синьтао; Се, Лянбинь; Донг, Чао; Шань, Ин (2021). «Real-ESRGAN: обучение слепому сверхразрешению в реальном мире с использованием чистых синтетических данных» (PDF) . Материалы семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV), 2021 г. Международная конференция по компьютерному зрению. стр. 1905–1914. arXiv : 2107.10833 .
  36. ^ Лян, Цзинъюнь; Цао, Цзечжан; Сунь, Гуолей; Чжан, Кай; Ван Гул, Люк; Тимофте, Раду (2021). «SwinIR: восстановление изображения с использованием Swin Transformer» (PDF) . Материалы семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV) . Международная конференция по компьютерному зрению, 2021. стр. 1833–1844. arXiv : 2108.10257v1 .
  37. ^ Никол, Алекс; Дхаривал, Прафулла; Рамеш, Адитья; Шьям, Пранав; Мишкин, Памела; МакГрю, Боб; Суцкевер, Илья; Чен, Марк (08 марта 2022 г.). «GLIDE: к созданию и редактированию фотореалистичных изображений с помощью моделей диффузии с текстовым управлением». arXiv : 2112.10741 [ cs.CV ].
  38. ^ Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (12 апреля 2022 г.). «Иерархическая генерация текстовых условных изображений с помощью CLIP Latents». arXiv : 2204.06125 [ cs.CV ].
  39. ^ Аламмар, Джей. «Иллюстрированная стабильная диффузия» . jalammar.github.io . Проверено 31 октября 2022 г.
  40. ^ Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (05 марта 2024 г.), Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения , arXiv : 2403.03206
  41. ^ Се, Имин; Яо, Чун-Хан; Волети, Викрам; Цзян, Хуайцзу; Джампани, Варун (24 июля 2024 г.), SV4D: динамическое создание 3D-контента с согласованностью нескольких кадров и нескольких представлений , doi : 10.48550/arXiv.2407.17470 , получено 25 июля 2024 г.
  42. ^ «Imagen: модели распространения текста в изображение» . imagen.research.google . Проверено 4 апреля 2024 г.
  43. ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили Л.; Гасемипур, Камьяр; Гонтихо Лопес, Рафаэль; Карагол Аян, Бурджу; Салиманс, Тим; Эй, Джонатан; Флит, Дэвид Дж.; Норузи, Мохаммед (6 декабря 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка» . Достижения в области нейронных систем обработки информации . 35 : 36479–36494. arXiv : 2205.11487 .
  44. ^ «Imagen 2 — наша самая передовая технология преобразования текста в изображение» . Гугл ДипМайнд . Проверено 4 апреля 2024 г.
  45. ^ «Вео» . Гугл ДипМайнд . 14 мая 2024 г. Проверено 17 мая 2024 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 79b8eb4216abb6a2d533486ee220d5c4__1721938080
URL1:https://arc.ask3.ru/arc/aa/79/c4/79b8eb4216abb6a2d533486ee220d5c4.html
Заголовок, (Title) документа по адресу, URL1:
Diffusion model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)