Диффузионная модель

В машинном обучении модели диффузии , также известные как вероятностные модели диффузии или генеративные модели на основе оценок , представляют собой класс моделей со скрытыми переменными генеративных . Диффузионная модель состоит из трех основных компонентов: прямого процесса, обратного процесса и процедуры отбора проб. ^[1] Цель моделей диффузии — изучить процесс диффузии , который генерирует распределение вероятностей для данного набора данных, из которого мы затем можем выбирать новые изображения. Они изучают скрытую структуру набора данных, моделируя, как точки данных распространяются через скрытое пространство . ^[2]

В случае компьютерного зрения модели диффузии могут применяться для решения различных задач, включая шумоподавление изображений , закрашивание , суперразрешение и генерацию изображений . Обычно это включает в себя обучение нейронной сети последовательному шумоподавлению изображений, размытых гауссовским шумом . ^[2]^[3] Модель обучена обратить вспять процесс добавления шума к изображению. После обучения сходимости его можно использовать для генерации изображения, начиная с изображения, состоящего из случайного шума, для итеративного шумоподавления сети. Анонсированная 13 апреля 2022 года DALL модель преобразования текста в изображение OpenAI -E 2 представляет собой пример, в котором используются модели диффузии как для предшествующей модели (которая создает встраивание изображения с учетом текстовой подписи), так и для декодера, генерирующего окончательное изображение. . ^[4] Модели диффузии недавно нашли применение в обработке естественного языка (НЛП). ^[5] особенно в таких областях, как генерация текста ^[6]^[7] и обобщение. ^[8]

Модели диффузии обычно формулируются как цепи Маркова и обучаются с использованием вариационного вывода . ^[9] Примерами общих структур моделирования диффузии, используемых в компьютерном зрении, являются вероятностные модели диффузии с шумоподавлением, сети оценок, обусловленные шумом, и стохастические дифференциальные уравнения. ^[10]

Модель диффузии шумоподавления и

Неравновесная термодинамика [ править ]

Модели диффузии были представлены в 2015 году как метод изучения модели, которая может выполнять выборку из очень сложного распределения вероятностей. Они использовали методы неравновесной термодинамики , особенно диффузию . ^[11]

Рассмотрим, например, как можно смоделировать распространение всех естественных фотографий. Каждое изображение является точкой в пространстве всех изображений, а распределение естественных фотографий представляет собой «облако» в пространстве, которое, многократно добавляя к изображениям шум, распространяется на остальную часть пространства изображения, пока не облако становится практически неотличимым от распределения Гаусса. $N(0,I)$ . Модель, которая может приблизительно устранить диффузию, может затем использоваться для выборки из исходного распределения. Это изучается в «неравновесной» термодинамике, поскольку начальное распределение не находится в равновесии, в отличие от конечного распределения.

Равновесное распределение представляет собой распределение Гаусса. $N(0,I)$ , с PDF $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ . Это и есть Максвелла-Больцмана в потенциальной яме. распределение частиц $V(x)={\frac {1}{2}}\|x\|^{2}$ при температуре 1. Начальное распределение, будучи сильно неравновесным, будет диффундировать в сторону равновесного распределения, совершая смещенные случайные шаги, которые представляют собой сумму чистой случайности (например, броуновского ходока ) и градиентного спуска вниз по потенциальной яме. Случайность необходима: если бы частицы испытывали только градиентный спуск, то все они упадут в начало координат, разрушая распределение.

модель диффузии с шумоподавлением ( Вероятностная DDPM )

В документе 2020 года была предложена вероятностная модель шумоподавления диффузии (DDPM), которая улучшает предыдущий метод за счет вариационного вывода . ^[9]

Прямое распространение [ править ]

Чтобы представить модель, нам потребуются некоторые обозначения.

$\beta _{1},...,\beta _{T}\in (0,1)$ являются фиксированными константами.
$\alpha _{t}:=1-\beta _{t}$
${\bar {\alpha }}_{t}:=\alpha _{1}\cdots \alpha _{t}$
${\tilde {\beta }}_{t}:={\frac {1-{\bar {\alpha }}_{t-1}}{1-{\bar {\alpha }}_{t}}}\beta _{t}$
${\tilde {\mu }}_{t}(x_{t},x_{0}):={\frac {{\sqrt {\alpha _{t}}}(1-{\bar {\alpha }}_{t-1})x_{t}+{\sqrt {{\bar {\alpha }}_{t-1}}}(1-\alpha _{t})x_{0}}{1-{\bar {\alpha }}_{t}}}$
$N(\mu ,\Sigma )$ это нормальное распределение со средним значением $\mu$ и дисперсия $\Sigma$ , и $N(x|\mu ,\Sigma )$ плотность вероятности при $x$ .
Вертикальная черта обозначает кондиционирование .

Процесс прямой диффузии начинается в некоторой отправной точке. $x_{0}\sim q$ , где $q$ это распределение вероятностей, которое необходимо изучить, затем неоднократно добавляет к нему шум с помощью

x_{t}={\sqrt {1-\beta _{t}}}x_{t-1}+{\sqrt {\beta _{t}}}z_{t}

где

z_{1},...,z_{T}

образцы IID из

N(0,I)

. Это сделано так, что для любого стартового распределения

x_{0}

, у нас есть

\lim _{t}x_{t}|x_{0}

сходящиеся к

N(0,I)

.

Тогда весь процесс диффузии удовлетворяет условию

q(x_{0:T})=q(x_{0})q(x_{1}|x_{0})\cdots q(x_{T}|x_{T-1})=q(x_{0})N(x_{1}|{\sqrt {\alpha _{1}}}x_{0},\beta _{1}I)\cdots N(x_{T}|{\sqrt {\alpha _{T}}}x_{T-1},\beta _{T}I)

или

\ln q(x_{0:T})=\ln q(x_{0})-\sum _{t=1}^{T}{\frac {1}{2\beta _{t}}}\|x_{t}-{\sqrt {1-\beta _{t}}}x_{t-1}\|^{2}+C

где

C

является константой нормализации и часто опускается. В частности, отметим, что

x_{1:T}|x_{0}

является гауссовским процессом , который дает нам значительную свободу в перепараметризации . Например, с помощью стандартных манипуляций с гауссовским процессом:

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)

В частности, обратите внимание, что для больших

t

, переменная

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

сходится к

N(0,I)

. То есть после достаточно длительного процесса диффузии мы получаем некоторое

x_{T}

это очень близко к

N(0,I)

со всеми следами оригинала

x_{0}\sim q

ушел.

Например, поскольку

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

мы можем попробовать

x_{t}|x_{0}

непосредственно «за один шаг», вместо прохождения всех промежуточных этапов

x_{1},x_{2},...,x_{t-1}

.

Вывод путем перепараметризации

Мы знаем ${\textstyle x_{t-1}|x_{0}}$ является гауссовой, и ${\textstyle x_{t}|x_{t-1}}$ это еще один гауссиан. Мы также знаем, что они независимы. Таким образом, мы можем выполнить репараметризацию:

x_{t-1}={\sqrt {{\bar {\alpha }}_{t-1}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t-1}}}z

x_{t}={\sqrt {\alpha _{t}}}x_{t-1}+{\sqrt {1-\alpha _{t}}}z'

где

{\textstyle z,z'}

являются гауссианами IID.

Есть 5 переменных ${\textstyle x_{0},x_{t-1},x_{t},z,z'}$ и два линейных уравнения. Два источника случайности: ${\textstyle z,z'}$ , который можно перепараметризовать путем вращения, поскольку гауссово распределение IID вращательно-симметрично.

Подставив уравнения, мы можем решить первую перепараметризацию:

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\underbrace {{\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}z+{\sqrt {1-\alpha _{t}}}z'} _{={\sqrt {1-{\bar {\alpha }}_{t}}}z''}

где

{\textstyle z''}

является гауссианой с нулевым средним значением и единицей дисперсии.

Чтобы найти второй, дополним матрицу вращения:

{\begin{bmatrix}z''\\z'''\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\\?&?\end{bmatrix}}{\begin{bmatrix}z\\z'\end{bmatrix}}

Поскольку все вращательные матрицы имеют вид ${\textstyle {\begin{bmatrix}\cos \theta &\sin \theta \\-\sin \theta &\cos \theta \end{bmatrix}}}$ , мы знаем, что матрица должна быть

{\begin{bmatrix}z''\\z'''\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\\-{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\end{bmatrix}}{\begin{bmatrix}z\\z'\end{bmatrix}}

и поскольку обратная матрица вращения является ее транспонированием,

{\begin{bmatrix}z\\z'\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&-{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\\{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\end{bmatrix}}{\begin{bmatrix}z''\\z'''\end{bmatrix}}

Подключая обратно и упрощая, мы имеем

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z''

x_{t-1}={\tilde {\mu }}_{t}(x_{t},x_{0})-{\sqrt {{\tilde {\beta }}_{t}}}z'''

Обратная диффузия [ править ]

Ключевая идея DDPM заключается в использовании нейронной сети, параметризованной $\theta$ . Сеть принимает два аргумента $x_{t},t$ и выводит вектор $\mu _{\theta }(x_{t},t)$ и матрица $\Sigma _{\theta }(x_{t},t)$ , так что каждый шаг процесса прямой диффузии может быть приблизительно отменен $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ . Это дает нам процесс обратной диффузии. $p_{\theta }$ определяется

p_{\theta }(x_{T})=N(x_{T}|0,I)

p_{\theta }(x_{t-1}|x_{t})=N(x_{t-1}|\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))

Теперь цель состоит в том, чтобы узнать такие параметры, что

p_{\theta }(x_{0})

настолько близок к

q(x_{0})

насколько это возможно. Для этого мы используем оценку максимального правдоподобия с вариационным выводом.

Вариационный вывод [ править ]

утверждает Неравенство ELBO , что $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ , и приняв еще одно математическое ожидание, получим

E_{x_{0}\sim q}[\ln p_{\theta }(x_{0})]\geq E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]

Мы видим, что максимизация величины справа даст нам нижнюю границу вероятности наблюдаемых данных. Это позволяет нам выполнить вариационный вывод.

Определить функцию потерь

L(\theta ):=-E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]

и теперь цель состоит в том, чтобы минимизировать потери за счет стохастического градиентного спуска. Выражение можно упростить до ^[12]

L(\theta )=\sum _{t=1}^{T}E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]+E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]+C

где

C

не зависит от параметра, поэтому его можно игнорировать. С

p_{\theta }(x_{T})=N(x_{T}|0,I)

также не зависит от параметра, член

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

также можно игнорировать. Это оставляет только

L(\theta )=\sum _{t=1}^{T}L_{t}

с

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

быть сведено к минимуму.

Сеть прогнозирования шума

С $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ , это говорит о том, что мы должны использовать $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ ; однако сеть не имеет доступа к $x_{0}$ , и поэтому вместо этого ему приходится его оценивать. Теперь, поскольку $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ , мы можем написать $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z$ , где $z$ это какой-то неизвестный гауссов шум. Теперь мы видим, что оценка $x_{0}$ эквивалентно оценке $z$ .

Поэтому пусть сеть выводит вектор шума $\epsilon _{\theta }(x_{t},t)$ , и пусть он предсказывает

\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}\left(x_{t},{\frac {x_{t}-{\sqrt {1-{\bar {\alpha }}_{t}}}\epsilon _{\theta }(x_{t},t)}{\sqrt {{\bar {\alpha }}_{t}}}}\right)={\frac {x_{t}-\epsilon _{\theta }(x_{t},t)\beta _{t}/{\sqrt {1-{\bar {\alpha }}_{t}}}}{\sqrt {\alpha _{t}}}}

Осталось спроектировать

\Sigma _{\theta }(x_{t},t)

. В документе DDPM предлагалось не изучать его (поскольку это приводило к «нестабильному обучению и ухудшению качества выборки»), а исправлять его по некоторому значению.

\Sigma _{\theta }(x_{t},t)=\sigma _{t}^{2}I

, где либо

\sigma _{t}^{2}=\beta _{t}{\text{ or }}{\tilde {\beta }}_{t}

дал аналогичную производительность.

При этом потеря упрощается до

L_{t}={\frac {\beta _{t}^{2}}{2\alpha _{t}(1-{\bar {\alpha }}_{t})\sigma _{t}^{2}}}E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]+C

которое можно минимизировать с помощью стохастического градиентного спуска. В статье эмпирически отмечено, что еще более простая функция потерь

L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]

привели к созданию более качественных моделей.

Генеративная модель на основе оценок [ править ]

Генеративная модель на основе оценок — это еще одна формулировка диффузионного моделирования. Их также называют сетью условной оценки шума (NCSN) или сопоставлением оценок с динамикой Ланжевена (SMLD). ^[13]^[14]

Соответствие очков [ править ]

Идея оценочных функций [ править ]

Рассмотрим задачу генерации изображений. Позволять $x$ представляют изображение, и пусть $q(x)$ быть распределением вероятностей по всем возможным изображениям. Если у нас есть $q(x)$ само по себе, то мы можем с уверенностью сказать, насколько вероятен тот или иной образ. Однако в целом это неразрешимо.

Чаще всего нас не интересует знание абсолютной вероятности определенного изображения. Вместо этого нас обычно интересует только то, насколько вероятно определенное изображение по сравнению с его непосредственными соседями — например, насколько более вероятно изображение кошки по сравнению с некоторыми его небольшими вариантами? Что более вероятно, если изображение содержит два уса или три, или с добавлением гауссовского шума?

Следовательно, мы на самом деле совершенно не заинтересованы в $q(x)$ сам по себе, а, скорее, $\nabla _{x}\ln q(x)$ . Это имеет два основных эффекта:

Во-первых, нам больше не нужно нормализовать $q(x)$ , но можно использовать любой ${\tilde {q}}(x)=Cq(x)$ , где $C=\int {\tilde {q}}(x)dx>0$ — любая неизвестная константа, которая нас не интересует.
Во-вторых, мы сравниваем $q(x)$ соседи $q(x+dx)$ , к ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln q,dx\rangle }$

Пусть функция оценки будет $s(x):=\nabla _{x}\ln q(x)$ ; тогда подумаем, что мы можем сделать с $s(x)$ .

Как оказалось, $s(x)$ позволяет нам брать образцы из $q(x)$ с помощью термодинамики. В частности, если у нас есть функция потенциальной энергии $U(x)=-\ln q(x)$ и много частиц в потенциальной яме, то распределение в состоянии термодинамического равновесия является распределением Больцмана $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ . При температуре $k_{B}T=1$ , распределение Больцмана в точности $q(x)$ .

Поэтому для моделирования $q(x)$ , мы можем начать с частицы, отобранной при любом удобном распределении (например, стандартном распределении Гаусса), а затем смоделировать движение частицы вперед в соответствии с уравнением Ланжевена

dx_{t}=-\nabla _{x_{t}}U(x_{t})dt+dW_{t}

а распределение Больцмана, согласно уравнению Фоккера-Планка, представляет собой уникальное термодинамическое равновесие . Поэтому независимо от того, какое распространение

x_{0}

имеет, распределение

x_{t}

сходится по распределению к

q

как

t\to \infty

.

Изучение функции оценки [ править ]

Учитывая плотность $q$ , мы хотим узнать аппроксимацию оценочной функции $f_{\theta }\approx \nabla \ln q$ . Это сопоставление очков . ^[15] Обычно сопоставление оценок формализуется как минимизация дивергенции Фишера. функции $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ . Разлагая интеграл и производя интегрирование по частям,

E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]=E_{q}[\|f_{\theta }\|^{2}+2\nabla ^{2}\cdot f_{\theta }]+C

давая нам функцию потерь, также известную как правило оценки Хюваринена , которую можно минимизировать с помощью стохастического градиентного спуска.

Отжиг функции оценки [ править ]

Предположим, нам нужно смоделировать распространение изображений, и мы хотим $x_{0}\sim N(0,I)$ , изображение с белым шумом. Теперь большинство изображений с белым шумом не похожи на реальные изображения, поэтому $q(x_{0})\approx 0$ для больших участков $x_{0}\sim N(0,I)$ . Это представляет проблему для изучения функции оценки, поскольку, если вокруг определенной точки нет выборок, мы не сможем изучить функцию оценки в этой точке. Если мы не знаем функцию оценки $\nabla _{x_{t}}\ln q(x_{t})$ в этот момент мы не можем навязать частице уравнение эволюции во времени:

dx_{t}=\nabla _{x_{t}}\ln q(x_{t})dt+dW_{t}

Чтобы справиться с этой проблемой, мы проводим отжиг . Если

q

слишком отличается от распределения белого шума, затем постепенно добавляйте шум, пока он не станет неотличим от распределения белого шума. То есть мы выполняем прямое распространение, затем изучаем функцию оценки, а затем используем функцию оценки для выполнения обратной диффузии.

диффузионные Непрерывные процессы

Процесс диффузии прямой

Рассмотрим снова процесс прямой диффузии, но на этот раз в непрерывном времени:

x_{t}={\sqrt {1-\beta _{t}}}x_{t-1}+{\sqrt {\beta _{t}}}z_{t}

Взяв

\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}

пределе, мы получаем непрерывный диффузионный процесс в виде стохастического дифференциального уравнения :

dx_{t}=-{\frac {1}{2}}\beta (t)x_{t}dt+{\sqrt {\beta (t)}}dW_{t}

где

W_{t}

является винеровским процессом (многомерным броуновским движением).

Теперь уравнение представляет собой в точности частный случай перезатухающего уравнения Ланжевена.

dx_{t}=-{\frac {D}{k_{B}T}}(\nabla _{x}U)dt+{\sqrt {2D}}dW_{t}

где

D

– тензор диффузии,

T

это температура, а

U

поле потенциальной энергии. Если мы заменим в

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

, мы восстанавливаем приведенное выше уравнение. Это объясняет, почему в диффузионных моделях иногда используется фраза «динамика Ланжевена».

Теперь приведенное выше уравнение относится к стохастическому движению одной частицы. Предположим, у нас есть облако частиц, распределенных согласно $q$ во время $t=0$ , то через долгое время облако частиц установится в устойчивое распределение $N(0,I)$ . Позволять $\rho _{t}$ быть плотностью облака частиц в момент времени $t$ , тогда мы имеем

\rho _{0}=q;\quad \rho _{T}\approx N(0,I)

и цель состоит в том, чтобы каким-то образом обратить этот процесс вспять, чтобы мы могли начать с конца и вернуться к началу.

По уравнению Фоккера-Планка плотность облака изменяется согласно закону

\partial _{t}\ln \rho _{t}={\frac {1}{2}}\beta (t)\left(n+(x+\nabla \ln \rho _{t})\cdot \nabla \ln \rho _{t}+\Delta \ln \rho _{t}\right)

где

n

это размерность пространства, а

\Delta

— оператор Лапласа .

Процесс обратной диффузии

Если мы решили $\rho _{t}$ на время $t\in [0,T]$ , то мы сможем точно обратить вспять эволюцию облака. Предположим, мы начнем с другого облака частиц с плотностью $\nu _{0}=\rho _{T}$ , и пусть частицы в облаке развиваются согласно

dy_{t}={\frac {1}{2}}\beta (T-t)y_{t}dt+\beta (T-t)\underbrace {\nabla _{y_{t}}\ln \rho _{T-t}\left(y_{t}\right)} _{\text{score function }}dt+{\sqrt {\beta (T-t)}}dW_{t}

затем, подставив уравнение Фоккера-Планка, мы находим, что

\partial _{t}\rho _{T-t}=\partial _{t}\nu _{t}

. Таким образом, это облако точек является исходным облаком, развивающимся в обратном направлении. ^[16]

Сеть условной оценки шума ( ) NCSN

На непрерывном пределе

{\bar {\alpha }}_{t}=(1-\beta _{1})\cdots (1-\beta _{t})=e^{\sum _{i}\ln(1-\beta _{i})}\to e^{-\int _{0}^{t}\beta (t)dt}

и так

x_{t}|x_{0}\sim N\left(e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0},\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)I\right)

В частности, мы видим, что можем напрямую отбирать образцы из любой точки процесса непрерывной диффузии, минуя промежуточные этапы, предварительно отбирая образцы.

x_{0}\sim q,z\sim N(0,I)

, тогда получи

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

. То есть мы можем быстро произвести выборку

x_{t}\sim \rho _{t}

для любого

t\geq 0

.

Теперь определим определенное распределение вероятностей $\gamma$ над $[0,\infty )$ , то функция потерь при сопоставлении оценок определяется как ожидаемое расхождение Фишера:

L(\theta )=E_{t\sim \gamma ,x_{t}\sim \rho _{t}}[\|f_{\theta }(x_{t},t)\|^{2}+2\nabla \cdot f_{\theta }(x_{t},t)]

После тренировки,

f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}

, поэтому мы можем выполнить процесс обратной диффузии, сначала выбрав выборку

x_{T}\sim N(0,I)

, затем интегрируя SDE из

t=T

к

t=0

:

x_{t-dt}=x_{t}+{\frac {1}{2}}\beta (t)x_{t}dt+\beta (t)f_{\theta }(x_{t},t)dt+{\sqrt {\beta (t)}}dW_{t}

Это можно сделать любым методом интегрирования СДУ, например методом Эйлера-Маруямы .

Название «сеть условной оценки шума» объясняется следующим образом:

«сеть», потому что $f_{\theta }$ реализован в виде нейронной сети.
«оценка», поскольку выходные данные сети интерпретируются как аппроксимация функции оценки. $\nabla \ln \rho _{t}$ .
«шум условный», потому что $\rho _{t}$ равно $\rho _{0}$ размытым добавленным гауссовским шумом, который увеличивается со временем, поэтому функция оценки зависит от количества добавленного шума.

Их эквивалентность [ править ]

DDPM и генеративные модели на основе оценок эквивалентны. ^[17] Это означает, что сеть, обученная с использованием DDPM, может использоваться как NCSN, и наоборот.

Мы знаем, что $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ , поэтому по формуле Твиди имеем

\nabla _{x_{t}}\ln q(x_{t})={\frac {1}{1-{\bar {\alpha }}_{t}}}(-x_{t}+{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}])

Как описано ранее, функция потерь DDPM равна

\sum _{t}L_{simple,t}

с

L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]

где

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

. Путем замены переменных

L_{simple,t}=E_{x_{0},x_{t}\sim q}\left[\left\|\epsilon _{\theta }(x_{t},t)-{\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}x_{0}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\right\|^{2}\right]=E_{x_{t}\sim q,x_{0}\sim q(\cdot |x_{t})}\left[\left\|\epsilon _{\theta }(x_{t},t)-{\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}x_{0}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\right\|^{2}\right]

и член внутри становится регрессией по методу наименьших квадратов, поэтому, если сеть действительно достигает глобального минимума потерь, то мы имеем

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

.

Теперь непрерывный предел $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ обратного уравнения

x_{t-1}={\frac {x_{t}}{\sqrt {\alpha _{t}}}}-{\frac {\beta _{t}}{\sqrt {\alpha _{t}(1-{\bar {\alpha }}_{t})}}}\epsilon _{\theta }(x_{t},t)+{\sqrt {\beta _{t}}}z_{t};\quad z_{t}\sim N(0,I)

дает нам точно то же уравнение, что и диффузия на основе оценок:

x_{t-dt}=x_{t}(1+\beta (t)dt/2)+\beta (t)\nabla _{x_{t}}\ln q(x_{t})dt+{\sqrt {\beta (t)}}dW_{t}

Основные варианты [ править ]

модель шумоподавления и диффузии ( Неявная DDIM )

Исходный метод DDPM для генерации изображений медленный, поскольку процесс прямой диффузии обычно занимает $T\sim 1000$ произвести распределение $x_{T}$ казаться близким к гауссову. Однако это означает, что процесс обратной диффузии также занимает 1000 шагов. В отличие от процесса прямой диффузии, который может пропускать этапы по мере $x_{t}|x_{0}$ является гауссовским для всех $t\geq 1$ , процесс обратной диффузии не позволяет пропускать шаги. Например, для выборки $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ требует, чтобы модель сначала выполнила выборку $x_{t-1}$ . Попытка напрямую сэмплировать $x_{t-2}|x_{t}$ потребует от нас маргинализации $x_{t-1}$ , что, как правило, неразрешимо.

НЕТ ^[18] — это метод, позволяющий взять любую модель, обученную на потерях DDPM, и использовать ее для выборки с пропуском некоторых шагов, жертвуя регулируемым уровнем качества. Если мы преобразуем случай марковской цепи в DDPM в немарковский случай, DDIM соответствует случаю, когда обратный процесс имеет дисперсию, равную 0. Другими словами, обратный процесс (а также прямой процесс) является детерминированным. При меньшем количестве шагов выборки DDIM превосходит DDPM.

диффузии ( Модель скрытой ) LDM

Поскольку модель диффузии является общим методом моделирования распределений вероятностей, если кто-то хочет смоделировать распределение по изображениям, можно сначала закодировать изображения в пространство более низкой размерности с помощью кодера, а затем использовать модель диффузии для моделирования распределения по закодированным изображениям. изображения. Затем, чтобы сгенерировать изображение, можно выполнить выборку из модели диффузии, а затем использовать декодер для декодирования ее в изображение. ^[19]

Пара кодер-декодер чаще всего представляет собой вариационный автоэнкодер (VAE).

Руководство по классификатору [ править ]

Предположим, мы хотим сделать выборку не из всего распределения изображений, а в зависимости от описания изображения. Мы хотим использовать не общее изображение, а изображение, соответствующее описанию «черный кот с красными глазами». Как правило, мы хотим выполнить выборку из распределения $p(x|y)$ , где $x$ колеблется по изображениям, и $y$ варьируется по классам изображений (описание «черный кот с красными глазами» — это всего лишь очень подробный класс, а класс «кот» — лишь очень расплывчатое описание).

С точки зрения модели канала с шумом мы можем понять этот процесс следующим образом: $x$ при условии описания $y$ , мы представляем, что запрашивающий действительно имел в виду изображение $x$ , но изображение прошло через зашумленный канал и получилось искаженным, т.к. $y$ . Генерация изображений — это не что иное, как вывод о том, что $x$ имел в виду запрашивающий.

Другими словами, генерация условного изображения — это просто «перевод с текстового языка на графический язык». Затем, как и в модели с шумным каналом, мы используем теорему Байеса, чтобы получить

p(x|y)\propto p(y|x)p(x)

другими словами, если у нас есть хорошая модель пространства всех изображений и хороший переводчик изображений в классы, мы получаем переводчик классов в изображения «бесплатно». В уравнении обратной диффузии оценка

\nabla \ln p(x)

можно заменить на

\nabla _{x}\ln p(x|y)=\nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)

где

\nabla _{x}\ln p(x)

- это функция оценки, обученная, как описано ранее, и

\nabla _{x}\ln p(y|x)

находится с помощью дифференцируемого классификатора изображений.

С температурой [ править ]

Образцы модели диффузии на основе классификатора из $p(x|y)$ , который сосредоточен вокруг максимума апостериорной оценки $\arg \max _{x}p(x|y)$ . Если мы хотим заставить модель двигаться в направлении оценки максимального правдоподобия $\arg \max _{x}p(y|x)$ , мы можем использовать

p_{\beta }(x|y)\propto p(y|x)^{\beta }p(x)

где

\beta >0

интерпретируется как обратная температура . В контексте диффузионных моделей ее обычно называют шкалой наведения . Высокий

\beta

заставит модель выбирать из распределения, сосредоточенного вокруг

\arg \max _{x}p(y|x)

. Это часто улучшает качество создаваемых изображений. ^[20]

Это можно сделать просто с помощью SGLD с помощью

\nabla _{x}\ln p_{\beta }(x|y)=\beta \nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)

Руководство без классификаторов (CFG) [ править ]

Если у нас нет классификатора $p(y|x)$ , мы все равно можем извлечь один из самой модели изображения: ^[21]

\nabla _{x}\ln p_{\beta }(x|y)=(1-\beta )\nabla _{x}\ln p(x)+\beta \nabla _{x}\ln p(x|y)

Такая модель обычно обучается, предъявляя ей оба

(x,y)

и

(x,{\rm {None}})

, что позволяет моделировать оба

\nabla _{x}\ln p(x|y)

и

\nabla _{x}\ln p(x)

.

Сэмплеры [ править ]

Учитывая диффузионную модель, можно рассматривать ее либо как непрерывный процесс и производить выборку из нее путем интегрирования СДУ, либо можно рассматривать ее как дискретный процесс и выполнять выборку из нее, повторяя дискретные шаги. Выбор «шумового графика» $\beta _{t}$ также может повлиять на качество образцов. С точки зрения DDPM можно использовать сам DDPM (с шумом) или DDIM (с регулируемым уровнем шума). Случай добавления шума иногда называют предковой выборкой. ^[22] Можно интерполировать между шумом и отсутствием шума. Обозначается количество шума $\eta$ («значение эта») в документе DDIM, с $\eta =0$ обозначая отсутствие шума (как в детерминированном DDIM), и $\eta =1$ обозначающий полный шум (как в DDPM).

С точки зрения СДУ можно использовать любой из методов численного интегрирования , например, метод Эйлера-Маруямы , метод Хойна , линейные многошаговые методы и т. д. Как и в дискретном случае, во время интегрирования можно добавлять регулируемое количество шума. .

Обзор и сравнение сэмплеров в контексте генерации изображений. ^[23]

потока диффузии на основе Модель

Говоря абстрактно, идея модели диффузии состоит в том, чтобы взять неизвестное распределение вероятностей (распределение естественно выглядящих изображений), затем постепенно преобразовать его в известное распределение вероятностей (стандартное распределение Гаусса), а затем изучить нейронную сеть, которая обращает процесс вспять.

В моделях диффузии с шумоподавлением прямой процесс добавляет шум, а обратный процесс удаляет шум. И прямой, и обратный процессы являются СДУ , хотя прямой процесс интегрируется в замкнутой форме, поэтому его можно выполнить без вычислительных затрат. Обратный процесс не интегрируется в замкнутой форме, поэтому его необходимо интегрировать шаг за шагом с помощью стандартных решателей SDE, что может быть очень дорогим.

В моделях диффузии, основанных на потоке, прямой процесс представляет собой как детерминированный поток вдоль векторного поля, зависящего от времени, так и обратный процесс представляет собой то же самое векторное поле, но идущее назад. Оба процесса являются решениями ОДУ . Если векторное поле ведет себя хорошо, ОДУ также будет вести себя хорошо.

Учитывая два распределения $\pi _{0}$ и $\pi _{1}$ , модель потока представляет собой зависящее от времени поле скорости $\mathbf {v} (\mathbf {Z} _{t},t)$ в $\mathbb {R} ^{d}\times [0,1]$ , так что если мы начнем с выборки точки $\mathbf {Z} _{0}\sim \pi _{0}$ , и пусть он движется согласно полю скоростей:

\mathrm {d} \mathbf {Z} _{t}=\mathbf {v} (\mathbf {Z} _{t},t)\,\mathrm {d} t,\quad t\in [0,1],\quad {\text{starting from }}\mathbf {Z} _{0}\sim \mathbf {\pi } _{0}

в итоге мы получаем точку

\mathbf {Z} _{1}\sim \pi _{1}

.

Ректифицированный поток [ править ]

Учитывая два распределения $\pi _{0}$ и $\pi _{1}$ , существует бесконечно много возможных полей скорости для перемещения между ними. Некоторые ведут себя более хорошо, чем другие. Идея выпрямленного потока ^[24]^[25] заключается в изучении модели потока, в которой скорость почти постоянна вдоль каждого пути потока. Это выгодно, потому что мы можем интегрировать вдоль такого векторного поля всего за несколько шагов. Например, если ОДУ $\mathrm {d} \mathbf {Z} _{t}=\mathbf {v} (\mathbf {Z} _{t},t)\;\mathrm {d} t$ следует по совершенно прямым путям, это упрощает $\mathbf {Z} _{t}=\mathbf {Z} _{0}+t\cdot \mathbf {v} (\mathbf {Z} _{0},0)$ , что позволяет получить точные решения за один шаг. На практике мы не можем достичь такого совершенства, но когда поле потока близко к нему, мы можем сделать несколько больших шагов вместо множества маленьких шагов.


Линейная интерполяция $X_{t}$	Ректифицированный поток $Z_{t}$	Выпрямленный выпрямленный поток [1]

Общая идея состоит в том, чтобы начать с двух дистрибутивов. $\pi _{0}$ и $\pi _{1}$ , затем построим поле течения ${\boldsymbol {Z}}^{0}=\{\mathbf {Z} _{t}:t\in [0,1]\}$ из него, затем повторно применить операцию «перекомпоновки» для получения последовательных полей потока. ${\boldsymbol {Z}}^{1},{\boldsymbol {Z}}^{2},\dots$ , каждый прямее предыдущего. Когда поле потока становится достаточно прямым для приложения, мы останавливаемся.

Вообще говоря, для любого дифференцируемого во времени процесса $\mathbf {X} (t)$ , $\mathbf {v}$ можно оценить, решив:

\min _{\mathbf {v} }\int _{0}^{1}\mathbb {E} \left[\lVert {{\dot {\mathbf {X} }}_{t}-\mathbf {v} (\mathbf {X} _{t},t)}\rVert ^{2}\right]\,\mathrm {d} t.

В выпрямленном потоке, вводя сильные априорные данные о том, что промежуточные траектории являются прямыми, можно достичь как теоретической значимости для оптимальной транспортировки, так и вычислительной эффективности, поскольку ОДУ с прямыми путями можно моделировать точно без дискретизации по времени.

В частности, выпрямленный поток стремится сопоставить ОДУ с маргинальными распределениями линейной интерполяции между точками из распределений. $\pi _{0}$ и $\pi _{1}$ . Учитывая наблюдения $\mathbf {X} _{0}\sim \pi _{0}$ и $\mathbf {X} _{1}\sim \pi _{1}$ , каноническая линейная интерполяция $\mathbf {X} _{t}=t\mathbf {X} _{1}+(1-t)\mathbf {X} _{0},t\in [0,1]$ дает тривиальный случай ${\dot {\mathbf {X} }}_{t}=\mathbf {X} _{1}-\mathbf {X} _{0}$ , который невозможно причинно смоделировать без $\mathbf {X} _{1}$ . Чтобы решить эту проблему, $\mathbf {X} _{t}$ «проецируется» в пространство причинно моделируемых ОДУ, выражаемое как $\mathrm {d} \mathbf {Z} _{t}=\mathbf {v} (\mathbf {Z} _{t},t)$ , минимизируя потери по методу наименьших квадратов относительно направления $\mathbf {X} _{1}-\mathbf {X} _{0}$ :

\min _{\mathbf {v} }\int _{0}^{1}\mathbb {E} \left[\lVert {(\mathbf {X} _{1}-\mathbf {X} _{0})-\mathbf {v} (\mathbf {X} _{t},t)}\rVert ^{2}\right]\,\mathrm {d} t.

Пара данных $(\mathbf {X} _{0},\mathbf {X} _{1})$ может быть любое соединение $\pi _{0}$ и $\pi _{1}$ , обычно независимые (т.е. $(\mathbf {X} _{0},\mathbf {X} _{1})\sim \pi _{0}\times \pi _{1}$ ), полученный путем случайного объединения наблюдений из $\pi _{0}$ и $\pi _{1}$ . Этот процесс гарантирует, что $\mathbf {Z} _{t}$ траектории точно отражают карту плотности $\mathbf {X} _{t}$ траектории, но меняют маршрут на пересечениях, чтобы обеспечить причинно-следственную связь. Этот процесс исправления также известен как согласование потоков. ^[26] Стохастическая интерполяция, ^[27] и Альфа-смешение. ^{[ нужна ссылка ]}

Отличительной особенностью выпрямленного потока является его способность к « перекомпоновке », которая выпрямляет траекторию путей ОДУ. Обозначим выпрямленный поток ${\boldsymbol {Z}}^{0}=\{\mathbf {Z} _{t}:t\in [0,1]\}$ вызванный из $(\mathbf {X} _{0},\mathbf {X} _{1})$ как ${\boldsymbol {Z}}^{0}={\mathsf {Rectflow}}((\mathbf {X} _{0},\mathbf {X} _{1}))$ . Рекурсивно применяя это ${\mathsf {Rectflow}}(\cdot )$ оператор генерирует серию выпрямленных потоков ${\boldsymbol {Z}}^{k+1}={\mathsf {Rectflow}}((\mathbf {Z} _{0}^{k},\mathbf {Z} _{1}^{k}))$ , начиная с $(\mathbf {Z} _{0}^{0},\mathbf {Z} _{1}^{0})=(\mathbf {X} _{0},\mathbf {X} _{1})$ , где ${\boldsymbol {Z}}^{k}$ это $k$ -я итерация выпрямленного потока, вызванного $(\mathbf {X} _{0},\mathbf {X} _{1})$ . Этот процесс «оплавления» не только снижает транспортные расходы, но и выпрямляет пути ректифицированных потоков, делая ${\boldsymbol {Z}}^{k}$ пути становятся более прямыми с увеличением $k$ .

Выпрямленный поток включает нелинейное расширение, где линейная интерполяция $\mathbf {X} _{t}$ заменяется любой дифференцируемой во времени кривой, соединяющей $\mathbf {X} _{0}$ и $\mathbf {X} _{1}$ , заданный $\mathbf {X} _{t}=\alpha _{t}\mathbf {X} _{1}+\beta _{t}\mathbf {X} _{0}$ . Эта структура охватывает DDIM и ODE потока вероятности как особые случаи с особым выбором $\alpha _{t}$ и $\beta _{t}$ . Однако в случае, когда путь $\mathbf {X}$ не является прямым, процесс оплавления больше не обеспечивает снижение затрат на выпуклую транспортировку, а также больше не выпрямляет пути $\mathbf {Z} _{t}$ . ^[24]

Выбор архитектуры [ править ]

Диффузионная модель [ править ]

Для генерации изображений с помощью DDPM нам нужна нейронная сеть, которая требует времени $t$ и шумное изображение $x_{t}$ и предсказывает шум $\epsilon _{\theta }(x_{t},t)$ от этого. Поскольку прогнозирование шума аналогично прогнозированию изображения с шумоподавлением, его вычитание из $x_{t}$ Архитектуры с шумоподавлением, как правило, работают хорошо. Например, U-Net , которая оказалась хорошей для шумоподавления изображений, часто используется для шумоподавления диффузионных моделей, генерирующих изображения. ^[28]

Для DDPM базовая архитектура не обязательно должна быть U-Net. Ему просто нужно каким-то образом предсказать шум. Например, диффузионный преобразователь (DiT) использует преобразователь для прогнозирования средней и диагональной ковариации шума с учетом текстовой обработки и частично очищенного от шума изображения. Это то же самое, что и стандартная модель диффузии шумоподавления на основе U-Net, с трансформатором, заменяющим U-Net. ^[29]

DDPM можно использовать для моделирования общего распределения данных, а не только естественно выглядящих изображений. Например, распространение человеческого движения. ^[30] моделирует траекторию движения человека с помощью DDPM. Каждая траектория движения человека представляет собой последовательность поз, представленных либо поворотами суставов, либо позициями. Он использует сеть трансформаторов для создания менее шумной траектории из шумной.

Кондиционирование [ править ]

Базовая модель диффузии может генерировать только безоговорочно из всего распределения. Например, модель диффузии, изученная в ImageNet, будет генерировать изображения, которые выглядят как случайное изображение из ImageNet. Чтобы генерировать изображения только из одной категории, нужно будет наложить условие. Какое бы условие вы ни хотели наложить, нужно сначала преобразовать условие в вектор чисел с плавающей запятой, а затем передать его в базовую нейронную сеть модели диффузии. Однако у человека есть свобода выбора, как преобразовать обусловленность в вектор.

Стабильная диффузия, например, налагает обусловленность в форме механизма перекрестного внимания , где запрос является промежуточным представлением изображения в U-Net, а ключ и значение являются векторами обусловленности. Кондиционирование можно выборочно применять только к частям изображения, а новые виды условий можно точно настроить на основе базовой модели, как это используется в ControlNet. ^[31]

В качестве особенно простого примера рассмотрим зарисовку изображения . Условия ${\tilde {x}}$ , эталонное изображение и $m$ , маска для рисования . Кондиционирование вводится на каждом этапе процесса обратной диффузии путем первой выборки проб. ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ , шумная версия ${\tilde {x}}$ , затем заменив $x_{t}$ с $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ , где $\odot$ означает поэлементное умножение . ^[32]

Кондиционирование не ограничивается простым созданием изображений из определенной категории или в соответствии с определенным заголовком (как в случае преобразования текста в изображение). Например, ^[30] продемонстрировано создание движений человека на основе аудиоклипа ходьбы человека (позволяющего синхронизировать движение со звуковой дорожкой), видео бега человека или текстового описания движения человека и т. д.

Апскейлинг [ править ]

Поскольку создание изображения занимает много времени, можно попытаться создать небольшое изображение с помощью базовой модели диффузии, а затем масштабировать его с помощью других моделей. Масштабирование может быть выполнено с помощью GAN , ^[33] Трансформатор , ^[34] или методы обработки сигналов, такие как передискретизация Ланцоша .

Сами модели диффузии могут использоваться для масштабирования. Каскадная модель диффузии объединяет несколько моделей диффузии одну за другой в стиле Progressive GAN . Самый низкий уровень — это стандартная модель диффузии, которая генерирует изображение размером 32x32, затем изображение будет масштабироваться с помощью модели диффузии, специально обученной для масштабирования, и процесс повторяется. ^[28]

Более подробно диффузионный апскейлер обучается следующим образом: ^[28]

Образец $(x_{0},z_{0},c)$ , где $x_{0}$ это изображение с высоким разрешением, $z_{0}$ это то же изображение, но уменьшенное до низкого разрешения, и $c$ это условность, которой может быть подпись к изображению, класс изображения и т. д.
Пример двух белых шумов $\epsilon _{x},\epsilon _{z}$ , два временных шага $t_{x},t_{z}$ . Вычислите зашумленные версии изображений с высоким и низким разрешением: ${\begin{cases}x_{t_{x}}&={\sqrt {{\bar {\alpha }}_{t_{x}}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t_{x}}}}\epsilon _{x}\\z_{t_{z}}&={\sqrt {{\bar {\alpha }}_{t_{z}}}}z_{0}+{\sqrt {1-{\bar {\alpha }}_{t_{z}}}}\epsilon _{z}\end{cases}}$ .
Обучите сеть шумоподавления прогнозировать $\epsilon _{x}$ данный $x_{t_{x}},z_{t_{z}},t_{x},t_{z},c$ . То есть применить градиентный спуск к $\theta$ о потере L2 $\|\epsilon _{\theta }(x_{t_{x}},z_{t_{z}},t_{x},t_{z},c)-\epsilon _{x}\|_{2}^{2}$ .

Примеры [ править ]

В этом разделе собраны некоторые известные диффузионные модели и кратко описана их архитектура.

ОпенАИ [ править ]

Серия DALL-E от OpenAI представляет собой модели изображений с условным распространением текста.

Первая версия DALL-E (2021 г.) на самом деле не является диффузной моделью. Вместо этого он использует архитектуру Transformer, которая генерирует последовательность токенов, которая затем преобразуется в изображение декодером дискретного VAE. Вместе с DALL-E был выпущен классификатор CLIP, который использовался DALL-E для ранжирования сгенерированных изображений в зависимости от того, насколько близко изображение соответствует тексту.

ГЛАЙД (2022-03) ^[35] — это диффузионная модель стоимостью 3,5 миллиарда долларов, а небольшая версия была выпущена публично. ^[4] Вскоре после этого был выпущен DALL-E 2 (2022–04). ^[36] DALL-E 2 — это 3,5-миллиардная модель каскадной диффузии, которая генерирует изображения из текста путем «инвертирования кодера изображений CLIP», метода, который они назвали «unCLIP».

Сора (2024-02) представляет собой модель диффузионного трансформатора (DiT).

Стабильность ИИ [ править ]

Stable Diffusion (2022-08), выпущенный Stability AI, состоит из модели скрытой диффузии с шумоподавлением (860 миллионов параметров), VAE и текстового кодировщика. Сеть шумоподавления представляет собой U-Net с блоками перекрестного внимания, позволяющими генерировать условные изображения. ^[37]^[19]

Стабильная диффузия 3 (2024-02) ^[38] изменил модель скрытой диффузии с UNet на модель Transformer, и поэтому это DiT. Он использует выпрямленный поток.

Гугл [ править ]

Изображение (2022-05) ^[39]^[40] использует языковую модель T5 для кодирования входного текста во вложения. Это модель каскадной диффузии, состоящая из трех этапов. На первом этапе белый шум удаляется до изображения размером 64×64 при условии встраивания текста. На втором этапе изображение масштабируется до 64×64→256×256 при условии встраивания текста. Третий шаг аналогичен: масштабирование до 256×256→1024×1024. Все три сети шумоподавления являются U-сетями.

Imagen 2 (2023-12) также основан на диффузии. Он может генерировать изображения на основе подсказки, сочетающей изображения и текст. Никакой дополнительной информации нет. ^[41]

Veo (2024-05) генерирует видео путем скрытой диффузии. Распространение обусловлено вектором, который кодирует как текстовую, так и графическую подсказку. ^[42]

См. также [ править ]

Дальнейшее чтение [ править ]

Руководство: чит-код для диффузионных моделей . Обзор руководства по классификатору и руководства без классификатора, свет на математические детали.
Математические детали в статье опущены.
- «Сила диффузионных моделей» . АстраБлог . 2022-09-25 . Проверено 25 сентября 2023 г.
- Вен, Лилиан (11 июля 2021 г.). «Что такое диффузионные модели?» . lilianweng.github.io . Проверено 25 сентября 2023 г.

Ссылки [ править ]

^ Чанг, Цзыи; Кулиерис, Джордж Алекс; Шум, Хьюберт П.Х. (2023). «Об основах проектирования диффузионных моделей: обзор». arXiv : 2306.04542 [ cs.LG ].
^ Jump up to: Перейти обратно: ^а ^б Сун, Ян; Золь-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абхишек; Эрмон, Стефано; Пул, Бен (10 февраля 2021 г.). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [ cs.LG ].
^ Гу, Шуян, Бао, Цзяньминь; Вэнь, Чжан, Бо; Чен, Юань, Лу; «Векторная квантовая диффузионная модель для синтеза текста в изображение» . : 2111.14822 [ cs.CV ].
^ Jump up to: Перейти обратно: ^а ^б GLIDE , OpenAI, 22 сентября 2023 г. , получено 24 сентября 2023 г.
^ Ли, Ифань; Чжоу, Кун; Чжао, Уэйн Синь; Вэнь, Цзи-Ронг (август 2023 г.). «Модели диффузии для неавторегрессионной генерации текста: обзор» . Материалы тридцать второй международной совместной конференции по искусственному интеллекту . Калифорния: Международные совместные конференции по организации искусственного интеллекта. стр. 6692–6701. arXiv : 2303.06574 . дои : 10.24963/ijcai.2023/750 . ISBN 978-1-956792-03-4 .
^ Хан, Сяочуан; Кумар, Сачин; Цветков, Юлия (2023). «SSD-LM: полуавторегрессионная симплексная языковая модель диффузии для генерации текста и модульного управления» . Материалы 61-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 11575–11596. arXiv : 2210.17432 . doi : 10.18653/v1/2023.acl-long.647 .
^ Сюй, Вэйцзе; Ху, Вэньсян; Ву, Фанью; Сенгамеду, Шринивасан (2023 г.). «DeTiME: Тематическое моделирование с расширенной диффузией с использованием LLM на основе кодировщика-декодера» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606 .
^ Чжан, Хаопэн; Лю, Сяо; Чжан, Цзявэй (2023). «DiffuSum: экстракционное суммирование с расширенным поколением с помощью диффузии» . Выводы Ассоциации компьютерной лингвистики: ACL 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 13089–13100. arXiv : 2305.01735 . doi : 10.18653/v1/2023.findings-acl.828 .
^ Jump up to: Перейти обратно: ^а ^б Эй, Джонатан; Джайн, Аджай; Аббель, Питер (2020). «Вероятностные модели диффузии с шумоподавлением» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 6840–6851.
^ Кроитору, Флоринель-Алин; Хондру, Влад; Ионеску, Раду Тудор; Шах, Мубарак (2023). «Модели диффузии в зрении: обзор». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 45 (9): 10850–10869. arXiv : 2209.04747 . дои : 10.1109/TPAMI.2023.3261988 . ПМИД 37030794 . S2CID 252199918 .
^ Золь-Дикштейн, Яша; Вайс, Эрик; Махешваранатан, Ниру; Гангули, Сурья (01 июня 2015 г.). «Глубокое обучение без учителя с использованием неравновесной термодинамики» (PDF) . Материалы 32-й Международной конференции по машинному обучению . 37 . ПМЛР: 2256–2265.
^ Вен, Лилиан (11 июля 2021 г.). «Что такое диффузионные модели?» . lilianweng.github.io . Проверено 24 сентября 2023 г.
^ «Генераторное моделирование путем оценки градиентов распределения данных | Ян Сун» . yang-song.net . Проверено 24 сентября 2023 г.
^ Сун, Ян; Золь-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абхишек; Эрмон, Стефано; Пул, Бен (10 февраля 2021 г.). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [ cs.LG ].
^ «Сопоставление срезов оценок: масштабируемый подход к плотности и оценке оценок | Ян Сун» . yang-song.net . Проверено 24 сентября 2023 г.
^ Андерсон, Брайан Д.О. (май 1982 г.). «Модели уравнений диффузии в обратном времени» . Случайные процессы и их приложения . 12 (3): 313–326. дои : 10.1016/0304-4149(82)90051-5 . ISSN 0304-4149 .
^ Луо, Кальвин (2022). «Понимание моделей диффузии: единая точка зрения». arXiv : 2208.11970v1 [ cs.LG ].
^ Сун, Цзямин; Мэн, Ченлинь; Эрмон, Стефано (3 октября 2023 г.). «Неявные модели диффузии с шумоподавлением». arXiv : 2010.02502 [ cs.LG ].
^ Jump up to: Перейти обратно: ^а ^б Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьёрн (13 апреля 2022 г.). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии». arXiv : 2112.10752 [ cs.CV ].
^ Дхаривал, Прафулла; Никол, Алекс (01 июня 2021 г.). «Модели диффузии превосходят GAN по синтезу изображений». arXiv : 2105.05233 [ cs.LG ].
^ Эй, Джонатан; Салиманс, Тим (25 июля 2022 г.). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [ cs.LG ].
^ Ян, Чжилун; Хун, Шэнда; Чжао, Юэ, Вэньтао; Ян, Мин-Сюань (2022). и приложения». arXiv : 2206.00364 [ cs.CV ].
^ Каррас, Теро; Айттала, Миика; Айла, Тимо; Лайне, Самули (2022). «Выяснение пространства проектирования генеративных моделей, основанных на диффузии». arXiv : 2206.00364v2 [ cs.CV ].
^ Jump up to: Перейти обратно: ^а ^б ^с ^д Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (07 сентября 2022 г.). «Прямой и быстрый поток: учимся генерировать и передавать данные с помощью выпрямленного потока». arXiv : 2209.03003 [ cs.LG ].
^ Лю, Цян (29 сентября 2022 г.). «Выпрямленный поток: подход к оптимальной транспортировке, сохраняющий маржинальный запас». arXiv : 2209.14577 [ stat.ML ].
^ Липман, Ярон; Чен, Рикки TQ; Бен-Хаму, Хели; Никель, Максимилиан; Ле, Мэтт (08 февраля 2023 г.), Согласование потоков для генеративного моделирования , arXiv : 2210.02747
^ Альберго, Майкл С.; Ванден-Эйнден, Эрик (09 марта 2023 г.), Построение нормализующих потоков с помощью стохастических интерполянтов , arXiv : 2209.15571
^ Jump up to: Перейти обратно: ^а ^б ^с Эй, Джонатан; Сахария, Читван; Чан, Уильям; Флит, Дэвид Дж.; Норузи, Мохаммед; Салиманс, Тим (01 января 2022 г.). «Модели каскадной диффузии для создания изображений высокой точности» . Журнал исследований машинного обучения . 23 (1): 47:2249–47:2281. arXiv : 2106.15282 . ISSN 1532-4435 .
^ Пиблс, Уильям; Се, Сайнин (март 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748v2 [ cs.CV ].
^ Jump up to: Перейти обратно: ^а ^б Тевет, Гай; Рааб, Сигал; Гордон, Брайан; Шафир, Йонатан; Коэн-Ор, Дэниел; Бермано, Амит Х. (2022). «Модель диффузии движения человека». arXiv : 2209.14916 [ cs.CV ].
^ Чжан, Львмин; Рао, Аньи; Агравала, Маниш (2023). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [ cs.CV ].
^ Лугмайр, Андреас; Данельян, Мартин; Ромеро, Андрес; Ю, Фишер; Тимофте, Раду; Ван Гул, Люк (2022). «RePaint: Inpainting с использованием вероятностных моделей диффузии с шумоподавлением». arXiv : 2201.09865v4 [ cs.CV ].
^ Ван, Синьтао; Се, Лянбинь; Донг, Чао; Шан, Ин (2021). «Real-ESRGAN: обучение слепому сверхразрешению в реальном мире с использованием чистых синтетических данных» (PDF) . Материалы семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV), 2021 г. Международная конференция по компьютерному зрению. стр. 1905–1914. arXiv : 2107.10833 .
^ Лян, Цзинъюнь; Цао, Цзечжан; Сунь, Гуолей; Чжан, Кай; Ван Гул, Люк; Тимофте, Раду (2021). «SwinIR: восстановление изображения с использованием Swin Transformer» (PDF) . Материалы семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV) . Международная конференция по компьютерному зрению, 2021. стр. 1833–1844. arXiv : 2108.10257v1 .
^ Никол, Алекс; Дхаривал, Прафулла; Рамеш, Адитья; Шьям, Пранав; Мишкин, Памела; МакГрю, Боб; Суцкевер, Илья; Чен, Марк (08 марта 2022 г.). «GLIDE: к созданию и редактированию фотореалистичных изображений с помощью моделей диффузии, управляемых текстом». arXiv : 2112.10741 [ cs.CV ].
^ Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (12 апреля 2022 г.). «Иерархическая генерация условных текстовых изображений с помощью CLIP Latents». arXiv : 2204.06125 [ cs.CV ].
^ Аламмар, Джей. «Иллюстрированная стабильная диффузия» . jalammar.github.io . Проверено 31 октября 2022 г.
^ Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (05 марта 2024 г.), Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения , arXiv : 2403.03206
^ «Imagen: модели распространения текста в изображение» . imagen.research.google . Проверено 4 апреля 2024 г.
^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили Л.; Гасемипур, Камьяр; Гонтихо Лопес, Рафаэль; Карагол Аян, Бурджу; Салиманс, Тим; Эй, Джонатан; Флит, Дэвид Дж.; Норузи, Мохаммед (6 декабря 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка» . Достижения в области нейронных систем обработки информации . 35 : 36479–36494. arXiv : 2205.11487 .
^ «Imagen 2 — наша самая передовая технология преобразования текста в изображение» . Гугл ДипМайнд . Проверено 4 апреля 2024 г.
^ «Вео» . Гугл ДипМайнд . 14 мая 2024 г. Проверено 17 мая 2024 г.

[chang23design-1] Чанг, Цзыи; Кулиерис, Джордж Алекс; Шум, Хьюберт П.Х. (2023). «Об основах проектирования диффузионных моделей: обзор». arXiv : 2306.04542 [ cs.LG ].

[song-2] Jump up to: Перейти обратно: ^а ^б Сун, Ян; Золь-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абхишек; Эрмон, Стефано; Пул, Бен (10 февраля 2021 г.). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [ cs.LG ].

[gu-3] Гу, Шуян, Бао, Цзяньминь; Вэнь, Чжан, Бо; Чен, Юань, Лу; «Векторная квантовая диффузионная модель для синтеза текста в изображение» . : 2111.14822 [ cs.CV ].

[dalle2-4] Jump up to: Перейти обратно: ^а ^б GLIDE , OpenAI, 22 сентября 2023 г. , получено 24 сентября 2023 г.

[5] Ли, Ифань; Чжоу, Кун; Чжао, Уэйн Синь; Вэнь, Цзи-Ронг (август 2023 г.). «Модели диффузии для неавторегрессионной генерации текста: обзор» . Материалы тридцать второй международной совместной конференции по искусственному интеллекту . Калифорния: Международные совместные конференции по организации искусственного интеллекта. стр. 6692–6701. arXiv : 2303.06574 . дои : 10.24963/ijcai.2023/750 . ISBN 978-1-956792-03-4 .

[6] Хан, Сяочуан; Кумар, Сачин; Цветков, Юлия (2023). «SSD-LM: полуавторегрессионная симплексная языковая модель диффузии для генерации текста и модульного управления» . Материалы 61-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 11575–11596. arXiv : 2210.17432 . doi : 10.18653/v1/2023.acl-long.647 .

[7] Сюй, Вэйцзе; Ху, Вэньсян; Ву, Фанью; Сенгамеду, Шринивасан (2023 г.). «DeTiME: Тематическое моделирование с расширенной диффузией с использованием LLM на основе кодировщика-декодера» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606 .

[8] Чжан, Хаопэн; Лю, Сяо; Чжан, Цзявэй (2023). «DiffuSum: экстракционное суммирование с расширенным поколением с помощью диффузии» . Выводы Ассоциации компьютерной лингвистики: ACL 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 13089–13100. arXiv : 2305.01735 . doi : 10.18653/v1/2023.findings-acl.828 .

[ho-9] Jump up to: Перейти обратно: ^а ^б Эй, Джонатан; Джайн, Аджай; Аббель, Питер (2020). «Вероятностные модели диффузии с шумоподавлением» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 6840–6851.

[10] Кроитору, Флоринель-Алин; Хондру, Влад; Ионеску, Раду Тудор; Шах, Мубарак (2023). «Модели диффузии в зрении: обзор». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 45 (9): 10850–10869. arXiv : 2209.04747 . дои : 10.1109/TPAMI.2023.3261988 . ПМИД 37030794 . S2CID 252199918 .

[11] Золь-Дикштейн, Яша; Вайс, Эрик; Махешваранатан, Ниру; Гангули, Сурья (01 июня 2015 г.). «Глубокое обучение без учителя с использованием неравновесной термодинамики» (PDF) . Материалы 32-й Международной конференции по машинному обучению . 37 . ПМЛР: 2256–2265.

[12] Вен, Лилиан (11 июля 2021 г.). «Что такое диффузионные модели?» . lilianweng.github.io . Проверено 24 сентября 2023 г.

[13] «Генераторное моделирование путем оценки градиентов распределения данных | Ян Сун» . yang-song.net . Проверено 24 сентября 2023 г.

[:1-14] Сун, Ян; Золь-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абхишек; Эрмон, Стефано; Пул, Бен (10 февраля 2021 г.). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [ cs.LG ].

[15] «Сопоставление срезов оценок: масштабируемый подход к плотности и оценке оценок | Ян Сун» . yang-song.net . Проверено 24 сентября 2023 г.

[16] Андерсон, Брайан Д.О. (май 1982 г.). «Модели уравнений диффузии в обратном времени» . Случайные процессы и их приложения . 12 (3): 313–326. дои : 10.1016/0304-4149(82)90051-5 . ISSN 0304-4149 .

[17] Луо, Кальвин (2022). «Понимание моделей диффузии: единая точка зрения». arXiv : 2208.11970v1 [ cs.LG ].

[18] Сун, Цзямин; Мэн, Ченлинь; Эрмон, Стефано (3 октября 2023 г.). «Неявные модели диффузии с шумоподавлением». arXiv : 2010.02502 [ cs.LG ].

[:2-19] Jump up to: Перейти обратно: ^а ^б Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьёрн (13 апреля 2022 г.). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии». arXiv : 2112.10752 [ cs.CV ].

[20] Дхаривал, Прафулла; Никол, Алекс (01 июня 2021 г.). «Модели диффузии превосходят GAN по синтезу изображений». arXiv : 2105.05233 [ cs.LG ].

[21] Эй, Джонатан; Салиманс, Тим (25 июля 2022 г.). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [ cs.LG ].

[22] Ян, Чжилун; Хун, Шэнда; Чжао, Юэ, Вэньтао; Ян, Мин-Сюань (2022). и приложения». arXiv : 2206.00364 [ cs.CV ].

[23] Каррас, Теро; Айттала, Миика; Айла, Тимо; Лайне, Самули (2022). «Выяснение пространства проектирования генеративных моделей, основанных на диффузии». arXiv : 2206.00364v2 [ cs.CV ].

[:0-24] Jump up to: Перейти обратно: ^а ^б ^с ^д Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (07 сентября 2022 г.). «Прямой и быстрый поток: учимся генерировать и передавать данные с помощью выпрямленного потока». arXiv : 2209.03003 [ cs.LG ].

[25] Лю, Цян (29 сентября 2022 г.). «Выпрямленный поток: подход к оптимальной транспортировке, сохраняющий маржинальный запас». arXiv : 2209.14577 [ stat.ML ].

[26] Липман, Ярон; Чен, Рикки TQ; Бен-Хаму, Хели; Никель, Максимилиан; Ле, Мэтт (08 февраля 2023 г.), Согласование потоков для генеративного моделирования , arXiv : 2210.02747

[27] Альберго, Майкл С.; Ванден-Эйнден, Эрик (09 марта 2023 г.), Построение нормализующих потоков с помощью стохастических интерполянтов , arXiv : 2209.15571

[:3-28] Jump up to: Перейти обратно: ^а ^б ^с Эй, Джонатан; Сахария, Читван; Чан, Уильям; Флит, Дэвид Дж.; Норузи, Мохаммед; Салиманс, Тим (01 января 2022 г.). «Модели каскадной диффузии для создания изображений высокой точности» . Журнал исследований машинного обучения . 23 (1): 47:2249–47:2281. arXiv : 2106.15282 . ISSN 1532-4435 .

[29] Пиблс, Уильям; Се, Сайнин (март 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748v2 [ cs.CV ].

[:4-30] Jump up to: Перейти обратно: ^а ^б Тевет, Гай; Рааб, Сигал; Гордон, Брайан; Шафир, Йонатан; Коэн-Ор, Дэниел; Бермано, Амит Х. (2022). «Модель диффузии движения человека». arXiv : 2209.14916 [ cs.CV ].

[31] Чжан, Львмин; Рао, Аньи; Агравала, Маниш (2023). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [ cs.CV ].

[32] Лугмайр, Андреас; Данельян, Мартин; Ромеро, Андрес; Ю, Фишер; Тимофте, Раду; Ван Гул, Люк (2022). «RePaint: Inpainting с использованием вероятностных моделей диффузии с шумоподавлением». arXiv : 2201.09865v4 [ cs.CV ].

[33] Ван, Синьтао; Се, Лянбинь; Донг, Чао; Шан, Ин (2021). «Real-ESRGAN: обучение слепому сверхразрешению в реальном мире с использованием чистых синтетических данных» (PDF) . Материалы семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV), 2021 г. Международная конференция по компьютерному зрению. стр. 1905–1914. arXiv : 2107.10833 .

[34] Лян, Цзинъюнь; Цао, Цзечжан; Сунь, Гуолей; Чжан, Кай; Ван Гул, Люк; Тимофте, Раду (2021). «SwinIR: восстановление изображения с использованием Swin Transformer» (PDF) . Материалы семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV) . Международная конференция по компьютерному зрению, 2021. стр. 1833–1844. arXiv : 2108.10257v1 .

[35] Никол, Алекс; Дхаривал, Прафулла; Рамеш, Адитья; Шьям, Пранав; Мишкин, Памела; МакГрю, Боб; Суцкевер, Илья; Чен, Марк (08 марта 2022 г.). «GLIDE: к созданию и редактированию фотореалистичных изображений с помощью моделей диффузии, управляемых текстом». arXiv : 2112.10741 [ cs.CV ].

[36] Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (12 апреля 2022 г.). «Иерархическая генерация условных текстовых изображений с помощью CLIP Latents». arXiv : 2204.06125 [ cs.CV ].

[:02-37] Аламмар, Джей. «Иллюстрированная стабильная диффузия» . jalammar.github.io . Проверено 31 октября 2022 г.

[:6-38] Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (05 марта 2024 г.), Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения , arXiv : 2403.03206

[39] «Imagen: модели распространения текста в изображение» . imagen.research.google . Проверено 4 апреля 2024 г.

[40] Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили Л.; Гасемипур, Камьяр; Гонтихо Лопес, Рафаэль; Карагол Аян, Бурджу; Салиманс, Тим; Эй, Джонатан; Флит, Дэвид Дж.; Норузи, Мохаммед (6 декабря 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка» . Достижения в области нейронных систем обработки информации . 35 : 36479–36494. arXiv : 2205.11487 .

[41] «Imagen 2 — наша самая передовая технология преобразования текста в изображение» . Гугл ДипМайнд . Проверено 4 апреля 2024 г.

[42] «Вео» . Гугл ДипМайнд . 14 мая 2024 г. Проверено 17 мая 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]