Генеративная модель

В статистической классификации два основных подхода называются генеративным подходом и дискриминативным подходом. Эти классификаторы вычисляют разными подходами, отличающимися степенью статистического моделирования . Терминология противоречива, ^[а] , можно выделить три основных типа но, согласно Джебаре (2004) :

Генеративная модель — это статистическая модель совместного распределения вероятностей. $P(X,Y)$ по данной наблюдаемой переменной X и целевой переменной Y ; ^[1] Генеративная модель может использоваться для «генерации» случайных экземпляров ( результатов ) наблюдения x . ^[2]
— Дискриминативная модель это модель условной вероятности. $P(Y\mid X=x)$ цели Y при условии наблюдения x . Его можно использовать для «различения» значения целевой переменной Y с учетом наблюдения x . ^[3]
Классификаторы, рассчитанные без использования вероятностной модели, также называются «дискриминативными».

Различие между этими двумя последними классами проводится не всегда; ^[4] Джебара (2004) называет эти три класса генеративным обучением , условным обучением и различительным обучением , но Нг и Джордан (2002) различают только два класса, называя их генеративными классификаторами (совместное распределение) и дискриминативными классификаторами (условное распределение или отсутствие распределения). , не делая различия между двумя последними классами. ^[5] Аналогично, классификатор, основанный на генеративной модели, является генеративным классификатором , а классификатор, основанный на дискриминационной модели, — дискриминативным классификатором , хотя этот термин также относится к классификаторам, не основанным на модели.

Стандартные примеры каждого из них, все из которых являются линейными классификаторами :

генеративные классификаторы:
- наивный классификатор Байеса и
- линейный дискриминантный анализ
дискриминационная модель:
- логистическая регрессия

Применительно к классификации требуется перейти от наблюдения x к метке y (или распределению вероятностей по меткам). Это можно вычислить напрямую, без использования распределения вероятностей ( классификатор без распределения ); можно оценить вероятность метки с учетом наблюдения, $P(Y|X=x)$ ( дискриминационная модель ) и базовая классификация на ее основе; или можно оценить совместное распределение $P(X,Y)$ ( генеративная модель ), на основе которой вычисляется условная вероятность $P(Y|X=x)$ , а затем основывать классификацию на этом. Они становятся все более косвенными, но все более вероятностными, что позволяет больше предметных знаний применять и теории вероятностей. На практике используются разные подходы, в зависимости от конкретной проблемы, а гибриды могут сочетать в себе сильные стороны нескольких подходов.

Определение [ править ]

Альтернативное разделение определяет их симметрично как:

генеративная модель — это модель условной вероятности наблюдаемой X при заданной цели y , символически, $P(X\mid Y=y)$ ^[2]
дискриминационная модель — это модель условной вероятности цели Y при условии наблюдения x , символически, $P(Y\mid X=x)$ ^[3]

Независимо от точного определения, терминология является конституционной, поскольку генеративная модель может использоваться для «генерации» случайных случаев ( результатов ) как наблюдения, так и целевых показателей. $(x,y)$ или наблюдения x с заданным целевым значением y , ^[2] в то время как дискриминативная модель или дискриминативный классификатор (без модели) могут использоваться для «различения» значения целевой переменной Y с учетом наблюдения x . ^[3] Разница между « различать » (различать) и « классифицировать » тонкая, и они не различаются последовательно. (Термин «дискриминационный классификатор» становится плеоназмом , когда «дискриминация» эквивалентна «классификации».)

Термин «генеративная модель» также используется для описания моделей, которые генерируют экземпляры выходных переменных таким образом, который не имеет четкой связи с распределениями вероятностей по потенциальным выборкам входных переменных. Генеративно-состязательные сети являются примерами этого класса генеративных моделей и оцениваются в первую очередь по сходству конкретных результатов с потенциальными входами. Такие модели не являются классификаторами.

Отношения между моделями [ править ]

Применительно к классификации наблюдаемая X часто является непрерывной переменной , целевая Y обычно представляет собой дискретную переменную, состоящую из конечного набора меток, а условная вероятность $P(Y\mid X)$ также можно интерпретировать как (недетерминированную) целевую функцию $f\colon X\to Y$ , рассматривая X как входы и Y как выходы.

Учитывая конечный набор меток, два определения «генеративной модели» тесно связаны. Модель условного распределения $P(X\mid Y=y)$ — это модель распределения каждой метки, а модель совместного распределения эквивалентна модели распределения значений меток $P(Y)$ , вместе с распределением наблюдений с меткой, $P(X\mid Y)$ ; символически, $P(X,Y)=P(X\mid Y)P(Y).$ Таким образом, хотя модель совместного распределения вероятностей более информативна, чем модель распределения меток (но без их относительных частот), это относительно небольшой шаг, поэтому они не всегда различаются.

Учитывая модель совместного распределения, $P(X,Y)$ , распределение отдельных переменных можно вычислить как маргинальные распределения $P(X)=\sum _{y}P(X,Y=y)$ и $P(Y)=\int _{x}P(Y,X=x)$ (считая X непрерывным, следовательно, интегрируя по нему, и Y как дискретным, следовательно, суммируя по нему), и любое условное распределение можно вычислить из определения условной вероятности : $P(X\mid Y)=P(X,Y)/P(Y)$ и $P(Y\mid X)=P(X,Y)/P(X)$ .

Учитывая модель одной условной вероятности и предполагаемые распределения вероятностей для переменных X и Y , обозначим $P(X)$ и $P(Y)$ , можно оценить противоположную условную вероятность, используя правило Байеса :

P(X\mid Y)P(Y)=P(Y\mid X)P(X).

Например, учитывая генеративную модель для $P(X\mid Y)$ , можно оценить:

P(Y\mid X)=P(X\mid Y)P(Y)/P(X),

и дана дискриминационная модель для $P(Y\mid X)$ , можно оценить:

P(X\mid Y)=P(Y\mid X)P(X)/P(Y).

Обратите внимание, что правило Байеса (вычисление одной условной вероятности через другую) и определение условной вероятности (вычисление условной вероятности через совместное распределение) также часто путают.

с дискриминативными Контраст классификаторами

Генеративный алгоритм моделирует способ генерации данных, чтобы классифицировать сигнал. Он задает вопрос: исходя из моих предположений о генерации, какая категория с наибольшей вероятностью будет генерировать этот сигнал? Дискриминационный алгоритм не заботится о том, как были сгенерированы данные, он просто классифицирует данный сигнал. Итак, дискриминационные алгоритмы пытаются изучить $p(y|x)$ непосредственно из данных, а затем попытаться классифицировать данные. С другой стороны, генеративные алгоритмы пытаются изучить $p(x,y)$ который можно превратить в $p(y|x)$ позже классифицировать данные. Одним из преимуществ генеративных алгоритмов является то, что вы можете использовать $p(x,y)$ генерировать новые данные, аналогичные существующим данным. С другой стороны, было доказано, что некоторые дискриминационные алгоритмы дают лучшую производительность, чем некоторые генеративные алгоритмы в задачах классификации. ^[6]

Несмотря на то, что дискриминационные модели не должны моделировать распределение наблюдаемых переменных, они, как правило, не могут выражать сложные взаимосвязи между наблюдаемыми и целевыми переменными. Но в целом они не обязательно работают лучше, чем генеративные модели, при решении задач классификации и регрессии . Эти два класса рассматриваются как взаимодополняющие друг друга или как разные взгляды на одну и ту же процедуру. ^[7]

Глубокие генеративные модели [ править ]

С развитием глубокого обучения появилось новое семейство методов, называемое глубокими генеративными моделями (DGM). ^[8]^[9] формируется за счет сочетания генеративных моделей и глубоких нейронных сетей. Увеличение масштаба нейронных сетей обычно сопровождается увеличением масштаба обучающих данных, оба из которых необходимы для хорошей производительности. ^[10]

Популярные DGM включают вариационные автоэнкодеры (VAE), генеративно-состязательные сети (GAN) и авторегрессионные модели. В последнее время наблюдается тенденция к построению очень больших глубоких генеративных моделей. ^[8] Например, GPT-3 и его предшественник GPT-2 . ^[11] — это авторегрессионные модели нейронного языка, содержащие миллиарды параметров, BigGAN ^[12] и VQ-VAE ^[13] которые используются для генерации изображений, которые могут иметь сотни миллионов параметров, а Jukebox — это очень большая генеративная модель музыкального звука, содержащая миллиарды параметров. ^[14]

Типы [ править ]

Генеративные модели [ править ]

Типы генеративных моделей:

Если наблюдаемые данные действительно выбираются из генеративной модели, то подгонка параметров генеративной модели для максимизации правдоподобия данных является распространенным методом. Однако, поскольку большинство статистических моделей являются лишь приближениями к истинному распределению, если применение модели состоит в том, чтобы сделать вывод о подмножестве переменных, зависящем от известных значений других, то можно утверждать, что это приближение делает больше предположений, чем необходимо для решения задачи. проблема под рукой. В таких случаях может быть более точным моделировать функции условной плотности непосредственно с использованием дискриминационной модели (см. ниже), хотя детали конкретного приложения в конечном итоге будут определять, какой подход наиболее подходит в каждом конкретном случае.

Дискриминационные модели [ править ]

Примеры [ править ]

Простой пример [ править ]

Предположим, что входные данные $x\in \{1,2\}$ , набор меток для $x$ является $y\in \{0,1\}$ , и есть следующие 4 точки данных: $(x,y)=\{(1,0),(1,1),(2,0),(2,1)\}$

Для приведенных выше данных оценка совместного распределения вероятностей $p(x,y)$ с эмпирической точки зрения будет следующим:

	$y=0$	$y=1$
$x=1$	$1/4$	$1/4$
$x=2$	$2/4$	$0$

пока $p(y|x)$ будет следующее:

	$y=0$	$y=1$
$x=1$	$1/2$	$1/2$
$x=2$	$1$	$0$

Генерация текста [ править ]

Шеннон (1948) приводит пример, в котором таблица частот пар английских слов используется для создания предложения, начинающегося со слов «представление и быстрота — это хорошо»; это не настоящий английский язык, но который будет все больше приближаться к нему по мере того, как таблица перемещается от пар слов к тройкам слов и т. д.

См. также [ править ]

Примечания [ править ]

^ Три ведущих источника, Ng & Jordan 2002 , Jebara 2004 и Mitchell 2015 , дают разные подразделения и определения.

Ссылки [ править ]

^ Нг и Джордан (2002) : «Генеративные классификаторы изучают модель совместной вероятности, $p(x,y)$ , входных данных x и метки y и делают прогнозы, используя правила Байеса для вычисления $p(y\mid x)$ , а затем выбираем наиболее вероятную метку y .
^ Jump up to: ^а ^б ^с Митчелл 2015 : «Мы можем использовать правило Байеса в качестве основы для разработки алгоритмов обучения (аппроксиматоров функций) следующим образом: Учитывая, что мы хотим изучить некоторую целевую функцию $f\colon X\to Y$ или, что то же самое, $P(Y\mid X)$ , мы используем данные обучения, чтобы узнать оценки $P(X\mid Y)$ и $P(Y)$ . Затем новые примеры X можно классифицировать с использованием этих предполагаемых распределений вероятностей, а также правила Байеса. Этот тип классификатора называется генеративным классификатором, потому что мы можем просмотреть распределение $P(X\mid Y)$ как описание того, как генерировать случайные экземпляры X, целевым атрибутом Y. обусловленные
^ Jump up to: ^а ^б ^с Митчелл 2015 : «Логистическая регрессия — это алгоритм аппроксимации функции, который использует обучающие данные для непосредственной оценки $P(Y\mid X)$ , в отличие от Наивного Байеса. В этом смысле логистическую регрессию часто называют дискриминативным классификатором, поскольку мы можем просматривать распределение $P(Y\mid X)$ как прямое распознавание значения целевого значения Y для любого данного экземпляра X
^ Джебара 2004 , 2.4 Дискриминационное обучение: «Это различие между условным обучением и различительным обучением в настоящее время не является устоявшимся соглашением в этой области».
^ Нг и Джордан 2002 : «Дискриминационные классификаторы моделируют заднюю часть $p(y|x)$ напрямую или изучите прямую карту входных данных x с метками классов».
^ Нг и Джордан, 2002 г.
^ Бишоп, КМ; Лассер, Дж. (24 сентября 2007 г.), «Генеративный или дискриминационный? Получение лучшего из обоих миров», Бернардо, Дж. М. (редактор), Байесовская статистика 8: материалы восьмой Валенсийской международной встречи, 2–6 июня 2006 г. , Oxford University Press, стр. 3–23, ISBN. 978-0-19-921465-5
^ Jump up to: ^а ^б «Расширение масштабов — исследователи продвигают крупномасштабные глубокие генеративные модели» . Майкрософт . 9 апреля 2020 г.
^ «Генеративная модель» . ОпенАИ . 16 июня 2016 г.
^ Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». arXiv : 2001.08361 [ stat.ML ].
^ «Лучшие языковые модели и их последствия» . ОпенАИ . 14 февраля 2019 г.
^ Брок, Эндрю; Донахью, Джефф; Симонян, Карен (2018). «Крупномасштабное обучение GAN для высокоточного синтеза естественных изображений». arXiv : 1809.11096 [ cs.LG ].
^ Разави, Али; ван ден Оорд, Аарон; Виньялс, Ориол (2019). «Создание разнообразных изображений высокой четкости с помощью VQ-VAE-2». arXiv : 1906.00446 [ cs.LG ].
^ «Музыкальный автомат» . ОпенАИ . 30 апреля 2020 г.

Внешние ссылки [ править ]

Шеннон, CE (1948). «Математическая теория связи» (PDF) . Технический журнал Bell System . 27 (июль, октябрь): 379–423, 623–656. дои : 10.1002/j.1538-7305.1948.tb01338.x . hdl : 10338.dmlcz/101429 . Архивировано из оригинала (PDF) 6 июня 2016 г. Проверено 9 января 2016 г.
Митчелл, Том М. (2015). «3. Генеративные и дискриминативные классификаторы: наивный Байес и логистическая регрессия» (PDF) . Машинное обучение .
Нг, Эндрю Ю .; Джордан, Майкл И. (2002). «Дискриминативные и генеративные классификаторы: сравнение логистической регрессии и наивного Байеса» (PDF) . Достижения в области нейронных систем обработки информации .
Джебара, Тони (2004). Машинное обучение: дискриминативное и генеративное . Международная серия Springer по инженерным наукам и информатике. Клювер Академик (Спрингер). ISBN 978-1-4020-7647-3 .
Джебара, Тони (2002). Дискриминативное, генеративное и имитационное обучение (доктор философии). Массачусетский технологический институт . hdl : 1721.1/8323 . , ( зеркало , зеркало ), опубликовано в виде книги (вверху)

[1] Три ведущих источника, Ng & Jordan 2002 , Jebara 2004 и Mitchell 2015 , дают разные подразделения и определения.

[ngjordan2002generative-2] Нг и Джордан (2002) : «Генеративные классификаторы изучают модель совместной вероятности, $p(x,y)$ , входных данных x и метки y и делают прогнозы, используя правила Байеса для вычисления $p(y\mid x)$ , а затем выбираем наиболее вероятную метку y .

[mitchell2015generative-3] Jump up to: ^а ^б ^с Митчелл 2015 : «Мы можем использовать правило Байеса в качестве основы для разработки алгоритмов обучения (аппроксиматоров функций) следующим образом: Учитывая, что мы хотим изучить некоторую целевую функцию $f\colon X\to Y$ или, что то же самое, $P(Y\mid X)$ , мы используем данные обучения, чтобы узнать оценки $P(X\mid Y)$ и $P(Y)$ . Затем новые примеры X можно классифицировать с использованием этих предполагаемых распределений вероятностей, а также правила Байеса. Этот тип классификатора называется генеративным классификатором, потому что мы можем просмотреть распределение $P(X\mid Y)$ как описание того, как генерировать случайные экземпляры X, целевым атрибутом Y. обусловленные

[mitchell2015discriminative-4] Jump up to: ^а ^б ^с Митчелл 2015 : «Логистическая регрессия — это алгоритм аппроксимации функции, который использует обучающие данные для непосредственной оценки $P(Y\mid X)$ , в отличие от Наивного Байеса. В этом смысле логистическую регрессию часто называют дискриминативным классификатором, поскольку мы можем просматривать распределение $P(Y\mid X)$ как прямое распознавание значения целевого значения Y для любого данного экземпляра X

[5] Джебара 2004 , 2.4 Дискриминационное обучение: «Это различие между условным обучением и различительным обучением в настоящее время не является устоявшимся соглашением в этой области».

[6] Нг и Джордан 2002 : «Дискриминационные классификаторы моделируют заднюю часть $p(y|x)$ напрямую или изучите прямую карту входных данных x с метками классов».

[7] Нг и Джордан, 2002 г.

[8] Бишоп, КМ; Лассер, Дж. (24 сентября 2007 г.), «Генеративный или дискриминационный? Получение лучшего из обоих миров», Бернардо, Дж. М. (редактор), Байесовская статистика 8: материалы восьмой Валенсийской международной встречи, 2–6 июня 2006 г. , Oxford University Press, стр. 3–23, ISBN. 978-0-19-921465-5

[auto1-9] Jump up to: ^а ^б «Расширение масштабов — исследователи продвигают крупномасштабные глубокие генеративные модели» . Майкрософт . 9 апреля 2020 г.

[auto-10] «Генеративная модель» . ОпенАИ . 16 июня 2016 г.

[11] Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». arXiv : 2001.08361 [ stat.ML ].

[12] «Лучшие языковые модели и их последствия» . ОпенАИ . 14 февраля 2019 г.

[13] Брок, Эндрю; Донахью, Джефф; Симонян, Карен (2018). «Крупномасштабное обучение GAN для высокоточного синтеза естественных изображений». arXiv : 1809.11096 [ cs.LG ].

[14] Разави, Али; ван ден Оорд, Аарон; Виньялс, Ориол (2019). «Создание разнообразных изображений высокой четкости с помощью VQ-VAE-2». arXiv : 1906.00446 [ cs.LG ].

[15] «Музыкальный автомат» . ОпенАИ . 30 апреля 2020 г.

[а]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]