Начальный счет
Начальная оценка (IS) — это алгоритм, используемый для оценки качества изображений, созданных с помощью генеративной модели изображения, такой как генеративно-состязательная сеть (GAN). [1] Оценка рассчитывается на основе выходных данных отдельной предварительно обученной модели классификации изображений Inceptionv3, примененной к выборке (обычно около 30 000) изображений, созданных генеративной моделью. Начальный балл максимизируется при выполнении следующих условий:
- Энтропия . распределения меток, предсказанная моделью Inceptionv3 для сгенерированных изображений, сведена к минимуму Другими словами, модель классификации уверенно прогнозирует одну метку для каждого изображения. Интуитивно это соответствует желанию, чтобы генерируемые изображения были «четкими» или «отчетливыми».
- Предсказания модели классификации равномерно распределены по всем возможным меткам. Это соответствует желанию, чтобы выходные данные генеративной модели были «разнообразными». [2]
Оно было несколько заменено соответствующим начальным расстоянием Фреше . [3] В то время как начальная оценка оценивает только распределение сгенерированных изображений, FID сравнивает распределение сгенерированных изображений с распределением набора реальных изображений («основная истина»).
Определение
[ редактировать ]Пусть будет два пространства, пространство образов и пространство меток . Пространство меток конечно.
Позволять быть распределением вероятностей по что мы хотим судить.
Пусть дискриминатор — функция типа где представляет собой набор всех распределений вероятностей на . Для любого изображения и любая метка , позволять быть вероятностью того, что изображение есть этикетка , согласно дискриминатору. Обычно она реализуется как сеть Inception-v3, обученная на ImageNet.
Начальная оценка относительно является Эквивалентные перезаписи включают в себя неотрицательна по неравенству Йенсена .
Псевдокод:
ВХОДНОЙ дискриминатор .
ВХОДНОЙ генератор .
Примеры изображений от генератора.
Вычислить , распределение вероятностей по меткам, зависящим от изображения .
Подведите итоги, чтобы получить , эмпирическая оценка .
Примеры дополнительных изображений из генератора и для каждого вычислите .
Усредните результаты и возьмите их экспоненту.
ВЕРНУТЬ результат.
Интерпретация
[ редактировать ]Более высокий начальный балл интерпретируется как «лучший», поскольку это означает, что представляет собой «четкую и отчетливую» коллекцию изображений.
, где общее количество возможных меток.
если почти для всех Это означает совершенно «неразборчиво». То есть для любого изображения взято из , дискриминатор возвращает точно такие же предсказания меток .
Самый высокий стартовый балл достигается тогда и только тогда, когда оба условия истинны:
- Почти для всех , распределение сосредоточено на одной этикетке. То есть, . То есть каждое изображение, выбранное из точно классифицируется дискриминатором.
- Для каждой этикетки , доля сгенерированных изображений, помеченных как это точно . То есть сгенерированные изображения равномерно распределяются по всем меткам.
Ссылки
[ редактировать ]- ^ Салиманс, Тим; Гудфеллоу, Ян; Заремба, Войцех; Чунг, Вики; Рэдфорд, Алек; Чен, Си; Чен, Си (2016). «Усовершенствованные методы обучения ГАНов» . Достижения в области нейронных систем обработки информации . 29 . Curran Associates, Inc. arXiv : 1606.03498 .
- ^ Фролов Станислав; Хинц, Тобиас; Рауэ, Федерико; Хис, Йорн; Денгель, Андреас (декабрь 2021 г.). «Состязательный синтез текста в изображение: обзор» . Нейронные сети . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . ПМИД 34500257 . S2CID 231698782 .
- ^ Борджи, Али (2022). «Плюсы и минусы мер оценки GAN: Новые разработки» . Компьютерное зрение и понимание изображений . 215 : 103329. arXiv : 2103.09396 . дои : 10.1016/j.cviu.2021.103329 . S2CID 232257836 .