Начальное расстояние Фреше
Начальное расстояние Фреше (FID) — это показатель, используемый для оценки качества изображений, созданных с помощью генеративной модели , такой как генеративно-состязательная сеть (GAN). [ 1 ] В отличие от более раннего начального показателя (IS), который оценивает только распределение сгенерированных изображений, FID сравнивает распределение сгенерированных изображений с распределением набора реальных изображений («основная истина»). [ 1 ] Метрика FID не полностью заменяет метрику IS. Классификаторы, которые достигают наилучшего (самого низкого) показателя FID, как правило, имеют большее разнообразие выборок, в то время как классификаторы, достигающие лучшего (самого высокого) показателя IS, как правило, имеют лучшее качество отдельных изображений. [ 2 ]
Метрика FID была введена в 2017 году. [ 1 ] и является текущим стандартным показателем для оценки качества моделей, генерирующих синтетические изображения, по состоянию на 2024 год. Он использовался для измерения качества многих последних моделей, включая StyleGAN1 с высоким разрешением. [ 3 ] и СтильГАН2 [ 4 ] без классификаторов сети и модель диффузии . [ 2 ]
Определение
[ редактировать ]Для любых двух распределений вероятностей над имея конечное среднее значение и дисперсию, их расстояние Фреше равно [ 5 ] где представляет собой совокупность всех мер по с маргиналами и по первому и второму фактору соответственно. (Набор также называется множеством связей всех и .). Другими словами, это 2-расстояние Вассерштейна на .
Для двух многомерных гауссовских распределений и , оно явно разрешимо как [ 6 ] Это позволяет нам определить FID в форме псевдокода :
ВВЕДИТЕ функцию .
ВВЕДИТЕ два набора данных .
Вычислить .
Подогнать два гауссовых распределения соответственно для .
ВОЗВРАЩАТЬСЯ .
В большинстве практических применений FID пространство образов, а — это модель Inception v3 , обученная на ImageNet , но без финального уровня классификации. Технически это 2048-мерный вектор активации последнего объединяющего слоя. Из двух наборов данных один из них представляет собой эталонный набор данных, которым может быть сама ImageNet, а другой — набор изображений, сгенерированных генеративной моделью , такой как GAN , или диффузионной моделью . [ 1 ]
Интерпретация
[ редактировать ]Вместо того, чтобы напрямую сравнивать изображения попиксельно (например, как это делается с помощью нормы L2 ), FID сравнивает среднее и стандартное отклонение самого глубокого слоя в Inception v3. Эти слои находятся ближе к выходным узлам, которые соответствуют объектам реального мира, таким как конкретная порода собак или самолет, и дальше от неглубоких слоев рядом с входным изображением.
Варианты
[ редактировать ]Специализированные варианты FID были предложены в качестве показателя оценки для алгоритмов улучшения музыки, такие как Fréchet Audio Distance (FAD) , [ 7 ] для генеративных моделей видео, таких как Fréchet Video Distance (FVD) , [ 8 ] [ ненадежный источник? ] а для молекул, созданных искусственным интеллектом, как расстояние Fréchet ChemNet (FCD) . [ 9 ]
Ограничения
[ редактировать ]Чонг и Форсайт [ 10 ] показали, что FID статистически предвзяты в том смысле, что их ожидаемое значение для конечных данных не является их истинным значением. Кроме того, поскольку FID измерял расстояние Вассерштейна по отношению к основному истинному распределению, оно недостаточно для оценки качества генераторов в установках адаптации предметной области или при генерации с нулевым выстрелом. Наконец, хотя FID больше соответствует человеческому суждению, чем использовавшаяся ранее начальная оценка, бывают случаи, когда FID не соответствует суждениям человека (например, рис. 3,5 в Liu et al.). [ 11 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д Хойзель, Мартин; Рамзауэр, Хуберт; Унтертинер, Томас; Несслер, Бернхард; Хохрайтер, Зепп (2017). «GAN, обученные по правилу обновления в двух временных масштабах, сходятся к локальному равновесию Нэша» . Достижения в области нейронных систем обработки информации . 30 . arXiv : 1706.08500 .
- ^ Jump up to: а б Эй, Джонатан; Салиманс, Тим (2022). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [ cs.LG ].
- ^ Каррас, Теро; Лайне, Самули; Айла, Тимо (2020). «Архитектура генератора на основе стилей для генеративно-состязательных сетей». Транзакции IEEE по анализу шаблонов и машинному интеллекту . ПП (12): 4217–4228. arXiv : 1812.04948 . дои : 10.1109/TPAMI.2020.2970919 . ПМИД 32012000 . S2CID 211022860 .
- ^ Каррас, Теро; Лайне, Самули; Айттала, Миика; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (23 марта 2020 г.). «Анализ и улучшение качества изображения StyleGAN». arXiv : 1912.04958 [ cs.CV ].
- ^ Фреше., М (1957). «О расстоянии двух законов вероятности». ЧР акад. наук. Париж . 244 :689–692.
- ^ Доусон, округ Колумбия; Ландау, Б.В. (1 сентября 1982 г.). «Расстояние Фреше между многомерными нормальными распределениями» . Журнал многомерного анализа . 12 (3): 450–455. дои : 10.1016/0047-259X(82)90077-X . ISSN 0047-259X .
- ^ Килгур, Кевин; Сулуага, Маурисио; Роблек, Доминик; Шарифи, Мэтью (15 сентября 2019 г.). «Расстояние звука по Фреше: безреференцивная метрика для оценки алгоритмов улучшения музыки». Интерспич 2019 : 2350–2354. doi : 10.21437/Interspeech.2019-2219 . S2CID 202725406 .
- ^ Унтертинер, Томас; Стенкисте, Сьерд ван; Курач, Кароль; Маринер, Рафаэль; Михальский, Марцин; Гелли, Сильвен (27 марта 2019 г.). «FVD: новая метрика для создания видео» . Открытый обзор .
- ^ Пройер, Кристина; Ренц, Филип; Унтертинер, Томас; Хохрейтер, Зепп; Кламбауэр, Гюнтер (24 сентября 2018 г.). «Расстояние Fréchet ChemNet: метрика для генеративных моделей молекул при открытии лекарств». Журнал химической информации и моделирования . 58 (9): 1736–1741. arXiv : 1803.09518 . дои : 10.1021/acs.jcim.8b00234 . ПМИД 30118593 . S2CID 51892387 .
- ^ Чонг, Мин Джин; Форсайт, Дэвид (15 июня 2020 г.). «Эффективно объективный FID и начальный показатель и где их найти». arXiv : 1911.07023 [ cs.CV ].
- ^ Чжоу, Цзе (19 июля 2018 Лю, Шаохуэй; Вэй , И ; г. Лу , ) .