Jump to content

Начальное расстояние Фреше

Начальное расстояние Фреше (FID) — это показатель, используемый для оценки качества изображений, созданных с помощью генеративной модели , такой как генеративно-состязательная сеть (GAN). [ 1 ] В отличие от более раннего начального показателя (IS), который оценивает только распределение сгенерированных изображений, FID сравнивает распределение сгенерированных изображений с распределением набора реальных изображений («основная истина»). [ 1 ] Метрика FID не полностью заменяет метрику IS. Классификаторы, которые достигают наилучшего (самого низкого) показателя FID, как правило, имеют большее разнообразие выборок, в то время как классификаторы, достигающие лучшего (самого высокого) показателя IS, как правило, имеют лучшее качество отдельных изображений. [ 2 ]

Метрика FID была введена в 2017 году. [ 1 ] и является текущим стандартным показателем для оценки качества моделей, генерирующих синтетические изображения, по состоянию на 2024 год. Он использовался для измерения качества многих последних моделей, включая StyleGAN1 с высоким разрешением. [ 3 ] и СтильГАН2 [ 4 ] без классификаторов сети и модель диффузии . [ 2 ]

Определение

[ редактировать ]

Для любых двух распределений вероятностей над имея конечное среднее значение и дисперсию, их расстояние Фреше равно [ 5 ] где представляет собой совокупность всех мер по с маргиналами и по первому и второму фактору соответственно. (Набор также называется множеством связей всех и .). Другими словами, это 2-расстояние Вассерштейна на .

Для двух многомерных гауссовских распределений и , оно явно разрешимо как [ 6 ] Это позволяет нам определить FID в форме псевдокода :

ВВЕДИТЕ функцию .

ВВЕДИТЕ два набора данных .

Вычислить .

Подогнать два гауссовых распределения соответственно для .

ВОЗВРАЩАТЬСЯ .

В большинстве практических применений FID пространство образов, а — это модель Inception v3 , обученная на ImageNet , но без финального уровня классификации. Технически это 2048-мерный вектор активации последнего объединяющего слоя. Из двух наборов данных один из них представляет собой эталонный набор данных, которым может быть сама ImageNet, а другой — набор изображений, сгенерированных генеративной моделью , такой как GAN , или диффузионной моделью . [ 1 ]

Интерпретация

[ редактировать ]

Вместо того, чтобы напрямую сравнивать изображения попиксельно (например, как это делается с помощью нормы L2 ), FID сравнивает среднее и стандартное отклонение самого глубокого слоя в Inception v3. Эти слои находятся ближе к выходным узлам, которые соответствуют объектам реального мира, таким как конкретная порода собак или самолет, и дальше от неглубоких слоев рядом с входным изображением.

Варианты

[ редактировать ]

Специализированные варианты FID были предложены в качестве показателя оценки для алгоритмов улучшения музыки, такие как Fréchet Audio Distance (FAD) , [ 7 ] для генеративных моделей видео, таких как Fréchet Video Distance (FVD) , [ 8 ] [ ненадежный источник? ] а для молекул, созданных искусственным интеллектом, как расстояние Fréchet ChemNet (FCD) . [ 9 ]

Ограничения

[ редактировать ]

Чонг и Форсайт [ 10 ] показали, что FID статистически предвзяты в том смысле, что их ожидаемое значение для конечных данных не является их истинным значением. Кроме того, поскольку FID измерял расстояние Вассерштейна по отношению к основному истинному распределению, оно недостаточно для оценки качества генераторов в установках адаптации предметной области или при генерации с нулевым выстрелом. Наконец, хотя FID больше соответствует человеческому суждению, чем использовавшаяся ранее начальная оценка, бывают случаи, когда FID не соответствует суждениям человека (например, рис. 3,5 в Liu et al.). [ 11 ]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д Хойзель, Мартин; Рамзауэр, Хуберт; Унтертинер, Томас; Несслер, Бернхард; Хохрайтер, Зепп (2017). «GAN, обученные по правилу обновления в двух временных масштабах, сходятся к локальному равновесию Нэша» . Достижения в области нейронных систем обработки информации . 30 . arXiv : 1706.08500 .
  2. ^ Jump up to: а б Эй, Джонатан; Салиманс, Тим (2022). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [ cs.LG ].
  3. ^ Каррас, Теро; Лайне, Самули; Айла, Тимо (2020). «Архитектура генератора на основе стилей для генеративно-состязательных сетей». Транзакции IEEE по анализу шаблонов и машинному интеллекту . ПП (12): 4217–4228. arXiv : 1812.04948 . дои : 10.1109/TPAMI.2020.2970919 . ПМИД   32012000 . S2CID   211022860 .
  4. ^ Каррас, Теро; Лайне, Самули; Айттала, Миика; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (23 марта 2020 г.). «Анализ и улучшение качества изображения StyleGAN». arXiv : 1912.04958 [ cs.CV ].
  5. ^ Фреше., М (1957). «О расстоянии двух законов вероятности». ЧР акад. наук. Париж . 244 :689–692.
  6. ^ Доусон, округ Колумбия; Ландау, Б.В. (1 сентября 1982 г.). «Расстояние Фреше между многомерными нормальными распределениями» . Журнал многомерного анализа . 12 (3): 450–455. дои : 10.1016/0047-259X(82)90077-X . ISSN   0047-259X .
  7. ^ Килгур, Кевин; Сулуага, Маурисио; Роблек, Доминик; Шарифи, Мэтью (15 сентября 2019 г.). «Расстояние звука по Фреше: безреференцивная метрика для оценки алгоритмов улучшения музыки». Интерспич 2019 : 2350–2354. doi : 10.21437/Interspeech.2019-2219 . S2CID   202725406 .
  8. ^ Унтертинер, Томас; Стенкисте, Сьерд ван; Курач, Кароль; Маринер, Рафаэль; Михальский, Марцин; Гелли, Сильвен (27 марта 2019 г.). «FVD: новая метрика для создания видео» . Открытый обзор .
  9. ^ Пройер, Кристина; Ренц, Филип; Унтертинер, Томас; Хохрейтер, Зепп; Кламбауэр, Гюнтер (24 сентября 2018 г.). «Расстояние Fréchet ChemNet: метрика для генеративных моделей молекул при открытии лекарств». Журнал химической информации и моделирования . 58 (9): 1736–1741. arXiv : 1803.09518 . дои : 10.1021/acs.jcim.8b00234 . ПМИД   30118593 . S2CID   51892387 .
  10. ^ Чонг, Мин Джин; Форсайт, Дэвид (15 июня 2020 г.). «Эффективно объективный FID и начальный показатель и где их найти». arXiv : 1911.07023 [ cs.CV ].
  11. ^ Чжоу, Цзе (19 июля 2018 Лю, Шаохуэй; Вэй , И ; г. Лу , ) .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4aa00702c3c227eb21dc32e724f07ed9__1722424380
URL1:https://arc.ask3.ru/arc/aa/4a/d9/4aa00702c3c227eb21dc32e724f07ed9.html
Заголовок, (Title) документа по адресу, URL1:
Fréchet inception distance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)