Грандиозное испытание по распознаванию лиц

Грандиозный конкурс по распознаванию лиц ( FRGC ) проводился с мая 2004 по март 2006 года с целью продвижения и развития технологии распознавания лиц . ^[1] База данных FRGC v2, созданная в 2005 году, оказала значительное влияние на развитие 3D-распознавания лиц. ^[2] Хотя с тех пор было создано множество других баз данных лиц, по состоянию на 2022 год FRGC v2 продолжала использоваться как «стандартная справочная база данных для оценки алгоритмов трехмерного распознавания лиц». ^[2]

Обзор

Face Recognition Grand Challenge (FRGC) — это проект, целью которого было продвижение и развитие технологии распознавания лиц для поддержки существующих усилий по распознаванию лиц в правительстве США. Проект длился с мая 2004 г. по март 2006 г. и был открыт для исследователей и разработчиков распознавания лиц в компаниях, научных кругах и исследовательских институтах. FRGC разработала новые методы распознавания лиц и прототипы систем, которые значительно улучшили производительность.

FRGC состоял из задач постепенно усложняющихся, каждая из которых включала набор данных изображений лиц и определенный набор экспериментов. Задачи были разработаны для преодоления одного из препятствий на пути разработки улучшенного распознавания лиц, а именно отсутствия данных.

Существует три основных направления совершенствования алгоритмов распознавания лиц: изображения с высоким разрешением, трехмерное (3D) распознавание лиц и новые методы предварительной обработки. Современные системы распознавания лиц предназначены для работы с относительно небольшими статичными изображениями лиц. В FRGC изображения с высоким разрешением состоят из изображений лица со средним размером 250 пикселей между центрами глаз, что значительно выше, чем 40–60 пикселей в современных изображениях. FRGC стремится способствовать разработке новых алгоритмов, которые используют дополнительную информацию, содержащуюся в изображениях с высоким разрешением.

Алгоритмы трехмерного распознавания лиц идентифицируют лица на основе трехмерной формы лица человека. В отличие от существующих систем распознавания лиц, на которые влияют изменения освещения и позы, 3D-распознавание лиц потенциально может улучшить производительность в этих условиях, поскольку форма лиц остается неизменной.

В последние годы, ^{[ когда? ]} Достижения в области компьютерной графики и компьютерного зрения позволили моделировать освещение и изменения позы в изображениях лиц. Эти достижения привели к разработке новых алгоритмов, которые могут автоматически корректировать освещение и изменения позы перед обработкой через систему распознавания лиц. Аспект предварительной обработки FRGC направлен на измерение влияния этих новых алгоритмов предварительной обработки на производительность распознавания.

Структура Гранд-задачи по распознаванию лиц

FRGC построен вокруг сложных задач, призванных подтолкнуть исследователей к достижению цели производительности FRGC.

В сообществе разработчиков систем распознавания лиц есть три новых аспекта FRGC. Во-первых, обращает на себя внимание размер ФРГК с точки зрения данных. Набор данных FRGC включает 50 000 записей. Во-вторых, сложность FRGC выделяет его среди других. В отличие от предыдущих наборов данных по распознаванию лиц, ориентированных на неподвижные изображения, FRGC включает три режима:

Неподвижные изображения высокого разрешения
3D-изображения
Несколько изображений человека

Третий новый аспект – это инфраструктура. Среда биометрических экспериментов (BEE) обеспечивает инфраструктуру для FRGC. BEE, платформа на основе XML, описывает и документирует вычислительные эксперименты. Он позволяет описывать эксперименты, распространять, записывать необработанные результаты, анализировать, представлять результаты и документировать их в едином формате. Это первый случай, когда вычислительно-экспериментальная среда поддержала сложную задачу в области распознавания лиц или биометрии.

Набор данных FRGC

Распределение данных FRGC состоит из трех частей. Первая часть — это набор данных FRGC. Вторая часть — FRGC BEE. Дистрибутив BEE включает в себя все наборы данных для проведения и оценки шести экспериментов. Третья часть состоит из базовых алгоритмов для экспериментов с 1 по 4. Со всеми тремя компонентами можно проводить эксперименты с 1 по 4, от обработки необработанных изображений до создания рабочих характеристик приемника (ROC).

Данные FRGC включают 50 000 записей, разделенных на разделы обучения и проверки. Раздел обучения предназначен для обучения алгоритмам, а раздел проверки оценивает эффективность подхода в лабораторных условиях. Раздел проверки включает данные 4003 тематических сессий. Субъектный сеанс представляет собой все изображения человека, полученные во время сбора биометрических данных, содержащие четыре контролируемых неподвижных изображения, два неконтролируемых неподвижных изображения и одно трехмерное изображение. Контролируемые изображения были сделаны в студии и демонстрировали полные фронтальные изображения лица при двух условиях освещения и двух выражениях лица (улыбающееся и нейтральное). Неконтролируемые изображения были сделаны в различных условиях освещенности, например, в коридорах, атриумах или на открытом воздухе. Каждый набор неконтролируемых изображений содержит два выражения лица: улыбающееся и нейтральное. Трехмерное изображение было получено в условиях контролируемого освещения и включает в себя как изображения дальности, так и текстуры. 3D-изображения были получены с помощью сенсора Minolta Vivid серии 900/910.

Распределение FRGC состоит из шести экспериментов. В эксперименте 1 галерея содержит одно контролируемое неподвижное изображение человека, а каждый зонд состоит из одного контролируемого неподвижного изображения. Эксперимент 1 служит контрольным экспериментом. Эксперимент 2 изучает влияние использования нескольких неподвижных изображений человека на производительность. В эксперименте 2 каждый биометрический образец состоит из четырех контролируемых изображений человека, полученных в ходе предметного сеанса. Например, галерея состоит из четырех изображений каждого человека, сделанных в рамках одной тематической сессии. Аналогично зонд состоит из четырех изображений человека.

Эксперимент 3 измеряет производительность 3D-распознавания лиц. В эксперименте 3 и галерея, и набор зондов состоят из 3D-изображений человека. Эксперимент 4 оценивает эффективность распознавания с использованием неконтролируемых изображений. В эксперименте 4 галерея содержит одно контролируемое неподвижное изображение, а набор зондов содержит одно неконтролируемое неподвижное изображение.

Эксперименты 5 и 6 сравнивают 3D и 2D изображения. В обоих экспериментах галерея состоит из 3D-изображений. В эксперименте 5 набор датчиков состоит из одного контролируемого неподвижного изображения. В эксперименте 6 набор датчиков содержит одно неконтролируемое неподвижное изображение.

Спонсоры

Ссылки

^ «Большой вызов по распознаванию лиц (FRGC)» . Национальный институт стандартов и технологий . Проверено 13 июня 2024 г.
^ Перейти обратно: ^а ^б Цзин, Япин; Лу, Сюэцюань; Гао, Шан (декабрь 2023 г.). «3D-распознавание лиц: комплексное исследование в 2022 году» . Вычислительные визуальные медиа . 9 (4): 657–685. дои : 10.1007/s41095-022-0317-1 .

В этой статье использованы общедоступные материалы из Грандиозный вызов NIST по распознаванию лиц . Национальный институт стандартов и технологий .

Внешние ссылки

[1] «Большой вызов по распознаванию лиц (FRGC)» . Национальный институт стандартов и технологий . Проверено 13 июня 2024 г.

[:0-2] Перейти обратно: ^а ^б Цзин, Япин; Лу, Сюэцюань; Гао, Шан (декабрь 2023 г.). «3D-распознавание лиц: комплексное исследование в 2022 году» . Вычислительные визуальные медиа . 9 (4): 657–685. дои : 10.1007/s41095-022-0317-1 .

[1]

[2]