Список наборов данных в области компьютерного зрения и обработки изображений

Это список наборов данных для исследований в области машинного обучения. Он входит в список наборов данных для исследований в области машинного обучения . Эти наборы данных состоят в основном из изображений или видео для таких задач, как обнаружение объектов , распознавание лиц и классификация по нескольким меткам .

Обнаружение и распознавание объектов

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Ego 4D	Масштабный, эгоцентричный набор данных и набор тестов, собранный в 74 точках мира и 9 странах, с более чем 3670 часами видео о повседневной жизни.	Ограничительные рамки объектов, транскрипция, маркировка.	3670 видеочасов	видео, аудио, транскрипции	Мультимодальная задача от первого лица	2022	^[1]	К. Грауман и др.
Визуальный геном	Изображения и их описание		108,000	изображения, текст	Подпись к изображению	2016	^[2]	Р. Кришна и др.
Набор данных трехмерных объектов Беркли	849 изображений, снятых в 75 различных сценах. Маркировано около 50 различных классов объектов.	Ограничительные рамки и маркировка объектов.	849	маркированные изображения, текст	Распознавание объектов	2014	^[3]^[4]	А. Джанох и др.
Набор данных и контрольные показатели сегментации Беркли 500 (BSDS500)	500 естественных изображений, явно разделенных на непересекающиеся подмножества поездов, проверки и тестирования + код для сравнительного анализа. На основе BSDS300.	Каждое изображение сегментировано в среднем пятью разными объектами.	500	Сегментированные изображения	Обнаружение контуров и иерархическая сегментация изображений	2011	^[5]	Калифорнийский университет, Беркли
Общие объекты Microsoft в контексте (COCO)	сложные бытовые сцены обычных предметов в их естественном контексте.	Выделение объектов, маркировка и классификация по 91 типу объектов.	2,500,000	Маркированные изображения, текст	Распознавание объектов	2015	^[6]^[7]^[8]	Т. Лин и др.
База данных САН	Очень большая база данных распознавания сцен и объектов.	Места и предметы отмечены. Объекты сегментированы.	131,067	Изображения, текст	Распознавание объектов, распознавание сцен	2014	^[9]^[10]	Дж. Сяо и др.
ImageNet	База данных изображений помеченных объектов, используемая в проекте ImageNet Large Scale Visual Recognition Challenge.	Маркированные объекты, ограничивающие рамки, описательные слова, функции SIFT	14,197,122	Изображения, текст	Распознавание объектов, распознавание сцен	2009 (2014)	^[11]^[12]^[13]	Дж. Денг и др.
Открыть изображения	Большой набор изображений, имеющих лицензию CC BY 2.0, с метками на уровне изображений и ограничивающими рамками, охватывающими тысячи классов.	Метки на уровне изображения, ограничивающие рамки	9,178,275	Изображения, текст	Классификация, Распознавание объектов	2017 (В7: 2022 г.)	^[14]
Набор данных для обнаружения коммерческих телеканалов новостных каналов	Телевизионные рекламные ролики и выпуски новостей.	Аудио и видео функции, извлеченные из неподвижных изображений.	129,685	Текст	Кластеризация, классификация	2015	^[15]^[16]	П. Гуха и др.
Набор данных Statlog (сегментация изображений)	Экземпляры были выбраны случайным образом из базы данных, состоящей из семи изображений уличного освещения, и сегментированы вручную для классификации каждого пикселя.	Многие функции просчитаны.	2310	Текст	Классификация	1990	^[17]	Массачусетский университет
Калтех 101	Изображения предметов.	Детальные контуры объекта отмечены.	9146	Изображения	Классификация, распознавание объектов	2003	^[18]^[19]	Ф. Ли и др.
Калифорнийский технологический институт-256	Большой набор данных изображений для классификации объектов.	Изображения распределены по категориям и отсортированы вручную.	30,607	Изображения, Текст	Классификация, обнаружение объектов	2007	^[20]^[21]	Г. Гриффин и др.
КОЙО-700М	Набор данных «изображение – текстовая пара»	10 миллиардов пар источников альтернативного текста и изображений в HTML-документах в CommonCrawl	746,972,269	Изображения, Текст	Классификация, язык изображений	2022	^[22]
Набор данных SIFT10M	Особенности SIFT набора данных Caltech-256.	Расширенное извлечение функций SIFT.	11,164,866	Текст	Классификация, обнаружение объектов	2016	^[23]	X. Фу и др.
LabelMe	Аннотированные фотографии сцен.	Обрисованы объекты.	187,240	Изображения, текст	Классификация, обнаружение объектов	2005	^[24]	Лаборатория компьютерных наук и искусственного интеллекта MIT
Набор данных PASCAL VOC	Большое количество изображений для задач классификации.	Маркировка, ограничительная рамка в комплекте.	500,000	Изображения, текст	Классификация, обнаружение объектов	2010	^[25]^[26]	М. Эверингем и др.
CIFAR-10 Набор данных	Множество небольших изображений 10 классов объектов с низким разрешением.	Классы помечены, созданы разделения обучающего набора.	60,000	Изображения	Классификация	2009	^[12]^[27]	А. Крижевский и др.
Набор данных CIFAR-100	Как CIFAR-10, описанный выше, но дано 100 классов объектов.	Классы помечены, созданы разделения обучающего набора.	60,000	Изображения	Классификация	2009	^[12]^[27]	А. Крижевский и др.
Набор данных CINIC-10	Единый вклад CIFAR-10 и Imagenet с 10 классами и 3 разделениями. Больше, чем CIFAR-10.	Маркированы классы, созданы обучение, проверка, разделение тестового набора.	270,000	Изображения	Классификация	2018	^[28]	Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки
Мода-МНИСТ	База данных модных товаров, подобная MNIST.	Классы помечены, созданы разделения обучающего набора.	60,000	Изображения	Классификация	2017	^[29]	Заландо ЮВ
неMNIST	Некоторые общедоступные шрифты и извлеченные из них глифы, чтобы создать набор данных, аналогичный MNIST. Всего 10 классов, в которых буквы A–J взяты из разных шрифтов.	Классы помечены, созданы разделения обучающего набора.	500,000	Изображения	Классификация	2011	^[30]	Ярослав Булатов
Набор данных Линней 5	Изображения 5 классов объектов.	Классы помечены, созданы разделения обучающего набора.	8000	Изображения	Классификация	2017	^[31]	Чаладзе и Калатозишвили
11 тысяч рук	11 076 изображений рук (1600 x 1200 пикселей) 190 человек разного возраста от 18 до 75 лет для распознавания пола и биометрической идентификации.	Никто	11 076 изображений рук	Изображения и файлы меток (.mat, .txt и .csv)	Распознавание пола и биометрическая идентификация	2017	^[32]	М Афифи
CORe50	Специально разработанный для непрерывного/пожизненного обучения и распознавания объектов, он представляет собой коллекцию из более чем 500 видеороликов (30 кадров в секунду) с 50 предметами домашнего обихода, относящимися к 10 различным категориям.	Классы помечены, наборы тренировок разделены на основе трехстороннего многопроходного теста.	164 866 изображений RBG-D	изображения (.png или .pkl) и файлы меток (.pkl, .txt, .tsv).	Классификация, Распознавание объектов	2017	^[33]	В. Ломонако и Д. Мальтони
OpenLORIS-Объект	Набор данных Lifelong/Continual Robotic Vision (OpenLORIS-Object), собранный реальными роботами, оснащенными несколькими датчиками высокого разрешения, включает в себя коллекцию из 121 экземпляра объекта (1-я версия набора данных, 40 категорий объектов повседневного спроса в 20 сценах). В наборе данных тщательно учтены 4 фактора окружающей среды в разных сценах, включая освещение, окклюзию, размер пикселей объекта и помехи, и четко определены уровни сложности каждого фактора.	Маркированные классы, разделение наборов обучения/проверки/тестирования, созданное с помощью сценариев тестирования.	1 106 424 изображения RBG-D	изображения (.png и .pkl) и (.pkl) файлы меток	Классификация, распознавание объектов на протяжении всей жизни, роботизированное зрение	2019	^[34]	Вопрос: Она и др.
Набор данных ТГц и теплового видео	Этот набор мультиспектральных данных включает терагерцовое, тепловое, визуальное, ближнее инфракрасное и трехмерное видео объектов, скрытых под одеждой людей.	Предоставляются таблицы поиска 3D, которые позволяют проецировать изображения на облака точек 3D.	Более 20 видео. Продолжительность каждого видео около 85 секунд (около 345 кадров).	AP2J	Эксперименты с обнаружением скрытых предметов	2019	^[35]^[36]	Alexei A. Morozov and Olga S. Sushkova

Обнаружение и распознавание объектов для автономных транспортных средств

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных городских пейзажей	Стереовидеопоследовательности, записанные в уличных сценах, с аннотациями на уровне пикселей. Метаданные также включены.	Сегментация и маркировка на уровне пикселей	25,000	Изображения, текст	Классификация, обнаружение объектов	2016	^[37]	Даймлер АГ и др.
Эталонный набор данных по обнаружению дорожных знаков в Германии	Изображения с транспортных средств дорожных знаков на дорогах Германии. Эти знаки соответствуют стандартам ООН и поэтому такие же, как и в других странах.	Знаки с маркировкой вручную	900	Изображения	Классификация	2013	^[38]^[39]	С. Хубен и др.
Набор данных KITTI Vision Benchmark	Автономные транспортные средства, проезжающие по городу среднего размера, снимали изображения различных территорий с помощью камер и лазерных сканеров.	Многие тесты извлечены из данных.	>100 ГБ данных	Изображения, текст	Классификация, обнаружение объектов	2012	^[40]^[41]^[42]	А. Гейгер и др.
FieldSAFE	Мультимодальный набор данных для обнаружения препятствий в сельском хозяйстве, включая стереокамеру, тепловизионную камеру, веб-камеру, камеру с обзором на 360 градусов, лидар, радар и средства точной локализации.	Классы помечены географически.	>400 ГБ данных	Изображения и 3D-облака точек	Классификация, обнаружение объектов, локализация объектов	2017	^[43]	М. Краг и др.
Набор данных Daimler Monocular для обнаружения пешеходов	Это набор данных о пешеходах в городской среде.	Пешеходы отмечены квадратами.	Маркированная часть содержит 15560 образцов с пешеходами и 6744 образца без них. Тестовый набор содержит 21790 изображений без меток.	Изображения	Распознавание и классификация объектов	2006	^[44]^[45]^[46]	Даймлер АГ
КамВид	Кембриджская база данных маркированных видеозаписей (CamVid) представляет собой коллекцию видеороликов.	Набор данных помечен семантическими метками для 32 семантических классов.	более 700 изображений	Изображения	Распознавание и классификация объектов	2008	^[47]^[48]^[49]	Габриэль Дж. Бростоу, Джейми Шоттон, Жюльен Фокёр, Роберто Чиполла
РейлСем19	RailSem19 — это набор данных для понимания сцен для систем технического зрения на железных дорогах.	Набор данных помечен семантически и по блокам.	8500	Изображения	Распознавание и классификация объектов, распознавание сцен	2019	^[50]^[51]	Оливер Зендел, Маркус Муршиц, Марсель Цайлингер, Дэниэл Штайнингер, Сара Аббаси, Чаба Белезнай
БОРЕЙ	BOREAS — это многосезонный набор данных по автономному вождению. Он включает в себя данные лидара Velodyne Alpha-Prime (128 лучей), камеры FLIR Blackfly S, радара Navtech CIR304-H и Applanix POS LV GNSS-INS.	Данные аннотированы трехмерными ограничивающими рамками.	350 км данных о вождении	Изображения, данные лидара и радара	Распознавание и классификация объектов, распознавание сцен	2023	^[52]^[53]	Кинан Бёрнетт, Дэвид Дж. Юн, Ючен Ву, Эндрю Цзоу Ли, Хаовэй Чжан, Шичен Лу, Цзинсин Цянь, Вэй-Кан Ценг, Эндрю Ламберт, Кит Ю. К. Люнг, Анджела П. Шёллиг , Тимоти Д. Барфут
Набор данных Bosch по малым светофорам	Это набор данных светофоров.	Маркировка включает в себя ограничивающие рамки светофоров вместе с их состоянием (активный свет).	5000 изображений для обучения и видеоряд из 8334 кадров для оценки.	Изображения	Распознавание светофора	2017	^[54]^[55]	Карстен Берендт, Либор Новак, Рами Ботрос
FRSign	Это набор данных французских железнодорожных сигналов.	Маркировка включает в себя ограничивающие рамки железнодорожных сигналов вместе с их состоянием (активный свет).	более 100000	Изображения	Распознавание железнодорожных сигналов	2020	^[56]^[57]	Жанин Арб, Николя Ребена, Рафаэль Шосидов, Грегуар Роблен, Роман Потарусов, Хатем Хаджри
ДЖЕРАЛЬД	Это набор данных немецких железнодорожных сигналов.	Маркировка включает в себя ограничивающие рамки железнодорожных сигналов вместе с их состоянием (активный свет).	5000	Изображения	Распознавание железнодорожных сигналов	2023	^[58]^[59]	Филипп Лейбнер, Фабиан Хэмпель, Кристиан Шиндлер
Многосигнальный пешеход	Набор данных встроенного обнаружения пешеходов с несколькими сигналами — это набор данных для обнаружения пешеходов.	База данных помечена в виде прямоугольника.	1092 пары изображений с 1776 рамками для пешеходов.	Изображения	Распознавание и классификация объектов	2009	^[60]	Кристиан Войек, Стефан Уолк, Бернт Шиле
НЕОБРАБОТАННЫЙ	RAWPED — это набор данных для обнаружения пешеходов на железных дорогах.	Набор данных помечен в виде прямоугольника.	26000	Изображения	Распознавание и классификация объектов	2020	^[61]^[62]	Тугдже Топрак, Бурак Беленлиоглу, Бурак Айдын, Джунейт Гюзелис, М. Альпер Сельвер
ОСДаР23	OSDaR23 — это мультисенсорный набор данных для обнаружения объектов на железных дорогах.	База данных помечена в виде прямоугольника.	16874 кадров	Изображения, лидар, радар и инфракрасный порт	Распознавание и классификация объектов	2023	^[63]^[64]	DZSF , Digital Rail Germany и FusionSystems
Агроверс	Argoverse — это мультисенсорный набор данных для обнаружения объектов на дорогах.	Набор данных аннотирован по блокам.	320 часов записи	Данные с 7 камер и LiDAR	Распознавание и классификация объектов, отслеживание объектов	2022	^[65]^[66]	Арго AI, Университет Карнеги-Меллона , Технологический институт Джорджии

Распознавание лиц

В компьютерном зрении изображения лиц широко используются для разработки систем распознавания лиц , обнаружения лиц и многих других проектов, в которых используются изображения лиц.

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Афф-Дикий	298 видео с участием 200 человек, ~1 250 000 изображений, аннотированных вручную: аннотированных с точки зрения пространственного аффекта (валентного возбуждения); в дикой природе; база данных цветов; различные разрешения (среднее = 640x360)	обнаруженные лица, лицевые ориентиры и аннотации валентного возбуждения	~1 250 000 изображений с аннотациями вручную	видео (визуальные + аудиомодальности )	распознавание влияния (оценка валентно-возбуждения)	2017	ЦВПР ^[67] IJCV ^[68]	Д. Коллиас и др.
Афф-Wild2	558 видео с участием 458 человек, ~2 800 000 изображений, аннотированных вручную: аннотированных с точки зрения i) категориального аффекта (7 основных выражений: нейтральность, счастье, печаль, удивление, страх, отвращение, гнев); ii) пространственный аффект (валентное возбуждение); iii) единицы действия (ЕД 1,2,4,6,12,15,20,25); в дикой природе; база данных цветов; различные разрешения (среднее = 1030x630)	обнаруженные лица, обнаруженные и выровненные лица и аннотации	~2 800 000 изображений с аннотациями вручную	видео (визуальные + аудиомодальности)	Распознавание аффектов (оценка валентного возбуждения, базовая классификация выражений, обнаружение единиц действия)	2019	БМВК ^[69] ФГ ^[70]	Д. Коллиас и др.
FERET (технология распознавания лиц)	11338 изображений 1199 человек в разных позах и в разное время.	Никто.	11,338	Изображения	Классификация, распознавание лиц	2003	^[71]^[72]	Министерство обороны США
Аудиовизуальная база данных эмоциональной речи и песен Райерсона (RAVDESS)	7356 видео- и аудиозаписей 24 профессиональных актеров. 8 эмоций каждая с двумя уровнями интенсивности.	Файлы, помеченные выражением. Оценки валидации восприятия предоставлены 319 оценщиками.	7,356	Видео, звуковые файлы	Классификация, распознавание лиц, распознавание голоса	2018	^[73]^[74]	СР Ливингстон и ФА Руссо
SCFace	Цветные изображения лиц под разными углами.	Извлечено расположение черт лица. Указаны координаты объектов.	4,160	Изображения, текст	Классификация , распознавание лиц	2011	^[75]^[76]	М. Гргич и др.
База данных лиц Йельского университета	Лица 15 человек в 11 разных выражениях.	Метки выражений.	165	Изображения	Распознавание лиц	1997	^[77]^[78]	Дж. Ян и др.
База данных выражений, кодированных Коном-Канадой в Австралии	Большая база изображений с метками для выражений.	Отслеживание определенных черт лица.	500+ последовательностей	Изображения, текст	Анализ выражения лица	2000	^[79]^[80]	T. Kanade et al.
База данных выражений лица JAFFE	213 изображений 7 выражений лица (6 основных выражений лица + 1 нейтральное), сделанных 10 японскими моделями.	Изображения обрезаются до области лица. Включает данные семантического рейтинга меток эмоций.	213	Изображения, текст	Познание выражения лица	1998	^[81]^[82]	Лионс, Командование, Где
Скраб для лица	Изображения общественных деятелей удалены из поиска изображений.	Имя и аннотация м/ф.	107,818	Изображения, текст	Распознавание лиц	2014	^[83]^[84]	Х. Нг и др.
База данных лиц BioID	Изображения лиц с отмеченным положением глаз.	Ручная настройка положения глаз.	1521	Изображения, текст	Распознавание лиц	2001	^[85]^[86]	БиоИД
Набор данных сегментации кожи	Значения цвета, выбранные случайным образом из изображений лиц.	B, G, R, извлеченные значения.	245,057	Текст	Сегментация, классификация	2012	^[87]^[88]	Р. Бхатт.
Босфор	База данных 3D-изображений лиц.	34 единицы действия и 6 выражений с надписями; Нанесены 24 ориентира на лице.	4652	Изображения, текст	Распознавание лиц, классификация	2008	^[89]^[90]	Савран и др.
UOY 3D-Face	нейтральное лицо, 5 выражений: гнев, счастье, печаль, глаза закрыты, брови подняты.	маркировка.	5250	Изображения, текст	Распознавание лиц, классификация	2004	^[91]^[92]	Йоркский университет
База данных лиц CASIA 3D	Выражения: гнев, улыбка, смех, удивление, закрытые глаза.	Никто.	4624	Изображения, текст	Распознавание лиц, классификация	2007	^[93]^[94]	Институт автоматизации Китайской академии наук
КАСИЯ НИР	Выражения: Гнев Отвращение Страх Счастье Печаль Удивление	Никто.	480	Аннотированное видео в видимом спектре и ближнем инфракрасном диапазоне снимается со скоростью 25 кадров в секунду.	Распознавание лиц, классификация	2011	^[95]	Чжао Г. и др.
БУ-3ДФЭ	нейтральное лицо и 6 выражений: гнев, счастье, печаль, удивление, отвращение, страх (4 уровня). Извлечены 3D-изображения.	Никто.	2500	Изображения, текст	Распознавание выражения лица, классификация	2006	^[96]	Бингемтонский университет
Grand Challenge для распознавания лиц Набор данных	До 22 образцов по каждому предмету. Выражения: гнев, счастье, печаль, удивление, отвращение, одутловатость. 3D-данные.	Никто.	4007	Изображения, текст	Распознавание лиц, классификация	2004	^[97]^[98]	Национальный институт стандартов и технологий
Гавабдб	До 61 образца по каждому предмету. Выражения нейтрального лица, улыбка, фронтальный подчеркнутый смех, фронтальный произвольный жест. 3D изображения.	Никто.	549	Изображения, текст	Распознавание лиц, классификация	2008	^[99]^[100]	Университет короля Хуана Карлоса
3D-РМА	До 100 предметов, выражения преимущественно нейтральные. Также несколько поз.	Никто.	9971	Изображения, текст	Распознавание лиц, классификация	2004	^[101]^[102]	Королевская военная академия (Бельгия)
СоФ	112 человек (66 мужчин и 46 женщин) носят очки в различных условиях освещенности.	Набор синтетических фильтров (размытие, окклюзия, шум и постеризация) разного уровня сложности.	42 592 (2662 исходных изображения × 16 синтетических изображений)	Изображения, Mat-файл	Классификация по полу, распознавание лиц, распознавание лиц, оценка возраста и распознавание очков	2017	^[103]^[104]	Афифи М. и др.
IMDb-ВИКИ	IMDb и Arc.Ask3.Ru встречают изображения с указанием пола и возраста.	Никто	523,051	Изображения	Классификация по полу, распознавание лиц, распознавание лиц, оценка возраста	2015	^[105]	Р. Роте, Р. Тимофте, Л. В. Гул

Распознавание действий

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных о взаимодействии людей на телевидении	Видео из 20 различных телешоу для предсказания социальных действий: рукопожатие, «дай пять», объятие, поцелуй и ничего.	Никто.	6766 видеоклипов	видеоклипы	Прогноз действий	2013	^[106]	Патрон-Перес А. и др.
Мультимодальная база данных действий человека Беркли (MHAD)	Записи одного человека, выполняющего 12 действий.	Предварительная обработка MoCap	660 образцов действий	8 датчиков движения PhaseSpace, 2 стереокамеры, 4 четырехкамерные камеры, 6 акселерометров, 4 микрофона	Классификация действий	2013	^[107]	Оффли, Ф. и др.
Набор данных THUMOS	Большой набор видеоданных для классификации действий.	Действия классифицированы и помечены.	45 миллионов кадров видео	Видео, изображения, текст	Классификация, обнаружение действий	2013	^[108]^[109]	Ю. Цзян и др.
MEXAction2	Набор видеоданных для локализации и отслеживания действий	Действия классифицированы и помечены.	1000	Видео	Обнаружение действий	2014	^[110]	Стоян и др.

Распознавание рукописного ввода и символов

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных искусственных персонажей	Искусственно сгенерированные данные, описывающие структуру 10 заглавных английских букв.	Координаты нарисованных линий заданы целыми числами. Различные другие функции.	6000	Текст	Распознавание рукописного ввода , классификация	1992	^[111]	Х. Гувенир и др.
Набор данных букв	Заглавные печатные буквы.	Из всех изображений извлечено 17 признаков.	20,000	Текст	OCR, классификация	1991	^[112]^[113]	Д. Слейт и др.
CASIA-HWDB	Оффлайн база данных рукописных китайских иероглифов . 3755 классов в наборе символов GB 2312 .	Изображения в оттенках серого с фоновыми пикселями, помеченными как 255.	1,172,907	Изображения, Текст	Распознавание рукописного ввода, классификация	2009	^[114]	КАССИЯ
CASIA-OLHWDB	Интернет-база данных рукописных китайских иероглифов, собранная ручкой Anoto на бумаге. 3755 классов в наборе символов GB 2312 .	Предоставляет последовательности координат штрихов.	1,174,364	Изображения, Текст	Распознавание рукописного ввода, классификация	2009	^[115]^[114]	КАССИЯ
Набор данных траекторий персонажей	Маркированные образцы траекторий кончика ручки для людей, пишущих простые символы.	Трехмерная матрица траекторий скорости кончика ручки для каждого образца	2858	Текст	Распознавание рукописного ввода, классификация	2008	^[116]^[117]	Б. Уильямс
Набор данных Chars74K	Распознавание символов в естественных изображениях символов, используемых как в английском, так и в каннада.		74,107		Распознавание символов, распознавание рукописного ввода, OCR, классификация	2009	^[118]	Т. де Кампос
Набор данных EMNIST	Рукописные символы от 3600 авторов.	Получено из специальной базы данных NIST 19. Преобразовано в изображения размером 28x28 пикселей, соответствующие набору данных MNIST. ^[119]	800,000	Изображения	распознавание символов, классификация, распознавание рукописного ввода	2016	Набор данных EMNIST ^[120] Документация ^[121]	Грегори Коэн и др.
Набор данных символов пера UJI	Изолированные рукописные персонажи	Координаты положения пера при написании символов были заданы.	11,640	Текст	Распознавание рукописного ввода, классификация	2009	^[122]^[123]	Ф. Прат и др.
Набор данных Жизетт	Образцы почерка из 4 и 9 символов, которые часто путают.	Функции, извлеченные из изображений, разделенные на обучающие/тестовые, изображения для рукописного ввода нормализованы по размеру.	13,500	Изображения, текст	Распознавание рукописного ввода, классификация	2003	^[124]	Янн ЛеКун и др.
Набор данных Омниглот	1623 различных рукописных символа из 50 разных алфавитов.	Ручная маркировка.	38,300	Изображения, текст, штрихи	Классификация, однократное обучение	2015	^[125]^[126]	Американская ассоциация развития науки
база данных МНИСТ	База данных рукописных цифр.	Ручная маркировка.	60,000	Изображения, текст	Классификация	1994	^[127]^[128]	Национальный институт стандартов и технологий
Оптическое распознавание набора данных рукописных цифр	Нормализованные растровые изображения рукописных данных.	Размер нормализован и сопоставлен с растровыми изображениями.	5620	Изображения, текст	Распознавание рукописного ввода, классификация	1998	^[129]	Э. Алпайдин и др.
Распознавание рукописных цифр с помощью ручки	Рукописные цифры на электронном планшете.	Векторы признаков извлекаются так, чтобы располагаться на равном расстоянии друг от друга.	10,992	Изображения, текст	Распознавание рукописного ввода, классификация	1998	^[130]^[131]	Э. Алпайдин и др.
Набор данных рукописных цифр Семена	Рукописные цифры от 80 человек.	Все рукописные цифры были нормализованы по размеру и сопоставлены с одной и той же сеткой.	1593	Изображения, текст	Распознавание рукописного ввода, классификация	2008	^[132]	Т. Срл
ХАСИv2	Рукописные математические символы	Все символы центрированы и имеют размер 32 x 32 пикселя.	168233	Изображения, текст	Классификация	2017	^[133]	Мартин Тома
Шумный рукописный набор данных Bangla	Включает набор данных рукописных цифр (10 классов) и набор базовых символов символов (50 классов). Каждый набор данных имеет три типа шума: белый гауссов, размытие при движении и пониженный контраст.	Все изображения центрированы и имеют размер 32x32.	Числовой набор данных: 23330, Набор данных персонажей: 76000	Изображения, текст	Распознавание рукописного ввода, классификация	2017	^[134]^[135]	М. Карки и др.

Аэрофотоснимки

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
iSAID: сегментация экземпляров в наборе данных аэрофотоснимков		Точные аннотации на уровне экземпляров, выполненные профессиональными аннотаторами, перепроверенные и подтвержденные экспертами-аннотаторами в соответствии с четко определенными рекомендациями.	655 451 (15 классов)	Изображения, jpg, json	Воздушная классификация, обнаружение объектов, сегментация экземпляров	2019	^[136]^[137]	Сайед Вакас Замир, Адитья Арора, Акшита Гупта, Салман Хан, Гуолей Сунь, Фахад Шахбаз Хан, Фань Чжу, Лин Шао, Гуй-Сун Ся, Сян Бай
Набор данных сегментации аэрофотоснимков	80 аэрофотоснимков высокого разрешения с пространственным разрешением от 0,3 до 1,0.	Изображения сегментированы вручную.	80	Изображения	Воздушная классификация, обнаружение объектов	2013	^[138]^[139]	Дж. Юань и др.
Набор данных KIT AIS	Множество размеченных наборов данных для обучения и оценки аэрофотоснимков толпы.	Изображения размечены вручную, чтобы показать путь людей сквозь толпу.	~ 150	Изображения с путями	Отслеживание людей, воздушное слежение	2012	^[140]^[141]	М. Бутенут и др.
Хотите набор данных	Данные дистанционного зондирования больных деревьев и другого растительного покрова.	Извлечены различные функции.	4899	Изображения	Классификация, обнаружение воздушных объектов	2014	^[142]^[143]	Б. Джонсон
МАССовый набор данных	Морские сцены оптических аэрофотоснимков видимого спектра. Он содержит цветные изображения в динамичной морской среде, каждое изображение может содержать одну или несколько целей в разных погодных условиях и условиях освещенности.	Ограничительные рамки и маркировка объектов.	7389	Изображения	Классификация, обнаружение воздушных объектов	2018	^[144]^[145]	А.-Ж. Гальего и др.
Набор картографических данных типов лесов	Спутниковые снимки лесов Японии.	Извлечены диапазоны длин волн изображения.	326	Текст	Классификация	2015	^[146]^[147]	Б. Джонсон
Набор данных исследования изображений сверху	Аннотированные изображения сверху. Изображения с несколькими объектами.	Более 30 аннотаций и более 60 статистических данных, описывающих цель в контексте изображения.	1000	Изображения, текст	Классификация	2009	^[148]^[149]	Ф. Таннер и др.
Спейснет	SpaceNet — это совокупность коммерческих спутниковых изображений и маркированных обучающих данных.	Файлы GeoTiff и GeoJSON, содержащие контуры зданий.	>17533	Изображения	Классификация, идентификация объекта	2017	^[150]^[151]^[152]	ДиджиталГлоуб, Инк.
Набор данных по землепользованию Калифорнийского университета в Мерседе	Эти изображения были вручную извлечены из больших изображений из коллекции изображений городских территорий Национальной карты Геологической службы США для различных городских территорий США.	Это набор данных изображений землепользования 21 класса, предназначенный для исследовательских целей. Для каждого класса имеется 100 изображений.	2,100	Чипы изображений размером 256х256, 30 см (1 фут) GSD	Классификация земельного покрова	2010	^[153]	И Ян и Шон Ньюсам
Набор бортовых данных SAT-4	Изображения были извлечены из набора данных Национальной программы изображений сельского хозяйства (NAIP).	SAT-4 имеет четыре широких класса земельного покрова, включая бесплодную землю, деревья, луга, а также класс, который состоит из всех классов земельного покрова, кроме трех вышеперечисленных.	500,000	Изображения	Классификация	2015	^[154]^[155]	С. Басу и др.
Набор бортовых данных SAT-6	Изображения были извлечены из набора данных Национальной программы изображений сельского хозяйства (NAIP).	SAT-6 имеет шесть широких классов земельного покрова, включая бесплодную землю, деревья, луга, дороги, здания и водоемы.	405,000	Изображения	Классификация	2015	^[154]^[155]	С. Басу и др.

Подводные изображения

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
Набор данных СУИМ	Изображения были тщательно собраны во время океанических исследований и совместных экспериментов человека и робота и аннотированы участниками-людьми.	Изображения с пиксельными аннотациями для восьми категорий объектов: рыбы (позвоночные), рифы (беспозвоночные), водные растения, затонувшие корабли/руины, люди-дайверы, роботы и морское дно.	1,635	Изображения	Сегментация	2020	^[156]	Доктор медицинских наук Джахидул Ислам и др.
Набор данных LIACI	Изображения были собраны во время осмотров подводных кораблей и прокомментированы экспертами в области человеческой деятельности.	Изображения с пиксельными аннотациями для десяти категорий объектов: дефекты, коррозия, отслоение краски, морские наросты, кингстонные решетки, бортовые клапаны, гребной винт, аноды, трюмный киль и корпус корабля.	1,893	Изображения	Сегментация	2022	^[157]	Васак и др.

Другие изображения

Имя набора данных	Краткое описание	Предварительная обработка	Экземпляры	Формат	Задача по умолчанию	Создано (обновлено)	Ссылка	Создатель
НРЦ-ГАММА	Новый эталонный набор данных изображений газовых счетчиков	Никто	28,883	Изображение, Метка	Классификация	2021	^[158]^[159]	А. Эбади, П. Пол, С. Ауэр и С. Трамбле
Набор данных SUPATLANTIQUE	Изображения отсканированных официальных документов и документов Википедии	Никто	4908	TIFF/pdf	Идентификация исходного устройства, обнаружение подделки, классификация,..	2020	^[160]	К. Бен Рабах и др.
Квантовое моделирование графена в теории функционала плотности	Маркированные изображения исходных данных для моделирования графена	Необработанные данные (в формате HDF5) и выходные метки квантового моделирования теории функционала плотности.	60744 тестовых и 501473 обучающих файла.	Размеченные изображения	Регрессия	2019	^[161]	К. Миллс и И. Тэмблин
Квантовое моделирование электрона в двумерной потенциальной яме	Маркированные изображения необработанных входных данных для моделирования двумерной квантовой механики.	Необработанные данные (в формате HDF5) и выходные метки квантового моделирования.	1,3 миллиона изображений	Размеченные изображения	Регрессия	2017	^[162]	К. Миллс, М. А. Спаннер и И. Тэмблин
Набор данных MPII о кулинарной деятельности	Видео и изображения различных кулинарных мероприятий.	Пути и направления активности, метки, детальная маркировка движения, класс активности, извлечение и маркировка неподвижных изображений.	881 755 кадров	Маркированные видео, изображения, текст	Классификация	2012	^[163]^[164]	М. Рорбах и др.
Набор данных FAMOS	5000 уникальных микроструктур, все образцы были получены 3 раза двумя разными камерами.	Исходные файлы PNG, отсортированные по камерам, а затем по полученным изображениям. Файлы данных MATLAB с одной матрицей 16384×5000 на камеру за один сбор данных.	30,000	Изображения и файлы .mat	Аутентификация	2012	^[165]	S. Voloshynovskiy, et al.
Набор данных PharmaPack	1000 уникальных классов по 54 изображения в каждом классе.	Маркировка классов, множество локальных дескрипторов, таких как SIFT и aKaZE, а также агрегаторы локальных функций, такие как Fisher Vector (FV).	54,000	Изображения и файлы .mat	Мелкозернистая классификация	2017	^[166]	О. Таран и С. Резаифар и др.
Стэнфордский набор данных о собаках	Изображения 120 пород собак со всего мира.	Предоставлены разделения обучения/тестирования и аннотации ImageNet.	20,580	Изображения, текст	Мелкозернистая классификация	2011	^[167]^[168]	А. Хосла и др.
СтэнфордДополнительный набор данных	2D-ключевые точки и сегментация для набора данных Stanford Dogs.	Предоставляются 2D ключевые точки и сегментации.	12,035	Размеченные изображения	3D-реконструкция/оценка позы	2020	^[169]	Б. Биггс и др.
Набор данных о домашних животных Oxford-IIIT	37 категорий домашних животных, примерно по 200 изображений каждой.	Маркировка породы, плотная ограничивающая рамка, сегментация переднего плана и фона.	~ 7,400	Изображения, текст	Классификация, обнаружение объектов	2012	^[168]^[170]	О. Паркхи и др.
Набор данных функций Corel Image	База данных изображений с извлеченными функциями.	Многие функции, включая цветовую гистограмму, текстуру одновременного появления и цветовые моменты,	68,040	Текст	Классификация, обнаружение объектов	1999	^[171]^[172]	М. Ортега-Бинденбергер и др.
Характеристики онлайн-видео и набор данных о времени перекодирования.	Время перекодирования для различных видео и свойств видео.	Указаны видеовозможности.	168,286	Текст	Регрессия	2015	^[173]	Т. Денеке и др.
Набор данных последовательного изображения Microsoft (ARE)	Набор данных для последовательного преобразования изображения в язык	Описательная подпись и повествование даны для каждой фотографии, фотографии расположены последовательно.	81,743	Изображения, текст	Визуальное повествование	2016	^[174]	Microsoft Исследования
Набор данных Caltech-UCSD Birds-200-2011	Большой набор данных изображений птиц.	Расположение частей для птиц, ограничивающие рамки, задано 312 двоичных атрибутов.	11,788	Изображения, текст	Классификация	2011	^[175]^[176]	К. Ва и др.
Ютуб-8М	Большой и разнообразный набор размеченных видеоданных	Идентификаторы видео YouTube и связанные с ними ярлыки из разнообразного словаря, состоящего из 4800 визуальных объектов.	8 миллионов	Видео, текст	Классификация видео	2016	^[177]^[178]	С. Абу-Эль-Хайджа и др.
YFCC100M	Большой и разнообразный набор размеченных изображений и видеоданных	Видео и изображения Flickr и связанные с ними описания, заголовки, теги и другие метаданные (например, EXIF и геотеги)	100 миллионов	Видео, изображение, текст	Классификация видео и изображений	2016	^[179]^[180]	Б.Томи и др.
Ярмарка LIRIS-ACCESS	Короткие видеоролики с аннотациями по валентности и возбуждению.	Ярлыки валентности и возбуждения.	9800	Видео	Видеообнаружение эмоций, вызывающих эмоции	2015	^[181]	Y. Baveye et al.
Непрерывный LIRIS-ACCESS	Длинные видеоролики с аннотациями о валентности и возбуждении, а также сбор данных о кожно-гальванической реакции.	Ярлыки валентности и возбуждения.	30	Видео	Видеообнаружение эмоций, вызывающих эмоции	2015	^[182]	Y. Baveye et al.
MediaEval LIRIS-ACCESS	Расширение Discrete LIRIS-ACCEDE, включая аннотации к уровням насилия в фильмах.	Ярлыки насилия, валентности и возбуждения.	10900	Видео	Видеообнаружение эмоций, вызывающих эмоции	2015	^[183]	Y. Baveye et al.
Спортивная поза Лидса	Аннотации к артикулированным позам человека в 2000 естественных спортивных изображениях с Flickr.	Грубая обрезка вокруг одного интересующего человека с 14 совместными этикетками	2000	Изображения плюс метки файлов .mat	Оценка позы человека	2010	^[184]	С. Джонсон и М. Эверингем
Расширенная тренировка Leeds Sports Pose	Аннотации о шарнирных позах человека на 10 000 естественных спортивных изображениях с Flickr.	14 совместных лейблов через краудсорсинг	10000	Изображения плюс метки файлов .mat	Оценка позы человека	2011	^[185]	С. Джонсон и М. Эверингем
Набор данных MCQ	6 различных реальных экзаменов с несколькими вариантами ответов (735 листов с ответами и 33 540 полей для ответов) для оценки методов и систем компьютерного зрения, разработанных для систем оценки тестов с несколькими вариантами ответов.	Никто	735 листов для ответов и 33 540 ящиков для ответов.	Изображения и метки файлов .mat	Разработка систем оценки тестов с множественным выбором	2017	^[186]^[187]	Афифи М. и др.
Видео наблюдения	Реальные видео наблюдения охватывают большое время наблюдения (7 дней по 24 часа каждый).	Никто	19 видео наблюдения (7 дней по 24 часа каждое).	Видео	Сжатие данных	2016	^[188]	Тадж-Эддин, IATF и др.
ЛИЛА Б.К.	Маркированная информационная библиотека Александрии: биология и охрана. Маркированные изображения, которые поддерживают исследования машинного обучения в области экологии и науки об окружающей среде.	Никто	~10 млн изображений	Изображения	Классификация	2019	^[189]	рабочая группа ЛИЛА
Можем ли мы увидеть фотосинтез?	32 видеоролика для восьми живых и восьми мертвых листьев, записанных в условиях освещения постоянного и переменного тока.	Никто	32 видео	Видео	Определение жизнеспособности растений	2017	^[190]	Тадж-Эддин, IATF и др.
Математическая Математика Мемы	Сборник из 10 000 мемов по математике.	Никто	~10,000	Изображения	Визуальное повествование, обнаружение объектов.	2021	^[191]	Математическая Математика Мемы
Набор данных Flickr-Faces-HQ	Коллекция изображений, на каждом из которых изображено лицо, взято с Flickr.	Обрезано с помощью «различных автоматических фильтров», обрезано и выровнено по лицам, а изображения статуй, картин или фотографии фотографий удалены с помощью краудсорсинга.	70,000	Изображения	Генерация лица	2019	^[192]	Каррас и др.
Набор данных Fruits-360	База данных с изображениями 131 фрукта, овоща и ореха.	100x100 пикселей, белый фон.	90483	Изображения (jpg)	Классификация	2017–2024	^[193]	Михай Олтян

Ссылки

^ Грауман, Кристен; Вестбери, Эндрю; Бирн, Юджин; Чавис, Закари; Фурнари, Антонино; Гирдхар, Рохит; Гамбургер, Джексон; Цзян, Хао; Лю, Мяо; Лю, Синъюй; Мартин, Мигель; Нагараджан, Тушар; Радосавович, Илья; Рамакришнан, Сантош Кумар; Райан, Фиона; Шарма, Джаянт; Рэй, Майкл; Сюй, Мэнмэн; Сюй, Эрик Чжунцун; Чжао, Чен; Бансал, Сиддхант; Батра, Дхрув; Картилье, Винсент; Крейн, Шон; Делай, Тьен; Дулати, Морри; Эрапалли, Акшай; Файхтенхофер, Кристоф; Фрагомени, Адриано; Фу, Цичен; Гебреселассие, Авраам; Гонсалес, Кристина; Хиллис, Джеймс; Хуан, Сюйхуа; Хуан, Ифэй; Цзя, Вэньци; Ху, Уэсли; Колар, Яхим; Коттур, Сатвик; Кумар, Анураг; Ландини, Федерико; Ли, Чао; Ли, Янхао; Ли, Чжэньцян; Мангалам, Карттикея; Модхугу, Рагхава; Манро, Джонатан; Мюррелл, Талли; Нисиясу, Такуми; Прайс, Уилл; Пуэнтес, Паола Руис; Рамазанова, Мерей; Сари, Леда; Сомасундарам, Киран; Саутерленд, Одри; Сугано, Юсуке; Тао, Жуйцзе; Во, Мин; Ван, Юйчен; Ву, Зинди; Яги, Такума; Чжао, Цивэй; Чжу, Юньи; Арбелаес, Пабло; Крэндалл, Дэвид; Дамен, Дима; Фаринелла, Джованни Мария; Фюген, Кристиан; Ганем, Бернард; Итапу, Вамси Кришна; Джавахар, резюме; Джу, Ханбёль; Китани, Крис; Ли, Хайчжоу; Ньюкомб, Ричард; Олива, Од; Пак, Хён Су; Рег, Джеймс М.; Сато, Йоичи; Ши, Цзянбо; Шу, Майк Чжэн; Торральба, Антонио; Торресани, Лоренцо; Ян, Минфэй; Малик, Джитендра (2022). «Ego4D: Вокруг света за 3000 часов эгоцентрического видео». arXiv : 2110.07058 [ cs.CV ].
^ Кришна, Ранджай; Чжу, Юкэ; Грот, Оливер; Джонсон, Джастин; Хата, Кенджи; Кравиц, Джошуа; Чен, Стефани; Калантидис, Яннис; Ли, Ли-Цзя; Шамма, Дэвид А; Бернштейн, Майкл С; Фей-Фей, Ли (2017). «Визуальный геном: соединение языка и видения с помощью краудсорсинговых аннотаций к изображениям». Международный журнал компьютерного зрения . 123 : 32–73. arXiv : 1602.07332 . дои : 10.1007/s11263-016-0981-7 . S2CID 4492210 .
^ Караев С. и др. « Набор данных трехмерных объектов на уровне категории: использование Kinect ». Материалы Международной конференции IEEE по семинарам по компьютерному зрению . 2011.
^ Тайге, Джозеф и Светлана Лазебник . « Суперанализ: масштабируемый непараметрический анализ изображений с помощью суперпикселей. Архивировано 6 августа 2019 года на Wayback Machine ». Компьютерное зрение – ECCV 2010 . Springer Berlin Heidelberg, 2010. 352–365.
^ Арбелаес, П.; Мэр, М; Фаулкс, К; Малик, Дж. (май 2011 г.). «Обнаружение контуров и иерархическая сегментация изображений» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 33 (5): 898–916. дои : 10.1109/tpami.2010.161 . ПМИД 20733228 . S2CID 206764694 . Проверено 27 февраля 2016 г.
^ Линь, Цунг-И; Мэр, Майкл; Белонги, Серж; Бурдев, Любомир; Гиршик, Росс; Хейс, Джеймс; Перона, Пьетро; Раманан, Дева; Лоуренс Зитник, К.; Доллар, Петр (2014). «Microsoft COCO: общие объекты в контексте». arXiv : 1405.0312 [ cs.CV ].
^ Русаковский, Ольга; и др. (2015). «Масштабная задача визуального распознавания Imagenet». Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . дои : 10.1007/s11263-015-0816-y . hdl : 1721.1/104944 . S2CID 2930547 .
^ «COCO – Общие объекты в контексте» . cocodataset.org .
^ Сяо, Цзяньсюн и др. «База данных Sun: крупномасштабное распознавание сцен от аббатства до зоопарка». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2010 г., посвященная . ИИЭР, 2010.
^ Донахью, Джефф; Цзя, Янцин; Виньялс, Ориол; Хоффман, Джуди; Чжан, Нин; Ценг, Эрик; Даррелл, Тревор (2013). «DeCAF: функция глубокой сверточной активации для общего визуального распознавания». arXiv : 1310.1531 [ cs.CV ].
^ Дэн, Цзя и др. « Imagenet: крупномасштабная иерархическая база данных изображений ». Компьютерное зрение и распознавание образов, 2009. CVPR 2009. Конференция IEEE по . ИИЭР, 2009.
^ Jump up to: ^а ^б ^с Крижевский, Алекс, Илья Суцкевер и Джеффри Э. Хинтон. « Классификация Imagenet с глубокими сверточными нейронными сетями ». Достижения в области нейронных систем обработки информации . 2012.
^ Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; и др. (11 апреля 2015 г.). «Масштабная задача визуального распознавания ImageNet». Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . дои : 10.1007/s11263-015-0816-y . hdl : 1721.1/104944 . S2CID 2930547 .
^ Иван Красин, Том Дюриг, Нил Оллдрин, Андреас Вейт, Сами Абу-Эль-Хайджа, Серж Белонги, Дэвид Цай, Жеюн Фэн, Витторио Феррари, Виктор Гомес, Абхинав Гупта, Дхьянеш Нараянан, Чен Сун, Галь Чечик, Кевин Мерфи. «OpenImages: общедоступный набор данных для крупномасштабной классификации изображений с несколькими метками и несколькими классами, 2017 г. Доступно по адресу https://github.com/openimages ».
^ Вьяс, Апурв и др. « Обнаружение коммерческих блоков в новостных видеороликах ». Материалы Индийской конференции 2014 года по компьютерной графике и обработке изображений . АКМ, 2014.
^ Гауптманн, Александр Г. и Майкл Дж. Витброк. « Сегментация сюжетов и обнаружение рекламы в новостных видеороликах ». Исследования и технологические достижения в цифровых библиотеках, 1998. ADL 98. Труды. Международный форум IEEE на . ИИЭР, 1998.
^ Тунг, Энтони К.Х., Синь Сюй и Бенг Чин Оой. « Керлер: поиск и визуализация нелинейных корреляционных кластеров ». Материалы международной конференции ACM SIGMOD 2005 г. по управлению данными . АКМ, 2005.
^ Джарретт, Кевин и др. « Какая многоэтапная архитектура лучше всего подходит для распознавания объектов? » Компьютерное зрение, 2009 г., 12-я международная конференция IEEE по . ИИЭР, 2009.
^ Лазебник, Светлана , Корделия Шмид и Жан Понсе. « За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен ». Компьютерное зрение и распознавание образов, конференция IEEE Computer Society 2006 г., посвященная . Том. 2. ИИЭР, 2006.
^ Гриффин, Г., А. Голуб и П. Перона. Набор данных по категориям объектов Caltech-256 California Inst . Техн., Тех. Rep. 7694, 2007 г. Доступно: http://authors.library.caltech.edu/7694 , 2007 г.
^ Баэса-Йейтс, Рикардо и Бертье Рибейро-Нето. Современный поиск информации . Том. 463. Нью-Йорк: ACM press, 1999.
^ 🐺 COYO-700M: набор данных пар изображение-текст , Kakao Brain, 3 ноября 2022 г. , получено 3 ноября 2022 г.
^ Фу, Сипин и др. « NOKMeans: хеширование неортогональных K-средств ». Компьютерное зрение — ACCV 2014 . Springer International Publishing, 2014. 162–177.
^ Хейтц, Джереми; и др. (2009). «Локализация объектов на основе формы для описательной классификации». Международный журнал компьютерного зрения . 84 (1): 40–62. CiteSeerX 10.1.1.142.280 . дои : 10.1007/s11263-009-0228-y . S2CID 646320 .
^ Эверингем, Марк; и др. (2010). «Вызов классов визуальных объектов (VOC) Паскаля» . Международный журнал компьютерного зрения . 88 (2): 303–338. дои : 10.1007/s11263-009-0275-4 . hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID 4246903 .
^ Фельценшвальб, Педро Ф.; и др. (2010). «Обнаружение объектов с помощью дискриминативно обученных моделей на основе деталей». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 32 (9): 1627–1645. CiteSeerX 10.1.1.153.2745 . дои : 10.1109/tpami.2009.167 . ПМИД 20634557 . S2CID 3198903 .
^ Jump up to: ^а ^б Гонг, Юньчао и Светлана Лазебник . «Итеративное квантование: прокрустов подход к изучению двоичных кодов». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2011 г., посвященная . ИИЭР, 2011.
^ «Набор данных CINIC-10» . Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки (2018) CINIC-10 — это не ImageNet или CIFAR-10 . 09.10.2018 . Проверено 13 ноября 2018 г.
^ fashion-mnist: база данных модных товаров, подобная MNIST. Контрольный показатель: point_right , Zalando Research, 07 октября 2017 г. , получено 7 октября 2017 г.
^ «набор данных notMNIST» . Машинное обучение и т. д . 08.09.2011 . Проверено 13 октября 2017 г.
^ Чаладзе Г., Калатозишвили Л. (2017). Набор данных Линней 5 . Чаладзе.com . Получено 13 ноября 2017 г. с http://chaladze.com/l5/.
^ Афифи, Махмуд (12 ноября 2017 г.). «Распознавание пола и биометрическая идентификация с использованием большого набора данных изображений рук». arXiv : 1711.04322 [ cs.CV ].
^ Ломонако, Винченцо; Мальтони, Давиде (18 октября 2017 г.). «CORe50: новый набор данных и эталон непрерывного распознавания объектов». arXiv : 1705.03550 [ cs.CV ].
^ Она, Ци, Фань; Хао, Ян, Цихан; Лань, Ломонако, Ши, Сюэсун; Го, Яо; Цяо, Фэй Чан (2019). -Object: набор данных роботизированного зрения и эталон для непрерывного -11-15 ) . обучения » . « OpenLORIS глубокого
^ Морозов, Алексей; Сушкова, Ольга (13.06.2019). «Набор данных ТГц и теплового видео» . Разработка подхода мультиагентного логического программирования для анализа поведения человека в условиях многоканального видеонаблюдения . Москва: ИРЭ РАН . Проверено 19 июля 2019 г.
^ Морозов, Алексей; Сушкова, Ольга; Кершнер, Иван; Полупанов, Александр (09.07.2019). «Разработка метода терагерцового интеллектуального видеонаблюдения на основе семантического слияния терагерцового и 3D видеоизображений» (PDF) . ЦЭУР . 2391 : бумага19 . Проверено 19 июля 2019 г.
^ М. Кордтс, М. Омран, С. Рамос, Т. Шарвехтер, М. Энцвайлер, Р. Бененсон, У. Франке, С. Рот и Б. Шиле, « Набор данных о городских пейзажах ». На семинаре CVPR «Будущее наборов данных в Vision», 2015 г.
^ Хубен, Себастьян и др. « Обнаружение дорожных знаков на реальных изображениях: немецкий эталон обнаружения дорожных знаков ». Нейронные сети (IJCNN), Международная совместная конференция 2013 года по . ИИЭР, 2013.
^ Матиас, Мэйёль и др. « Распознавание дорожных знаков – насколько мы далеки от решения? ». Нейронные сети (IJCNN), Международная совместная конференция 2013 года по . ИИЭР, 2013.
^ Гейгер, Андреас, Филип Ленц и Ракель Уртасун. « Готовы ли мы к автономному вождению? Пакет тестов Kitti Vision ». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2012 г., посвященная . ИИЭР, 2012.
^ Штурм, Юрген и др. « Эталон для оценки систем RGB-D SLAM ». Интеллектуальные роботы и системы (IROS), Международная конференция IEEE/RSJ 2012 г., посвященная . ИИЭР, 2012.
^ Пакет KITTI Vision Benchmark Suite на YouTube.
^ Краг, Миккель Ф.; и др. (2017). «FieldSAFE — набор данных для обнаружения препятствий в сельском хозяйстве» . Датчики . 17 (11): 2579. arXiv : 1709.03526 . Бибкод : 2017Senso..17.2579K . дои : 10.3390/s17112579 . ПМЦ 5713196 . ПМИД 29120383 .
^ «Документы с кодом — набор данных монокулярного обнаружения пешеходов Daimler» . paperswithcode.com . Проверено 5 мая 2023 г.
^ Энцвейлер, Маркус; Гаврила, Дариу М. (декабрь 2009 г.). «Монокулярное обнаружение пешеходов: исследование и эксперименты» . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (12): 2179–2195. дои : 10.1109/TPAMI.2008.260 . ISSN 1939-3539 . ПМИД 19834140 . S2CID 1192198 .
^ Инь, Гоцзюнь; Лю, Бин; Чжу, Хуэйхуэй; Гонг, Тао; Ю, Нэнхай (28 июля 2020 г.). «Крупномасштабный набор видеоданных городского наблюдения для отслеживания нескольких объектов и анализа поведения». arXiv : 1904.11784 [ cs.CV ].
^ «Распознавание объектов в наборе видеоданных» . mi.eng.cam.ac.uk. Проверено 5 мая 2023 г.
^ Бростоу, Габриэль Дж.; Шоттон, Джейми; Фокёр, Жюльен; Чиполла, Роберто (2008). «Сегментация и распознавание с использованием структуры облаков точек движения» . Компьютерное зрение – ECCV 2008 . Конспекты лекций по информатике. Том. 5302. Спрингер. стр. 44–57. дои : 10.1007/978-3-540-88682-2_5 . ISBN 978-3-540-88681-5 .
^ Бростоу, Габриэль Дж.; Фокёр, Жюльен; Чиполла, Роберто (15 января 2009 г.). «Классы семантических объектов в видео: база данных достоверных данных высокой четкости» . Буквы для распознавания образов . 30 (2): 88–97. Бибкод : 2009PaReL..30...88B . дои : 10.1016/j.patrec.2008.04.005 . ISSN 0167-8655 .
^ «Бенчмарк WildDash 2» . wilddash.cc . Проверено 5 мая 2023 г.
^ Зендел, Оливер; Муршиц, Маркус; Цайлингер, Марсель; Штайнингер, Дэниел; Аббаси, Сара; Белезнай, Чаба (июнь 2019 г.). «RailSem19: набор данных для понимания семантической железнодорожной сцены» . Конференция IEEE/CVF 2019 года по компьютерному зрению и распознаванию образов (CVPRW) . стр. 1221–1229. дои : 10.1109/CVPRW.2019.00161 . ISBN 978-1-7281-2506-0 . S2CID 198166233 .
^ «Набор данных Борея» . www.boreas.utias.utoronto.ca . Проверено 5 мая 2023 г.
^ Бернетт, Кинан; Юн, Дэвид Дж.; Ву, Юйчен; Ли, Эндрю Цзоу; Чжан, Хаовэй; Лу, Шичен; Цянь, Цзинсин; Ценг, Вэй-Кан; Ламберт, Эндрю; Люнг, Кейт Ю.К.; Шеллиг, Анджела П .; Барфут, Тимоти Д. (26 января 2023 г.). «Борей: многосезонный набор данных по автономному вождению». arXiv : 2203.10168 [ cs.RO ].
^ «Набор данных о малых светофорах Bosch» . hci.iwr.uni-heidelberg.de . 1 марта 2017 года . Проверено 5 мая 2023 г.
^ Берендт, Карстен; Новак, Либор; Ботрос, Рами (май 2017 г.). «Подход к глубокому обучению светофоров: обнаружение, отслеживание и классификация» . Международная конференция IEEE по робототехнике и автоматизации (ICRA) , 2017 г. стр. 1370–1377. дои : 10.1109/ICRA.2017.7989163 . ISBN 978-1-5090-4633-1 . S2CID 6257133 .
^ «Набор данных FRSign» . frsign.irt-systemx.fr . Проверено 5 мая 2023 г.
^ Харб, Жанин; Ребена, Николя; Хосидов, Рафаэль; Роблин, Грегуар; Потарусов Роман; Хаджри, Хатем (5 февраля 2020 г.). «FRSign: крупномасштабный набор данных о светофорах для автономных поездов». arXiv : 2002.05665 [ cs.CY ].
^ "ifs-rwth-aachen/GERALD" . Кафедра Института железнодорожного транспорта и транспортных систем. 30 апреля 2023 г. Проверено 5 мая 2023 г.
^ Лейбнер, Филипп; Хампель, Фабиан; Шиндлер, Кристиан (3 апреля 2023 г.). «ДЖЕРАЛЬД: Новый набор данных для обнаружения сигналов магистральных железных дорог Германии» . Труды Института инженеров-механиков, Часть F: Журнал железнодорожного и скоростного транспорта . 237 (10): 1332–1342. дои : 10.1177/09544097231166472 . ISSN 0954-4097 . S2CID 257939937 .
^ Войек, Кристиан; Иди, Стефан; Шиле, Бернт (июнь 2009 г.). «Мультисигнал для обнаружения пешеходов на борту» . Конференция IEEE 2009 г. по компьютерному зрению и распознаванию образов . стр. 794–801. дои : 10.1109/CVPR.2009.5206638 . ISBN 978-1-4244-3992-8 . S2CID 18000078 .
^ Топрак, Тугче; Айдын, Бурак; Беленлиоглу, Бурак; Гюзелиш, Джюнейт; Селвер, М. Альпер (5 апреля 2020 г.). «Условно-взвешенный ансамбль переданных моделей для бортового обнаружения пешеходов на основе камер в системах поддержки машинистов железнодорожного транспорта» . Транзакции IEEE по автомобильным технологиям : 1. doi : 10.1109/TVT.2020.2983825 . S2CID 216510283 . Проверено 5 мая 2023 г.
^ Топрак, Тугче; Беленлиоглу, Бурак; Айдын, Бурак; Гузелис, Джунейт; Селвер, М. Альпер (май 2020 г.). «Условно-взвешенный ансамбль переданных моделей для бортового обнаружения пешеходов на основе камер в системах поддержки машинистов железнодорожного транспорта» . Транзакции IEEE по автомобильным технологиям . 69 (5): 5041–5054. дои : 10.1109/TVT.2020.2983825 . ISSN 1939-9359 . S2CID 216510283 .
^ Тилли, Роман; Ноймайер, Филипп; Швальбе, Карстен; Класек, Павел; Тагиев, Рустам; Дензлер, Патрик; Клокау, Тобиас; Боекхофф, Мартин; Кеппель, Мартин (2023). «Открытые данные датчиков для железной дороги 2023» (на немецком языке). дои : 10.57806/9mv146r0 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Тагиев, Рустам; Кеппель, Мартин; Швальбе, Карстен; Дензлер, Патрик; Ноймайер, Филипп; Клокау, Тобиас; Боекхофф, Мартин; Класек, Павел; Тилли, Роман (4 мая 2023 г.). «OSDaR23: открытые данные датчиков для железной дороги 2023». 2023 8-я Международная конференция по робототехнике и автоматизации (ICRAE) . стр. 270–276. arXiv : 2305.03001 . дои : 10.1109/ICRAE59816.2023.10458449 . ISBN 979-8-3503-2765-6 .
^ "Дом" . Арговерс . Проверено 5 мая 2023 г.
^ Чанг, Мин-Фан; Ламберт, Джон; Сангклой, Патсорн; Сингх, Джагджит; Бак, Славомир; Хартнетт, Эндрю; Ван, Де; Карр, Питер; Люси, Саймон; Раманан, Дева; Хейс, Джеймс (6 ноября 2019 г.). «Арговерс: 3D-отслеживание и прогнозирование с помощью насыщенных карт». arXiv : 1911.02620 [ cs.CV ].
^ Зафейриу, С.; Коллиас, Д.; Николау, Массачусетс; Папайоанну, А.; Чжао, Г.; Коция, И. (2017). «Aff-Wild: вызов валентности и возбуждения «в дикой природе»» (PDF) . Семинары конференции IEEE 2017 по компьютерному зрению и распознаванию образов (CVPRW) . стр. 1980–1987. дои : 10.1109/CVPRW.2017.248 . ISBN 978-1-5386-0733-6 . S2CID 3107614 .
^ Коллиас, Д.; Циракис, П.; Николау, Массачусетс; Папайоанну, А.; Чжао, Г.; Шуллер, Б.; Коция, И.; Зафейриу, С. (2019). «Прогнозирование глубоких воздействий в реальных условиях: база данных и задачи Aff-Wild, глубокие архитектуры и не только» . Международный журнал компьютерного зрения . 127 (6–7): 907–929. arXiv : 1804.10938 . дои : 10.1007/s11263-019-01158-4 . S2CID 13679040 .
^ Коллиас, Д.; Зафейриу, С. (2019). «Выражение, аффект, распознавание единиц действия: Aff-wild2, многозадачное обучение и arcface» (PDF) . Британская конференция по машинному зрению (BMVC), 2019 г. arXiv : 1910.04855 .
^ Коллиас, Д.; Шульк, А.; Гаджиев Э.; Зафейриу, С. (2020). «Анализ аффективного поведения на первом конкурсе ABAW 2020» . 2020 15-я Международная конференция IEEE по автоматическому распознаванию лиц и жестов (FG 2020) . стр. 637–643. arXiv : 2001.11409 . дои : 10.1109/FG47880.2020.00126 . ISBN 978-1-7281-3079-8 . S2CID 210966051 .
^ Филлипс, П. Джонатон; и др. (1998). «База данных FERET и процедура оценки алгоритмов распознавания лиц». Вычисление изображений и зрительных образов . 16 (5): 295–306. дои : 10.1016/s0262-8856(97)00070-x .
^ Вискотт, Лауренц; и др. (1997). «Распознавание лиц путем сопоставления графов эластичных групп». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 19 (7): 775–779. CiteSeerX 10.1.1.44.2321 . дои : 10.1109/34.598235 . S2CID 30523165 .
^ Ливингстон, Стивен Р.; Руссо, Фрэнк А. (2018). «Аудиовизуальная база данных эмоциональной речи и песен Райерсона (RAVDESS): динамичный, мультимодальный набор мимики и голосовых выражений в североамериканском английском языке» . ПЛОС ОДИН . 13 (5): e0196391. Бибкод : 2018PLoSO..1396391L . дои : 10.1371/journal.pone.0196391 . ПМК 5955500 . ПМИД 29768426 .
^ Ливингстон, Стивен Р.; Руссо, Фрэнк А. (2018). «Эмоция». Аудиовизуальная база данных эмоциональной речи и песен Райерсона (RAVDESS) . дои : 10.5281/zenodo.1188976 .
^ Гргич, Мислав; Делак, Крешимир; Гргич, Соня (2011). «SCface – база данных лиц камер наблюдения». Мультимедийные инструменты и приложения . 51 (3): 863–879. дои : 10.1007/s11042-009-0417-2 . S2CID 207218990 .
^ Уоллес, Рой и др. « Моделирование межсессионной изменчивости и совместный факторный анализ для аутентификации по лицу ». Биометрия (IJCB), Международная совместная конференция 2011 г. по . ИИЭР, 2011.
^ Георгиадес, А. «База данных лиц Йельского университета» . Центр вычислительного видения и управления Йельского университета . 2 : 1997.
^ Нгуен, Дуй; и др. (2006). «Обнаружение лиц в реальном времени и извлечение особенностей губ с использованием программируемых пользователем вентильных матриц». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 36 (4): 902–912. CiteSeerX 10.1.1.156.9848 . дои : 10.1109/tsmcb.2005.862728 . ПМИД 16903373 . S2CID 7334355 .
^ Канаде, Такео , Джеффри Ф. Кон и Инли Тянь . « Обширная база данных для анализа выражений лица ». Автоматическое распознавание лиц и жестов, 2000. Труды. Четвертая международная конференция IEEE по . ИИЭР, 2000.
^ Цзэн, Чжихун; и др. (2009). «Обзор методов распознавания аффектов: аудио, визуальные и спонтанные выражения». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (1): 39–58. CiteSeerX 10.1.1.144.217 . дои : 10.1109/tpami.2008.52 . ПМИД 19029545 .
^ Лайонс, Майкл; Командир Миюки; Гёба, Дзиро (1998). «Изображения выражения лица» База данных выражений лица японских женщин (JAFFE) . дои : 10.5281/zenodo.3451524 .
^ Лайонс, Майкл; Акамацу, Сигэру; Камачи, Миюки; Гёба, Дзиро « Кодирование выражений лица с помощью вейвлетов Габора ». Автоматическое распознавание лиц и жестов, 1998. Труды. Третья международная конференция IEEE по . ИИЭР, 1998.
^ Нг, Хун-Вэй и Стефан Винклер. « Подход к очистке больших наборов данных о лицах, основанный на данных. Архивировано 6 декабря 2019 года в Wayback Machine ». Обработка изображений (ICIP), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.
^ Рой Чоудхури, Аруни; Линь, Цунг-Ю; Маджи, Субхрансу; Узнал-Миллер, Эрик (2015). «Распознавание лиц один-ко-многим с помощью билинейных CNN». arXiv : 1506.01342 [ cs.CV ].
^ Джесорский, Оливер, Клаус Дж. Кирхберг и Роберт В. Фришхольц. «Надежное распознавание лиц с использованием расстояния Хаусдорфа». Биометрическая аутентификация личности на основе аудио и видео . Шпрингер Берлин Гейдельберг, 2001.
^ Хуанг, Гэри Б. и др. Маркированные лица в дикой природе: база данных для изучения распознавания лиц в неограниченных условиях . Том. 1. № 2. Технический отчет 07-49, Массачусетский университет, Амхерст, 2007 г.
^ Бхатт, Раджен Б. и др. « Эффективная сегментация областей кожи с использованием модели нечеткого дерева решений низкой сложности ». Индийская конференция (INDICON), ежегодный IEEE 2009 г. ИИЭР, 2009.
^ Лингала, Муника; и др. (2014). «Обнаружение цвета с помощью нечеткой логики: синие области на изображениях дерматоскопии меланомы» . Компьютеризированная медицинская визуализация и графика . 38 (5): 403–410. doi : 10.1016/j.compmedimag.2014.03.007 . ПМК 4287461 . ПМИД 24786720 .
^ Мэйс, Крис и др. « Обнаружение особенностей на трехмерных поверхностях лица для нормализации и распознавания позы ». Биометрия: теоретические приложения и системы (BTAS), 2010 г. Четвертая международная конференция IEEE по . ИИЭР, 2010.
^ Савран, Арман и др. « База данных Босфора для 3D-анализа лиц ». Биометрия и управление идентификацией . Springer Berlin Heidelberg, 2008. 47–56.
^ Хезелтайн, Томас, Ник Пирс и Джим Остин. « Трехмерное распознавание лиц: подход собственной поверхности ». Обработка изображений, 2004. ICIP'04. 2004 Международная конференция по . Том. 2. ИИЭР, 2004.
^ Ге, Юн; и др. (2011). «Новое 3D-моделирование образцов лица для распознавания лиц». Журнал мультимедиа . 6 (5): 467–475. CiteSeerX 10.1.1.461.9710 . дои : 10.4304/jmm.6.5.467-475 .
^ Ван, Юэмин; Лю, Цзяньчжуан; Тан, Сяоу (2010). «Надежное 3D-распознавание лиц за счет локального усиления различий в форме». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 32 (10): 1858–1870. CiteSeerX 10.1.1.471.2424 . дои : 10.1109/tpami.2009.200 . ПМИД 20724762 . S2CID 15263913 .
^ Чжун, Ченг, Чжэнань Сунь и Тиеню Тан. « Надежное 3D-распознавание лиц с использованием изученной визуальной кодовой книги ». Компьютерное зрение и распознавание образов, 2007. CVPR'07. Конференция IEEE . ИИЭР, 2007.
^ Чжао, Г.; Хуанг, X.; Тайни, М.; Ли, СЗ; Пиетикайнен, М. (2011). «Распознавание выражения лица по видео в ближнем инфракрасном диапазоне» (PDF) . Вычисление изображений и зрительных образов . 29 (9): 607–619. дои : 10.1016/j.imavis.2011.07.002 . ^{[ мертвая ссылка ]}
^ Сойель, Хамит и Хасан Демирель. « Распознавание выражения лица с использованием трехмерного расстояния между чертами лица ». Анализ и распознавание изображений . Springer Berlin Heidelberg, 2007. 831–838.
^ Бойер, Кевин В.; Чанг, Кён; Флинн, Патрик (2006). «Обзор подходов и проблем в области 3D и мультимодального 3D + 2D распознавания лиц». Компьютерное зрение и понимание изображений . 101 (1): 1–15. CiteSeerX 10.1.1.134.8784 . дои : 10.1016/j.cviu.2005.05.005 .
^ Тан, Сяоян; Триггс, Билл (2010). «Расширенные наборы функций локальных текстур для распознавания лиц в сложных условиях освещения». Транзакции IEEE при обработке изображений . 19 (6): 1635–1650. Бибкод : 2010ITIP...19.1635T . CiteSeerX 10.1.1.105.3355 . дои : 10.1109/tip.2010.2042645 . ПМИД 20172829 . S2CID 4943234 .
^ Мусави, Мир Хашем; Фаез, Карим; Асгари, Амин (2008). «Трехмерное распознавание лиц с использованием классификатора SVM» . Седьмая Международная конференция IEEE/ACIS по компьютерным и информационным наукам (Icis 2008) . стр. 208–213. дои : 10.1109/ICIS.2008.77 . ISBN 978-0-7695-3131-1 . S2CID 2710422 .
^ Амберг, Брайан; Кноте, Рейнхард; Веттер, Томас (2008). «Трёхмерное распознавание лиц с инвариантным выражением лица с помощью морфируемой модели» (PDF) . 2008 г. 8-я Международная конференция IEEE по автоматическому распознаванию лиц и жестов . стр. 1–6. дои : 10.1109/AFGR.2008.4813376 . ISBN 978-1-4244-2154-1 . S2CID 5651453 . Архивировано из оригинала (PDF) 28 июля 2018 года . Проверено 6 августа 2019 г.
^ Ирфаноглу, Миссури; Гокберк, Б.; Акарун, Л. (2004). «Распознавание лиц на основе 3D-форм с использованием автоматически регистрируемых поверхностей лица» . Материалы 17-й Международной конференции по распознаванию образов, 2004 г. ICPR 2004 . С. 183–186 Том 4. дои : 10.1109/ICPR.2004.1333734 . ISBN 0-7695-2128-2 . S2CID 10987293 .
^ Бомье, Чарльз; Ашерой, Марк (2001). «Проверка лица по 3D-подсказкам и подсказкам уровня серого». Буквы для распознавания образов . 22 (12): 1321–1329. Бибкод : 2001PaReL..22.1321B . дои : 10.1016/s0167-8655(01)00077-0 .
^ Афифи, Махмуд; Абдельхамед, Абдельрахман (13 июня 2017 г.). «AFIF4: Глубокая гендерная классификация, основанная на объединении изолированных черт лица и туманных лиц на основе AdaBoost». arXiv : 1706.04277 [ cs.CV ].
^ «Набор данных SoF» . сайты.google.com . Проверено 18 ноября 2017 г.
^ «IMDb-ВИКИ» . data.vision.ee.ethz.ch . Проверено 13 марта 2018 г.
^ Патрон-Перес, А.; Маршалек, М.; Рид, И.; Зиссерман, А. (2012). «Структурированное изучение человеческого взаимодействия в телешоу». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 34 (12): 2441–2453. дои : 10.1109/tpami.2012.24 . ПМИД 23079467 . S2CID 6060568 .
^ Офли, Ф., Чаудри, Р., Курилло, Г., Видал, Р., и Байчи, Р. (январь 2013 г.). Berkeley MHAD: Комплексная мультимодальная база данных о человеческой деятельности . В «Приложениях компьютерного зрения» (WACV), семинар IEEE 2013 г. (стр. 53–60). IEEE.
^ Цзян, Ю.Г. и др. «Задача THUMOS: распознавание действий с большим количеством классов». Семинар ICCV по распознаванию действий с большим количеством классов , http://crcv.ucf.edu/ICCV13-Action-Workshop . 2013.
^ Симоньян, Карен и Эндрю Зиссерман. « Двухпотоковые сверточные сети для распознавания действий в видеороликах ». Достижения в области нейронных систем обработки информации . 2014.
^ Стоян, Андрей; Ферекату, Марин; Бенуа-Пино, Женни; Круциану, Мишель (2016). «Быстрая локализация в крупномасштабных видеоархивах». Транзакции IEEE по схемам и системам видеотехнологий . 26 (10): 1917–1930. дои : 10.1109/TCSVT.2015.2475835 . S2CID 31537462 .
^ Ботта, М., А. Джордана и Л. Саитта . « Изучение нечетких определений понятий ». Нечеткие системы, 1993 г., Вторая международная конференция IEEE по . ИИЭР, 1993.
^ Фрей, Питер В.; Слейт, Дэвид Дж. (1991). «Распознавание букв с использованием адаптивных классификаторов голландского типа» . Машинное обучение . 6 (2): 161–182. дои : 10.1007/bf00114162 .
^ Пелтонен, Яакко; Клами, Арто; Каски, Сэмюэл (2004). «Улучшенное изучение римановых метрик для исследовательского анализа». Нейронные сети . 17 (8): 1087–1100. CiteSeerX 10.1.1.59.4865 . дои : 10.1016/j.neunet.2004.06.008 . ПМИД 15555853 .
^ Jump up to: ^а ^б Лю, Ченг-Линь; Инь, Фэй; Ван, Да-Хан; Ван, Цю-Фэн (январь 2013 г.). «Распознавание рукописных китайских иероглифов онлайн и офлайн: сравнение новых баз данных». Распознавание образов . 46 (1): 155–162. Бибкод : 2013PatRe..46..155L . дои : 10.1016/j.patcog.2012.06.021 .
^ Ван, Д.; Лю, К.; Ю, Дж.; Чжоу, X. (2009). «CASIA-OLHWDB1: база данных рукописных китайских иероглифов в Интернете». 2009 10-я Международная конференция по анализу и распознаванию документов . стр. 1206–1210. дои : 10.1109/ICDAR.2009.163 . ISBN 978-1-4244-4500-4 . S2CID 5705532 .
^ Уильямс, Бен Х., Марк Туссен и Амос Дж. Сторки. Извлечение примитивов движения из данных естественного рукописного ввода . Шпрингер Берлин Гейдельберг, 2006.
^ Мейер, Франциска и др. « Сегментация движения с использованием библиотеки примитивов ». Интеллектуальные роботы и системы (IROS), Международная конференция IEEE/RSJ 2011 г., посвященная . ИИЭР, 2011.
^ TE де Кампос, BR Бабу и М. Варма. Распознавание символов в естественных изображениях . В материалах Международной конференции по теории и приложениям компьютерного зрения (VISAPP), Лиссабон, Португалия , февраль 2009 г.
^ Коэн, Грегори; Афшар, Саид; Тэпсон, Джонатан; Андре ван Шайк (2017). «EMNIST: расширение MNIST на рукописные письма». arXiv : 1702.05373v1 [ cs.CV ].
^ «Набор данных EMNIST» . НИСТ . 4 апреля 2017 г.
^ Коэн, Грегори; Афшар, Саид; Тэпсон, Джонатан; Андре ван Шайк (2017). «EMNIST: расширение MNIST на рукописные письма». arXiv : 1702.05373 [ cs.CV ].
^ Льоренс, Дэвид и др. « База данных UJIpenchars: основанная на ручке база данных изолированных рукописных символов ». ЛРЭК . 2008.
^ Кальдерара, Симона; Прати, Андреа; Куккьяра, Рита (2011). «Смеси распределений фон Мизеса для анализа формы траектории людей». Транзакции IEEE по схемам и системам видеотехнологий . 21 (4): 457–471. дои : 10.1109/tcsvt.2011.2125550 . S2CID 1427766 .
^ Гийон, Изабель и др. « Анализ результатов конкурса выбора функций 2003 года ». Достижения в области нейронных систем обработки информации . 2004.
^ Лейк, БМ; Салахутдинов Р.; Тененбаум, Дж. Б. (11 декабря 2015 г.). «Концептуальное обучение на человеческом уровне посредством индукции вероятностной программы» . Наука . 350 (6266): 1332–1338. Бибкод : 2015Sci...350.1332L . дои : 10.1126/science.aab3050 . ISSN 0036-8075 . ПМИД 26659050 .
^ Лейк, Бренден (09 ноября 2019 г.), набор данных Omniglot для однократного обучения , получено 10 ноября 2019 г.
^ ЛеКун, Янн; и др. (1998). «Градиентное обучение применительно к распознаванию документов». Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791 . S2CID 14542261 .
^ Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисление изображений и зрительных образов . 22 (12): 971–981. дои : 10.1016/j.imavis.2004.03.008 .
^ Сюй, Лей; Кшижак, Адам; Суен, Чинг Ю. (1992). «Методы объединения нескольких классификаторов и их приложения для распознавания рукописного текста». Транзакции IEEE по системам, человеку и кибернетике . 22 (3): 418–435. дои : 10.1109/21.155943 . hdl : 10338.dmlcz/135217 .
^ Алимоглу, Февзи и др. « Объединение нескольких классификаторов для распознавания рукописных цифр с помощью пера ». (1996).
^ Тан, Э. Кэ; и др. (2005). «Линейное уменьшение размерности с использованием LDA, взвешенного по релевантности». Распознавание образов . 38 (4): 485–493. Бибкод : 2005PatRe..38..485T . дои : 10.1016/j.patcog.2004.09.005 . S2CID 10580110 .
^ Хонг, Йи и др. « Изучение смеси редких метрик расстояний для классификации и уменьшения размерности ». Компьютерное зрение (ICCV), Международная конференция IEEE 2011 г., посвященная . ИИЭР, 2011.
^ Тома, Мартин (2017). «Набор данных HASYv2». arXiv : 1701.08380 [ cs.CV ].
^ Карки, Манохар; Лю, Цюнь; ДиБьяно, Роберт; Басу, Сайкат; Мухопадьяй, Супратик (20 июня 2018 г.). «Реконструкция и классификация на уровне пикселей зашумленных рукописных символов бангла». arXiv : 1806.08037 [ cs.CV ].
^ Лю, Цюнь; Кольер, Эдвард; Мукхопадьяй, Супратик (2019), «PCGAN-CHAR: прогрессивно обученные генеративно-состязательные сети классификаторов для классификации зашумленных рукописных символов бангла», Цифровые библиотеки на перекрестке цифровой информации для будущего , Конспекты лекций по информатике, том. 11853, Springer International Publishing, стр. 3–15, arXiv : 1908.08987 , doi : 10.1007/978-3-030-34058-2_1 , ISBN 978-3-030-34057-5 , S2CID 201665955
^ «АЙСАИД» . капитан-whu.github.io . Проверено 30 ноября 2021 г.
^ Замир, Сайед и Арора, Адитья и Гупта, Акшита и Хан, Салман и Сунь, Гуолей и Хан, Фахад и Чжу, Фань и Шао, Лин и Ся, Гуй-Сон и Бай, Сян. (2019). iSAID: крупномасштабный набор данных для сегментации экземпляров аэрофотоснимков. веб-сайт
^ Юань, Цзянъе; Глисон, Шон С.; Чериядат, Анил М. (2013). «Систематический бенчмаркинг сегментации аэрофотоснимков». Письма IEEE по геонаукам и дистанционному зондированию . 10 (6): 1527–1531. Бибкод : 2013IGRSL..10.1527Y . дои : 10.1109/lgrs.2013.2261453 . S2CID 629629 .
^ Ватсаваи, Ранга Раджу. « Объектно-ориентированная классификация изображений: современное состояние и вычислительные проблемы ». Материалы 2-го международного семинара ACM SIGSPATIAL по аналитике больших геопространственных данных . АКМ, 2013.
^ Бутенут, Матиас и др. « Интеграция моделирования пешеходов, отслеживания и обнаружения событий для анализа толпы ». Семинары по компьютерному зрению (ICCV Workshops), Международная конференция IEEE 2011 г., посвященная . ИИЭР, 2011.
^ Фради, Хаджер и Жан-Люк Дюгеле. « Анализ толпы на низком уровне с использованием покадровой нормализованной функции для подсчета людей ». Информационная криминалистика и безопасность (WIFS), Международный семинар IEEE 2012 г. по . ИИЭР, 2012.
^ Джонсон, Брайан Алан, Рютаро Татейши и Нгуен Тхань Хоан. « Гибридный подход к панорамированию и многомасштабному объектно-ориентированному анализу изображений для картирования больных сосен и дубов ». Международный журнал дистанционного зондирования 34.20 (2013): 6969–6982.
^ Мохд Пози, Мухаммад Сяфик; Сулейман, штат Мэриленд Насир; Мустафа, Норвати; Перумал, Тинагаран (2015). «Новая модель классификации для несбалансированного набора данных по классам с использованием генетического программирования и машин опорных векторов: практический пример классификации болезней вилта» . Письма о дистанционном зондировании . 6 (7): 568–577. Бибкод : 2015RSL.....6..568M . дои : 10.1080/2150704X.2015.1062159 . S2CID 58788630 .
^ Гальего, А.-Дж.; Пертуса, А.; Гил, П. « Автоматическая классификация кораблей по оптическим аэрофотоснимкам с помощью сверточных нейронных сетей ». Дистанционное зондирование . 2018 год; 10(4):511.
^ Гальего, А.-Дж.; Пертуса, А.; Гил, П. «Набор данных изображений MAritime SATellite». Доступно: https://www.iuii.ua.es/datasets/masati/ , 2018.
^ Джонсон, Брайан; Татейши, Рютаро; Се, Чжисяо (2012). «Использование географически взвешенных переменных для классификации изображений». Письма о дистанционном зондировании . 3 (6): 491–499. Бибкод : 2012RSL.....3..491J . дои : 10.1080/01431161.2011.629637 . S2CID 122543681 .
^ Чаттерджи, Санкхадип и др. « Классификация типов леса: подход на основе гибридной модели NN-GA ». Проектирование информационных систем и интеллектуальные приложения . Springer India, 2016. 227–236.
^ Дигерт, Карл. « Комбинаторный метод отслеживания объектов с использованием семантики их формы ». Семинар по распознаванию образов прикладных изображений (AIPR), 39-я конференция IEEE, 2010 г. ИИЭР, 2010.
^ Разакаривони, Себастьян и Фредерик Жюри. « Обнаружение небольших целей, сочетающее передний и фоновый коллекторы ». Международная конференция IAPR по приложениям машинного зрения . 2013.
^ «СпейсНет» . explore.digitalglobe.com . Архивировано из оригинала 13 марта 2018 года . Проверено 13 марта 2018 г.
^ Эттен, Адам Ван (5 января 2017 г.). «Начало работы с данными SpaceNet» . ДаунЛинК . Проверено 13 марта 2018 г.
^ Вакалопулу, М.; Автобус, Н.; Карантзалоса, К.; Парагиос, Н. (июль 2017 г.). «Интеграция априорных значений краев/границ с оценками классификации для обнаружения зданий в данных очень высокого разрешения». Международный симпозиум IEEE по геонаукам и дистанционному зондированию (IGARSS) 2017 г. стр. 3309–3312. дои : 10.1109/IGARSS.2017.8127705 . ISBN 978-1-5090-4951-6 . S2CID 8297433 .
^ Ян, Йи; Ньюсам, Шон (2010). «Мешок визуальных слов и пространственные расширения для классификации землепользования». Материалы 18-й Международной конференции SIGSPATIAL по достижениям в области географических информационных систем . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 270–279. дои : 10.1145/1869790.1869829 . ISBN 9781450304283 . S2CID 993769 .
^ Jump up to: ^а ^б Басу, Сайкат; Гангули, Санграм; Мухопадьяй, Супратик; ДиБьяно, Роберт; Карки, Манохар; Немани, Рамакришна (3 ноября 2015 г.). «DeepSat: Система обучения спутниковым снимкам». Материалы 23-й Международной конференции SIGSPATIAL по достижениям в области географических информационных систем . АКМ. стр. 1–10. дои : 10.1145/2820783.2820816 . ISBN 9781450339674 . S2CID 4387134 .
^ Jump up to: ^а ^б Лю, Цюнь; Басу, Сайкат; Гангули, Санграм; Мухопадьяй, Супратик; ДиБьяно, Роберт; Карки, Манохар; Немани, Рамакришна (21 ноября 2019 г.). «DeepSat V2: расширенные сверточные нейронные сети для классификации спутниковых изображений». Письма о дистанционном зондировании . 11 (2): 156–165. arXiv : 1911.07747 . дои : 10.1080/2150704x.2019.1693071 . ISSN 2150-704X . S2CID 208138097 .
^ М-р Джахидул Ислам и др. « Семантическая сегментация подводных изображений: набор данных и ориентир ». Международная конференция IEEE/RSJ по интеллектуальным роботам и системам (IROS) 2020 г. ИИЭР, 2020.
^ Васак и др. « Семантическая сегментация при проверках подводных судов: контрольный показатель и набор данных ». Журнал IEEE океанической инженерии . ИИЭР, 2022.
^ Эбади, Ашкан; Пол, Патрик; Ауэр, София; Трамбле, Стефан (12 ноября 2021 г.). «NRC-GAMMA: Представляем новый набор данных изображений больших газовых счетчиков». arXiv : 2111.06827 [ cs.CV ].
^ Канада, Национальный исследовательский совет правительства Канады (2021 г.). «Набор данных изображений газового счетчика (NRC-GAMMA) — цифровой репозиторий NRC» . nrc-digital-repository.canada.ca . дои : 10.4224/3c8s-z290 . Проверено 2 декабря 2021 г.
^ Рабах, Хайма Бен; Коатрие, Гуэну; Абдельфаттах, Риад (октябрь 2020 г.). «База данных отсканированных документов Supatlantique для целей криминалистики цифровых изображений» . Международная конференция IEEE по обработке изображений (ICIP) 2020 года . IEEE. стр. 2096–2100. дои : 10.1109/icip40778.2020.9190665 . ISBN 978-1-7281-6395-6 . S2CID 224881147 .
^ Миллс, Кайл; Тэмблин, Исаак (16 мая 2018 г.), Большой набор данных по графену , Национальный исследовательский совет Канады, doi : 10.4224/c8sc04578j.data
^ Миллс, Кайл; Спаннер, Майкл; Тэмблин, Исаак (16 мая 2018 г.). «Квантовое моделирование». Квантовое моделирование электрона в двумерной потенциальной яме . Национальный исследовательский совет Канады. doi : 10.4224/PhysRevA.96.042113.data .
^ Рорбах, М.; Амин, С.; Андрилука, М.; Шиле, Б. (2012). «База данных для детального обнаружения кулинарной деятельности». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . IEEE. стр. 1194–1201. дои : 10.1109/cvpr.2012.6247801 . ISBN 978-1-4673-1228-8 .
^ Кюне, Хильда, Али Арслан и Томас Серр. « Язык действий: восстановление синтаксиса и семантики целенаправленной человеческой деятельности ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.
^ Святослав, Волошиновский и др. « На пути к воспроизводимым результатам в аутентификации на основе физических неклонируемых функций: оптический набор микроструктур для судебно-медицинской экспертизы (FAMOS) » . Учеб. Материалы международного семинара IEEE по информационной криминалистике и безопасности . 2012.
^ Ольга, Таран и Шиде, Резаифар и др. « PharmaPack: мобильное детальное распознавание фармацевтических упаковок ». Учеб. Европейская конференция по обработке сигналов (EUSIPCO) . 2017.
^ Хосла, Адитья и др. « Новый набор данных для детальной категоризации изображений: Стэнфордские собаки ». Учеб. Семинар CVPR по детальной визуальной категоризации (FGVC) . 2011.
^ Jump up to: ^а ^б Пархи, Омкар М. и др. « Кошки и собаки ». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2012 г., посвященная . ИИЭР, 2012.
^ Биггс, Бенджамин; Бойн, Оливер; Чарльз, Джеймс; Фитцгиббон, Эндрю; Чиполла, Роберто (2020). Компьютерное зрение – ECCV 2020 . Конспекты лекций по информатике. Том. 12356. arXiv : 2007.11110 . дои : 10.1007/978-3-030-58621-8 . ISBN 978-3-030-58620-1 . S2CID 227173931 .
^ Разавиан, Али и др. « Готовые материалы CNN: потрясающая основа для признания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.
^ Ортега, Майкл; и др. (1998). «Поддержка ранжированных логических запросов сходства в MARS». Транзакции IEEE по знаниям и инженерии данных . 10 (6): 905–925. CiteSeerX 10.1.1.36.6079 . дои : 10.1109/69.738357 .
^ Он, Сюмин, Ричард С. Земель и Мигель А. Каррейра-Перпиньян. « Многомасштабные условные случайные поля для маркировки изображений ^{[ постоянная мертвая ссылка ]}Компьютерное зрение и распознавание образов, 2004. CVPR 2004. Материалы конференции компьютерного общества IEEE 2004 года . Том 2. IEEE, 2004.
^ Денеке, Теодрос и др. « Прогнозирование времени перекодирования видео для упреждающей балансировки нагрузки ». Мультимедиа и выставка (ICME), Международная конференция IEEE 2014 г. ИИЭР, 2014.
^ Тин-Хао (Кеннет) Хуанг, Фрэнсис Ферраро, Насрин Мостафазаде, Ишан Мисра, Айшвария Агравал, Джейкоб Девлин, Росс Гиршик, Сяодун Хэ, Пушмит Кохли, Дхрув Батра, К. Лоуренс Зитник, Деви Парих, Люси Вандервенде, Мишель Галлей, Маргарет Митчелл (13 апреля 2016 г.). «Визуальное повествование». arXiv : 1604.03968 [ cs.CL ]. {{cite arXiv}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Вау, Кэтрин и др. « Набор данных Caltech-ucsd birds-200-2011 ». (2011).
^ Дуань, Кун и др. « Обнаружение локализованных атрибутов для детального распознавания ». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2012 г., посвященная . ИИЭР, 2012.
^ «Набор данных YouTube-8M» . исследование.google.com . Проверено 1 октября 2016 г.
^ Абу-эль-Хайджа, саами; Котари, Нисарг; Ли, Джунсок; Нацев, Павел; Тодеричи, Джордж; Варадараджан, Балакришнан; Виджаянарасимхан, Судхендра (27 сентября 2016 г.). «YouTube-8M: крупномасштабный тест классификации видео». arXiv : 1609.08675 [ cs.CV ].
^ «Набор данных YFCC100M» . mmcommons.org . Yahoo-ICSI-LLNL . Проверено 1 июня 2017 г.
^ Барт Томи; Дэвид Шамма; Джеральд Фридланд; Бенджамин Элизальде; Карл Ни; Дуглас Поланд; Дамиан Борт; Ли-Цзя Ли (25 апреля 2016 г.). «Yfcc100m: Новые данные в мультимедийных исследованиях». Коммуникации АКМ . 59 (2): 64–73. arXiv : 1503.01817 . дои : 10.1145/2812802 . S2CID 207230134 .
^ Ю. Бавей, Э. Делландреа, К. Шамаре и Л. Чен, « LIRIS-ACCEDE: база данных видео для аффективного анализа контента », в IEEE Transactions on Affective Computing, 2015.
^ Ю. Бавей, Э. Делландреа, К. Шамаре и Л. Чен, « Глубокое обучение против методов ядра: производительность для прогнозирования эмоций в видео », на конференции Ассоциации Humaine по аффективным вычислениям и интеллектуальному взаимодействию (ACII), 2015 г. .
^ М. Сьоберг, Ю. Бавей, Х. Ван, В. Л. Куанг, Б. Ионеску, Э. Делландреа, М. Шедль, К.-Х. Демарти и Л. Чен, « Аффективное воздействие кинозадачи в средневековье 2015 года », на семинаре MediaEval 2015 Workshop, 2015.
^ С. Джонсон и М. Эверингем, « Кластерные модели позы и нелинейные модели внешнего вида для оценки позы человека, архивированные 4 ноября 2021 г. в Wayback Machine », в материалах 21-й Британской конференции по машинному зрению (BMVC2010)
^ С. Джонсон и М. Эверингем, « Обучение эффективной оценке позы человека на основе неточных аннотаций, заархивировано 4 ноября 2021 г. в Wayback Machine », в материалах конференции IEEE по компьютерному зрению и распознаванию образов (CVPR2011)
^ Афифи, Махмуд; Хусейн, Халед Ф. (2 ноября 2017 г.). «Достижение более высокой гибкости в тестах на основе множественного выбора с использованием методов классификации изображений». arXiv : 1711.00972 [ cs.CV ].
^ «Набор данных MCQ» . сайты.google.com . Проверено 18 ноября 2017 г.
^ Тадж-Эддин, IATF; Афифи, М.; Кораши, М.; Хамди, Д.; Насер, М.; Дербаз, С. (июль 2016 г.). «Новый метод сжатия видео наблюдения: оценка с использованием нового набора данных». 2016 Шестая Международная конференция по цифровым информационно-коммуникационным технологиям и их приложениям (DICTAP) . стр. 159–164. дои : 10.1109/DICTAP.2016.7544020 . ISBN 978-1-4673-9609-7 . S2CID 8698850 .
^ Табак, Майкл А.; Норуззаде, Мохаммед С.; Вольфсон, Дэвид В.; Суини, Стивен Дж.; Веркаутерен, Курт К.; Сноу, Натан П.; Хэлсет, Джозеф М.; Ди Сальво, Пол А.; Льюис, Джесси С.; Уайт, Майкл Д.; Тетон, Бен; Бизли, Джеймс С.; Шлихтинг, Питер Э.; Боутон, Рауль К.; Уайт, Бетани; Ньюкирк, Эрик С.; Иван, Джейкоб С.; Оделл, Эрик А.; Брук, Райан К.; Лукач, Пол М.; Мёллер, Анна К.; Мандевиль, Элизабет Г.; Клюн, Джефф; Миллер, Райан С.; Фотопулу, Теони (2018). «Машинное обучение классификации видов животных по изображениям с фотоловушек: приложения в экологии» . Методы экологии и эволюции . 10 (4): 585–590. дои : 10.1111/2041-210X.13120 . ISSN 2041-210X .
^ Тадж-Эддин, Ислам АТФ; Афифи, Махмуд; Кораши, Мостафа; Ахмед, Али Х.; Нг, Иок Ченг; Эрнандес, Эвелинг; Абдель-Латиф, Сальма М. (ноябрь 2017 г.). «Можем ли мы увидеть фотосинтез? Увеличьте крошечные изменения цвета зеленых листьев растений с помощью эйлерова видеоувеличения ». Журнал электронных изображений . 26 (6): 060501. arXiv : 1706.03867 . Бибкод : 2017JEI....26f0501T . дои : 10.1117/1.jei.26.6.060501 . ISSN 1017-9909 . S2CID 12367169 .
^ «Мемы по математической математике» .
^ Каррас, Теро; Лайне, Самули; Айла, Тимо (июнь 2019 г.). «Архитектура генератора на основе стилей для генеративно-состязательных сетей» . Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 4396–4405. arXiv : 1812.04948 . дои : 10.1109/cvpr.2019.00453 . ISBN 978-1-7281-3293-8 . S2CID 54482423 .
^ Олтян, Михай (2017). «Набор данных Fruits-360» . Гитхаб .

[ego4d-1] Грауман, Кристен; Вестбери, Эндрю; Бирн, Юджин; Чавис, Закари; Фурнари, Антонино; Гирдхар, Рохит; Гамбургер, Джексон; Цзян, Хао; Лю, Мяо; Лю, Синъюй; Мартин, Мигель; Нагараджан, Тушар; Радосавович, Илья; Рамакришнан, Сантош Кумар; Райан, Фиона; Шарма, Джаянт; Рэй, Майкл; Сюй, Мэнмэн; Сюй, Эрик Чжунцун; Чжао, Чен; Бансал, Сиддхант; Батра, Дхрув; Картилье, Винсент; Крейн, Шон; Делай, Тьен; Дулати, Морри; Эрапалли, Акшай; Файхтенхофер, Кристоф; Фрагомени, Адриано; Фу, Цичен; Гебреселассие, Авраам; Гонсалес, Кристина; Хиллис, Джеймс; Хуан, Сюйхуа; Хуан, Ифэй; Цзя, Вэньци; Ху, Уэсли; Колар, Яхим; Коттур, Сатвик; Кумар, Анураг; Ландини, Федерико; Ли, Чао; Ли, Янхао; Ли, Чжэньцян; Мангалам, Карттикея; Модхугу, Рагхава; Манро, Джонатан; Мюррелл, Талли; Нисиясу, Такуми; Прайс, Уилл; Пуэнтес, Паола Руис; Рамазанова, Мерей; Сари, Леда; Сомасундарам, Киран; Саутерленд, Одри; Сугано, Юсуке; Тао, Жуйцзе; Во, Мин; Ван, Юйчен; Ву, Зинди; Яги, Такума; Чжао, Цивэй; Чжу, Юньи; Арбелаес, Пабло; Крэндалл, Дэвид; Дамен, Дима; Фаринелла, Джованни Мария; Фюген, Кристиан; Ганем, Бернард; Итапу, Вамси Кришна; Джавахар, резюме; Джу, Ханбёль; Китани, Крис; Ли, Хайчжоу; Ньюкомб, Ричард; Олива, Од; Пак, Хён Су; Рег, Джеймс М.; Сато, Йоичи; Ши, Цзянбо; Шу, Майк Чжэн; Торральба, Антонио; Торресани, Лоренцо; Ян, Минфэй; Малик, Джитендра (2022). «Ego4D: Вокруг света за 3000 часов эгоцентрического видео». arXiv : 2110.07058 [ cs.CV ].

[2] Кришна, Ранджай; Чжу, Юкэ; Грот, Оливер; Джонсон, Джастин; Хата, Кенджи; Кравиц, Джошуа; Чен, Стефани; Калантидис, Яннис; Ли, Ли-Цзя; Шамма, Дэвид А; Бернштейн, Майкл С; Фей-Фей, Ли (2017). «Визуальный геном: соединение языка и видения с помощью краудсорсинговых аннотаций к изображениям». Международный журнал компьютерного зрения . 123 : 32–73. arXiv : 1602.07332 . дои : 10.1007/s11263-016-0981-7 . S2CID 4492210 .

[:6-3] Караев С. и др. « Набор данных трехмерных объектов на уровне категории: использование Kinect ». Материалы Международной конференции IEEE по семинарам по компьютерному зрению . 2011.

[4] Тайге, Джозеф и Светлана Лазебник . « Суперанализ: масштабируемый непараметрический анализ изображений с помощью суперпикселей. Архивировано 6 августа 2019 года на Wayback Machine ». Компьютерное зрение – ECCV 2010 . Springer Berlin Heidelberg, 2010. 352–365.

[5] Арбелаес, П.; Мэр, М; Фаулкс, К; Малик, Дж. (май 2011 г.). «Обнаружение контуров и иерархическая сегментация изображений» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 33 (5): 898–916. дои : 10.1109/tpami.2010.161 . ПМИД 20733228 . S2CID 206764694 . Проверено 27 февраля 2016 г.

[6] Линь, Цунг-И; Мэр, Майкл; Белонги, Серж; Бурдев, Любомир; Гиршик, Росс; Хейс, Джеймс; Перона, Пьетро; Раманан, Дева; Лоуренс Зитник, К.; Доллар, Петр (2014). «Microsoft COCO: общие объекты в контексте». arXiv : 1405.0312 [ cs.CV ].

[7] Русаковский, Ольга; и др. (2015). «Масштабная задача визуального распознавания Imagenet». Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . дои : 10.1007/s11263-015-0816-y . hdl : 1721.1/104944 . S2CID 2930547 .

[8] «COCO – Общие объекты в контексте» . cocodataset.org .

[9] Сяо, Цзяньсюн и др. «База данных Sun: крупномасштабное распознавание сцен от аббатства до зоопарка». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2010 г., посвященная . ИИЭР, 2010.

[10] Донахью, Джефф; Цзя, Янцин; Виньялс, Ориол; Хоффман, Джуди; Чжан, Нин; Ценг, Эрик; Даррелл, Тревор (2013). «DeCAF: функция глубокой сверточной активации для общего визуального распознавания». arXiv : 1310.1531 [ cs.CV ].

[11] Дэн, Цзя и др. « Imagenet: крупномасштабная иерархическая база данных изображений ». Компьютерное зрение и распознавание образов, 2009. CVPR 2009. Конференция IEEE по . ИИЭР, 2009.

[:02-12] Jump up to: ^а ^б ^с Крижевский, Алекс, Илья Суцкевер и Джеффри Э. Хинтон. « Классификация Imagenet с глубокими сверточными нейронными сетями ». Достижения в области нейронных систем обработки информации . 2012.

[13] Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; и др. (11 апреля 2015 г.). «Масштабная задача визуального распознавания ImageNet». Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . дои : 10.1007/s11263-015-0816-y . hdl : 1721.1/104944 . S2CID 2930547 .

[14] Иван Красин, Том Дюриг, Нил Оллдрин, Андреас Вейт, Сами Абу-Эль-Хайджа, Серж Белонги, Дэвид Цай, Жеюн Фэн, Витторио Феррари, Виктор Гомес, Абхинав Гупта, Дхьянеш Нараянан, Чен Сун, Галь Чечик, Кевин Мерфи. «OpenImages: общедоступный набор данных для крупномасштабной классификации изображений с несколькими метками и несколькими классами, 2017 г. Доступно по адресу https://github.com/openimages ».

[15] Вьяс, Апурв и др. « Обнаружение коммерческих блоков в новостных видеороликах ». Материалы Индийской конференции 2014 года по компьютерной графике и обработке изображений . АКМ, 2014.

[16] Гауптманн, Александр Г. и Майкл Дж. Витброк. « Сегментация сюжетов и обнаружение рекламы в новостных видеороликах ». Исследования и технологические достижения в цифровых библиотеках, 1998. ADL 98. Труды. Международный форум IEEE на . ИИЭР, 1998.

[17] Тунг, Энтони К.Х., Синь Сюй и Бенг Чин Оой. « Керлер: поиск и визуализация нелинейных корреляционных кластеров ». Материалы международной конференции ACM SIGMOD 2005 г. по управлению данными . АКМ, 2005.

[18] Джарретт, Кевин и др. « Какая многоэтапная архитектура лучше всего подходит для распознавания объектов? » Компьютерное зрение, 2009 г., 12-я международная конференция IEEE по . ИИЭР, 2009.

[19] Лазебник, Светлана , Корделия Шмид и Жан Понсе. « За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен ». Компьютерное зрение и распознавание образов, конференция IEEE Computer Society 2006 г., посвященная . Том. 2. ИИЭР, 2006.

[20] Гриффин, Г., А. Голуб и П. Перона. Набор данных по категориям объектов Caltech-256 California Inst . Техн., Тех. Rep. 7694, 2007 г. Доступно: http://authors.library.caltech.edu/7694 , 2007 г.

[21] Баэса-Йейтс, Рикардо и Бертье Рибейро-Нето. Современный поиск информации . Том. 463. Нью-Йорк: ACM press, 1999.

[22] 🐺 COYO-700M: набор данных пар изображение-текст , Kakao Brain, 3 ноября 2022 г. , получено 3 ноября 2022 г.

[23] Фу, Сипин и др. « NOKMeans: хеширование неортогональных K-средств ». Компьютерное зрение — ACCV 2014 . Springer International Publishing, 2014. 162–177.

[24] Хейтц, Джереми; и др. (2009). «Локализация объектов на основе формы для описательной классификации». Международный журнал компьютерного зрения . 84 (1): 40–62. CiteSeerX 10.1.1.142.280 . дои : 10.1007/s11263-009-0228-y . S2CID 646320 .

[25] Эверингем, Марк; и др. (2010). «Вызов классов визуальных объектов (VOC) Паскаля» . Международный журнал компьютерного зрения . 88 (2): 303–338. дои : 10.1007/s11263-009-0275-4 . hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID 4246903 .

[26] Фельценшвальб, Педро Ф.; и др. (2010). «Обнаружение объектов с помощью дискриминативно обученных моделей на основе деталей». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 32 (9): 1627–1645. CiteSeerX 10.1.1.153.2745 . дои : 10.1109/tpami.2009.167 . ПМИД 20634557 . S2CID 3198903 .

[:12-27] Jump up to: ^а ^б Гонг, Юньчао и Светлана Лазебник . «Итеративное квантование: прокрустов подход к изучению двоичных кодов». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2011 г., посвященная . ИИЭР, 2011.

[28] «Набор данных CINIC-10» . Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки (2018) CINIC-10 — это не ImageNet или CIFAR-10 . 09.10.2018 . Проверено 13 ноября 2018 г.

[29] fashion-mnist: база данных модных товаров, подобная MNIST. Контрольный показатель: point_right , Zalando Research, 07 октября 2017 г. , получено 7 октября 2017 г.

[30] «набор данных notMNIST» . Машинное обучение и т. д . 08.09.2011 . Проверено 13 октября 2017 г.

[31] Чаладзе Г., Калатозишвили Л. (2017). Набор данных Линней 5 . Чаладзе.com . Получено 13 ноября 2017 г. с http://chaladze.com/l5/.

[32] Афифи, Махмуд (12 ноября 2017 г.). «Распознавание пола и биометрическая идентификация с использованием большого набора данных изображений рук». arXiv : 1711.04322 [ cs.CV ].

[33] Ломонако, Винченцо; Мальтони, Давиде (18 октября 2017 г.). «CORe50: новый набор данных и эталон непрерывного распознавания объектов». arXiv : 1705.03550 [ cs.CV ].

[34] Она, Ци, Фань; Хао, Ян, Цихан; Лань, Ломонако, Ши, Сюэсун; Го, Яо; Цяо, Фэй Чан (2019). -Object: набор данных роботизированного зрения и эталон для непрерывного -11-15 ) . обучения » . « OpenLORIS глубокого

[35] Морозов, Алексей; Сушкова, Ольга (13.06.2019). «Набор данных ТГц и теплового видео» . Разработка подхода мультиагентного логического программирования для анализа поведения человека в условиях многоканального видеонаблюдения . Москва: ИРЭ РАН . Проверено 19 июля 2019 г.

[36] Морозов, Алексей; Сушкова, Ольга; Кершнер, Иван; Полупанов, Александр (09.07.2019). «Разработка метода терагерцового интеллектуального видеонаблюдения на основе семантического слияния терагерцового и 3D видеоизображений» (PDF) . ЦЭУР . 2391 : бумага19 . Проверено 19 июля 2019 г.

[37] М. Кордтс, М. Омран, С. Рамос, Т. Шарвехтер, М. Энцвайлер, Р. Бененсон, У. Франке, С. Рот и Б. Шиле, « Набор данных о городских пейзажах ». На семинаре CVPR «Будущее наборов данных в Vision», 2015 г.

[38] Хубен, Себастьян и др. « Обнаружение дорожных знаков на реальных изображениях: немецкий эталон обнаружения дорожных знаков ». Нейронные сети (IJCNN), Международная совместная конференция 2013 года по . ИИЭР, 2013.

[39] Матиас, Мэйёль и др. « Распознавание дорожных знаков – насколько мы далеки от решения? ». Нейронные сети (IJCNN), Международная совместная конференция 2013 года по . ИИЭР, 2013.

[40] Гейгер, Андреас, Филип Ленц и Ракель Уртасун. « Готовы ли мы к автономному вождению? Пакет тестов Kitti Vision ». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2012 г., посвященная . ИИЭР, 2012.

[41] Штурм, Юрген и др. « Эталон для оценки систем RGB-D SLAM ». Интеллектуальные роботы и системы (IROS), Международная конференция IEEE/RSJ 2012 г., посвященная . ИИЭР, 2012.

[42] Пакет KITTI Vision Benchmark Suite на YouTube.

[43] Краг, Миккель Ф.; и др. (2017). «FieldSAFE — набор данных для обнаружения препятствий в сельском хозяйстве» . Датчики . 17 (11): 2579. arXiv : 1709.03526 . Бибкод : 2017Senso..17.2579K . дои : 10.3390/s17112579 . ПМЦ 5713196 . ПМИД 29120383 .

[44] «Документы с кодом — набор данных монокулярного обнаружения пешеходов Daimler» . paperswithcode.com . Проверено 5 мая 2023 г.

[45] Энцвейлер, Маркус; Гаврила, Дариу М. (декабрь 2009 г.). «Монокулярное обнаружение пешеходов: исследование и эксперименты» . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (12): 2179–2195. дои : 10.1109/TPAMI.2008.260 . ISSN 1939-3539 . ПМИД 19834140 . S2CID 1192198 .

[46] Инь, Гоцзюнь; Лю, Бин; Чжу, Хуэйхуэй; Гонг, Тао; Ю, Нэнхай (28 июля 2020 г.). «Крупномасштабный набор видеоданных городского наблюдения для отслеживания нескольких объектов и анализа поведения». arXiv : 1904.11784 [ cs.CV ].

[47] «Распознавание объектов в наборе видеоданных» . mi.eng.cam.ac.uk. Проверено 5 мая 2023 г.

[48] Бростоу, Габриэль Дж.; Шоттон, Джейми; Фокёр, Жюльен; Чиполла, Роберто (2008). «Сегментация и распознавание с использованием структуры облаков точек движения» . Компьютерное зрение – ECCV 2008 . Конспекты лекций по информатике. Том. 5302. Спрингер. стр. 44–57. дои : 10.1007/978-3-540-88682-2_5 . ISBN 978-3-540-88681-5 .

[49] Бростоу, Габриэль Дж.; Фокёр, Жюльен; Чиполла, Роберто (15 января 2009 г.). «Классы семантических объектов в видео: база данных достоверных данных высокой четкости» . Буквы для распознавания образов . 30 (2): 88–97. Бибкод : 2009PaReL..30...88B . дои : 10.1016/j.patrec.2008.04.005 . ISSN 0167-8655 .

[50] «Бенчмарк WildDash 2» . wilddash.cc . Проверено 5 мая 2023 г.

[51] Зендел, Оливер; Муршиц, Маркус; Цайлингер, Марсель; Штайнингер, Дэниел; Аббаси, Сара; Белезнай, Чаба (июнь 2019 г.). «RailSem19: набор данных для понимания семантической железнодорожной сцены» . Конференция IEEE/CVF 2019 года по компьютерному зрению и распознаванию образов (CVPRW) . стр. 1221–1229. дои : 10.1109/CVPRW.2019.00161 . ISBN 978-1-7281-2506-0 . S2CID 198166233 .

[52] «Набор данных Борея» . www.boreas.utias.utoronto.ca . Проверено 5 мая 2023 г.

[53] Бернетт, Кинан; Юн, Дэвид Дж.; Ву, Юйчен; Ли, Эндрю Цзоу; Чжан, Хаовэй; Лу, Шичен; Цянь, Цзинсин; Ценг, Вэй-Кан; Ламберт, Эндрю; Люнг, Кейт Ю.К.; Шеллиг, Анджела П .; Барфут, Тимоти Д. (26 января 2023 г.). «Борей: многосезонный набор данных по автономному вождению». arXiv : 2203.10168 [ cs.RO ].

[54] «Набор данных о малых светофорах Bosch» . hci.iwr.uni-heidelberg.de . 1 марта 2017 года . Проверено 5 мая 2023 г.

[55] Берендт, Карстен; Новак, Либор; Ботрос, Рами (май 2017 г.). «Подход к глубокому обучению светофоров: обнаружение, отслеживание и классификация» . Международная конференция IEEE по робототехнике и автоматизации (ICRA) , 2017 г. стр. 1370–1377. дои : 10.1109/ICRA.2017.7989163 . ISBN 978-1-5090-4633-1 . S2CID 6257133 .

[56] «Набор данных FRSign» . frsign.irt-systemx.fr . Проверено 5 мая 2023 г.

[57] Харб, Жанин; Ребена, Николя; Хосидов, Рафаэль; Роблин, Грегуар; Потарусов Роман; Хаджри, Хатем (5 февраля 2020 г.). «FRSign: крупномасштабный набор данных о светофорах для автономных поездов». arXiv : 2002.05665 [ cs.CY ].

[58] "ifs-rwth-aachen/GERALD" . Кафедра Института железнодорожного транспорта и транспортных систем. 30 апреля 2023 г. Проверено 5 мая 2023 г.

[59] Лейбнер, Филипп; Хампель, Фабиан; Шиндлер, Кристиан (3 апреля 2023 г.). «ДЖЕРАЛЬД: Новый набор данных для обнаружения сигналов магистральных железных дорог Германии» . Труды Института инженеров-механиков, Часть F: Журнал железнодорожного и скоростного транспорта . 237 (10): 1332–1342. дои : 10.1177/09544097231166472 . ISSN 0954-4097 . S2CID 257939937 .

[60] Войек, Кристиан; Иди, Стефан; Шиле, Бернт (июнь 2009 г.). «Мультисигнал для обнаружения пешеходов на борту» . Конференция IEEE 2009 г. по компьютерному зрению и распознаванию образов . стр. 794–801. дои : 10.1109/CVPR.2009.5206638 . ISBN 978-1-4244-3992-8 . S2CID 18000078 .

[61] Топрак, Тугче; Айдын, Бурак; Беленлиоглу, Бурак; Гюзелиш, Джюнейт; Селвер, М. Альпер (5 апреля 2020 г.). «Условно-взвешенный ансамбль переданных моделей для бортового обнаружения пешеходов на основе камер в системах поддержки машинистов железнодорожного транспорта» . Транзакции IEEE по автомобильным технологиям : 1. doi : 10.1109/TVT.2020.2983825 . S2CID 216510283 . Проверено 5 мая 2023 г.

[62] Топрак, Тугче; Беленлиоглу, Бурак; Айдын, Бурак; Гузелис, Джунейт; Селвер, М. Альпер (май 2020 г.). «Условно-взвешенный ансамбль переданных моделей для бортового обнаружения пешеходов на основе камер в системах поддержки машинистов железнодорожного транспорта» . Транзакции IEEE по автомобильным технологиям . 69 (5): 5041–5054. дои : 10.1109/TVT.2020.2983825 . ISSN 1939-9359 . S2CID 216510283 .

[63] Тилли, Роман; Ноймайер, Филипп; Швальбе, Карстен; Класек, Павел; Тагиев, Рустам; Дензлер, Патрик; Клокау, Тобиас; Боекхофф, Мартин; Кеппель, Мартин (2023). «Открытые данные датчиков для железной дороги 2023» (на немецком языке). дои : 10.57806/9mv146r0 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[64] Тагиев, Рустам; Кеппель, Мартин; Швальбе, Карстен; Дензлер, Патрик; Ноймайер, Филипп; Клокау, Тобиас; Боекхофф, Мартин; Класек, Павел; Тилли, Роман (4 мая 2023 г.). «OSDaR23: открытые данные датчиков для железной дороги 2023». 2023 8-я Международная конференция по робототехнике и автоматизации (ICRAE) . стр. 270–276. arXiv : 2305.03001 . дои : 10.1109/ICRAE59816.2023.10458449 . ISBN 979-8-3503-2765-6 .

[65] "Дом" . Арговерс . Проверено 5 мая 2023 г.

[66] Чанг, Мин-Фан; Ламберт, Джон; Сангклой, Патсорн; Сингх, Джагджит; Бак, Славомир; Хартнетт, Эндрю; Ван, Де; Карр, Питер; Люси, Саймон; Раманан, Дева; Хейс, Джеймс (6 ноября 2019 г.). «Арговерс: 3D-отслеживание и прогнозирование с помощью насыщенных карт». arXiv : 1911.02620 [ cs.CV ].

[67] Зафейриу, С.; Коллиас, Д.; Николау, Массачусетс; Папайоанну, А.; Чжао, Г.; Коция, И. (2017). «Aff-Wild: вызов валентности и возбуждения «в дикой природе»» (PDF) . Семинары конференции IEEE 2017 по компьютерному зрению и распознаванию образов (CVPRW) . стр. 1980–1987. дои : 10.1109/CVPRW.2017.248 . ISBN 978-1-5386-0733-6 . S2CID 3107614 .

[68] Коллиас, Д.; Циракис, П.; Николау, Массачусетс; Папайоанну, А.; Чжао, Г.; Шуллер, Б.; Коция, И.; Зафейриу, С. (2019). «Прогнозирование глубоких воздействий в реальных условиях: база данных и задачи Aff-Wild, глубокие архитектуры и не только» . Международный журнал компьютерного зрения . 127 (6–7): 907–929. arXiv : 1804.10938 . дои : 10.1007/s11263-019-01158-4 . S2CID 13679040 .

[69] Коллиас, Д.; Зафейриу, С. (2019). «Выражение, аффект, распознавание единиц действия: Aff-wild2, многозадачное обучение и arcface» (PDF) . Британская конференция по машинному зрению (BMVC), 2019 г. arXiv : 1910.04855 .

[70] Коллиас, Д.; Шульк, А.; Гаджиев Э.; Зафейриу, С. (2020). «Анализ аффективного поведения на первом конкурсе ABAW 2020» . 2020 15-я Международная конференция IEEE по автоматическому распознаванию лиц и жестов (FG 2020) . стр. 637–643. arXiv : 2001.11409 . дои : 10.1109/FG47880.2020.00126 . ISBN 978-1-7281-3079-8 . S2CID 210966051 .

[:4-71] Филлипс, П. Джонатон; и др. (1998). «База данных FERET и процедура оценки алгоритмов распознавания лиц». Вычисление изображений и зрительных образов . 16 (5): 295–306. дои : 10.1016/s0262-8856(97)00070-x .

[72] Вискотт, Лауренц; и др. (1997). «Распознавание лиц путем сопоставления графов эластичных групп». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 19 (7): 775–779. CiteSeerX 10.1.1.44.2321 . дои : 10.1109/34.598235 . S2CID 30523165 .

[73] Ливингстон, Стивен Р.; Руссо, Фрэнк А. (2018). «Аудиовизуальная база данных эмоциональной речи и песен Райерсона (RAVDESS): динамичный, мультимодальный набор мимики и голосовых выражений в североамериканском английском языке» . ПЛОС ОДИН . 13 (5): e0196391. Бибкод : 2018PLoSO..1396391L . дои : 10.1371/journal.pone.0196391 . ПМК 5955500 . ПМИД 29768426 .

[74] Ливингстон, Стивен Р.; Руссо, Фрэнк А. (2018). «Эмоция». Аудиовизуальная база данных эмоциональной речи и песен Райерсона (RAVDESS) . дои : 10.5281/zenodo.1188976 .

[:0-75] Гргич, Мислав; Делак, Крешимир; Гргич, Соня (2011). «SCface – база данных лиц камер наблюдения». Мультимедийные инструменты и приложения . 51 (3): 863–879. дои : 10.1007/s11042-009-0417-2 . S2CID 207218990 .

[76] Уоллес, Рой и др. « Моделирование межсессионной изменчивости и совместный факторный анализ для аутентификации по лицу ». Биометрия (IJCB), Международная совместная конференция 2011 г. по . ИИЭР, 2011.

[77] Георгиадес, А. «База данных лиц Йельского университета» . Центр вычислительного видения и управления Йельского университета . 2 : 1997.

[78] Нгуен, Дуй; и др. (2006). «Обнаружение лиц в реальном времени и извлечение особенностей губ с использованием программируемых пользователем вентильных матриц». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 36 (4): 902–912. CiteSeerX 10.1.1.156.9848 . дои : 10.1109/tsmcb.2005.862728 . ПМИД 16903373 . S2CID 7334355 .

[79] Канаде, Такео , Джеффри Ф. Кон и Инли Тянь . « Обширная база данных для анализа выражений лица ». Автоматическое распознавание лиц и жестов, 2000. Труды. Четвертая международная конференция IEEE по . ИИЭР, 2000.

[80] Цзэн, Чжихун; и др. (2009). «Обзор методов распознавания аффектов: аудио, визуальные и спонтанные выражения». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (1): 39–58. CiteSeerX 10.1.1.144.217 . дои : 10.1109/tpami.2008.52 . ПМИД 19029545 .

[81] Лайонс, Майкл; Командир Миюки; Гёба, Дзиро (1998). «Изображения выражения лица» База данных выражений лица японских женщин (JAFFE) . дои : 10.5281/zenodo.3451524 .

[82] Лайонс, Майкл; Акамацу, Сигэру; Камачи, Миюки; Гёба, Дзиро « Кодирование выражений лица с помощью вейвлетов Габора ». Автоматическое распознавание лиц и жестов, 1998. Труды. Третья международная конференция IEEE по . ИИЭР, 1998.

[83] Нг, Хун-Вэй и Стефан Винклер. « Подход к очистке больших наборов данных о лицах, основанный на данных. Архивировано 6 декабря 2019 года в Wayback Machine ». Обработка изображений (ICIP), Международная конференция IEEE 2014 г., посвященная . ИИЭР, 2014.

[84] Рой Чоудхури, Аруни; Линь, Цунг-Ю; Маджи, Субхрансу; Узнал-Миллер, Эрик (2015). «Распознавание лиц один-ко-многим с помощью билинейных CNN». arXiv : 1506.01342 [ cs.CV ].

[85] Джесорский, Оливер, Клаус Дж. Кирхберг и Роберт В. Фришхольц. «Надежное распознавание лиц с использованием расстояния Хаусдорфа». Биометрическая аутентификация личности на основе аудио и видео . Шпрингер Берлин Гейдельберг, 2001.

[86] Хуанг, Гэри Б. и др. Маркированные лица в дикой природе: база данных для изучения распознавания лиц в неограниченных условиях . Том. 1. № 2. Технический отчет 07-49, Массачусетский университет, Амхерст, 2007 г.

[87] Бхатт, Раджен Б. и др. « Эффективная сегментация областей кожи с использованием модели нечеткого дерева решений низкой сложности ». Индийская конференция (INDICON), ежегодный IEEE 2009 г. ИИЭР, 2009.

[88] Лингала, Муника; и др. (2014). «Обнаружение цвета с помощью нечеткой логики: синие области на изображениях дерматоскопии меланомы» . Компьютеризированная медицинская визуализация и графика . 38 (5): 403–410. doi : 10.1016/j.compmedimag.2014.03.007 . ПМК 4287461 . ПМИД 24786720 .

[89] Мэйс, Крис и др. « Обнаружение особенностей на трехмерных поверхностях лица для нормализации и распознавания позы ». Биометрия: теоретические приложения и системы (BTAS), 2010 г. Четвертая международная конференция IEEE по . ИИЭР, 2010.

[90] Савран, Арман и др. « База данных Босфора для 3D-анализа лиц ». Биометрия и управление идентификацией . Springer Berlin Heidelberg, 2008. 47–56.

[91] Хезелтайн, Томас, Ник Пирс и Джим Остин. « Трехмерное распознавание лиц: подход собственной поверхности ». Обработка изображений, 2004. ICIP'04. 2004 Международная конференция по . Том. 2. ИИЭР, 2004.

[92] Ге, Юн; и др. (2011). «Новое 3D-моделирование образцов лица для распознавания лиц». Журнал мультимедиа . 6 (5): 467–475. CiteSeerX 10.1.1.461.9710 . дои : 10.4304/jmm.6.5.467-475 .

[93] Ван, Юэмин; Лю, Цзяньчжуан; Тан, Сяоу (2010). «Надежное 3D-распознавание лиц за счет локального усиления различий в форме». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 32 (10): 1858–1870. CiteSeerX 10.1.1.471.2424 . дои : 10.1109/tpami.2009.200 . ПМИД 20724762 . S2CID 15263913 .

[94] Чжун, Ченг, Чжэнань Сунь и Тиеню Тан. « Надежное 3D-распознавание лиц с использованием изученной визуальной кодовой книги ». Компьютерное зрение и распознавание образов, 2007. CVPR'07. Конференция IEEE . ИИЭР, 2007.

[95] Чжао, Г.; Хуанг, X.; Тайни, М.; Ли, СЗ; Пиетикайнен, М. (2011). «Распознавание выражения лица по видео в ближнем инфракрасном диапазоне» (PDF) . Вычисление изображений и зрительных образов . 29 (9): 607–619. дои : 10.1016/j.imavis.2011.07.002 . ^{[ мертвая ссылка ]}

[96] Сойель, Хамит и Хасан Демирель. « Распознавание выражения лица с использованием трехмерного расстояния между чертами лица ». Анализ и распознавание изображений . Springer Berlin Heidelberg, 2007. 831–838.

[97] Бойер, Кевин В.; Чанг, Кён; Флинн, Патрик (2006). «Обзор подходов и проблем в области 3D и мультимодального 3D + 2D распознавания лиц». Компьютерное зрение и понимание изображений . 101 (1): 1–15. CiteSeerX 10.1.1.134.8784 . дои : 10.1016/j.cviu.2005.05.005 .

[98] Тан, Сяоян; Триггс, Билл (2010). «Расширенные наборы функций локальных текстур для распознавания лиц в сложных условиях освещения». Транзакции IEEE при обработке изображений . 19 (6): 1635–1650. Бибкод : 2010ITIP...19.1635T . CiteSeerX 10.1.1.105.3355 . дои : 10.1109/tip.2010.2042645 . ПМИД 20172829 . S2CID 4943234 .

[99] Мусави, Мир Хашем; Фаез, Карим; Асгари, Амин (2008). «Трехмерное распознавание лиц с использованием классификатора SVM» . Седьмая Международная конференция IEEE/ACIS по компьютерным и информационным наукам (Icis 2008) . стр. 208–213. дои : 10.1109/ICIS.2008.77 . ISBN 978-0-7695-3131-1 . S2CID 2710422 .

[100] Амберг, Брайан; Кноте, Рейнхард; Веттер, Томас (2008). «Трёхмерное распознавание лиц с инвариантным выражением лица с помощью морфируемой модели» (PDF) . 2008 г. 8-я Международная конференция IEEE по автоматическому распознаванию лиц и жестов . стр. 1–6. дои : 10.1109/AFGR.2008.4813376 . ISBN 978-1-4244-2154-1 . S2CID 5651453 . Архивировано из оригинала (PDF) 28 июля 2018 года . Проверено 6 августа 2019 г.

[101] Ирфаноглу, Миссури; Гокберк, Б.; Акарун, Л. (2004). «Распознавание лиц на основе 3D-форм с использованием автоматически регистрируемых поверхностей лица» . Материалы 17-й Международной конференции по распознаванию образов, 2004 г. ICPR 2004 . С. 183–186 Том 4. дои : 10.1109/ICPR.2004.1333734 . ISBN 0-7695-2128-2 . S2CID 10987293 .

[102] Бомье, Чарльз; Ашерой, Марк (2001). «Проверка лица по 3D-подсказкам и подсказкам уровня серого». Буквы для распознавания образов . 22 (12): 1321–1329. Бибкод : 2001PaReL..22.1321B . дои : 10.1016/s0167-8655(01)00077-0 .

[103] Афифи, Махмуд; Абдельхамед, Абдельрахман (13 июня 2017 г.). «AFIF4: Глубокая гендерная классификация, основанная на объединении изолированных черт лица и туманных лиц на основе AdaBoost». arXiv : 1706.04277 [ cs.CV ].

[104] «Набор данных SoF» . сайты.google.com . Проверено 18 ноября 2017 г.

[105] «IMDb-ВИКИ» . data.vision.ee.ethz.ch . Проверено 13 марта 2018 г.

[106] Патрон-Перес, А.; Маршалек, М.; Рид, И.; Зиссерман, А. (2012). «Структурированное изучение человеческого взаимодействия в телешоу». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 34 (12): 2441–2453. дои : 10.1109/tpami.2012.24 . ПМИД 23079467 . S2CID 6060568 .

[107] Офли, Ф., Чаудри, Р., Курилло, Г., Видал, Р., и Байчи, Р. (январь 2013 г.). Berkeley MHAD: Комплексная мультимодальная база данных о человеческой деятельности . В «Приложениях компьютерного зрения» (WACV), семинар IEEE 2013 г. (стр. 53–60). IEEE.

[108] Цзян, Ю.Г. и др. «Задача THUMOS: распознавание действий с большим количеством классов». Семинар ICCV по распознаванию действий с большим количеством классов , http://crcv.ucf.edu/ICCV13-Action-Workshop . 2013.

[109] Симоньян, Карен и Эндрю Зиссерман. « Двухпотоковые сверточные сети для распознавания действий в видеороликах ». Достижения в области нейронных систем обработки информации . 2014.

[110] Стоян, Андрей; Ферекату, Марин; Бенуа-Пино, Женни; Круциану, Мишель (2016). «Быстрая локализация в крупномасштабных видеоархивах». Транзакции IEEE по схемам и системам видеотехнологий . 26 (10): 1917–1930. дои : 10.1109/TCSVT.2015.2475835 . S2CID 31537462 .

[111] Ботта, М., А. Джордана и Л. Саитта . « Изучение нечетких определений понятий ». Нечеткие системы, 1993 г., Вторая международная конференция IEEE по . ИИЭР, 1993.

[112] Фрей, Питер В.; Слейт, Дэвид Дж. (1991). «Распознавание букв с использованием адаптивных классификаторов голландского типа» . Машинное обучение . 6 (2): 161–182. дои : 10.1007/bf00114162 .

[113] Пелтонен, Яакко; Клами, Арто; Каски, Сэмюэл (2004). «Улучшенное изучение римановых метрик для исследовательского анализа». Нейронные сети . 17 (8): 1087–1100. CiteSeerX 10.1.1.59.4865 . дои : 10.1016/j.neunet.2004.06.008 . ПМИД 15555853 .

[casia13-114] Jump up to: ^а ^б Лю, Ченг-Линь; Инь, Фэй; Ван, Да-Хан; Ван, Цю-Фэн (январь 2013 г.). «Распознавание рукописных китайских иероглифов онлайн и офлайн: сравнение новых баз данных». Распознавание образов . 46 (1): 155–162. Бибкод : 2013PatRe..46..155L . дои : 10.1016/j.patcog.2012.06.021 .

[OLHWDB1-115] Ван, Д.; Лю, К.; Ю, Дж.; Чжоу, X. (2009). «CASIA-OLHWDB1: база данных рукописных китайских иероглифов в Интернете». 2009 10-я Международная конференция по анализу и распознаванию документов . стр. 1206–1210. дои : 10.1109/ICDAR.2009.163 . ISBN 978-1-4244-4500-4 . S2CID 5705532 .

[116] Уильямс, Бен Х., Марк Туссен и Амос Дж. Сторки. Извлечение примитивов движения из данных естественного рукописного ввода . Шпрингер Берлин Гейдельберг, 2006.

[117] Мейер, Франциска и др. « Сегментация движения с использованием библиотеки примитивов ». Интеллектуальные роботы и системы (IROS), Международная конференция IEEE/RSJ 2011 г., посвященная . ИИЭР, 2011.

[118] TE де Кампос, BR Бабу и М. Варма. Распознавание символов в естественных изображениях . В материалах Международной конференции по теории и приложениям компьютерного зрения (VISAPP), Лиссабон, Португалия , февраль 2009 г.

[119] Коэн, Грегори; Афшар, Саид; Тэпсон, Джонатан; Андре ван Шайк (2017). «EMNIST: расширение MNIST на рукописные письма». arXiv : 1702.05373v1 [ cs.CV ].

[120] «Набор данных EMNIST» . НИСТ . 4 апреля 2017 г.

[121] Коэн, Грегори; Афшар, Саид; Тэпсон, Джонатан; Андре ван Шайк (2017). «EMNIST: расширение MNIST на рукописные письма». arXiv : 1702.05373 [ cs.CV ].

[122] Льоренс, Дэвид и др. « База данных UJIpenchars: основанная на ручке база данных изолированных рукописных символов ». ЛРЭК . 2008.

[123] Кальдерара, Симона; Прати, Андреа; Куккьяра, Рита (2011). «Смеси распределений фон Мизеса для анализа формы траектории людей». Транзакции IEEE по схемам и системам видеотехнологий . 21 (4): 457–471. дои : 10.1109/tcsvt.2011.2125550 . S2CID 1427766 .

[124] Гийон, Изабель и др. « Анализ результатов конкурса выбора функций 2003 года ». Достижения в области нейронных систем обработки информации . 2004.

[125] Лейк, БМ; Салахутдинов Р.; Тененбаум, Дж. Б. (11 декабря 2015 г.). «Концептуальное обучение на человеческом уровне посредством индукции вероятностной программы» . Наука . 350 (6266): 1332–1338. Бибкод : 2015Sci...350.1332L . дои : 10.1126/science.aab3050 . ISSN 0036-8075 . ПМИД 26659050 .

[126] Лейк, Бренден (09 ноября 2019 г.), набор данных Omniglot для однократного обучения , получено 10 ноября 2019 г.

[127] ЛеКун, Янн; и др. (1998). «Градиентное обучение применительно к распознаванию документов». Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791 . S2CID 14542261 .

[128] Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисление изображений и зрительных образов . 22 (12): 971–981. дои : 10.1016/j.imavis.2004.03.008 .

[129] Сюй, Лей; Кшижак, Адам; Суен, Чинг Ю. (1992). «Методы объединения нескольких классификаторов и их приложения для распознавания рукописного текста». Транзакции IEEE по системам, человеку и кибернетике . 22 (3): 418–435. дои : 10.1109/21.155943 . hdl : 10338.dmlcz/135217 .

[130] Алимоглу, Февзи и др. « Объединение нескольких классификаторов для распознавания рукописных цифр с помощью пера ». (1996).

[131] Тан, Э. Кэ; и др. (2005). «Линейное уменьшение размерности с использованием LDA, взвешенного по релевантности». Распознавание образов . 38 (4): 485–493. Бибкод : 2005PatRe..38..485T . дои : 10.1016/j.patcog.2004.09.005 . S2CID 10580110 .

[132] Хонг, Йи и др. « Изучение смеси редких метрик расстояний для классификации и уменьшения размерности ». Компьютерное зрение (ICCV), Международная конференция IEEE 2011 г., посвященная . ИИЭР, 2011.

[133] Тома, Мартин (2017). «Набор данных HASYv2». arXiv : 1701.08380 [ cs.CV ].

[134] Карки, Манохар; Лю, Цюнь; ДиБьяно, Роберт; Басу, Сайкат; Мухопадьяй, Супратик (20 июня 2018 г.). «Реконструкция и классификация на уровне пикселей зашумленных рукописных символов бангла». arXiv : 1806.08037 [ cs.CV ].

[135] Лю, Цюнь; Кольер, Эдвард; Мукхопадьяй, Супратик (2019), «PCGAN-CHAR: прогрессивно обученные генеративно-состязательные сети классификаторов для классификации зашумленных рукописных символов бангла», Цифровые библиотеки на перекрестке цифровой информации для будущего , Конспекты лекций по информатике, том. 11853, Springer International Publishing, стр. 3–15, arXiv : 1908.08987 , doi : 10.1007/978-3-030-34058-2_1 , ISBN 978-3-030-34057-5 , S2CID 201665955

[136] «АЙСАИД» . капитан-whu.github.io . Проверено 30 ноября 2021 г.

[137] Замир, Сайед и Арора, Адитья и Гупта, Акшита и Хан, Салман и Сунь, Гуолей и Хан, Фахад и Чжу, Фань и Шао, Лин и Ся, Гуй-Сон и Бай, Сян. (2019). iSAID: крупномасштабный набор данных для сегментации экземпляров аэрофотоснимков. веб-сайт

[138] Юань, Цзянъе; Глисон, Шон С.; Чериядат, Анил М. (2013). «Систематический бенчмаркинг сегментации аэрофотоснимков». Письма IEEE по геонаукам и дистанционному зондированию . 10 (6): 1527–1531. Бибкод : 2013IGRSL..10.1527Y . дои : 10.1109/lgrs.2013.2261453 . S2CID 629629 .

[139] Ватсаваи, Ранга Раджу. « Объектно-ориентированная классификация изображений: современное состояние и вычислительные проблемы ». Материалы 2-го международного семинара ACM SIGSPATIAL по аналитике больших геопространственных данных . АКМ, 2013.

[140] Бутенут, Матиас и др. « Интеграция моделирования пешеходов, отслеживания и обнаружения событий для анализа толпы ». Семинары по компьютерному зрению (ICCV Workshops), Международная конференция IEEE 2011 г., посвященная . ИИЭР, 2011.

[141] Фради, Хаджер и Жан-Люк Дюгеле. « Анализ толпы на низком уровне с использованием покадровой нормализованной функции для подсчета людей ». Информационная криминалистика и безопасность (WIFS), Международный семинар IEEE 2012 г. по . ИИЭР, 2012.

[142] Джонсон, Брайан Алан, Рютаро Татейши и Нгуен Тхань Хоан. « Гибридный подход к панорамированию и многомасштабному объектно-ориентированному анализу изображений для картирования больных сосен и дубов ». Международный журнал дистанционного зондирования 34.20 (2013): 6969–6982.

[143] Мохд Пози, Мухаммад Сяфик; Сулейман, штат Мэриленд Насир; Мустафа, Норвати; Перумал, Тинагаран (2015). «Новая модель классификации для несбалансированного набора данных по классам с использованием генетического программирования и машин опорных векторов: практический пример классификации болезней вилта» . Письма о дистанционном зондировании . 6 (7): 568–577. Бибкод : 2015RSL.....6..568M . дои : 10.1080/2150704X.2015.1062159 . S2CID 58788630 .

[144] Гальего, А.-Дж.; Пертуса, А.; Гил, П. « Автоматическая классификация кораблей по оптическим аэрофотоснимкам с помощью сверточных нейронных сетей ». Дистанционное зондирование . 2018 год; 10(4):511.

[145] Гальего, А.-Дж.; Пертуса, А.; Гил, П. «Набор данных изображений MAritime SATellite». Доступно: https://www.iuii.ua.es/datasets/masati/ , 2018.

[146] Джонсон, Брайан; Татейши, Рютаро; Се, Чжисяо (2012). «Использование географически взвешенных переменных для классификации изображений». Письма о дистанционном зондировании . 3 (6): 491–499. Бибкод : 2012RSL.....3..491J . дои : 10.1080/01431161.2011.629637 . S2CID 122543681 .

[147] Чаттерджи, Санкхадип и др. « Классификация типов леса: подход на основе гибридной модели NN-GA ». Проектирование информационных систем и интеллектуальные приложения . Springer India, 2016. 227–236.

[148] Дигерт, Карл. « Комбинаторный метод отслеживания объектов с использованием семантики их формы ». Семинар по распознаванию образов прикладных изображений (AIPR), 39-я конференция IEEE, 2010 г. ИИЭР, 2010.

[149] Разакаривони, Себастьян и Фредерик Жюри. « Обнаружение небольших целей, сочетающее передний и фоновый коллекторы ». Международная конференция IAPR по приложениям машинного зрения . 2013.

[150] «СпейсНет» . explore.digitalglobe.com . Архивировано из оригинала 13 марта 2018 года . Проверено 13 марта 2018 г.

[151] Эттен, Адам Ван (5 января 2017 г.). «Начало работы с данными SpaceNet» . ДаунЛинК . Проверено 13 марта 2018 г.

[152] Вакалопулу, М.; Автобус, Н.; Карантзалоса, К.; Парагиос, Н. (июль 2017 г.). «Интеграция априорных значений краев/границ с оценками классификации для обнаружения зданий в данных очень высокого разрешения». Международный симпозиум IEEE по геонаукам и дистанционному зондированию (IGARSS) 2017 г. стр. 3309–3312. дои : 10.1109/IGARSS.2017.8127705 . ISBN 978-1-5090-4951-6 . S2CID 8297433 .

[153] Ян, Йи; Ньюсам, Шон (2010). «Мешок визуальных слов и пространственные расширения для классификации землепользования». Материалы 18-й Международной конференции SIGSPATIAL по достижениям в области географических информационных систем . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 270–279. дои : 10.1145/1869790.1869829 . ISBN 9781450304283 . S2CID 993769 .

[:1-154] Jump up to: ^а ^б Басу, Сайкат; Гангули, Санграм; Мухопадьяй, Супратик; ДиБьяно, Роберт; Карки, Манохар; Немани, Рамакришна (3 ноября 2015 г.). «DeepSat: Система обучения спутниковым снимкам». Материалы 23-й Международной конференции SIGSPATIAL по достижениям в области географических информационных систем . АКМ. стр. 1–10. дои : 10.1145/2820783.2820816 . ISBN 9781450339674 . S2CID 4387134 .

[:11-155] Jump up to: ^а ^б Лю, Цюнь; Басу, Сайкат; Гангули, Санграм; Мухопадьяй, Супратик; ДиБьяно, Роберт; Карки, Манохар; Немани, Рамакришна (21 ноября 2019 г.). «DeepSat V2: расширенные сверточные нейронные сети для классификации спутниковых изображений». Письма о дистанционном зондировании . 11 (2): 156–165. arXiv : 1911.07747 . дои : 10.1080/2150704x.2019.1693071 . ISSN 2150-704X . S2CID 208138097 .

[156] М-р Джахидул Ислам и др. « Семантическая сегментация подводных изображений: набор данных и ориентир ». Международная конференция IEEE/RSJ по интеллектуальным роботам и системам (IROS) 2020 г. ИИЭР, 2020.

[157] Васак и др. « Семантическая сегментация при проверках подводных судов: контрольный показатель и набор данных ». Журнал IEEE океанической инженерии . ИИЭР, 2022.

[158] Эбади, Ашкан; Пол, Патрик; Ауэр, София; Трамбле, Стефан (12 ноября 2021 г.). «NRC-GAMMA: Представляем новый набор данных изображений больших газовых счетчиков». arXiv : 2111.06827 [ cs.CV ].

[159] Канада, Национальный исследовательский совет правительства Канады (2021 г.). «Набор данных изображений газового счетчика (NRC-GAMMA) — цифровой репозиторий NRC» . nrc-digital-repository.canada.ca . дои : 10.4224/3c8s-z290 . Проверено 2 декабря 2021 г.

[160] Рабах, Хайма Бен; Коатрие, Гуэну; Абдельфаттах, Риад (октябрь 2020 г.). «База данных отсканированных документов Supatlantique для целей криминалистики цифровых изображений» . Международная конференция IEEE по обработке изображений (ICIP) 2020 года . IEEE. стр. 2096–2100. дои : 10.1109/icip40778.2020.9190665 . ISBN 978-1-7281-6395-6 . S2CID 224881147 .

[161] Миллс, Кайл; Тэмблин, Исаак (16 мая 2018 г.), Большой набор данных по графену , Национальный исследовательский совет Канады, doi : 10.4224/c8sc04578j.data

[162] Миллс, Кайл; Спаннер, Майкл; Тэмблин, Исаак (16 мая 2018 г.). «Квантовое моделирование». Квантовое моделирование электрона в двумерной потенциальной яме . Национальный исследовательский совет Канады. doi : 10.4224/PhysRevA.96.042113.data .

[163] Рорбах, М.; Амин, С.; Андрилука, М.; Шиле, Б. (2012). «База данных для детального обнаружения кулинарной деятельности». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . IEEE. стр. 1194–1201. дои : 10.1109/cvpr.2012.6247801 . ISBN 978-1-4673-1228-8 .

[164] Кюне, Хильда, Али Арслан и Томас Серр. « Язык действий: восстановление синтаксиса и семантики целенаправленной человеческой деятельности ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.

[165] Святослав, Волошиновский и др. « На пути к воспроизводимым результатам в аутентификации на основе физических неклонируемых функций: оптический набор микроструктур для судебно-медицинской экспертизы (FAMOS) » . Учеб. Материалы международного семинара IEEE по информационной криминалистике и безопасности . 2012.

[166] Ольга, Таран и Шиде, Резаифар и др. « PharmaPack: мобильное детальное распознавание фармацевтических упаковок ». Учеб. Европейская конференция по обработке сигналов (EUSIPCO) . 2017.

[167] Хосла, Адитья и др. « Новый набор данных для детальной категоризации изображений: Стэнфордские собаки ». Учеб. Семинар CVPR по детальной визуальной категоризации (FGVC) . 2011.

[:7-168] Jump up to: ^а ^б Пархи, Омкар М. и др. « Кошки и собаки ». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2012 г., посвященная . ИИЭР, 2012.

[169] Биггс, Бенджамин; Бойн, Оливер; Чарльз, Джеймс; Фитцгиббон, Эндрю; Чиполла, Роберто (2020). Компьютерное зрение – ECCV 2020 . Конспекты лекций по информатике. Том. 12356. arXiv : 2007.11110 . дои : 10.1007/978-3-030-58621-8 . ISBN 978-3-030-58620-1 . S2CID 227173931 .

[Razavian,_Ali_2014-170] Разавиан, Али и др. « Готовые материалы CNN: потрясающая основа для признания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов . 2014.

[171] Ортега, Майкл; и др. (1998). «Поддержка ранжированных логических запросов сходства в MARS». Транзакции IEEE по знаниям и инженерии данных . 10 (6): 905–925. CiteSeerX 10.1.1.36.6079 . дои : 10.1109/69.738357 .

[172] Он, Сюмин, Ричард С. Земель и Мигель А. Каррейра-Перпиньян. « Многомасштабные условные случайные поля для маркировки изображений ^{[ постоянная мертвая ссылка ]}Компьютерное зрение и распознавание образов, 2004. CVPR 2004. Материалы конференции компьютерного общества IEEE 2004 года . Том 2. IEEE, 2004.

[173] Денеке, Теодрос и др. « Прогнозирование времени перекодирования видео для упреждающей балансировки нагрузки ». Мультимедиа и выставка (ICME), Международная конференция IEEE 2014 г. ИИЭР, 2014.

[174] Тин-Хао (Кеннет) Хуанг, Фрэнсис Ферраро, Насрин Мостафазаде, Ишан Мисра, Айшвария Агравал, Джейкоб Девлин, Росс Гиршик, Сяодун Хэ, Пушмит Кохли, Дхрув Батра, К. Лоуренс Зитник, Деви Парих, Люси Вандервенде, Мишель Галлей, Маргарет Митчелл (13 апреля 2016 г.). «Визуальное повествование». arXiv : 1604.03968 [ cs.CL ]. {{cite arXiv}}: CS1 maint: несколько имен: список авторов ( ссылка )

[175] Вау, Кэтрин и др. « Набор данных Caltech-ucsd birds-200-2011 ». (2011).

[176] Дуань, Кун и др. « Обнаружение локализованных атрибутов для детального распознавания ». Компьютерное зрение и распознавание образов (CVPR), конференция IEEE 2012 г., посвященная . ИИЭР, 2012.

[177] «Набор данных YouTube-8M» . исследование.google.com . Проверено 1 октября 2016 г.

[178] Абу-эль-Хайджа, саами; Котари, Нисарг; Ли, Джунсок; Нацев, Павел; Тодеричи, Джордж; Варадараджан, Балакришнан; Виджаянарасимхан, Судхендра (27 сентября 2016 г.). «YouTube-8M: крупномасштабный тест классификации видео». arXiv : 1609.08675 [ cs.CV ].

[179] «Набор данных YFCC100M» . mmcommons.org . Yahoo-ICSI-LLNL . Проверено 1 июня 2017 г.

[180] Барт Томи; Дэвид Шамма; Джеральд Фридланд; Бенджамин Элизальде; Карл Ни; Дуглас Поланд; Дамиан Борт; Ли-Цзя Ли (25 апреля 2016 г.). «Yfcc100m: Новые данные в мультимедийных исследованиях». Коммуникации АКМ . 59 (2): 64–73. arXiv : 1503.01817 . дои : 10.1145/2812802 . S2CID 207230134 .

[181] Ю. Бавей, Э. Делландреа, К. Шамаре и Л. Чен, « LIRIS-ACCEDE: база данных видео для аффективного анализа контента », в IEEE Transactions on Affective Computing, 2015.

[182] Ю. Бавей, Э. Делландреа, К. Шамаре и Л. Чен, « Глубокое обучение против методов ядра: производительность для прогнозирования эмоций в видео », на конференции Ассоциации Humaine по аффективным вычислениям и интеллектуальному взаимодействию (ACII), 2015 г. .

[183] М. Сьоберг, Ю. Бавей, Х. Ван, В. Л. Куанг, Б. Ионеску, Э. Делландреа, М. Шедль, К.-Х. Демарти и Л. Чен, « Аффективное воздействие кинозадачи в средневековье 2015 года », на семинаре MediaEval 2015 Workshop, 2015.

[184] С. Джонсон и М. Эверингем, « Кластерные модели позы и нелинейные модели внешнего вида для оценки позы человека, архивированные 4 ноября 2021 г. в Wayback Machine », в материалах 21-й Британской конференции по машинному зрению (BMVC2010)

[185] С. Джонсон и М. Эверингем, « Обучение эффективной оценке позы человека на основе неточных аннотаций, заархивировано 4 ноября 2021 г. в Wayback Machine », в материалах конференции IEEE по компьютерному зрению и распознаванию образов (CVPR2011)

[186] Афифи, Махмуд; Хусейн, Халед Ф. (2 ноября 2017 г.). «Достижение более высокой гибкости в тестах на основе множественного выбора с использованием методов классификации изображений». arXiv : 1711.00972 [ cs.CV ].

[187] «Набор данных MCQ» . сайты.google.com . Проверено 18 ноября 2017 г.

[188] Тадж-Эддин, IATF; Афифи, М.; Кораши, М.; Хамди, Д.; Насер, М.; Дербаз, С. (июль 2016 г.). «Новый метод сжатия видео наблюдения: оценка с использованием нового набора данных». 2016 Шестая Международная конференция по цифровым информационно-коммуникационным технологиям и их приложениям (DICTAP) . стр. 159–164. дои : 10.1109/DICTAP.2016.7544020 . ISBN 978-1-4673-9609-7 . S2CID 8698850 .

[TabakNorouzzadeh2018-189] Табак, Майкл А.; Норуззаде, Мохаммед С.; Вольфсон, Дэвид В.; Суини, Стивен Дж.; Веркаутерен, Курт К.; Сноу, Натан П.; Хэлсет, Джозеф М.; Ди Сальво, Пол А.; Льюис, Джесси С.; Уайт, Майкл Д.; Тетон, Бен; Бизли, Джеймс С.; Шлихтинг, Питер Э.; Боутон, Рауль К.; Уайт, Бетани; Ньюкирк, Эрик С.; Иван, Джейкоб С.; Оделл, Эрик А.; Брук, Райан К.; Лукач, Пол М.; Мёллер, Анна К.; Мандевиль, Элизабет Г.; Клюн, Джефф; Миллер, Райан С.; Фотопулу, Теони (2018). «Машинное обучение классификации видов животных по изображениям с фотоловушек: приложения в экологии» . Методы экологии и эволюции . 10 (4): 585–590. дои : 10.1111/2041-210X.13120 . ISSN 2041-210X .

[190] Тадж-Эддин, Ислам АТФ; Афифи, Махмуд; Кораши, Мостафа; Ахмед, Али Х.; Нг, Иок Ченг; Эрнандес, Эвелинг; Абдель-Латиф, Сальма М. (ноябрь 2017 г.). «Можем ли мы увидеть фотосинтез? Увеличьте крошечные изменения цвета зеленых листьев растений с помощью эйлерова видеоувеличения ». Журнал электронных изображений . 26 (6): 060501. arXiv : 1706.03867 . Бибкод : 2017JEI....26f0501T . дои : 10.1117/1.jei.26.6.060501 . ISSN 1017-9909 . S2CID 12367169 .

[191] «Мемы по математической математике» .

[192] Каррас, Теро; Лайне, Самули; Айла, Тимо (июнь 2019 г.). «Архитектура генератора на основе стилей для генеративно-состязательных сетей» . Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 4396–4405. arXiv : 1812.04948 . дои : 10.1109/cvpr.2019.00453 . ISBN 978-1-7281-3293-8 . S2CID 54482423 .

[193] Олтян, Михай (2017). «Набор данных Fruits-360» . Гитхаб .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]