Jump to content

Калтех 101

Caltech 101 — это данных набор цифровых изображений, созданный в сентябре 2003 года и составленный Фей-Фей Ли , Марко Андреетто, Марком Аурелио Ранзато и Пьетро Пероной из Калифорнийского технологического института . Он предназначен для облегчения исследований и методов компьютерного зрения и наиболее применим к методам, включающим классификацию и категоризацию распознавания изображений . Caltech 101 содержит в общей сложности 9146 изображений, разделенных на 101 отдельную категорию объектов ( лица , часы , муравьи , пианино и т. д.) и категорию фона. К изображениям прилагается набор аннотаций, описывающих контуры каждого изображения, а также Matlab сценарий для просмотра.

Большинство алгоритмов компьютерного зрения и машинного обучения работают путем обучения на примерах входных данных. Для эффективной работы им требуется большой и разнообразный набор обучающих данных. Например, метод обнаружения лиц в реальном времени , использованный Полом Виолой и Майклом Джонсом, был обучен на 4916 лицах, помеченных вручную. [1]

Обрезка, изменение размера и ручная маркировка точек интереса утомительны и отнимают много времени.

Исторически сложилось так, что большинство наборов данных, используемых в исследованиях компьютерного зрения, были адаптированы к конкретным потребностям проекта, над которым ведется работа. Большой проблемой при сравнении методов компьютерного зрения является тот факт, что большинство групп используют свои собственные наборы данных. Каждый набор может иметь разные свойства, из-за которых результаты, полученные от разных методов, сложнее сравнивать напрямую. Например, различия в размере изображения, качестве изображения, относительном расположении объектов на изображениях, а также уровне присутствия окклюзии и беспорядка могут привести к различным результатам. [2]

Набор данных Caltech 101 направлен на решение многих из этих распространенных проблем.

  • Изображения обрезаются и масштабируются.
  • Представлено множество категорий, что подходит как для алгоритмов распознавания одного, так и для нескольких классов.
  • Обозначены детализированные контуры объектов.
  • Доступный для общего использования, Caltech 101 действует как общий стандарт, по которому можно сравнивать различные алгоритмы без предвзятости из-за разных наборов данных.

Однако последующее исследование показало, что тесты, основанные на неконтролируемых естественных изображениях (например, набор данных Калифорнийского технологического института 101), могут серьезно вводить в заблуждение, потенциально направляя прогресс в неправильном направлении. [3]

Набор данных

[ редактировать ]

Изображения

[ редактировать ]

Набор данных Caltech 101 состоит из 9146 изображений, разделенных на 101 различную категорию объектов, а также дополнительную категорию фона/помех.

Каждая категория объектов содержит от 40 до 800 изображений. Распространенные и популярные категории, такие как лица, обычно содержат большее количество изображений, чем другие.

Каждое изображение имеет размер около 300x200 пикселей. Изображения ориентированных объектов, таких как самолеты и мотоциклы, были зеркально отражены, чтобы выровняться слева направо, а вертикально ориентированные конструкции, такие как здания, были повернуты, чтобы отклониться от оси.

Аннотации

[ редактировать ]

Для каждого изображения предусмотрен набор аннотаций. Каждый набор аннотаций содержит две части информации: общую ограничивающую рамку, в которой расположен объект, и подробный заданный человеком контур, охватывающий объект.

С аннотациями поставляется сценарий Matlab. Он загружает изображение и соответствующий ему файл аннотаций и отображает их как рисунок Matlab.

Использование

[ редактировать ]

Набор данных Caltech 101 использовался для обучения и тестирования нескольких алгоритмов распознавания и классификации компьютерного зрения. Первой статьей, в которой использовался Калифорнийский технологический институт 101, был поэтапный байесовский подход к однократному обучению. [4] попытка классифицировать объект, используя только несколько примеров, опираясь на предварительные знания о других классах.

Изображения Caltech 101 вместе с аннотациями были использованы для еще одной одноразовой учебной работы в Калифорнийском технологическом институте. [5]

Другие документы по компьютерному зрению, в которых сообщается об использовании набора данных Caltech 101, включают:

  • Сопоставление форм и распознавание объектов с использованием соответствия с низкими искажениями. Александр С. Берг, Тамара Л. Берг, Джитендра Малик . ЦВПР 2005
  • Ядро соответствия пирамиды: дискриминативная классификация с наборами признаков изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г. [6]
  • Объединение генеративных моделей и ядер Фишера для распознавания классов объектов. Голуб, А.Д. Веллинг, М. Перона, П. Международная конференция по компьютерному зрению (ICCV), 2005 г. [7]
  • Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджо. Материалы конференции IEEE Computer Society 2005 г. по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г. [8]
  • SVM-KNN: дискриминационная классификация ближайших соседей для визуального распознавания категорий. Хао Чжан, Алекс Берг, Майкл Мэр, Джитендра Малик . ЦВПР, 2006 г. [9]
  • За пределами множества функций: сопоставление пространственных пирамид для распознавания категорий природных сцен. Светлана Лазебник , Корделия Шмид и Жан Понсе. ЦВПР, 2006 г. [10]
  • Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов. MJ Мар-Джим-Эс и Н. Перес де ла Бланка. декабрь 2005 г. [11]
  • Распознавание мультиклассовых объектов с редкими локализованными функциями. Джим Матч и Дэвид Г. Лоу, стр. 11–18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г. [12]
  • Использование зависимых областей или категоризации объектов в генеративной структуре. Г. Ван, Ю. Чжан и Л. Фей-Фей. IEEE Комп. Вис. Пэт. Признак. 2006 г. [13]

Анализ и сравнение

[ редактировать ]

Преимущества

[ редактировать ]

Caltech 101 имеет ряд преимуществ перед другими аналогичными наборами данных:

  • Единый размер и презентация:
    • Почти все изображения в каждой категории одинаковы по размеру и относительному расположению интересующих объектов. Пользователям Caltech 101 обычно не нужно обрезать или масштабировать изображения перед их использованием.
  • Низкий уровень беспорядка/окклюзии:
    • Алгоритмы, связанные с распознаванием, обычно функционируют, сохраняя уникальные для объекта характеристики. Однако большинство сделанных изображений имеют разную степень загроможденности фона, что означает, что алгоритмы могут строиться неправильно.
  • Подробные аннотации

Слабые стороны

[ редактировать ]

Слабые стороны набора данных Caltech 101 [3] [14] могут быть сознательными компромиссами, но есть и ограничения набора данных. Статьи, которые опираются исключительно на Caltech 101, часто отклоняются.

К слабым сторонам относятся:

  • Набор данных слишком чистый:
    • Изображения очень однородны по представлению, выровнены слева направо и обычно не перекрыты. В результате изображения не всегда отражают практические входные данные, которые алгоритм может ожидать позже. В практических условиях изображения более загромождены, закрыты и демонстрируют большую вариативность относительного положения и ориентации интересующих объектов. Единообразие позволяет выводить концепции, используя среднее значение категории, что нереально.
  • Ограниченное количество категорий:
    • Набор данных Caltech 101 представляет лишь небольшую часть возможных категорий объектов.
  • Некоторые категории содержат мало изображений:
    • Некоторые категории представлены не так хорошо, как другие, содержащие всего 31 изображение.
    • Это означает, что . Количество изображений, используемых для обучения, должно быть меньше или равно 30, что недостаточно для всех целей.
  • Псевдонимы и артефакты из-за манипуляций:
    • Некоторые изображения были повернуты и масштабированы по сравнению с исходной ориентацией и страдают от некоторого количества артефактов или сглаживания .

Другие наборы данных

[ редактировать ]
  • Caltech 256 — еще один набор данных изображений, созданный в 2007 году. Он является преемником Caltech 101. Он предназначен для устранения некоторых недостатков Caltech 101. В целом это более сложный набор данных, чем Caltech 101, но он страдает от сопоставимые проблемы. Он включает в себя [3]
    • 30 607 изображений, охватывающих большее количество категорий.
    • Минимальное количество изображений в каждой категории увеличено до 80.
    • Изображения не выровнены по левому и правому краю
    • Больше разнообразия в представлении изображений
  • LabelMe — это открытый динамический набор данных, созданный в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). LabelMe использует другой подход к проблеме создания большого набора данных изображений, но с другими компромиссами.
    • 106 739 изображений, 41 724 изображения с аннотациями и 203 363 объекта с метками.
    • Пользователи могут добавлять изображения в набор данных путем загрузки, а также добавлять метки или аннотации к существующим изображениям.
    • Из-за своей открытой природы LabelMe имеет гораздо больше изображений, охватывающих гораздо более широкую область применения, чем Caltech 101. Однако, поскольку каждый человек решает, какие изображения загружать, а также как маркировать и аннотировать каждое изображение, изображения менее последовательны.
  • VOC 2008 — это европейская попытка собрать изображения для сравнения методов визуальной категоризации. По сравнению с Caltech 101/256 собрано меньшее количество категорий (около 20). Однако количество изображений в каждой категории больше.
  • Набор данных исследования изображений над головой (OIRDS) — это аннотированная библиотека изображений и инструментов. [15] OIRDS v1.0 состоит из объектов легковых автомобилей, аннотированных на изображениях сверху. К легковым транспортным средствам в OIRDS относятся легковые, грузовые автомобили, фургоны и т. д. Помимо очертаний объектов, OIRDS включает субъективную и объективную статистику, которая дает количественную оценку транспортного средства в контексте изображения. Например, субъективные показатели помех изображения, четкости, шума и цвета транспортного средства включены вместе с более объективными статистическими данными, такими как расстояние до образца земли (GSD), время суток и день года.
    • ~900 изображений, содержащих ~1800 аннотированных изображений.
    • ~30 аннотаций на объект
    • ~60 статистических показателей на объект
    • Широкий выбор контекста объекта
    • Ограничено легковыми автомобилями на снимках сверху.
  • MICC-Flickr 101 — набор данных изображений, созданный в Центре интеграции и коммуникации СМИ (MICC) Флорентийского университета в 2012 году. Он основан на Caltech 101 и собран с Flickr . MICC-Flickr 101 [16] исправляет главный недостаток Caltech 101, а именно его низкую межклассовую изменчивость, и обеспечивает социальные аннотации через пользовательские теги. Он основан на стандартном и широко используемом наборе данных, состоящем из управляемого числа категорий (101), и поэтому может использоваться для сравнения эффективности категоризации объектов в ограниченном сценарии (Калифорнийский технологический институт 101) и категоризации объектов «в дикой природе» (MICC-Flickr). 101) по той же 101 категории.

См. также

[ редактировать ]
  1. ^ Виола, Пол; Джонс, Майкл Дж. (2004). «Надежное распознавание лиц в реальном времени». Международный журнал компьютерного зрения . 57 (2): 137–154. doi : 10.1023/B:VISI.0000013087.49260.fb . S2CID   2796017 .
  2. ^ Эртель, Карстен; Холоднее, Брайан; Коломб, Джеффри; Высоко, Джулия; Ингрэм, Майкл; Салли, Фил (2008). «Актуальные проблемы автоматизации зрительного восприятия». 2008 г. 37-й семинар IEEE по прикладному распознаванию образов . стр. 1–8. дои : 10.1109/AIPR.2008.4906457 . ISBN  978-1-4244-3125-0 . S2CID   36669995 .
  3. ^ Перейти обратно: а б с Пинто, Николас; Кокс, Дэвид Д.; Дикарло, Джеймс Дж. (2008). «Почему распознавание визуальных объектов в реальном мире затруднено?» . PLOS Вычислительная биология . 4 (1): е27. Бибкод : 2008PLSCB...4...27P . дои : 10.1371/journal.pcbi.0040027 . ПМК   2211529 . ПМИД   18225950 .
  4. ^ Л. Фей-Фей, Р. Фергус и П. Перона. Изучение генеративных визуальных моделей на нескольких обучающих примерах: поэтапный байесовский подход, протестированный на 101 категории объектов. IEEE. CVPR 2004, Семинар по видению на основе генеративных моделей. 2004 г.
  5. ^ Л. Фей-Фей; Р. Фергюс; П. Перона (апрель 2006 г.). «Однократное изучение категорий объектов» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 28 (4): 594–611. дои : 10.1109/TPAMI.2006.79 . ПМИД   16566508 . S2CID   6953475 . Архивировано из оригинала (PDF) 9 июня 2007 г. Проверено 16 января 2008 г.
  6. ^ Ядро соответствия пирамиды: дискриминативная классификация с наборами признаков изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г.
  7. ^ Голуб, А.Д.; Веллинг, М; Перона, П. Объединение генеративных моделей и ядер Фишера для распознавания классов объектов . Международная конференция по компьютерному зрению (ICCV), 2005 г. Архивировано из оригинала 14 августа 2007 г. Проверено 16 января 2008 г.
  8. ^ Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджо. Материалы конференции IEEE Computer Society 2005 г. по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г.
  9. ^ SVM-KNN: Дискриминационная классификация ближайших соседей для распознавания визуальных категорий. Хао Чжан, Алекс Берг, Майкл Мэр, Джитендра Малик. ЦВПР, 2006 г.
  10. ^ За пределами множества функций: сопоставление пространственных пирамид для распознавания категорий природных сцен . Светлана Лазебник , Корделия Шмид и Жан Понсе. ЦВПР, 2006 г.
  11. ^ Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов, М. Дж. Мар-Джим-Эс и Н. Перес де ла Бланка. декабрь 2005 г.
  12. ^ Распознавание многоклассовых объектов с помощью редких локализованных функций, Джим Мутч и Дэвид Г. Лоу. , стр. 11–18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г.
  13. ^ Г. Ван; Ю. Чжан; Л. Фей-Фей (2006). «Использование зависимых областей или категоризации объектов в генеративной структуре» (PDF) . IEEE Комп. Вис. Пэт. Признаться . Архивировано из оригинала (PDF) 9 июня 2007 г. Проверено 16 января 2008 г.
  14. ^ Ж. Понсе; Т.Л. Берг; М. Эверингем; Д.А. Форсайт; М. Эбер; С. Лазебник ; М. Маршалек; К. Шмид; Британская Колумбия Рассел; А. Торральба; CKI Уильямс; Дж. Чжан; А. Зиссерман (2006). Ж. Понсе; М. Эбер; К. Шмид; А. Зиссерман (ред.). «Проблемы с наборами данных при распознавании объектов» (PDF) . К распознаванию объектов на уровне категорий, Конспекты лекций Springer-Verlag по информатике. Архивировано из оригинала (PDF) 24 декабря 2016 г. Проверено 8 февраля 2008 г.
  15. ^ Ф. Таннер, Б. Колдер, К. Пуллен, Д. Хиги, К. Эртель и П. Салли, Набор данных исследования изображений сверху (OIRDS) - библиотека аннотированных данных и инструменты, помогающие в разработке алгоритмов компьютерного зрения. , июнь 2009 г., < http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation, заархивировано 9 ноября 2012 г. на Wayback Machine > (28 декабря 2009 г.)
  16. ^ «Л. Баллан, М. Бертини, А. Дель Бимбо, А. М. Серейн, Г. Серра, Б. Ф. Закконе. Комбинирование генеративных и дискриминативных моделей для классификации социальных изображений из 101 категории объектов. Международная конференция по распознаванию образов (ICPR), 2012» (PDF) . Архивировано из оригинала (PDF) 26 августа 2014 г. Проверено 11 июля 2012 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bec4f53eefff6110ea7a62eddc5b6dec__1713077880
URL1:https://arc.ask3.ru/arc/aa/be/ec/bec4f53eefff6110ea7a62eddc5b6dec.html
Заголовок, (Title) документа по адресу, URL1:
Caltech 101 - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)