Единоразовое обучение (компьютерное зрение)
![]() | Эта статья написана как исследовательская статья или научный журнал . ( Апрель 2016 г. ) |
Одноразовое обучение — это проблема категоризации объектов , встречающаяся в основном в компьютерном зрении . В то время как большинство алгоритмов категоризации объектов на основе машинного обучения требуют обучения на сотнях или тысячах примеров, однократное обучение направлено на классификацию объектов на основе одного или только нескольких примеров. Для этих задач также используется термин «обучение с несколькими попытками» , особенно когда требуется более одного примера.
Мотивация
[ редактировать ]Способность изучать категории объектов на нескольких примерах и в быстром темпе была продемонстрирована на людях. [1] [2] Подсчитано, что к шести годам ребенок изучает почти все из 10–30 тысяч категорий объектов, существующих в мире. [3] Это связано не только с вычислительной мощью человеческого разума, но и с его способностью синтезировать и изучать новые категории объектов на основе существующей информации о различных, ранее изученных категориях. Даны два примера из двух категорий объектов: один — неизвестный объект, состоящий из знакомых форм, второй — неизвестная аморфная форма; Людям гораздо легче распознать первое, чем второе, что позволяет предположить, что люди используют ранее изученные категории при изучении новых. Ключевой мотивацией для решения однократного обучения является то, что системы, как и люди, могут использовать знания о категориях объектов для классификации новых объектов. [4] [5]
Фон
[ редактировать ]Как и в большинстве схем классификации , однократное обучение включает в себя три основные проблемы:
- Представление: Как следует описывать объекты и категории?
- Обучение: Как можно создать такие описания?
- Распознавание: как можно отфильтровать известный объект от окружающего его беспорядка, независимо от окклюзии, точки обзора и освещения? [6]
Однократное обучение отличается от распознавания отдельных объектов и алгоритмов распознавания стандартных категорий тем, что в нем упор делается на передачу знаний, в которой используются ранее изученные категории.
- Параметры модели: повторно использует параметры модели на основе сходства между старыми и новыми категориями. Категории сначала изучаются на многочисленных обучающих примерах, затем изучаются новые категории, используя преобразования параметров модели из этих исходных категорий или выбирая соответствующие параметры для классификатора. [7]
- Совместное использование функций: разделяет части или функции объектов по категориям. патчей Один алгоритм извлекает «диагностическую информацию» из патчей из уже изученных категорий путем максимизации взаимной информации , а затем применяет эти функции к изучению новой категории. Например, категорию собак можно выучить за один раз, основываясь на предыдущих знаниях о категориях лошадей и коров, поскольку объекты-собаки могут содержать схожие отличительные пятна. [8]
- Контекстная информация: апеллирует к глобальным знаниям о сцене, в которой появляется объект. Такая глобальная информация может использоваться в качестве частотных распределений в системе условного случайного поля для распознавания объектов. [9] В качестве альтернативы контекст может учитывать высоту камеры и геометрию сцены. [10] Алгоритмы этого типа имеют два преимущества. Во-первых, они изучают относительно несходные категории объектов; и, во-вторых, они хорошо работают в специальных ситуациях, когда изображение не было обрезано и выровнено вручную. [11]
Теория
[ редактировать ]Алгоритм байесовского однократного обучения представляет передний план и фон изображений, параметризованных смесью моделей созвездия. [12] На этапе обучения параметры этих моделей изучаются с использованием параметра сопряженной плотности апостериорного и вариационного байесовского ожидания-максимизации (VBEM). [13] На этом этапе ранее изученные категории объектов определяют выбор параметров модели посредством передачи контекстной информации. Для распознавания объектов на новых изображениях апостериорное изображение, полученное на этапе обучения, используется в байесовской системе принятия решений для оценки отношения p(объект | тест, поезд) к p(фоновый помех | тест, поезд), где p — вероятность результат. [14]
Байесовский подход
[ редактировать ]Учитывая задачу поиска конкретного объекта в изображении запроса, общая цель байесовского алгоритма однократного обучения состоит в том, чтобы сравнить вероятность присутствия объекта с вероятностью присутствия только фонового помехи. Если первая вероятность выше, алгоритм сообщает о наличии объекта, в противном случае алгоритм сообщает о его отсутствии. Чтобы вычислить эти вероятности, класс объектов должен быть смоделирован из набора (1 ~ 5) обучающих изображений, содержащих примеры.
Чтобы формализовать эти идеи, позвольте быть изображением запроса, которое содержит пример категории переднего плана или только фоновый беспорядок общей категории фона . Также пусть быть набором обучающих изображений, используемых в качестве категории переднего плана. Решение о том, содержит объект из категории переднего плана или только помехи из категории фона:
где класс позади и были расширены теоремой Байеса , давая соотношение правдоподобий и соотношение априорных категорий объектов . Мы решаем, что изображение содержит объект из класса переднего плана, если превышает определенный порог . Затем мы представляем параметрические модели для категорий переднего и заднего плана с параметрами и соответственно. Эта параметрическая модель переднего плана изучается на этапе обучения из , а также предварительную информацию об изученных категориях. Мы предполагаем, что фоновая модель одинакова для всех изображений. Опуская постоянное соотношение априорных категорий, и параметризуя по и урожайность
- , упростив и к и
Апостериорное распределение параметров модели с учетом обучающих изображений, оценивается на этапе обучения. В этой оценке однократное обучение резко отличается от более традиционных байесовских моделей оценки, которые аппроксимируют интеграл как . Вместо этого он использует вариационный подход, используя априорную информацию из ранее изученных категорий. Однако традиционная оценка максимального правдоподобия параметров модели используется для фоновой модели и категорий, изученных заранее в ходе обучения. [15]
Модель категории объекта
[ редактировать ]Для каждого изображения запроса и обучающие изображения модель созвездия . для представления используется [12] [16] [17] Чтобы получить эту модель для данного изображения Сначала на изображении обнаруживается набор из N интересных областей с помощью детектора заметности Кадира – Брейди . [18] Каждый выбранный регион представлен местоположением на изображении. и описание его внешнего вида, . Сдача в аренду и и аналогичных представлений для обучающих изображений, выражение для R принимает вид:
Вероятности и представлены как смеси моделей созвездий. Типичная модель созвездия состоит из P(3 ~ 7) частей с N(~100) областями интересов. Таким образом, P-мерный вектор h назначает одну интересующую область (из N областей) каждой части модели (для P частей). Таким образом, h обозначает гипотезу (отнесение областей интереса к частям модели) для модели, а полная модель созвездия представляется путем суммирования всех возможных гипотез h в пространстве гипотез. . Наконец вероятность написана
разные представляют разные конфигурации частей, тогда как разные гипотезы h представляют разные назначения областей частям, учитывая модель части. . Предположение, что форма модели (представленная , набор расположений деталей) и внешний вид независимы, позволяет рассмотреть выражение правдоподобия как две отдельные вероятности появления и формы. [19]
Появление
[ редактировать ]Внешний вид каждой функции представлен точкой в пространстве внешнего вида (о реализации обсуждается ниже). «Каждая часть в модели созвездия имеет гауссову плотность в этом пространстве со средними и точными параметрами На основе них вероятность появления, описанная выше, вычисляется как произведение гауссианов на части модели для данной гипотезы h и компонента смеси. . [20]
Форма
[ редактировать ]Форма модели для данного компонента смеси а гипотеза h представлена как совместная гауссова плотность расположения объектов. Эти особенности преобразуются в масштабное и трансляционно-инвариантное пространство перед моделированием относительного расположения частей с помощью 2(P - 1)-мерного гауссиана. Отсюда мы получаем вероятность формы, завершая наше представление о . Чтобы уменьшить количество гипотез в пространстве гипотез рассматриваются только те гипотезы, которые удовлетворяют ограничению порядка, заключающемуся в том, что координата x каждой части монотонно возрастает. Это устраняет гипотезы из . [20]
Сопряженные плотности
[ редактировать ]Чтобы вычислить , интеграл должна быть оценена, но аналитически трудноразрешима. Модель категории объектов, приведенная выше, дает информацию о , так что осталось изучить , задняя часть и найдите достаточное приближение, чтобы сделать интеграл понятным. Предыдущая работа аппроксимирует заднюю часть функция с центром в , сжимая рассматриваемый интеграл в . Этот обычно оценивается с использованием максимального правдоподобия ( ) или Максимум A сзади ( ) процедура. Однако, поскольку при однократном обучении используется мало обучающих примеров, распределение не будет четко выраженным, как предполагается в аппроксимация функции. Таким образом, вместо этого традиционного приближения байесовский алгоритм однократного обучения стремится «найти параметрическую форму такое, что обучение осуществимо». Алгоритм использует распределение Нормальное – Уишарта в качестве сопряженного априора , а на этапе обучения вариационные байесовские методы используются для изучения гиперпараметров распределения с той же вычислительной сложностью, что и методы максимального правдоподобия. Тогда, поскольку является произведением гауссиан, выбранных в модели категории объекта, интеграл сводится к многомерному Т-распределению Стьюдента , которое можно оценить. [21]
Выполнение
[ редактировать ]Обнаружение и представление функций
[ редактировать ]Чтобы обнаружить особенности изображения, чтобы оно могло быть представлено моделью созвездия, детектор значимости Кадира – Брейди используется на изображениях в оттенках серого, обнаруживая заметные области изображения. Затем эти области кластеризуются, что дает ряд особенностей (кластеров) и параметр формы. , состоящий из кластерных центров. Детектор Кадира-Брэйди был выбран потому, что он создает меньше, но более заметных областей, в отличие от детекторов признаков, таких как многомасштабный Харрис, который создает многочисленные, менее значимые области.
Затем области берутся из изображения и масштабируются до небольшого участка размером 11 × 11 пикселей, что позволяет представить каждый участок в 121-мерном пространстве. Эта размерность уменьшается с помощью анализа главных компонент , и , параметр внешнего вида, затем формируется из первых 10 основных компонентов каждого патча. [22]
Обучение
[ редактировать ]Чтобы получить априорные данные о форме и внешнем виде, изучаются три категории (пятнистые кошки, лица и самолеты) с использованием оценки максимального правдоподобия. Эти параметры модели категории объекта затем используются для оценки гиперпараметров желаемых априорных значений.
Учитывая набор обучающих примеров, алгоритм запускает детектор признаков на этих изображениях и определяет параметры модели по важным областям. Индекс гипотезы h, присваивающий свойства частям, предотвращает решение линейной модели в замкнутой форме, поэтому апостериорный оценивается с помощью вариационного алгоритма байесовского ожидания-максимизации, который выполняется до сходимости параметров после ~ 100 итераций. Изучение категории таким способом занимает менее минуты на машине с частотой 2,8 ГГц, моделью из 4 частей и <10 обучающими изображениями. [23]
Результаты эксперимента
[ редактировать ]Пример мотоцикла
[ редактировать ]Чтобы узнать категорию мотоцикла:
- Шесть обучающих изображений выбираются из категории мотоциклов набора данных Калифорнийского технологического института 4 и применяется детектор Кадира-Брэйди, что дает и через PCA , .
- Затем параметры предшествующей модели вычисляются на основе 30 моделей. , по 10 из каждой из трех изученных категорий: пятнистые кошки, лица и самолеты. В этом априоре закодировано знание о том, что «модели, которым не хватает визуальной последовательности [т. е. фоновый беспорядок], занимают другую часть пространства параметров [от] когерентных моделей».
- При обучении, которое выполняется следующим образом, предшествующее смещает заднее. к частям пространства параметров, соответствующим когерентным моделям. Используется только один компонент смеси, что позволяет . Оценка задней части показана ниже.
- Наконец, на рисунках ниже показана изученная модель мотоцикла с формой и внешним видом деталей, а также соответствующими характеристиками.
- Для тестов на распознавание приведенная выше модель применяется к 50 изображениям, на которых есть мотоциклы, и к 50 изображениям, на которых их нет. На изображении ниже показана кривая ROC, измеряющая вероятность обнаружения по сравнению с вероятностью ложного обнаружения, а также некоторые признанные примеры.
Общие плотности при преобразованиях
[ редактировать ]Другой алгоритм использует передачу знаний по параметрам модели для изучения новой категории объектов, внешне похожей на ранее изученные категории. Изображение представляется либо как текстура и форма, либо как скрытое изображение, которое было преобразовано, что обозначается .
Сиамская нейронная сеть работает в тандеме с двумя разными входными векторами для вычисления сопоставимых выходных векторов. [24]
Застывание
[ редактировать ]В этом контексте сгущение — это «одновременная векторизация каждого из набора изображений друг к другу». Для набора обучающих изображений определенной категории сгущение итеративно преобразует каждое изображение, чтобы минимизировать совместную попиксельную энтропию изображений E, где
"где — двоичная случайная величина, определяемая значениями конкретного пикселя p на всех изображениях, - дискретная энтропийная функция этой переменной, а — это набор индексов пикселей изображения».
Алгоритм сгущения начинается с набора изображений и соответствующая матрица преобразования , который в конце алгоритма будет представлять собой преобразование в его скрытую . Эти скрытые минимизировать совместную попиксельную энтропию. Таким образом, задачей алгоритма сгущения является оценка преобразований .
Эскиз алгоритма:
- Инициализировать это к личности.
- Вычислите совместную попиксельную энтропию текущего набора изображений.
- Для каждого изображения , перебрать все возможные аффинные преобразования (вращение, перемещение по оси X, перемещение по оси y, масштаб по оси X, масштаб по оси Y, сдвиг по оси X, сдвиг по оси y) и проверьте, если уменьшает совместную пиксельную энтропию. Если да, установите .
- Повторите предыдущий шаг до схождения.
В конце алгоритма , и преобразует скрытое изображение обратно в первоначально наблюдаемое изображение. [25]
Классификация
[ редактировать ]Чтобы использовать эту модель для классификации, ее необходимо оценить с максимальной апостериорной вероятностью для наблюдаемого изображения. . Применяя правило Байеса к и параметризация преобразованием дает сложный интеграл, который необходимо аппроксимировать, а затем наилучшее преобразование (то, что сопоставляет тестовое изображение с его скрытым изображением) должно быть найдено. Как только это преобразование найдено, тестовое изображение может быть преобразовано в его скрытое, а классификатор ближайшего соседа, основанный на расстоянии Хаусдорфа между изображениями, может классифицировать скрытое (и, следовательно, тестовое изображение) как принадлежащее определенному классу. .
Найти , тестовое изображение I вставляется в обучающий ансамбль для процесса застывания. Поскольку тестовое изображение взято из одной из категорий , застывание обеспечивает соответствующее это отображает Я в его скрытое состояние. Тогда латентное можно классифицировать. [26]
Однопримерная классификация
[ редактировать ]Учитывая набор преобразований полученный в результате объединения множества изображений определенной категории, классификатор можно расширить на случай, когда только одно обучающее пример новой категории разрешено. Применение всех преобразований последовательно, чтобы создает искусственный обучающий набор для . Этот искусственный набор данных можно увеличить, заимствовав преобразования из многих уже известных категорий. Как только этот набор данных будет получен, , тестовый экземпляр , можно классифицировать так же, как и в обычной процедуре классификации. Ключевое предположение заключается в том, что категории достаточно схожи, чтобы преобразования одной можно было применить к другой. [27]
См. также
[ редактировать ]- Вариационные байесовские методы
- Вариационная передача сообщений
- Алгоритм ожидания-максимизации
- Байесовский вывод
- Обнаружение функций
- Изучение правил ассоциации
- Сеть Хопфилда
- Обучение с нуля
Цитаты
[ редактировать ]- ^ Ли, Фергус и Перона 2002 .
- ^ Торп, Файз и Марлот, 1996 .
- ^ Бидерман 1987 .
- ^ Ли, Фергус и Перона 2006 , Раздел 1.
- ^ Ли 2006 , Раздел 1.
- ^ Ли, Фергус и Перона 2006 , Раздел 2.
- ^ Финк 2004 .
- ^ Барт и Ульман 2005 .
- ^ Мерфи и др. 2004 .
- ^ Хойем, Эфрос и Герберт 2005 .
- ^ Ли 2006 , Раздел 2.
- ^ Jump up to: а б Берл и др., 1996 г.
- ^ Аттиас 1999 .
- ^ Ли и др. 2006 .
- ^ Ли, Фергус и Перона 2006 , Раздел 3.1.
- ^ Вебер, Веллинг и Перона 2000 .
- ^ Фергус, Перона и Зиссерман 2003 .
- ^ Кадир и Брэди 2001 .
- ^ Ли, Фергус и Перона 2006 , Раздел 3.2.
- ^ Jump up to: а б Ли, Фергус и Перона, 2006 г. , раздел 3.2.1.
- ^ Ли, Фергус и Перона 2006 , Раздел 3.4.3.
- ^ Ли, Фергус и Перона 2006 , Раздел 5.1.
- ^ Ли, Фергус и Перона 2006 , разделы 4, 5.2.
- ^ Обучение в несколько этапов (2/3): Сиамские сети . Ютуб . Архивировано из оригинала 10 декабря 2021 г.
- ^ Миллер и др .
- ^ Миллер, Мацакис и Виола 2000 , Раздел 4.
- ^ Миллер, Мацакис и Виола 2000 , Раздел 7.
Ссылки
[ редактировать ]- Ли, Фей Фей (2006). «Передача знаний при обучении распознаванию классов визуальных объектов» (PDF) . Международная конференция по развитию и обучению (ICDL) .
- Ли, Фэй Фэй; Фергюс, Р.; Перона, П. (2006). «Однократное изучение категорий объектов» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 28 (4): 594–611. дои : 10.1109/TPAMI.2006.79 . ПМИД 16566508 . S2CID 6953475 .
- Миллер; Мацакис; Виола (2000). «Обучение на одном примере с помощью общей плотности преобразований» (PDF) . Учеб. Компьютерное зрение и распознавание образов .
- Ли, ФФ; ВанРуллен, Р.; Коч, К.; Перона, П. (2002). «Быстрая категоризация естественных сцен при почти полном отсутствии внимания» . ПНАС . 99 (14): 9596–9601. Бибкод : 2002PNAS...99.9596L . дои : 10.1073/pnas.092277599 . ПМК 123186 . ПМИД 12077298 .
- Торп, С.; Файз, Д.; Марло, К. (1996). «Скорость обработки данных в зрительной системе человека» (PDF) . Природа . 381 (6582): 520–522, 1996. Бибкод : 1996Natur.381..520T . дои : 10.1038/381520a0 . ПМИД 8632824 . S2CID 4303570 .
- Бидерман, И. (1987). «Распознавание по компонентам: теория человеческого понимания» (PDF) . Психологический обзор . 94 (2): 115–147. дои : 10.1037/0033-295X.94.2.115 . ПМИД 3575582 .
- Финк, М. (2004). «Классификация объектов на основе одного примера с использованием псевдометрик релевантности класса». НИПС . CiteSeerX 10.1.1.91.7461 .
- Барт; Ульман (2005). «Перекрестное обобщение: изучение новых классов на одном примере путем замены функций» (PDF) . ЦВПР .
- Мерфи, К.; Торральба, А.; Фриман, WT (2004). «Использование леса, чтобы увидеть деревья: графическая модель, связывающая особенности, объекты и сцены» (PDF) . НИПС .
- Хойем, Д.; Эфрос, А.А.; Герберт, М. (2005). «Геометрический контекст из одного изображения» (PDF) . ИККВ .
- Аттиас, Х. (1999). «Вывод параметров и структуры моделей со скрытыми переменными с помощью вариационного Байеса». Учеб. Из 15-й конф. Неопределенность искусственного интеллекта : 21–30. arXiv : 1301.6676 .
- Берл, М.; Вебер, М.; Перона, П. (1996). «Вероятностный подход к распознаванию объектов с использованием локальной фотометрии и глобальной геометрии» (PDF) . Учеб. Европейская конф. Компьютерное зрение . Конспекты лекций по информатике. 1407 : 628–641. дои : 10.1007/BFb0054769 . ISBN 978-3-540-64613-6 .
- Фергюс, Р.; Перона, П.; Зиссерман, А. (2003). «Распознавание классов объектов посредством неконтролируемого масштабно-инвариантного обучения» (PDF) . Учеб. Компьютерное зрение и распознавание образов : 264–271.
- Вебер, М.; Веллинг, М.; Перона, П. (2000). «Обучение моделей распознавания без учителя» (PDF) . Учеб. Европейская конф. Компьютерное зрение . Конспекты лекций по информатике. 1842 : 101–108. дои : 10.1007/3-540-45054-8_2 . ISBN 978-3-540-67685-0 .
- Кадир, Т.; Брэди, М. (2001). «Масштаб, значимость и описание изображения» . Международный журнал компьютерного зрения . 45 (2): 83–105. дои : 10.1023/А:1012460413855 . S2CID 825395 .