М-теория (структура обучения)
В машинном обучении и компьютерном зрении М -теория представляет собой структуру обучения, вдохновленную упреждающей обработкой в вентральном потоке зрительной коры и первоначально разработанную для распознавания и классификации объектов в визуальных сценах. Позднее М-теория была применена и к другим областям, таким как распознавание речи . В некоторых задачах распознавания изображений алгоритмы, основанные на конкретной реализации М-теории, HMAX, достигли производительности человеческого уровня. [1]
Основной принцип М-теории — извлечение представлений, инвариантных при различных преобразованиях изображений (перенос, масштабирование, 2D- и 3D-вращение и другие). В отличие от других подходов, использующих инвариантные представления, в М-теории они не встроены в алгоритмы, а изучаются. М-теория также разделяет некоторые принципы со сжатым зондированием . Теория предлагает многоуровневую иерархическую архитектуру обучения, аналогичную структуре зрительной коры.
Интуиция
[ редактировать ]Инвариантные представления
[ редактировать ]Большой проблемой в задачах визуального распознавания является то, что один и тот же объект можно увидеть в различных условиях. Его можно увидеть с разных расстояний, с разных точек зрения, при разном освещении, частично перекрыть и т. д. Кроме того, для объектов определенных классов, таких как лица, могут быть актуальны весьма сложные специфические преобразования, например, изменение выражения лица. Чтобы научиться распознавать изображения, очень полезно учитывать эти различия. Это приводит к значительному упрощению задачи классификации и, следовательно, к значительному уменьшению выборочной сложности модели.
Простой вычислительный эксперимент иллюстрирует эту идею. Два экземпляра классификатора были обучены отличать изображения самолетов от изображений автомобилей. Для обучения и тестирования первого экземпляра использовались изображения с произвольными точками обзора. Другой экземпляр получал только изображения, видимые с определенной точки зрения, что было эквивалентно обучению и тестированию системы на инвариантном представлении изображений. Видно, что второй классификатор работал достаточно хорошо даже после получения одного примера из каждой категории, в то время как производительность первого классификатора была близка к случайной угадке даже после просмотра 20 примеров.
Инвариантные представления были включены в несколько архитектур обучения, таких как неокогнитроны . Однако большинство этих архитектур обеспечивали инвариантность за счет специально разработанных функций или свойств самой архитектуры. Хотя это помогает учитывать некоторые виды преобразований, например, переводы, очень нетривиально учитывать другие виды преобразований, такие как трехмерное вращение и изменение выражения лица. М-теория обеспечивает основу для изучения таких преобразований. Помимо более высокой гибкости, эта теория также предполагает, что человеческий мозг может обладать аналогичными возможностями.
Шаблоны
[ редактировать ]Другая основная идея М-теории близка по духу идеям из области сжатого зондирования . Следствие из леммы Джонсона-Линденштрауса гласит, что определенное количество изображений может быть встроено в низкоразмерное пространство признаков с одинаковыми расстояниями между изображениями с помощью случайных проекций. Этот результат предполагает, что скалярное произведение между наблюдаемым изображением и каким-либо другим изображением, хранящимся в памяти, называемым шаблоном, может использоваться в качестве признака, помогающего отличить изображение от других изображений. Шаблон не обязательно должен быть каким-либо образом связан с изображением, его можно выбрать случайным образом.
Объединение шаблонов и инвариантных представлений
[ редактировать ]Две идеи, изложенные в предыдущих разделах, можно объединить, чтобы создать основу для изучения инвариантных представлений. Ключевое наблюдение заключается в том, как скалярное произведение между изображением и шаблон ведет себя при трансформации изображения (путем таких преобразований, как перемещение, вращение, масштабирование и т. д.). Если трансформация является членом унитарной группы преобразований, то справедливо следующее:
Другими словами, скалярное произведение преобразованного изображения и шаблона равно скалярному произведению исходного изображения и обратно преобразованного шаблона. Например, для изображения, повернутого на 90 градусов, обратно преобразованный шаблон будет повернут на -90 градусов.
Рассмотрим набор скалярных произведений изображения. ко всем возможным преобразованиям шаблона: . Если применить преобразование к , набор станет . Но в силу свойства (1) это равно . Набор равен просто набору всех элементов в . Чтобы увидеть это, обратите внимание, что каждый находится в в силу свойства замыкаемости групп и для каждого в G существует его прототип такой как (а именно, ). Таким образом, . Видно, что набор скалярных произведений остался прежним, несмотря на то, что к изображению было применено преобразование! Этот набор сам по себе может служить (очень громоздким) инвариантным представлением изображения. Из него можно получить более практические представления.
Во вводном разделе утверждалось, что М-теория позволяет изучать инвариантные представления. Это связано с тем, что шаблоны и их преобразованные версии можно изучить на основе визуального опыта — подвергая систему последовательностям преобразований объектов. Вполне вероятно, что подобные зрительные переживания возникают и в ранний период человеческой жизни, например, когда младенцы крутят игрушки в руках. Поскольку шаблоны могут быть совершенно не связаны с изображениями, которые система позже попытается классифицировать, воспоминания об этих визуальных впечатлениях могут служить основой для распознавания множества различных типов объектов в дальнейшей жизни. Однако, как будет показано далее, для некоторых видов преобразований необходимы определенные шаблоны.
Теоретические аспекты
[ редактировать ]От орбит к мерам распределения
[ редактировать ]Чтобы реализовать идеи, описанные в предыдущих разделах, необходимо знать, как получить вычислительно эффективное инвариантное представление изображения. Такое уникальное представление для каждого изображения может быть охарактеризовано набором одномерных вероятностных распределений (эмпирических распределений скалярных произведений между изображением и набором шаблонов, сохраненных во время обучения без учителя). Эти распределения вероятностей, в свою очередь, могут быть описаны либо гистограммами, либо набором ее статистических моментов, как будет показано ниже.
Орбита это набор изображений создано из одного изображения под действием группы .
Другими словами, изображения объекта и его преобразований соответствуют орбите . Если две орбиты имеют общую точку, они везде одинаковы. [2] т.е. орбита является инвариантным и уникальным представлением изображения. Итак, два изображения называются эквивалентными, если они принадлежат одной орбите: если такой, что . И наоборот, две орбиты различны, если ни одно из изображений на одной орбите не совпадает ни с одним изображением на другой. [3]
Возникает естественный вопрос: как можно сравнить две орбиты? Существует несколько возможных подходов. Один из них использует тот факт, что интуитивно две эмпирические орбиты одинаковы независимо от порядка их точек. Таким образом, можно рассмотреть распределение вероятностей вызванное действием группы на изображения ( можно рассматривать как реализацию случайной величины).
Это распределение вероятностей можно почти однозначно охарактеризовать одномерные распределения вероятностей индуцированные (одномерными) результатами проекций , где представляют собой набор шаблонов (случайно выбранных изображений) (на основе теоремы Крамера – Вольда). [4] и концентрация мер).
Учитывать изображения . Позволять , где является универсальной константой. Затем
с вероятностью , для всех .
Этот результат (неформально) говорит о том, что приблизительно инвариантное и уникальное представление изображения можно получить из оценок Одномерные распределения вероятностей для . Число проекций, необходимых для различения орбиты, индуцированные изображения с высокой точностью (и с уверенностью ) является , где является универсальной константой.
Для классификации изображения можно использовать следующий «рецепт»:
- Запомните набор изображений/объектов, называемых шаблонами;
- Запоминайте наблюдаемые трансформации для каждого шаблона;
- Вычислить скалярные произведения его преобразований с изображением;
- Вычислить гистограмму полученных значений, называемую сигнатурой изображения;
- Сравните полученную гистограмму с сигнатурами, хранящимися в памяти.
Оценки таких одномерных функций плотности вероятности (PDF) можно записать в виде гистограмм как , где представляет собой набор нелинейных функций. Эти одномерные распределения вероятностей можно охарактеризовать с помощью N-биновых гистограмм или набора статистических моментов. Например, HMAX представляет собой архитектуру, в которой объединение в пул выполняется с помощью операции max.
Некомпактные группы преобразований
[ редактировать ]В «рецепте» классификации изображений группы преобразований аппроксимируются конечным числом преобразований. Такое приближение возможно только в том случае, если группа компактна .
Такие группы, как все переводы и все масштабирования изображения, не являются компактными, поскольку допускают сколь угодно большие преобразования. Однако они локально компактны . Для локально компактных групп инвариантность достижима в определенном диапазоне преобразований. [2]
Предположим, что представляет собой подмножество преобразований из для которых преобразованные шаблоны существуют в памяти. Для изображения и шаблон , предположим, что равен нулю везде, кроме некоторого подмножества . называется поддержкой Это подмножество и обозначается как . Можно доказать, что если для преобразования , набор поддержки также будет лежать внутри , затем подпись инвариантен относительно . [2] Эта теорема определяет область преобразований, для которых гарантирована инвариантность.
Видно, что чем меньше , тем больше диапазон преобразований, для которых гарантирована инвариантность. Это означает, что для группы, которая является компактной только локально, не все шаблоны будут работать одинаково хорошо. Предпочтительны шаблоны с достаточно небольшим размером. для общего изображения. Это свойство называется локализацией: шаблоны чувствительны только к изображениям в небольшом диапазоне преобразований. Обратите внимание, что хотя минимизация не является абсолютно необходимым для работы системы, оно улучшает аппроксимацию инвариантности. Требование локализации одновременно для перевода и масштабирования приводит к очень специфическому типу шаблонов: функциям Габора . [2]
Желательность пользовательских шаблонов для некомпактной группы противоречит принципу обучения инвариантным представлениям. Однако для некоторых видов часто встречающихся преобразований изображений шаблоны могут быть результатом эволюционной адаптации. Нейробиологические данные свидетельствуют о том, что в первом слое зрительной коры существует настройка, подобная Габору. [5] Возможное объяснение этого явления – оптимальность шаблонов Габора для переводов и масштабов.
Негрупповые преобразования
[ редактировать ]Многие интересные трансформации изображений не образуют группы. Например, преобразования изображений, связанные с трехмерным вращением соответствующего трехмерного объекта, не образуют группу, поскольку невозможно определить обратное преобразование (два объекта могут выглядеть одинаково под одним углом, но отличаться под другим). Однако приближенная инвариантность по-прежнему достижима даже для негрупповых преобразований, если выполняются условия локализации шаблонов и преобразование может быть локально линеаризовано.
Как было сказано в предыдущем разделе, для конкретного случая переводов и масштабирования условие локализации может быть выполнено за счет использования универсальных шаблонов Габора. Однако для общего случая (негруппового) преобразования условие локализации может выполняться только для конкретного класса объектов. [2] Точнее, чтобы удовлетворить этому условию, шаблоны должны быть похожи на объекты, которые хотелось бы распознать. Например, если кто-то хочет создать систему для распознавания повернутых в 3D лиц, необходимо использовать другие повернутые в 3D лица в качестве шаблонов. Это может объяснить существование таких специализированных модулей в мозге, как модуль, отвечающий за распознавание лиц . [2] Даже при использовании пользовательских шаблонов для локализации необходимо шумоподобное кодирование изображений и шаблонов. Этого можно естественным образом достичь, если негрупповое преобразование обрабатывается на любом уровне, кроме первого в иерархической архитектуре распознавания.
Иерархические архитектуры
[ редактировать ]В предыдущем разделе предлагается одна из причин использования иерархических архитектур распознавания изображений. Однако у них есть и другие преимущества.
Во-первых, иерархические архитектуры лучше всего достигают цели «анализа» сложной визуальной сцены со множеством объектов, состоящих из множества частей, относительное положение которых может сильно различаться. При этом разные элементы системы должны реагировать на разные объекты и части. В иерархических архитектурах представления частей на разных уровнях вложенной иерархии могут храниться на разных уровнях иерархии.
Во-вторых, иерархические архитектуры, которые имеют инвариантные представления частей объектов, могут облегчить изучение сложных композиционных концепций. Это облегчение может произойти за счет повторного использования изученных представлений частей, которые были созданы ранее в процессе изучения других концепций. В результате сложность выборки при изучении композиционных концепций может быть значительно снижена.
Наконец, иерархические архитектуры лучше переносят беспорядок. Проблема беспорядка возникает, когда целевой объект находится на неоднородном фоне, который служит отвлекающим фактором для зрительной задачи. Иерархическая архитектура предоставляет подписи для частей целевых объектов, которые не включают части фона и не зависят от изменений фона. [6]
В иерархических архитектурах один уровень не обязательно инвариантен ко всем преобразованиям, которые обрабатываются всей иерархией. Некоторые преобразования могут проходить через этот уровень на верхние уровни, как в случае негрупповых преобразований, описанных в предыдущем разделе. Для других преобразований элемент слоя может создавать инвариантные представления только в небольшом диапазоне преобразований. Например, элементы нижних уровней иерархии имеют небольшое поле зрения и, следовательно, могут обрабатывать лишь небольшой диапазон перевода. Для таких преобразований слой должен предоставлять ковариантные , а не инвариантные подписи. Свойство ковариации можно записать как , где это слой, это подпись изображения на этом слое, и означает «распределение значений выражения для всех ".
Отношение к биологии
[ редактировать ]М-теория основана на количественной теории вентрального потока зрительной коры. [7] [8] Понимание того, как зрительная кора работает при распознавании объектов, по-прежнему остается сложной задачей для нейробиологии. Люди и приматы способны запоминать и распознавать объекты, увидев всего пару примеров, в отличие от любых современных систем машинного зрения, которым обычно требуется много данных для распознавания объектов. До использования визуальной нейробиологии в компьютерном зрении оно ограничивалось ранним зрением для построения стереоалгоритмов (например, [9] ) и оправдать использование фильтров DoG (производных Гаусса), а в последнее время и фильтров Габора. [10] [11] Никакого реального внимания не уделялось биологически вероятным особенностям более высокой сложности. Хотя массовое компьютерное зрение всегда вдохновлялось и бросало вызов человеческому зрению, оно, похоже, никогда не продвигалось дальше самых первых этапов обработки в простых клетках V1 и V2. Хотя некоторые из систем, вдохновленных – в той или иной степени – нейробиологией, были протестированы, по крайней мере, на некоторых естественных изображениях, нейробиологические модели распознавания объектов в коре головного мозга еще не были расширены для работы с базами данных изображений реального мира. [12]
Структура обучения М-теории использует новую гипотезу об основной вычислительной функции вентрального потока: представление новых объектов/изображений в терминах сигнатуры, которая инвариантна к преобразованиям, полученным во время визуального опыта. Это позволяет распознавать очень немногие помеченные примеры – в крайнем случае, только один.
Нейронаука предполагает, что естественные функционалы, которые должен вычислять нейрон, представляют собой многомерное скалярное произведение между «участком изображения» и другим участком изображения (называемым шаблоном). который хранится в виде синаптических весов (синапсов на нейрон). Стандартная вычислительная модель нейрона основана на скалярном произведении и пороге. Еще одной важной особенностью зрительной коры является то, что она состоит из простых и сложных клеток. Эту идею первоначально предложили Хьюбел и Визель. [9] М-теория использует эту идею. Простые ячейки вычисляют скалярное произведение изображения и преобразования шаблонов. для ( – количество простых ячеек). Сложные ячейки отвечают за объединение и вычисление эмпирических гистограмм или их статистических моментов. Следующую формулу построения гистограммы можно вычислить по нейронам:
где это гладкая версия ступенчатой функции, - ширина интервала гистограммы, а это номер бункера.
Приложения
[ редактировать ]Приложения к компьютерному зрению
[ редактировать ]В [ нужны разъяснения ] [13] [14] авторы применили М-теорию для неограниченного распознавания лиц на естественных фотографиях. В отличие от метода DAR (обнаружение, выравнивание и распознавание), который устраняет беспорядок путем обнаружения объектов и обрезки вокруг них так, что остается очень мало фона, этот подход обеспечивает обнаружение и выравнивание неявно, сохраняя преобразования обучающих изображений (шаблонов), а не явно. обнаружение и выравнивание или обрезка граней во время тестирования. Эта система построена в соответствии с принципами новейшей теории инвариантности в иерархических сетях и может избежать проблемы беспорядка, обычно проблематичной для систем с прямой связью. Полученная в результате комплексная система обеспечивает радикальное улучшение состояния техники в этой сквозной задаче, достигая того же уровня производительности, что и лучшие системы, работающие на выровненных, близко обрезанных изображениях (без внешних обучающих данных). . Он также хорошо работает с двумя новыми наборами данных, похожими на LFW, но более сложными: версия LFW и SUFR-W со значительным колебанием (несовпадением) (например, точность модели в категории LFW «невыровнена и не используются внешние данные» составляет 87,55). ±1,41% по сравнению с современным APEM (адаптивно-вероятностно-эластическое согласование): 81,70±1,78%).
Теория также применялась к ряду задач распознавания: от инвариантного распознавания отдельных объектов в беспорядке до задач многоклассовой категоризации общедоступных наборов данных (CalTech5, CalTech101, MIT-CBCL) и сложных (уличных) задач понимания сцены, требующих распознавания объекты как на основе форм, так и на основе текстур (в наборе данных StreetScenes). [12] Этот подход работает очень хорошо: он способен обучаться лишь на нескольких обучающих примерах и, как было показано, превосходит несколько более сложных современных моделей созвездия систем, а именно иерархическую систему обнаружения лиц на основе SVM. Ключевым элементом подхода является новый набор детекторов признаков, толерантных к масштабу и положению, которые являются биологически правдоподобными и количественно согласуются с настраиваемыми свойствами клеток вдоль вентрального потока зрительной коры. Эти функции адаптируются к обучающему набору, хотя мы также показываем, что универсальный набор функций, извлеченный из набора естественных изображений, не связанных с какой-либо задачей категоризации, также обеспечивает хорошую производительность.
Приложения к распознаванию речи
[ редактировать ]Эту теорию также можно распространить на область распознавания речи. В качестве примера, в [15] Было предложено распространить теорию неконтролируемого обучения инвариантных зрительных представлений на слуховую область и эмпирически оценить ее применимость для классификации звуков звонкой речи. Авторы эмпирически продемонстрировали, что однослойное представление на уровне телефона, извлеченное из базовых речевых характеристик, повышает точность классификации сегментов и уменьшает количество обучающих примеров по сравнению со стандартными спектральными и кепстральными признаками для задачи акустической классификации в наборе данных TIMIT. [16]
Ссылки
[ редактировать ]- ^ Серр Т., Олива А., Поджио Т. (2007) Архитектура прямой связи обеспечивает быструю категоризацию. ПНАС , вып. 104, нет. 15, стр. 6424–6429.
- ^ Перейти обратно: а б с д и ж Ф. Ансельми, Дж. З. Лейбо, Л. Росаско, Дж. Мутч, А. Таккетти, Т. Поджо (2014) Неконтролируемое обучение инвариантных представлений в иерархических архитектурах, препринт arXiv arXiv: 1311.4158
- ^ Х. Шульц-Мирбах. Построение инвариантных признаков методами усреднения. В распознавании образов, 1994. Том. 2 – Конференция B: Computer Vision amp; Обработка изображений., Труды 12-го Международного форума IAPR. Конференция, том 2, страницы 387–390, том 2, 1994 г.
- ^ Х. Крамер и Х. Уолд. Некоторые теоремы о функциях распределения. Дж. Лондон Математика. Сок., 4:290–294, 1936.
- ^ Ф. Ансельми, Дж. З. Лейбо, Л. Розаско, Дж. Матч, А. Таккетти, Т. Поджо (2013) Магические материалы: теория глубоких иерархических архитектур для изучения сенсорных представлений. Документ CBCL, Массачусетский технологический институт, Кембридж, Массачусетс.
- ^ Ляо К., Лейбо Дж., Мроу Й., Поджио Т. (2014) Может ли биологически правдоподобная иерархия эффективно заменить конвейеры обнаружения, выравнивания и распознавания лиц? Памятка CBMM № 003, Массачусетский технологический институт, Кембридж, Массачусетс
- ^ М. Ризенхубер и Т. Поджо Иерархические модели распознавания объектов в коре головного мозга (1999) Nature Neuroscience, vol. 2, нет. 11, стр. 1019–1025, 1999.
- ^ Т. Серр, М. Кох, К. Кадье, У. Кноблих, Г. Крейман и Т. Поджио (2005) Теория распознавания объектов: вычисления и схемы на пути прямой связи вентрального потока в искусственном интеллекте зрительной коры приматов Памятка 2005-036/CBCL Памятка 259, Массачусетский институт. технологии, Кембридж.
- ^ Перейти обратно: а б Д. Х. Хьюбель и Т. Н. Визель (1962) Рецептивные поля, бинокулярное взаимодействие и функциональная архитектура зрительной коры головного мозга кошки. Журнал физиологии 160.
- ^ Д. Габор (1946) Теория коммуникации J. IEE, vol. 93, стр. 429–459.
- ^ Дж. П. Джонс и Л. А. Палмер (1987) Оценка двумерной модели фильтра Габора простых рецептивных полей в полосатой коре кошки J. Neurophyol., vol. 58, стр. 1233–1258.
- ^ Перейти обратно: а б Томас Серр, Лиор Вольф, Стэнли Билески, Максимилиан Ризенхубер и Томазо Поджо (2007) Надежное распознавание объектов с помощью кортексоподобных механизмов. Транзакции IEEE по анализу шаблонов и машинному интеллекту, VOL. 29, НЕТ. 3
- ^ Цяньли Ляо, Джоэл З Лейбо, Юсеф Мроуэ, Томазо Поджо (2014) Может ли биологически правдоподобная иерархия эффективно заменить конвейеры обнаружения, выравнивания и распознавания лиц? Памятка CBMM № 003
- ^ Цяньли Ляо, Джоэл З Лейбо и Томазо Поджо (2014) Изучение инвариантных представлений и приложений для проверки лица NIPS 2014
- ^ Георгиос Евангелопулос, Стивен Войнеа, Чиюань Чжан, Лоренцо Росаско, Томас Поджио (2014) инвариантного речевого представления Изучение 022
- ^ «Акустико-фонетический корпус непрерывной речи TIMIT — Консорциум лингвистических данных» .