Архитектура столпотворения
Эта статья написана как личное размышление, личное эссе или аргументативное эссе , в котором излагаются личные чувства редактора Википедии или представлен оригинальный аргумент по определенной теме. ( декабрь 2012 г. ) |
Архитектура столпотворения — это теория когнитивной науки , описывающая, как мозг обрабатывает визуальные изображения. Он имеет приложения в области искусственного интеллекта и распознавания образов . Теория была разработана пионером искусственного интеллекта Оливером Селфриджем в 1959 году. Она описывает процесс распознавания объектов как иерархическую систему обнаружения и ассоциации с помощью метафорического набора «демонов», посылающих друг другу сигналы. Эта модель теперь признана основой зрительного восприятия в когнитивной науке.
Архитектура столпотворения возникла в ответ на неспособность теорий сопоставления шаблонов предложить биологически правдоподобное объяснение феномена постоянства изображения . Современный [ когда? ] исследователи хвалят эту архитектуру за ее элегантность и креативность; что идея наличия нескольких независимых систем (например, детекторов признаков ), работающих параллельно для решения проблемы постоянства изображения при распознавании образов, является мощной, но простой. Основная идея архитектуры столпотворения заключается в том, что шаблон сначала воспринимается по частям, а затем «целое». [1]
Архитектура Pandemonium была одной из первых вычислительных моделей распознавания образов. Хотя архитектура столпотворения и не была идеальной, она повлияла на развитие современных коннекционистских моделей , моделей искусственного интеллекта и распознавания слов . [2]
История
[ редактировать ]Большинство исследований восприятия было сосредоточено на зрительной системе, изучая механизмы того, как мы видим и понимаем объекты. Важнейшей функцией нашей зрительной системы является ее способность распознавать закономерности, но механизм, с помощью которого это достигается, неясен. [3]
Самая ранняя теория, пытавшаяся объяснить, как мы распознаем шаблоны, — это модель сопоставления шаблонов. Согласно этой модели, мы сравниваем все внешние стимулы с внутренними ментальными представлениями. Если между воспринимаемым стимулом и внутренней репрезентацией существует «достаточное» перекрытие, мы «распознаем» стимул. Хотя некоторые машины следуют модели сопоставления шаблонов (например, банковские автоматы, проверяющие подписи и учетные номера), теория критически ошибочна в объяснении феномена постоянства изображения: мы можем легко распознать стимул независимо от изменений в форме его представления (например, , T и T легко распознаются как буква T). Крайне маловероятно, что у нас есть сохраненный шаблон для всех вариантов каждого отдельного шаблона. [4]
В результате критики биологической правдоподобности модели сопоставления с шаблоном стали появляться модели обнаружения признаков. В модели обнаружения признаков изображение сначала воспринимается в его основных отдельных элементах, прежде чем оно распознается как целый объект. Например, когда нам показывают букву А, мы сначала видим короткую горизонтальную линию и две наклонные длинные диагональные линии. Затем мы объединили бы функции, чтобы завершить восприятие A. Каждый уникальный шаблон состоит из разных комбинаций функций, а это означает, что те, которые сформированы с одинаковыми функциями, будут вызывать одинаковое узнавание. То есть, независимо от того, как мы поворачиваем букву А, она все равно воспринимается как буква А. В такой архитектуре легко объяснить феномен постоянства изображения, потому что вам нужно «сопоставить» только на базовом уровне функций, который предполагается ограниченным и конечным, а значит, биологически правдоподобным. Самая известная модель обнаружения функций называется архитектурой столпотворения. [4]
Архитектура столпотворения
[ редактировать ]Архитектура столпотворения была первоначально разработана Оливером Селфриджем в конце 1950-х годов. Архитектура состоит из различных групп «демонов», работающих независимо над обработкой зрительного стимула. Каждой группе демонов отведен определенный этап распознавания, и внутри каждой группы демоны работают параллельно. В оригинальной архитектуре есть четыре основные группы демонов. [3]
Этап | Имя демона | Функция |
---|---|---|
1 | Изображение демона | Записывает изображение, полученное на сетчатке. |
2 | Особенности демонов | Существует множество демонов функций, каждый из которых представляет определенную функцию. Например, есть демон функций для коротких прямых линий, другой для изогнутых линий и т. д. Задача каждого демона функций — «кричать», если они обнаруживают функцию, которой они соответствуют. Обратите внимание, что демоны функций не предназначены для обозначения каких-либо конкретных нейронов , а представляют собой группу нейронов, которые имеют схожие функции. Например, демон функции вертикальных линий используется для представления нейронов, которые реагируют на вертикальные линии на изображении сетчатки. |
3 | Когнитивные демоны | Посмотрите «крики» художественных демонов. Каждый когнитивный демон отвечает за определенный образец (например, букву алфавита). «Крик» когнитивных демонов основан на том, какая часть их паттернов была обнаружена демонами-особенностями. Чем больше особенностей когнитивные демоны находят, соответствующих их образцу, тем громче они «вопят». Например, если демоны с изогнутыми, длинными прямыми и короткими угловыми линиями кричат очень громко, когнитивный демон с буквой R может быть очень взволнован, а когнитивный демон с буквой P тоже может быть несколько взволнован; но когнитивный демон буквы Z, скорее всего, будет молчать. |
4 | Демон решения | Представляет собой заключительный этап обработки. Он слушает «крики», производимые когнитивными демонами. Он выбирает самого громкого когнитивного демона. Выбранный демон становится нашим сознательным восприятием. Продолжая наш предыдущий пример, когнитивный демон R будет самым громким, его поддерживает P; поэтому мы будем воспринимать R, но если мы допустим ошибку из-за плохих условий отображения (например, буквы быстро мигают или части перекрываются), то это, скорее всего, будет P. Обратите внимание, что «столпотворение» просто представляет собой совокупный «крики», производимые системой. |
Концепция демонов функций, заключающаяся в том, что существуют определенные нейроны, предназначенные для выполнения специализированной обработки, подтверждается исследованиями в области нейробиологии. Хьюбел и Визель есть определенные клетки обнаружили, что в мозгу кошки , которые реагируют на определенную длину и ориентацию линии. Подобные результаты были обнаружены у лягушек , осьминогов и множества других животных. Было обнаружено, что осьминоги чувствительны только к вертикальности линий, тогда как лягушки продемонстрировали более широкий диапазон чувствительности. Эти эксперименты на животных показывают, что детекторы признаков кажутся очень примитивной разработкой. То есть оно не являлось результатом более высокого когнитивного развития человека. Неудивительно, что есть свидетельства того, что человеческий мозг также обладает этими детекторами элементарных функций. [5] [6] [7]
Более того, эта архитектура способна к обучению, подобно нейронной сети в стиле обратного распространения ошибки . Вес между когнитивными и функциональными демонами можно регулировать пропорционально разнице между правильным паттерном и активацией когнитивных демонов. Продолжая наш предыдущий пример, когда мы впервые выучили букву R, мы знали, что она состоит из изогнутой, длинной прямой и короткой угловой линии. Таким образом, когда мы воспринимаем эти функции, мы воспринимаем R. Однако буква P состоит из очень похожих функций, поэтому на начальных этапах обучения эта архитектура может ошибочно идентифицировать R как P. Но благодаря постоянному подтверждению R признаков, которые будут идентифицированы как R, веса признаков R по отношению к P корректируются так, чтобы реакция P стала подавляемой (например, обучение подавлению реакции P при обнаружении короткой наклонной линии). В принципе, архитектура столпотворения способна распознать любой шаблон. [8]
Как упоминалось ранее, эта архитектура прогнозирует ошибки на основе количества перекрывающихся функций. Например, наиболее вероятной ошибкой для R должна быть P. Таким образом, чтобы показать, что эта архитектура представляет собой человеческую систему распознавания образов, мы должны проверить эти прогнозы. Исследователи построили сценарии, в которых различные буквы представлены в ситуациях, которые затрудняют их идентификацию; затем наблюдались типы ошибок, которые использовались для создания матриц путаницы: где записываются все ошибки для каждой буквы. В целом результаты этих экспериментов совпадали с предсказаниями ошибок архитектуры столпотворения. Также в результате этих экспериментов некоторые исследователи предложили модели, в которых попытались перечислить все основные особенности латинского алфавита . [9] [10] [11] [12]
Критика
[ редактировать ]Основная критика архитектуры столпотворения заключается в том, что она использует полностью восходящую обработку: распознавание полностью определяется физическими характеристиками целевого стимула. Это означает, что он не может учитывать какие-либо нисходящие эффекты обработки, такие как контекстные эффекты ( например , парейдолия ), которым могут способствовать контекстуальные подсказки (например, эффект превосходства слова: относительно легче идентифицировать букву, когда она является частью слова, чем изолированно) обработки. Однако это не фатальная критика всей архитектуры, поскольку относительно легко добавить группу контекстуальных демонов, которые будут работать вместе с когнитивными демонами и учитывать эти контекстные эффекты. [13]
Хотя архитектура столпотворения построена на том факте, что она может объяснить феномен постоянства изображения, некоторые исследователи утверждают обратное; и отметил, что архитектура столпотворения может иметь те же недостатки, что и модели сопоставления шаблонов. Например, буква H состоит из двух длинных вертикальных линий и короткой горизонтальной линии; но если мы повернём букву H на 90 градусов в любом направлении, она теперь будет состоять из двух длинных горизонтальных линий и короткой вертикальной линии. Чтобы распознать повернутую H как H, нам понадобится повернутый H когнитивный демон. Таким образом, мы можем получить систему, которой потребуется большое количество когнитивных демонов для точного распознавания, что приведет к той же критике биологической правдоподобности моделей сопоставления шаблонов. Однако судить о справедливости этой критики довольно сложно, поскольку архитектура столпотворения не определяет, как и какие признаки извлекаются из поступающей сенсорной информации, а просто обрисовывает возможные этапы распознавания образов. Но, конечно, возникают свои вопросы, на которые практически невозможно критиковать такую модель, если она не включает в себя конкретные параметры. Кроме того, теория кажется довольно неполной без определения того, как и какие признаки извлекаются, что оказывается особенно проблематичным в случае сложных моделей (например, определение веса и особенностей собаки). [3] [14]
Некоторые исследователи также отмечают, что доказательства, подтверждающие архитектуру столпотворения, очень узки в своей методологии. Большинство исследований, подтверждающих эту архитектуру, часто ссылаются на ее способность распознавать простые схематические рисунки, выбранные из небольшого конечного набора (например, букв латинского алфавита). Данные экспериментов такого типа могут привести к слишком обобщенным и вводящим в заблуждение выводам, поскольку процесс распознавания сложных трехмерных моделей может сильно отличаться от простых схем. Более того, некоторые критиковали методологию, используемую при создании матрицы путаницы, потому что она смешивает перцептивную путаницу (ошибку в идентификации, вызванную перекрытием признаков ошибки и правильного ответа) с постперцептивным догадкой (люди догадываются случайным образом, потому что не могут быть уверены, что именно). они видели). Однако эта критика была отчасти устранена, когда аналогичные результаты были воспроизведены с другими парадигмами (например, «годен/не годен» и одинаковые разные задачи), что подтвердило утверждение о том, что у людей действительно есть детекторы элементарных признаков. Эти новые парадигмы полагались на время реакции как зависимую переменную, что также позволяло избежать проблемы пустых ячеек, присущей матрице путаницы (статистический анализ трудно проводить и интерпретировать, когда данные содержат пустые ячейки). [7]
Кроме того, некоторые исследователи отмечают, что теории накопления признаков, такие как архитектура столпотворения, имеют этапы обработки распознавания образов почти в обратном порядке. Эту критику в основном использовали сторонники теории перехода от глобального к локальному, которые утверждали и предоставили доказательства того, что восприятие начинается с размытого представления о целом, которое со временем уточняется, подразумевая, что извлечение признаков не происходит на ранних стадиях распознавания. [15] Однако ничто не мешает демону распознавать глобальный шаблон параллельно с другими демонами, распознающими локальные шаблоны внутри глобального шаблона.
Приложения и влияния
[ редактировать ]Архитектура столпотворения была применена для решения нескольких реальных задач, таких как перевод отправленных вручную кодов Морзе и идентификация рукописных букв. Общая точность моделей на основе столпотворения впечатляет, даже если системе был предоставлен короткий период обучения. Например, Дойл построил систему, основанную на столпотворении, с более чем 30 сложными анализаторами функций. Затем он скормил своей системе несколько сотен писем для обучения. На этом этапе система проанализировала введенную букву и сгенерировала собственный вывод (то, как система идентифицирует букву). Выходные данные системы сравнивались с правильной идентификацией, которая отправляет сигнал ошибки обратно в систему для соответствующей корректировки весов между анализаторами функций. На этапе тестирования были представлены незнакомые буквы (стиль и размер букв отличались от тех, которые были представлены на этапе обучения), и система смогла достичь точности около 90%. Из-за впечатляющей способности распознавать слова все современные теории о том, как люди читают и распознают слова, следуют этой иерархической структуре: распознавание слов начинается с выделения признаков букв, которые затем активируют детекторы букв. [16] (например, СОЛНЕЧНАЯ, [17] СЕРИОЛ, [18] Я, [19] ДРК [20] ).
Основываясь на оригинальной архитектуре столпотворения, Джон Джексон расширил теорию, чтобы объяснить явления, выходящие за рамки восприятия. Джексон предложил аналогию с ареной для объяснения « сознания ». Его арена состояла из трибуны, игрового поля и подарены. Арена была населена множеством демонов. Демоны, обозначенные на игровых полях, были активными демонами, поскольку они представляют собой активные элементы человеческого сознания. Демоны на трибунах должны наблюдать за игроками на игровом поле, пока их что-нибудь не возбудит; каждого демона волнуют разные вещи. Чем больше волнуются демоны, тем громче они кричат. Если крики демона превышают установленный порог, он может присоединиться к другим демонам на игровом поле и выполнить свою функцию, которая затем может возбудить других демонов, и этот цикл продолжается. Подарена в аналогии функционирует как механизм обучения и обратной связи системы. Система обучения здесь аналогична любым другим нейронным сетям, которая заключается в изменении силы связи между демонами; другими словами, как демоны реагируют на крики друг друга. Этот многоагентный подход к обработке информации человеком стал допущением для многих современных систем искусственного интеллекта. [21] [22]
Сравнения
[ редактировать ]Сравнение с теориями соответствия шаблонов
[ редактировать ]Хотя архитектура столпотворения возникла как ответ на серьезную критику теорий сопоставления шаблонов, на самом деле в некотором смысле они довольно похожи: существует процесс, в котором определенный набор функций элементов сопоставляется с каким-то мысленным представлением. Критическая разница между ними заключается в том, что изображение напрямую сравнивается с внутренним представлением в теориях сопоставления шаблонов, тогда как в архитектуре столпотворения изображение сначала распространяется и обрабатывается на уровне объектов. Это дало архитектуре столпотворения огромную мощь, поскольку она способна распознавать стимул, несмотря на его изменения в размере, стиле и других трансформациях; без презумпции неограниченной памяти шаблонов. Также маловероятно, что теории сопоставления шаблонов будут работать должным образом, когда мы сталкиваемся с реалистичными визуальными данными, когда объекты представлены в трех измерениях и часто перекрыты другими объектами (например, половина книги покрыта листом бумаги, но мы можем до сих пор сравнительно легко распознаю в ней книгу). Тем не менее, некоторые исследователи провели эксперименты, сравнивающие две теории. Неудивительно, что результаты часто отдавали предпочтение иерархической модели построения функций, такой как архитектура столпотворения. [23] [24] [25]
Сравнение с распознаванием образов Хебба
[ редактировать ]Модель Хебба во многих аспектах напоминает теории, ориентированные на функции, такие как архитектура столпотворения. Первый уровень обработки в модели Хеббиана называется сборками ячеек, которые имеют очень схожие функции с демонами. Однако сборки ячеек более ограничены, чем демоны функций, поскольку они могут извлекать только линии, углы и контуры. Сборки клеток объединяются, образуя фазовые последовательности, что очень похоже на функцию когнитивных демонов. В каком-то смысле многие считают модель Хебба чем-то средним между теориями шаблона и теории сопоставления признаков, поскольку признаки, извлеченные из моделей Хебба, можно рассматривать как базовые шаблоны. [8]
См. также
[ редактировать ]- Конкурсное обучение
- Ансамблевое обучение
- Самоорганизующаяся карта
- Коннекционизм
- Теория интеграции функций
- Адаптивная система # Иерархия адаптаций: Практикопоэз
- Система доски
Ссылки
[ редактировать ]- ^ Андерсон, Джеймс А .; Розенфельд, Эдвард (1988). Нейрокомпьютеры (2-е печатное изд.). Кембридж, Массачусетс: MIT Press. ISBN 978-0262010979 .
- ^ Гернсбахер, Мортон Энн (1998). Справочник по психолингвистике ([Начдр.] изд.). Сан-Диего, Калифорния [ua]: Academic Press. ISBN 978-0-12-280890-6 .
- ^ Jump up to: а б с д Линдси, Питер Х.; Норман, Дональд А. (1977). Обработка информации человеком (2-е изд.). Нью-Йорк: Академическая пресса. ISBN 978-0124509603 .
- ^ Jump up to: а б Фриденберг, Джей; Сильверман, Гордон (14 июля 2011 г.). Когнитивная наука: Введение в изучение разума (2-е изд.). Таузенд-Оукс, Калифорния: SAGE. ISBN 9781412977616 .
- ^ Сазерленд, Стюарт (1957). «Визуальное различение формы осьминогом». Британский журнал психологии . 48 (1): 55–70. дои : 10.1111/j.2044-8295.1957.tb00599.x . ПМИД 13413184 .
- ^ Леттвин, Дж.; Матурана, Х.; Маккалок, В.; Питтс, В. (1 ноября 1959 г.). «О чем лягушачий глаз говорит лягушачьему мозгу». Труды ИРЭ . 47 (11): 1940–1951. дои : 10.1109/JRPROC.1959.287207 . S2CID 8739509 .
- ^ Jump up to: а б Грейнджер, Джонатан; Рей, Арно; Дюфау, Стефан (1 октября 2008 г.). «Восприятие буквы: от пикселей к столпотворению». Тенденции в когнитивных науках . 12 (10): 381–387. дои : 10.1016/j.tics.2008.06.006 . ПМИД 18760658 . S2CID 33570133 .
- ^ Jump up to: а б Нейссер, Ульрик (1967). Когнитивная психология . Нью-Йорк: Appleton-Century-Crofts.
Найссер, Ульрик.
- ^ Кинни, Гленн; Марсетта, Мэрион; Шоумен, Диана (1966). Исследования разборчивости отображаемых символов, часть XII: разборчивость буквенно-цифровых символов для цифрового телевидения . Бедфорд, Массачусетс: The Mitre Corporation.
- ^ Гибсон, Элеонора Дж. (1969). Принципы перцептивного обучения и развития . Нью-Йорк: Appleton-Century-Crofts. ISBN 9780390361455 .
- ^ Гейер, Л.Х.; ДеВальд, CG (1 октября 1973 г.). «Списки функций и матрицы путаницы» . Восприятие и психофизика . 14 (3): 471–482. дои : 10.3758/BF03211185 .
- ^ Керен, Гидеон; Багген, Стэн (1 мая 1981 г.). «Модели распознавания буквенно-цифровых символов» . Восприятие и психофизика . 29 (3): 234–246. дои : 10.3758/BF03207290 . ПМИД 7267275 .
- ^ Райхер, Джеральд М. (1 января 1969 г.). «Перцептивное распознавание как функция значимости стимульного материала». Журнал экспериментальной психологии . 81 (2): 275–280. дои : 10.1037/h0027768 . ПМИД 5811803 .
- ^ Мински, Марвин Ли ; Паперт, Сеймур (1969). Перцептроны: Введение в вычислительную геометрию (2-е издание с исправленной ред.). Кембридж, Массачусетс: MIT Press. ISBN 978-0262630221 .
- ^ Лупкер, Стивен Дж. (1 июля 1979 г.). «О природе перцептивной информации при восприятии письма» . Восприятие и психофизика . 25 (4): 303–312. дои : 10.3758/BF03198809 . ПМИД 461090 .
- ^ Дойл, W (1960). Распознавание неряшливых, напечатанных от руки символов . Сан-Франциско, Калифорния: Учеб. Западная объединенная компьютерная конференция.
- ^ Дэвис, Колин Дж. (1 января 2010 г.). «Модель пространственного кодирования визуальной идентификации слов» . Психологический обзор . 117 (3): 713–758. дои : 10.1037/a0019738 . hdl : 1983/13ad570a-3690-4a6e-9b4d-d88b6f94b9fc . ПМИД 20658851 .
- ^ Уитни, Кэрол (1 июня 2001 г.). «Как мозг кодирует порядок букв в печатном слове: модель SERIOL и выборочный обзор литературы» . Психономический бюллетень и обзор . 8 (2): 221–243. дои : 10.3758/BF03196158 . ПМИД 11495111 .
- ^ Макклелланд, Джеймс Л .; Румельхарт, Дэвид Э. (1 января 1981 г.). «Интерактивная модель активации контекстных эффектов при восприятии букв: I. Отчет об основных выводах». Психологический обзор . 88 (5): 375–407. дои : 10.1037/0033-295X.88.5.375 .
- ^ Колтхарт, Макс; Рэстл, Кэтлин; Перри, Конрад; Лэнгдон, Робин; Зиглер, Йоханнес (1 января 2001 г.). «DRC: каскадная модель с двойным маршрутом визуального распознавания слов и чтения вслух». Психологический обзор . 108 (1): 204–256. дои : 10.1037/0033-295X.108.1.204 . ПМИД 11212628 .
- ^ Джексон, Джон (июль 1987 г.). «Идея для разума». Информационный бюллетень Сигарта .
- ^ Нтуен, Селестина А.; Пак, Юи Х. (1996). Взаимодействие человека со сложными системами: концептуальные принципы и практика проектирования . Спрингер. ISBN 978-0792397793 .
- ^ Гибсон, Дж (май 1965 г.). «Учимся читать». Наука . 148 (3673): 1066–1072. Бибкод : 1965Sci...148.1066G . дои : 10.1126/science.148.3673.1066 . ПМИД 14289608 . S2CID 64642620 .
- ^ Уилер, Дэниел Д. (1 января 1970 г.). «Процессы распознавания слов». Когнитивная психология . 1 (1): 59–85. дои : 10.1016/0010-0285(70)90005-8 . hdl : 2027.42/32833 .
- ^ Ларсен, Аксель; Бундезен, Клаус (1 марта 1996 г.). «Аппарат сопоставления шаблонов распознает неограниченные рукописные символы с высокой точностью» . Память и познание . 24 (2): 136–143. дои : 10.3758/BF03200876 . ПМИД 8881318 .