Восприятие естественной сцены

Восприятие естественной сцены относится к процессу, посредством которого агент (например, человек) визуально воспринимает и интерпретирует сцены , с которыми он обычно сталкивается в естественных режимах работы (например, оживленные улицы, луга, гостиные). ^{[ 1 ]} Этот процесс моделировался несколькими различными способами, основанными на разных концепциях.

Споры о роли внимания

Одной из основных разделительных линий между теориями, объясняющими восприятие естественной сцены, является роль внимания . Некоторые теории утверждают необходимость сосредоточенного внимания, в то время как другие утверждают, что сосредоточенное внимание не требуется.

Сосредоточенное внимание играло частичную роль в ранних моделях восприятия природных сцен. Такие модели включали два этапа визуальной обработки. ^{[ 2 ]} Согласно этим моделям, первый этап не требует внимания и регистрирует функции низкого уровня, такие как градиенты яркости , движение параллельно и ориентация. Между тем второй этап требует сосредоточенного внимания. Он регистрирует описания объектов высокого уровня, имеет ограниченную емкость и работает последовательно. Эти модели были эмпирически основаны на исследованиях, демонстрирующих слепоту к изменениям , слепоту по невнимательности и моргание внимания . Такие исследования показывают, что, когда зрительное внимание занято задачей, значительные изменения в окружающей среде, не имеющие прямого отношения к задаче, могут ускользнуть от внимания. Обычно считалось, что восприятие естественной сцены одинаково подвержено слепоте к изменениям, слепоте по невнимательности и морганию внимания, и что эти психологические явления возникают из-за того, что выполнение задачи отвлекает ресурсы внимания, которые в противном случае использовались бы для восприятия естественной сцены.

Доказательства против необходимости сосредоточенного внимания

Вскоре появилась гипотеза отсутствия внимания, бросившая вызов ранним моделям. Первоначальным основанием для гипотезы отсутствия внимания было открытие того, что при визуальном поиске основные визуальные характеристики объектов сразу и автоматически всплывают перед человеком, выполняющим визуальный поиск. ^{[ 3 ]} Дальнейшие эксперименты, похоже, подтвердили это: Поттер (цитируемый Evans & Treisman, 2005) показал, что к репрезентациям высокого порядка можно быстро получить доступ из естественных сцен, представленных со скоростью до 10 в секунду. Кроме того, Торп, Файз и Марлот (по данным Эванса и Трейсмана) обнаружили, что люди и приматы могут быстро и точно классифицировать естественные изображения (т. е. животных в повседневных сценах в помещении и на открытом воздухе) даже после кратковременных экспозиций. ^{[ 3 ]} Основная идея этих исследований заключается в том, что воздействие каждой отдельной сцены слишком кратковременно для того, чтобы могли произойти процессы внимания, однако люди способны интерпретировать и классифицировать эти сцены.

Более слабые версии гипотезы отсутствия внимания также были нацелены на конкретные компоненты процесса восприятия естественной сцены, а не на процесс в целом. Кихара и Такеда (2012) ограничивают свое утверждение утверждением, что именно интеграция информации, основанной на пространственных частотах , в естественные сцены (подпроцесс восприятия естественных сцен) не требует внимания. ^{[ 4 ]} Это утверждение основано на их исследовании, в котором использовались задачи, требующие внимания, для проверки способности участников точно классифицировать изображения, которые были отфильтрованы так, чтобы иметь широкий диапазон пространственных частот. Логика этого эксперимента заключалась в том, что если интеграция визуальной информации по пространственным частотам (измеряемая с помощью задачи категоризации) является предварительной, то задачи, требующие внимания, не должны влиять на производительность задачи категоризации. Это действительно оказалось так.

Более поздние данные, подтверждающие необходимость сосредоточенного внимания

Недавнее исследование Коэна, Альвареса и Накаямы (2011) ставит под сомнение достоверность доказательств, подтверждающих гипотезу отсутствия внимания. Они обнаружили, что участники действительно проявляли слепоту по невнимательности при выполнении определенных видов задач по отслеживанию нескольких объектов (MOT) и быстрому последовательному визуальному представлению (RSVP). ^{[ 5 ]} Более того, Коэн и др. обнаружили, что естественное восприятие сцены участниками ухудшалось в условиях выполнения двух задач, но это ухудшение двух задач происходило только тогда, когда основная задача участников была достаточно сложной. Авторы пришли к выводу, что предыдущие исследования, показавшие отсутствие необходимости в сосредоточенном внимании, не использовали задачи, которые были бы достаточно сложными, чтобы полностью задействовать внимание.

В работе Коэна и др. В ходе исследования задача ТО заключалась в просмотре восьми черных движущихся дисков, представленных на меняющемся фоне, состоящем из шахматных масок случайного цвета. Были выбраны четыре из этих дисков, и участникам было поручено отслеживать эти четыре диска. Задача RSVP заключалась в просмотре потока букв и цифр, представленных на ряде меняющихся шахматных досок, и подсчете количества раз, когда была представлена цифра. В обоих экспериментах критическое испытание включало в себя естественную сцену, внезапно заменившую предпоследнюю шахматную доску, и сразу после этого участников спрашивали, заметили ли они что-нибудь другое, а также предлагали шесть вопросов, чтобы определить, классифицировали ли они сцену. В условиях двойной задачи участники просто одновременно выполняли упомянутую выше задачу ТО и задачу классификации сцены. Авторы варьировали сложность задачи (т.е. насколько требовательной была задача), увеличивая или уменьшая скорость движущихся дисков.

Модели

Это некоторые из моделей, предложенных с целью объяснения восприятия естественной сцены.

Гипотеза Эванса и Трейсмана

Эванс и Трейсман (2005) предложили гипотезу о том, что люди быстро обнаруживают дизъюнктивные наборы несвязанных признаков целевых категорий параллельным образом , а затем используют эти признаки для различения сцен, которые содержат или не содержат цель, не обязательно полностью ее идентифицируя. ^{[ 3 ]} Примером такой функции могут быть распростертые крылья, по которым можно определить, есть ли птица на изображении, даже до того, как система идентифицирует объект как птицу. Эванс и Трейсман предполагают, что восприятие естественной сцены включает сначала проход через иерархию визуальной обработки до узлов в сети визуальной идентификации, а затем необязательное повторное посещение более ранних уровней для более детального анализа. На этапе «первого прохода» система формирует глобальное представление естественной сцены, которое включает расположение глобальных границ и потенциальных объектов. На этапе «повторного посещения» сосредоточенное внимание используется для последовательного выбора локальных объектов, представляющих интерес, а затем связывания их характеристик с их представлениями.

Эта гипотеза согласуется с результатами исследования, в котором участникам было поручено обнаруживать животные-мишени в последовательностях RSVP, а затем сообщать об их личности и местонахождении. Хотя в большинстве испытаний участникам удавалось обнаружить мишени, они часто впоследствии не могли их идентифицировать или локализовать. Кроме того, когда две цели были предъявлены в быстрой последовательности, участники демонстрировали значительное моргание внимания, когда требовалось идентифицировать цели, но моргание внимания в основном устранялось среди участников, которым требовалось только обнаружить их. ^{[ 3 ]} Эванс и Трейсман объясняют эти результаты гипотезой о том, что моргание внимания происходит потому, что стадия идентификации требует ресурсов внимания, а стадия обнаружения — нет.

Сверхбыстрая визуальная категоризация

Сверхбыстрая визуальная категоризация — это модель, предлагающая автоматический механизм прямой связи , который параллельно формирует высокоуровневые представления объектов без целенаправленного внимания. В этой модели механизм нельзя ускорить путем обучения. Доказательства механизма прямой связи можно найти в исследованиях, которые показали, что многие нейроны уже обладают высокой избирательностью в начале зрительной реакции, что позволяет предположить, что механизмы обратной связи не требуются для увеличения селективности ответа. ^{[ 6 ]} Кроме того, недавние исследования фМРТ и ERP показали, что замаскированные зрительные стимулы, которые участники не воспринимают сознательно, могут значительно модулировать активность двигательной системы, что предполагает несколько сложную обработку зрительной информации. ^{[ 7 ]} ВанРуллен (2006) провел моделирование, показавшее, что прямого распространения одной волны спайков через нейроны высокого уровня, генерируемых в ответ на стимул, может быть достаточно для грубого распознавания и категоризации, которая происходит за 150 мс или меньше. ^{[ 8 ]}

Теория файлов нейронных объектов

Сюй и Чунь (2009) предлагают теорию файлов нейронных объектов, которая утверждает, что зрительная система человека первоначально выбирает фиксированное количество примерно четырех объектов из многолюдной сцены на основе их пространственной информации (индивидуализация объекта), прежде чем кодировать их детали (идентификация объекта). ). ^{[ 9 ]} Согласно этой схеме, индивидуализация объекта обычно контролируется нижней внутритеменной бороздой (IPS), тогда как идентификация объекта включает верхнюю IPS и зрительные области более высокого уровня. На этапе индивидуации объекта представления объектов являются грубыми и содержат минимальную информацию о признаках. Однако, как только эти представления объектов (или объектные файлы, если использовать язык теории) «созданы» на этапе индивидуации объекта, они могут быть доработаны с течением времени на этапе идентификации объекта, во время которого дополнительная информация о характеристиках и идентичности собирается. полученный.

Теория файлов нейронных объектов решает проблему внимания, предлагая две разные системы обработки. Один из них отслеживает общую иерархическую структуру зрительного отображения и не требует внимания, а другой обрабатывает текущие объекты внимания. Текущая гипотеза заключается в том, что парагиппокампальная область места (PPA) играет роль в переключении визуального внимания на различные части сцены и объединении информации из нескольких кадров для формирования интегрированного представления сцены.

Разделение индивидуации и идентификации объекта в нейронной теории объектных файлов подтверждается такими данными, как, например, данные исследования Сюй и Чуна по фМРТ (цитируется по Сюй и Чунь, 2009). В этом исследовании они изучили задние механизмы мозга, которые поддерживают зрительную кратковременную память (VSTM). ФМРТ показала, что репрезентации в нижнем IPS были фиксированы примерно к четырем объектам независимо от сложности объекта, но представления в верхнем IPS и латеральном затылочном комплексе (LOC) варьировались в зависимости от сложности. ^{[ 10 ]}

Статистика природных сцен

Ссылки

^ Гейслер, В.С., Перри, Дж.С. и Инг, А.Д. (2008) Анализ природных систем. В: Б. Роговитц и Т. Паппас (ред.), Человеческое зрение и электронные изображения. Слушания SPIE, том 6806, 68060M
^ Эванс, К. и Трейсман, А. (2005). Восприятие объектов в природных сценах: действительно ли оно требует внимания? Журнал экспериментальной психологии: человеческое восприятие и деятельность, 31 (6) , 1476–1492.
^ Jump up to: ^а ^б ^с ^д См. 2.
^ Кихара, К. и Такеда, Ю. (2012). Не требующая внимания интеграция пространственно-частотной информации в природные сцены. Исследования зрения, 65, 38–44.
^ Коэн, Массачусетс, Альварес, Джорджия, и Накаяма, К. (2011). Восприятие естественной сцены требует внимания. Психологическая наука, 22 (9), 1165–1172.
^ Фабр-Торп М., Делорм А., Марло К. и Торп С. (2001). Ограничение скорости обработки при сверхбыстрой визуальной категоризации новых природных сцен. Журнал когнитивной нейронауки, 13 (2), стр. 171–180.
^ См. 9.
^ ВанРуллен, Р. (2007). Мощность развертки с прямой связью. Достижения когнитивной психологии, 3 (1), 167–176.
^ Сюй, Ю. и Чун, М.М. (2009). Выбор и восприятие нескольких визуальных объектов. Тенденции в когнитивных науках , 13(4), 167-173.
^ См. 12.

[1] Гейслер, В.С., Перри, Дж.С. и Инг, А.Д. (2008) Анализ природных систем. В: Б. Роговитц и Т. Паппас (ред.), Человеческое зрение и электронные изображения. Слушания SPIE, том 6806, 68060M

[2] Эванс, К. и Трейсман, А. (2005). Восприятие объектов в природных сценах: действительно ли оно требует внимания? Журнал экспериментальной психологии: человеческое восприятие и деятельность, 31 (6) , 1476–1492.

[See-3] Jump up to: ^а ^б ^с ^д См. 2.

[4] Кихара, К. и Такеда, Ю. (2012). Не требующая внимания интеграция пространственно-частотной информации в природные сцены. Исследования зрения, 65, 38–44.

[5] Коэн, Массачусетс, Альварес, Джорджия, и Накаяма, К. (2011). Восприятие естественной сцены требует внимания. Психологическая наука, 22 (9), 1165–1172.

[6] Фабр-Торп М., Делорм А., Марло К. и Торп С. (2001). Ограничение скорости обработки при сверхбыстрой визуальной категоризации новых природных сцен. Журнал когнитивной нейронауки, 13 (2), стр. 171–180.

[7] См. 9.

[8] ВанРуллен, Р. (2007). Мощность развертки с прямой связью. Достижения когнитивной психологии, 3 (1), 167–176.

[9] Сюй, Ю. и Чун, М.М. (2009). Выбор и восприятие нескольких визуальных объектов. Тенденции в когнитивных науках , 13(4), 167-173.

[10] См. 12.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]