Анализ слуховой сцены

В восприятии и психофизике ) представляет собой предложенную модель , анализ слуховой сцены ( АСА лежащую в основе слухового восприятия. Это понимается как процесс, посредством которого слуховая система человека организует звук в воспринимаемые значимые элементы. Термин был придуман психологом Альбертом Брегманом . ^[1] Родственной концепцией машинного восприятия является вычислительный анализ слуховой сцены (CASA), который тесно связан с разделением источников и слепым разделением сигналов .

Три ключевых аспекта модели ASA Брегмана: сегментация, интеграция и сегрегация.

Фон

Звук достигает уха, и барабанная перепонка вибрирует как единое целое. Этот сигнал необходимо проанализировать (каким-то образом). Модель ASA Брегмана предполагает, что звуки будут либо восприниматься как «интегрированные» (слышаться как единое целое – очень похоже на гармонию в музыке), либо «разделяться» на отдельные компоненты (что приводит к контрапункту). ^[2] Например, звонок можно услышать как «единый» звук (интегрированный), или некоторые люди могут слышать отдельные компоненты – они способны разделять звук. Это можно сделать с помощью аккордов, где их можно услышать как «цвет» или как отдельные ноты. Естественные звуки , такие как человеческий голос , музыкальные инструменты или проезжающие по улице машины, состоят из множества частот, которые влияют на воспринимаемое качество (например, тембр) звуков. При одновременном возникновении двух и более естественных звуков все компоненты одновременно активных звуков воспринимаются ушами слушателей одновременно или перекрываются во времени. Это ставит их слуховую систему перед проблемой: какие части звука следует сгруппировать вместе и рассматривать как части одного и того же источника или объекта? Неправильная их группировка может привести к тому, что слушатель услышит несуществующие звуки, построенные из неправильных комбинаций исходных компонентов.

Во многих случаях отдельные элементы могут быть связаны во времени, создавая слуховой поток. Эту способность слухового потока можно продемонстрировать с помощью так называемого эффекта коктейльной вечеринки . В какой-то момент, когда несколько голосов говорят одновременно или используются фоновые звуки, можно следовать определенному голосу, даже если присутствуют другие голоса и фоновые звуки. ^[3] В этом примере ухо отделяет этот голос от других звуков (которые интегрированы), а разум «направляет» эти отдельные звуки в слуховой поток. Это навык, который хорошо развит у музыкантов, особенно у дирижеров, которые способны слушать один, два, три или более инструментов одновременно (разделяя их) и следовать каждому как независимой линии через слуховой поток. ^{[ нужна ссылка ]}.

Группировка и потоки

В основе ASA лежит ряд принципов группировки, многие из которых связаны с принципами перцептивной организации, открытыми школой гештальт-психологии . В общих чертах их можно разделить на механизмы последовательной группировки (действующие во времени) и механизмы одновременной группировки (действующие по частоте):

Ошибки в одновременной группировке могут привести к смешению звуков, которые следует слышать как отдельные, причем смешанные звуки будут иметь разные воспринимаемые качества (например, высоту или тембр) по сравнению с любым из фактически полученных звуков. Например, две гласные, представленные одновременно, могут быть неразличимы, если они разделены. ^[4]
Ошибки в последовательной группировке могут привести, например, к тому, что вы услышите слово, составленное из слогов, происходящих от двух разных голосов. ^[5]^[6]

Сегрегация может быть основана в первую очередь на перцептивных сигналах или полагаться на распознавание заученных закономерностей («на основе схемы»).

Задача ASA — группировать поступающую сенсорную информацию для формирования точного мысленного представления отдельных звуков. Когда звуки группируются слуховой системой в воспринимаемую последовательность, отличную от других сопутствующих последовательностей, каждая из этих воспринимаемых последовательностей называется «слуховым потоком». В реальном мире, если ASA успешен, поток соответствует отдельному источнику звука окружающей среды, создающему образец, который сохраняется с течением времени, например, разговор человека, игра на пианино или лай собаки. Однако в лаборатории, манипулируя акустическими параметрами звуков, можно вызвать восприятие одного или нескольких слуховых потоков.

Одним из примеров этого является явление потоковой передачи , также называемое «сегрегацией потока». ^[7] Если два звука А и Б быстро чередуются во времени, через несколько секунд может показаться, что восприятие «раскололось» так, что слушатель слышит два, а не один поток звука, причем каждый поток соответствует повторению одного из двух звуков. звуки, например АААА- и т. д., сопровождаемые ББББ- и т. д. Тенденции к разделению на отдельные потоки способствуют различия в акустических свойствах звуков А и В. Среди различий, которые, как классически показано, способствуют разделению, есть различия в частоте (для чистых тонов ), основная частота (для сложных тонов ), частотный состав, расположение источника. Но было высказано предположение, что любая систематическая разница в восприятии между двумя последовательностями может вызвать потоковую передачу. ^[8] при условии, что скорость последовательности достаточна.

Интерактивную веб-страницу, иллюстрирующую эту потоковую передачу и важность разделения частот и скорости, можно найти здесь.

Андраник Тангян утверждает, что явление группировки наблюдается не только в динамике, но и в статике. Например, ощущение аккорда — это результат представления акустических данных, а не физической причинности (действительно, одно физическое тело, например мембрана громкоговорителя, может производить эффект нескольких тонов, а несколько физических тел, например органные трубы, настроенные так, чтобы аккорд может производить эффект одного тона). С точки зрения музыкальной акустики аккорд — это особый вид звука, спектр которого — совокупность частичных тонов (синусоидальных колебаний) — можно рассматривать как порожденный смещениями спектра одного тона по оси частот. Другими словами, интервальная структура аккорда представляет собой акустический контур, нарисованный тоном (в динамике полифонические голоса представляют собой траектории тоновых спектров). Это обосновано теорией информации. Если порождающий тон гармоничен (= имеет высоту тона), то такое представление оказывается уникальным и требует наименьшего объема памяти, т. е. является наименее сложным в смысле Колмогоров . Поскольку оно проще всех других представлений, в том числе и того, где аккорд рассматривается как один сложный звук, аккорд воспринимается как сложное. Если генеративный тон негармоничен, как колокольный звук, интервальная структура еще узнаваема как смещения спектра тонов, высота которых может быть даже неуловимой. Это оптимальное определение аккорда, основанное на представлении, объясняет, среди прочего, преобладание интервального слуха над слухом абсолютной высоты. ^[9]^[10]

Экспериментальная база

Во многих экспериментах изучалось разделение более сложных звуковых моделей, таких как последовательность высоких нот разной высоты, чередующихся с низкими. В таких последовательностях разделение одновременно встречающихся звуков на отдельные потоки оказывает глубокое влияние на то, как они слышны. Восприятие мелодии формируется легче, если все ее ноты попадают в один слуховой поток. Мы склонны слышать ритмы среди нот, находящихся в одном потоке, исключая те, которые находятся в других потоках. Суждения о времени более точны между нотами в одном потоке, чем между нотами в разных потоках. Последовательная группировка может повлиять даже на воспринимаемое пространственное положение и воспринимаемую громкость. Хотя первоначальные исследования по этой теме проводились на взрослых людях, недавние исследования показали, что некоторые возможности ASA присутствуют у новорожденных, показывая, что они встроены, а не приобретаются на основе опыта. Другие исследования показали, что у животных, кроме человека, также наблюдается АСК. В настоящее время ученые изучают активность нейронов слуховых областей коры головного мозга, чтобы раскрыть механизмы, лежащие в основе АСА.

См. также

Ссылки

^ Брегман, А.С. (1990). Анализ слуховой сцены: перцептивная организация звука . Кембридж, Массачусетс: MIT Press. ISBN 9780262022972 .
^ Райт, Джеймс и Альберт С. Брегман (1987). «Разделение слухового потока и контроль диссонанса в полифонической музыке». Обзор современной музыки . 2 (1): 63-92.
^ Миллер, Джорджия (1947). «Маскировка речи». Психологический вестник . 44 (2): 105–129. дои : 10.1037/h0055960 . ПМИД 20288932 .
^ Ассманн, П.Ф.; Саммерфилд, К. (август 1990 г.). «Моделирование восприятия одновременных гласных: гласные с разными основными частотами». Журнал Акустического общества Америки . 88 (2): 680–697. Бибкод : 1990ASAJ...88..680A . дои : 10.1121/1.399772 . ПМИД 2212292 .
^ Годрен, Э.; Гримо, Н.; Хили, EW; Бера, Ж.-К. (2007). «Влияние спектрального размазывания на перцепционное разделение последовательностей гласных» . Исследование слуха . 231 (1–2): 32–41. дои : 10.1016/j.heares.2007.05.001 . ПМК 2128787 . ПМИД 17597319 .
^ Биллиг, Эй Джей; Дэвис, Миннесота; Дикс, Дж. М.; Монстри, Дж.; Карлион, РП (2013). «Лексическое влияние на слуховой поток» . Современная биология . 23 (16): 1585–1589. дои : 10.1016/j.cub.2013.06.042 . ПМЦ 3748342 . ПМИД 23891107 .
^ ван Ноорден, LPAS (1975). Временная когерентность в восприятии последовательностей тонов (PDF) (доктор философии). Нидерланды: Технологический университет Эйндховена . Проверено 10 марта 2018 г.
^ Мур, BCJ; Гокель, HE (2012). «Свойства формирования слухового потока» . Философские труды Королевского общества B: Биологические науки . 367 (1591): 919–931. дои : 10.1098/rstb.2011.0355 . ПМК 3282308 . ПМИД 22371614 .
^ Тангиан (Тангиан), Андраник (1993). Искусственное восприятие и распознавание музыки . Конспект лекций по искусственному интеллекту. Том. 746. Берлин-Гейдельберг: Шпрингер. ISBN 978-3-540-57394-4 .
^ Тангиан (Tanguiane), Андраник (1994). «Принцип корреляции восприятия и его применение к распознаванию музыки». Музыкальное восприятие . 11 (4): 465–502. дои : 10.2307/40285634 .

[bregman90-1] Брегман, А.С. (1990). Анализ слуховой сцены: перцептивная организация звука . Кембридж, Массачусетс: MIT Press. ISBN 9780262022972 .

[2] Райт, Джеймс и Альберт С. Брегман (1987). «Разделение слухового потока и контроль диссонанса в полифонической музыке». Обзор современной музыки . 2 (1): 63-92.

[3] Миллер, Джорджия (1947). «Маскировка речи». Психологический вестник . 44 (2): 105–129. дои : 10.1037/h0055960 . ПМИД 20288932 .

[4] Ассманн, П.Ф.; Саммерфилд, К. (август 1990 г.). «Моделирование восприятия одновременных гласных: гласные с разными основными частотами». Журнал Акустического общества Америки . 88 (2): 680–697. Бибкод : 1990ASAJ...88..680A . дои : 10.1121/1.399772 . ПМИД 2212292 .

[5] Годрен, Э.; Гримо, Н.; Хили, EW; Бера, Ж.-К. (2007). «Влияние спектрального размазывания на перцепционное разделение последовательностей гласных» . Исследование слуха . 231 (1–2): 32–41. дои : 10.1016/j.heares.2007.05.001 . ПМК 2128787 . ПМИД 17597319 .

[6] Биллиг, Эй Джей; Дэвис, Миннесота; Дикс, Дж. М.; Монстри, Дж.; Карлион, РП (2013). «Лексическое влияние на слуховой поток» . Современная биология . 23 (16): 1585–1589. дои : 10.1016/j.cub.2013.06.042 . ПМЦ 3748342 . ПМИД 23891107 .

[7] ван Ноорден, LPAS (1975). Временная когерентность в восприятии последовательностей тонов (PDF) (доктор философии). Нидерланды: Технологический университет Эйндховена . Проверено 10 марта 2018 г.

[8] Мур, BCJ; Гокель, HE (2012). «Свойства формирования слухового потока» . Философские труды Королевского общества B: Биологические науки . 367 (1591): 919–931. дои : 10.1098/rstb.2011.0355 . ПМК 3282308 . ПМИД 22371614 .

[Tanguiane1993-9] Тангиан (Тангиан), Андраник (1993). Искусственное восприятие и распознавание музыки . Конспект лекций по искусственному интеллекту. Том. 746. Берлин-Гейдельберг: Шпрингер. ISBN 978-3-540-57394-4 .

[Tangian1994-10] Тангиан (Tanguiane), Андраник (1994). «Принцип корреляции восприятия и его применение к распознаванию музыки». Музыкальное восприятие . 11 (4): 465–502. дои : 10.2307/40285634 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]