Jump to content

СЛЕД (психолингвистика)

(Перенаправлено из «След» (психолингвистика) )

TRACE коннекционистская модель восприятия речи , предложенная Джеймсом Макклелландом и Джеффри Элманом в 1986 году. [1] Он основан на структуре под названием «СЛЕД» — динамической структуре обработки, состоящей из сети блоков, которая выполняет функции рабочей памяти системы, а также механизма перцептивной обработки. [2] TRACE была превращена в рабочую компьютерную программу для запуска перцептивного моделирования. Эти симуляции представляют собой предсказания того, как человеческий разум/мозг обрабатывает звуки и слова речи, когда они слышатся в реальном времени.

Вдохновение

[ редактировать ]

TRACE был создан в период становления коннекционизма и был включен в качестве главы в книгу « Параллельная распределенная обработка: исследования микроструктур познания» . [3] Исследователи обнаружили, что некоторые проблемы, связанные с восприятием речи, можно концептуализировать с точки зрения коннекционистской модели интерактивной активации. Проблемы были в том, что

(1) речь растянута во времени

(2) звуки речи ( фонемы ) накладываются друг на друга

(3) на артикуляцию звука речи влияют звуки, идущие до и после него, и

(4) существует естественная изменчивость речи (например, иностранный акцент), а также шум в окружающей среде (например, оживленный ресторан).

Каждый из этих факторов делает речевой сигнал сложным и часто неоднозначным, что затрудняет человеческому разуму/мозгу определение того, какие слова он на самом деле слышит. Проще говоря, модель интерактивной активации решает эту проблему, размещая различные типы блоков обработки (фонемы, слова) в изолированных слоях, позволяя активированным блокам передавать информацию между уровнями и заставляя блоки внутри слоев конкурировать друг с другом до тех пор, пока « победитель» считается «признанным» моделью.

Ключевые выводы

[ редактировать ]

«TRACE была первой моделью, которая реализовала активацию нескольких слов-кандидатов, соответствующих любой части речевого ввода». [4] Моделирование восприятия речи включает в себя представление компьютерной программе TRACE имитации речевого ввода, запуск программы и получение результата. Успешное моделирование показывает, что результат по смыслу аналогичен тому, как люди обрабатывают речь.

Динамика распознавания слов

[ редактировать ]

общепринято, В психолингвистике что (1) когда слышно начало слова, в памяти активируется набор слов, имеющих один и тот же начальный звук; [5] (2) активированные слова конкурируют друг с другом, в то время как слышно все больше и больше слова, [6] (3) в какой-то момент, благодаря как слуховому входу, так и лексической конкуренции, распознается одно слово. [1]

Например, слушатель слышит начало слова bald , и в памяти активизируются слова bald, ball, bad, bill. Затем, вскоре после этого, в соревновании остаются только лысый и мяч (плохо, счет исключен, потому что гласный звук не соответствует введенному). Вскоре после этого узнают лысого. TRACE имитирует этот процесс, представляя временное измерение речи, позволяя словам в лексиконе различаться по силе активации, а также заставляя слова конкурировать во время обработки. На рисунке 1 показан линейный график активации слов в простой симуляции TRACE.

Рисунок 1. Простое моделирование TRACE. Активация слов и конкуренция разворачиваются во времени. В этой симуляции слово «лысый» становится наиболее активным, поэтому оно считается распознаваемым.

Лексическое влияние на восприятие фонем

[ редактировать ]

Если произносится неоднозначный звук речи, который находится точно между /t/ и /d/ , слушающему может быть трудно решить, что это такое. Но если тот же самый неоднозначный звук слышен в конце слова типа woo/?/ (где ? — неоднозначный звук), то слушатель, скорее всего, воспримет этот звук как /d/ . Вероятно, это происходит потому, что «дерево» — это слово, а «вут» — нет. Неоднозначная фонема, представленная в лексическом контексте, будет восприниматься как соответствующая окружающему лексическому контексту. Этот перцептивный эффект известен как эффект Ганонга. [7] TRACE надежно моделирует это и может объяснить это относительно простыми словами. По сути, лексическая единица, которая была активирована входными данными (например, дерево), возвращает активацию слою фонем, усиливая активацию составляющих ее фонем (например, /d/ ), тем самым разрешая двусмысленность.

Лексическая основа сегментации

[ редактировать ]

Говорящие обычно не делают пауз между словами во время разговора. [ нужна ссылка ] тем не менее, слушатели, кажется, без труда слышат речь как последовательность слов. Это известно как проблема сегментации и является одной из старейших проблем психологии языка . TRACE предложила следующее решение, подкрепленное моделированием. Когда слова активируются и распознаются, это показывает расположение границ слов. Более сильная активация слова приводит к большей уверенности в границах слов, что информирует слушателя о том, где ожидать начала следующего слова. [1]

Модель TRACE представляет собой коннекционистскую сеть с входным слоем и тремя уровнями обработки: псевдоспектрами (признаками), фонемами и словами. На рисунке 2 показана принципиальная схема TRACE. Существует три типа связности: (1) прямые возбуждающие связи от входных данных к функциям, функций к фонемам и фонем к словам; (2) латеральные (т.е. внутрислоевые) тормозные связи на уровне признаков, фонем и слов; и (3) возбуждающие связи с обратной связью сверху вниз от слов к фонемам. Входные данные TRACE работают следующим образом. Пользователь предоставляет последовательность фонем, которая преобразуется в многомерный вектор признаков. Это приближение акустических спектров, растянутых во времени. Входной вектор раскрывается понемногу, чтобы имитировать временную природу речи. По мере представления каждого нового фрагмента входных данных активность передается по сетевым соединениям, изменяя значения активации на уровнях обработки. Функции активируют единицы фонем, а фонемы активируют единицы слов. Параметры управляют силой возбуждающих и тормозящих связей, а также многими другими деталями обработки. Не существует конкретного механизма, определяющего, было ли распознано слово или фонема. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания фиксировать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читатели отсылаются к оригинальной публикации. [1] TRACE и к программному инструменту , который запускает моделирование с помощью графического пользовательского интерфейса.

Рисунок 2 – Принципиальная схема архитектуры TRACE.

Дебаты о модульности разума

[ редактировать ]

Актуальность TRACE в дебатах о модульности недавно была выдвинута на передний план в отчете Норриса, Катлера и Маккуина (2001) о Merge (?) . модели восприятия речи [8] Хотя он имеет ряд общих функций с TRACE, ключевым отличием является следующее. В то время как TRACE позволяет словесным единицам возвращать активацию на уровень фонем, Merge ограничивает свою обработку соединениями прямой связи. С точки зрения этой дискуссии считается, что TRACE нарушает принцип инкапсуляции информации, центральный для модульности, когда он позволяет более позднему этапу обработки (словам) отправлять информацию на более ранний этап (фонемы). Слияние выступает за модульность, утверждая, что тот же класс феноменов восприятия, который учитывается в TRACE, может быть объяснен в коннекционистской архитектуре, которая не включает связи обратной связи. Норрис и др. отметим, что когда две теории могут объяснить одно и то же явление, экономия требует, чтобы более простая теория была предпочтительнее.

Приложения

[ редактировать ]

Речевая и языковая терапия

[ редактировать ]

Модели речевой обработки можно использовать для концептуализации природы нарушений у людей с речевыми и языковыми расстройствами . Например, было высказано предположение, что языковой дефицит при экспрессивной афазии может быть вызван чрезмерной конкуренцией между лексическими единицами, что препятствует достаточной активации любого слова. [9] Аргументы в пользу этой гипотезы заключаются в том, что психическую дисфункцию можно объяснить небольшим нарушением обработки сетевой модели. Это новое направление исследований включает в себя широкий спектр теорий и моделей, и TRACE представляет собой лишь часть растущей головоломки.

Отличие от программного обеспечения для распознавания речи

[ редактировать ]

Психолингвистические модели восприятия речи, например TRACE, следует отличать от компьютерных инструментов распознавания речи . Первые представляют собой психологические теории о том, как человеческий разум/мозг обрабатывает информацию. Последние представляют собой инженерные решения по преобразованию акустического сигнала в текст. Исторически эти две области имели мало контактов, но ситуация начинает меняться. [10]

Влияние TRACE в литературе по психологии можно оценить по количеству статей, в которых он цитируется. имеется 345 цитат Макклелланда и Элмана (1986) В базе данных PsycINFO . На рисунке 3 показано распределение этих цитирований по годам с момента публикации. Эта цифра показывает, что интерес к TRACE значительно вырос в 2001 году и остается высоким, около 30 упоминаний в год.

Рисунок 3. Годовая разбивка цитирований TRACE в исследовательской базе данных PsycINFO.

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д Макклелланд, Дж. Л., и Элман, Дж. Л. (1986)
  2. ^ Макклелланд, Джеймс; Элман, Джеффри (январь 1986 г.). «Модель восприятия речи TRACE». Когнитивная психология . 18 (1): 1–86. дои : 10.1016/0010-0285(86)90015-0 . ПМИД   3753912 . S2CID   7428866 .
  3. ^ Макклелланд, Дж. Л., Д. Е. Румельхарт и исследовательская группа НДП (1986). Параллельная распределенная обработка: исследования микроструктуры познания. Том 2: Психологические и биологические модели, Кембридж, Массачусетс: MIT Press.
  4. ^ Вебер, Андреа; Шаренборг, Одетта (01 мая 2012 г.). «Модели распознавания устной речи». Междисциплинарные обзоры Wiley: когнитивная наука . 3 (3): 387–401. дои : 10.1002/wcs.1178 . hdl : 11858/00-001M-0000-0012-29E4-5 . ISSN   1939-5086 . ПМИД   26301470 .
  5. ^ Марслен-Уилсон, В.; Тайлер, ЛК (1980). «Временная структура понимания разговорной речи». Познание . 8 (1): 1–71. CiteSeerX   10.1.1.299.7676 . дои : 10.1016/0010-0277(80)90015-3 . ПМИД   7363578 . S2CID   11708426 .
  6. ^ Люс, Пенсильвания; Пизони, Д.Б. (1998). «Распознавание произнесенных слов: модель активации соседства» . Ухо и слух . 19 (1): 1–36. дои : 10.1097/00003446-199802000-00001 . ПМЦ   3467695 . ПМИД   9504270 .
  7. ^ Ганонг, WF (1980). Фонетическая категоризация в слуховом восприятии. Журнал экспериментальной психологии: человек Восприятие и производительность, 6, 110–125.
  8. ^ Норрис, Д.; МакКуин, Дж. М.; Катлер, А. (2000). «Объединение информации при распознавании речи: обратная связь никогда не требуется». Поведенческие и мозговые науки . 23 (3): 299–370. дои : 10.1017/s0140525x00003241 . hdl : 11858/00-001M-0000-0013-3790-1 . ПМИД   11301575 . S2CID   32291239 .
  9. ^ Самоорганизующаяся динамика лексического доступа у нормальных людей и афазиков. МакНеллис, Марк Г.; Блюмштейн, Шейла Э.; Журнал когнитивной нейронауки, том 13 (2), февраль 2001 г., стр. 151–170.
  10. ^ Шаренборг, О.; Норрис, Д.; тен Бош, Л.; МакКуин, Дж. М. (2005). «Как должен работать распознаватель речи?». Когнитивная наука . 29 (6): 867–918. дои : 10.1207/s15516709cog0000_37 . hdl : 11858/00-001M-0000-0013-1E5D-C . ПМИД   21702797 .
[ редактировать ]
  • jTRACE — Java-реализация модели TRACE. Программное обеспечение с открытым исходным кодом, независимое от платформы. Страница также включает загрузку более ранней реализации TRACE на языке C.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 785bd75e549792939112e50d5d6b9758__1695216600
URL1:https://arc.ask3.ru/arc/aa/78/58/785bd75e549792939112e50d5d6b9758.html
Заголовок, (Title) документа по адресу, URL1:
TRACE (psycholinguistics) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)