Нейрокомпьютерная обработка речи
Нейрокомпьютерная обработка речи — это компьютерное моделирование речевого производства и восприятия речи путем обращения к естественным нейронным процессам речевого производства и восприятия речи человека , как они происходят в нервной системе ( центральная нервная система и периферическая нервная система ). Эта тема основана на нейробиологии и вычислительной нейробиологии . [1]
Обзор
[ редактировать ]Нейрокомпьютерные модели обработки речи сложны. Они включают по крайней мере когнитивную часть , двигательную часть и сенсорную часть . [2]
Когнитивная или лингвистическая часть нейрокомпьютерной модели обработки речи включает в себя нейронную активацию или генерацию фонематического представления на стороне производства речи (например, нейрокомпьютерная и расширенная версия модели Levelt, разработанная Арди Рулофсом: [3] УИВЕР++ [4] а также нейронная активация или генерация намерения или значения на стороне восприятия речи или понимания речи .
Двигательная часть нейрокомпьютерной модели обработки речи начинается с фонематического представления речевого элемента, активирует двигательный план и заканчивается артикуляцией этого конкретного речевого элемента (см. также: артикуляционная фонетика ).
Сенсорная часть нейрокомпьютерной модели обработки речи начинается с акустического сигнала речевого элемента ( акустический речевой сигнал ), генерирует слуховое представление для этого сигнала и активирует фонематическое представление для этого речевого элемента.
Темы нейрокомпьютерной обработки речи
[ редактировать ]Нейрокомпьютерная обработка речи — это обработка речи искусственными нейронными сетями . Нейронные карты, отображения и пути, описанные ниже, являются модельными структурами, то есть важными структурами в искусственных нейронных сетях.
Нейронные карты
[ редактировать ]
Искусственную нейронную сеть можно разделить на три типа нейронных карт, также называемых «слоями»:
- входные карты (в случае обработки речи: первичная слуховая карта в пределах слуховой коры , первичная соматосенсорная карта в пределах соматосенсорной коры ),
- выходные карты (первичная моторная карта в первичной моторной коре ) и
- корковые карты более высокого уровня (также называемые «скрытыми слоями»).
Термин «нейронная карта» здесь предпочтительнее термина «нейронный слой», поскольку кортикальная нейронная карта должна моделироваться как 2D-карта взаимосвязанных нейронов (например, как самоорганизующаяся карта ; см. также рис. 1). Таким образом, каждый «модельный нейрон» или « искусственный нейрон » на этой 2D-карте физиологически представлен кортикальным столбом , поскольку анатомически кора головного мозга имеет многослойную структуру.
Нейронные представления (нейронные состояния)
[ редактировать ]Нейронное представление в искусственной нейронной сети — это временно активированное (нейронное) состояние внутри определенной нейронной карты. Каждое нейронное состояние представлено определенным паттерном нейронной активации. Этот шаблон активации меняется во время обработки речи (например, от слога к слогу).

В модели ACT (см. ниже) предполагается, что слуховое состояние может быть представлено «нейронной спектрограммой » (см. рис. 2) на карте слухового состояния. Предполагается, что эта карта слуховых состояний расположена в коре слуховых ассоциаций (см. кору головного мозга ).
Соматосенсорное состояние можно разделить на тактильное и проприоцептивное , и оно может быть представлено специфическим паттерном нейронной активации на карте соматосенсорного состояния. Предполагается, что эта карта состояний расположена в коре соматосенсорных ассоциаций (см. кора головного мозга , соматосенсорная система , соматосенсорная кора ).
Состояние моторного плана можно предположить для представления моторного плана, т.е. планирования речевой артикуляции для конкретного слога или для более длинного речевого элемента (например, слова, короткой фразы). Предполагается, что эта карта состояний расположена в премоторной коре , тогда как мгновенная (или более низкий уровень) активация каждого речевого артикулятора происходит в первичной моторной коре (см. моторная кора ).
Нейронные представления, возникающие в сенсорных и моторных картах (как было представлено выше), являются распределенными представлениями (Hinton et al. 1968). [5] ): Каждый нейрон сенсорной или моторной карты более или менее активируется, что приводит к определенному паттерну активации.
Нейронное представление речевых единиц, встречающихся в звуковой карте речи (см. ниже: модель DIVA), является пунктуальным или локальным представлением. Каждый речевой предмет или речевая единица представлена здесь определенным нейроном (модель ячейки, см. ниже).
Нейронные отображения (синаптические проекции)
[ редактировать ]
Нейронное картирование соединяет две кортикальные нейронные карты. Нейронные отображения (в отличие от нейронных путей) хранят обучающую информацию, корректируя веса своих нейронных связей (см. искусственный нейрон , искусственные нейронные сети ). Нейронные отображения способны генерировать или активировать распределенное представление (см. выше) сенсорного или моторного состояния в сенсорной или моторной карте из точечной или локальной активации в другой карте (см., например, синаптическое проецирование звуковой карты речи на моторную карту). карту, карту слуховой целевой области или карту соматосенсорной целевой области в модели DIVA, поясненную ниже, или см., например, нейронное сопоставление фонетической карты с картой слухового состояния и картой состояний моторного плана в модели ACT, поясняемой ниже и фиг. . 3).
Нейронное отображение между двумя нейронными картами бывает компактным или плотным: каждый нейрон одной нейронной карты взаимосвязан с (почти) каждым нейроном другой нейронной карты (связь «многие ко многим», см. « Искусственные нейронные сети» ). Из-за этого критерия плотности нейронных карт нейронные карты, связанные между собой нейронными картами, находятся недалеко друг от друга.
Нейронные пути
[ редактировать ]В отличие от нейронных карт нейронные пути могут соединять нейронные карты, находящиеся далеко друг от друга (например, в разных долях коры, см. Кору головного мозга ). С функциональной точки зрения или точки зрения моделирования нейронные пути в основном передают информацию, не обрабатывая эту информацию. Нейронный путь по сравнению с нейронным картированием требует гораздо меньше нейронных связей. Нейронный путь можно смоделировать, используя взаимно однозначное соединение нейронов обеих нейронных карт (см. топографическое картирование и см. соматотопическое расположение ).
Пример: в случае двух нейронных карт, каждая из которых содержит 1000 модельных нейронов, для нейронного отображения требуется до 1 000 000 нейронных связей (соединение «многие ко многим»), тогда как в случае соединения нейронных путей требуется только 1000 соединений.
Кроме того, веса связей внутри нейронного отображения корректируются во время обучения, в то время как нейронные связи в случае нейронного пути не нуждаются в обучении (каждое соединение является максимальным экспонентой).
Модель ДИВА
[ редактировать ]Ведущим подходом в нейрокомпьютерном моделировании производства речи является модель DIVA, разработанная Фрэнком Х. Гюнтером и его группой в Бостонском университете. [6] [7] [8] [9] Модель учитывает широкий спектр фонетических и нейровизуализационных данных, но, как и любая нейровычислительная модель, остается в некоторой степени спекулятивной.
Структура модели
[ редактировать ]
Организация или структура модели DIVA показана на рис. 4.
Звуковая карта речи: фонематическое представление как отправная точка
[ редактировать ]Звуковая карта речи, предположительно расположенная в нижней и задней части зоны Брока (левая лобная покрышка), представляет (фонологически заданные) специфичные для языка речевые единицы (звуки, слоги, слова, короткие фразы). Каждая речевая единица (в основном слоги; например, слог и слово «ладонь» /pam/, слоги /pa/, /ta/, /ka/, ...) представлена конкретной модельной ячейкой на звуковой карте речи ( т.е. пунктуальные нейронные представления, см. выше). Каждая модельная клетка (см. искусственный нейрон ) соответствует небольшой популяции нейронов, которые расположены на близком расстоянии и активируются вместе.
Упреждающее управление: активация двигательных представлений
[ редактировать ]Каждый нейрон (модельная клетка, искусственный нейрон ) в звуковой карте речи может быть активирован и впоследствии активирует команду движения вперед по направлению к моторной карте, называемую артикуляционной скоростью и картой положения. Активированное нейронное представительство на уровне этой двигательной карты определяет артикуляцию речевой единицы, т.е. управляет всеми артикуляторами (губами, языком, небным небом, голосовой щелью) в течение временного интервала для создания этой речевой единицы. Прямой контроль также задействует подкорковые структуры, такие как мозжечок , которые здесь подробно не моделируются.
Речевая единица представляет собой количество речевых элементов , которые можно отнести к одной и той же фонематической категории. Таким образом, каждая речевая единица представлена одним конкретным нейроном в звуковой карте речи, в то время как реализация речевой единицы может проявлять некоторую артикуляционную и акустическую изменчивость. Эта фонетическая изменчивость является мотивацией для определения сенсорных целевых областей в модели DIVA (см. Guenther et al. 1998). [10]
Артикуляционная модель: генерация соматосенсорной и слуховой информации обратной связи.
[ редактировать ]Схема активации в моторной карте определяет схему движения всех модельных артикуляторов (губ, языка, неба, голосовой щели) для речевого элемента. Чтобы не перегружать модель, детальное моделирование нервно-мышечной системы не проводится. форму речевого Для формирования движений артикулятора используется артикуляционный синтезатор речи Maeda, который позволяет формировать изменяющуюся во времени тракта и генерировать акустический речевой сигнал для каждого конкретного речевого элемента.
С точки зрения искусственного интеллекта артикуляционную модель можно назвать растением (т.е. системой, которой управляет мозг); он представляет собой часть варианта осуществления нейронной системы обработки речи. Артикуляционная модель генерирует сенсорную информацию , которая является основой для формирования информации обратной связи для модели DIVA (см. ниже: управление с обратной связью).
Управление с обратной связью: сенсорные целевые области, карты состояний и карты ошибок.
[ редактировать ]С одной стороны, артикуляционная модель генерирует сенсорную информацию , то есть слуховое состояние для каждой речевой единицы, которое нейронно представлено на карте слуховых состояний (распределенное представление), и соматосенсорное состояние для каждой речевой единицы, которое нейронно представлено на карте соматосенсорных состояний. (также распределенное представление). Предполагается, что карта слуховых состояний расположена в верхней височной коре , тогда как карта соматосенсорных состояний расположена в нижней теменной коре .
С другой стороны, звуковая карта речи, если она активирована для конкретной речевой единицы (активация одного нейрона; пунктуальная активация), активирует сенсорную информацию посредством синаптических проекций между звуковой картой речи и картой слуховой целевой области, а также между звуковой картой речи и соматосенсорной целевой областью. карта. Предполагается, что слуховые и соматосенсорные целевые области расположены в слуховых областях коры высшего порядка и в соматосенсорных областях коры высшего порядка соответственно. Эти паттерны сенсорной активации целевой области, существующие для каждой речевой единицы, изучаются во время овладения речью (путем имитационной тренировки; см. ниже: обучение).
Следовательно, если речевая единица активируется на уровне звуковой карты речи, доступны два типа сенсорной информации: (i) изученные сенсорные целевые области (т. е. предполагаемое сенсорное состояние для речевой единицы) и (ii) паттерны активации сенсорного состояния, возникающие в результате от возможно несовершенного исполнения (артикуляции) конкретной речевой единицы (т.е. текущего сенсорного состояния, отражающего текущее производство и артикуляцию этой конкретной речевой единицы). Оба типа сенсорной информации проецируются на карты сенсорных ошибок, то есть на карту слуховых ошибок, которая, как предполагается, расположена в верхней височной коре (как и карта слуховых состояний), и на карту соматосенсорных ошибок, которая, как предполагается, расположена в верхней височной зоне коры головного мозга (как и карта слуховых состояний). нижняя теменная кора (как карта соматосенсорных состояний) (см. рис. 4).
Если текущее сенсорное состояние отклоняется от запланированного сенсорного состояния, обе карты ошибок генерируют команды обратной связи, которые проецируются на двигательную карту и способны корректировать модель двигательной активации, а затем и артикуляцию вырабатываемой речевой единицы. Таким образом, в целом на паттерн активации двигательной карты влияет не только конкретная команда прямой связи, полученная для речевой единицы (и генерируемая синаптической проекцией звуковой карты речи), но и команда обратной связи, генерируемая на уровне карты сенсорных ошибок (см. рис. 4).
Обучение (моделирование овладения речью)
[ редактировать ]Хотя структура нейробиологической модели обработки речи (приведенная на рис. 4 для модели DIVA) в основном определяется эволюционными процессами , (специфичные для языка) знания , а также (специфичные для языка) навыки речи изучаются и тренируются. во время приобретения речи . В случае модели DIVA предполагается, что у новорожденного нет уже структурированной (специфичной для языка) звуковой карты речи; т.е. ни один нейрон в звуковой карте речи не связан с какой-либо речевой единицей. Скорее, организация звуковой карты речи, а также настройка проекций на моторную карту и карты сенсорных целевых областей изучаются или тренируются во время овладения речью. В подходе DIVA моделируются две важные фазы раннего овладения речью: обучение посредством лепетания и подражания .
болтовня
[ редактировать ]Во время лепетания настраиваются синаптические проекции между картами сенсорных ошибок и моторной картой. Это обучение осуществляется путем генерации некоторого количества полуслучайных команд прямой связи, т.е. «лепета» модели DIVA. Каждая из этих лепетающих команд приводит к созданию «артикуляционного элемента», также называемого «долингвистическим (т. е. не зависящим от языка) речевым элементом» (т. е. артикуляционная модель генерирует образец артикуляционного движения на основе моторного лепета). команда). После этого генерируется акустический сигнал.
На основе артикуляционно-акустического сигнала на уровне карт сенсорных состояний (см. рис. 4) для каждого (долингвистического) речевого предмета активируется определенный паттерн слуховых и соматосенсорных состояний. На этом этапе модель DIVA имеет в наличии паттерны сенсорной и связанной моторной активации для различных речевых элементов, что позволяет модели настраивать синаптические проекции между картами сенсорных ошибок и картой моторики. Таким образом, во время лепетания модель DIVA изучает команды обратной связи (т. е. как создать правильную двигательную команду (обратной связи) для определенного сенсорного сигнала).
Имитация
[ редактировать ]Во время имитации модель DIVA организует свою звуковую карту речи и настраивает синаптические проекции между звуковой картой речи и моторной картой - то есть настройку прямых двигательных команд - а также синаптические проекции между звуковой картой речи и сенсорными целевыми областями (см. Рис. 4). . Обучение имитации осуществляется путем воздействия на модель ряда акустических речевых сигналов, представляющих реализации специфичных для языка речевых единиц (например, изолированных речевых звуков, слогов, слов, коротких фраз).
Настройка синаптических проекций между звуковой картой речи и картой целевого слухового региона достигается путем назначения одного нейрона звуковой карты речи фонематическому представлению этого речевого элемента и связывания его со слуховым представлением этого речевого элемента, который активируется. на карте слуховой целевой области. Слуховые области (т.е. спецификация слуховой изменчивости речевой единицы) возникают потому, что одна конкретная речевая единица (т.е. одно конкретное фонематическое представление) может быть реализована несколькими (немного) разными акустическими (слуховыми) реализациями (для различия между речевыми единицами и речевой блок см. выше: упреждающее управление).
Настройка синаптических проекций между звуковой картой речи и моторной картой (т.е. настройка прямых двигательных команд) осуществляется с помощью команд обратной связи, поскольку проекции между сенсорными картами ошибок и моторной картой уже были настроены во время тренировки лепетания (см. выше). . Таким образом, модель DIVA пытается «имитировать» слуховой речевой элемент, пытаясь найти правильную двигательную команду прямой связи. Впоследствии модель сравнивает результирующий сенсорный выходной сигнал ( текущее сенсорное состояние после артикуляции этой попытки) с уже изученной слуховой целевой областью ( предполагаемое сенсорное состояние) для этого речевого элемента. Затем модель обновляет текущую команду двигателя с прямой связью с помощью текущей команды двигателя с обратной связью, сгенерированной из карты слуховых ошибок системы слуховой обратной связи. Этот процесс можно повторить несколько раз (несколько попыток). Модель DIVA способна воспроизводить речевой элемент с уменьшающейся слуховой разницей между текущим и предполагаемым слуховым состоянием от попытки к попытке.
Во время имитации модель DIVA также способна настраивать синаптические проекции звуковой карты речи на карту соматосенсорной целевой области, поскольку каждая новая попытка имитации создает новую артикуляцию речевого элемента и, таким образом, создает паттерн соматосенсорного состояния, который связан с фонематическим представлением. этого речевого предмета.
Эксперименты по возмущению
[ редактировать ]Возмущение F1 в реальном времени: влияние слуховой обратной связи
[ редактировать ]Хотя слуховая обратная связь наиболее важна во время усвоения речи, ее можно активировать меньше, если модель выучила правильную двигательную команду прямой связи для каждой речевой единицы. Но было показано, что в случае слухового возмущения (например, сдвиг формантной частоты, Tourville et al., 2005) необходимо сильно активировать слуховую обратную связь. [11] Это сравнимо с сильным влиянием зрительной обратной связи на достигающие движения при зрительном возмущении (например, смещении местоположения предметов при просмотре через призму ) .
Неожиданный блок челюсти: влияние соматосенсорной обратной связи
[ редактировать ]Подобно слуховой обратной связи, соматосенсорная обратная связь может быть сильно коактивирована во время речевого развития, например, в случае неожиданного блокирования челюсти (Tourville et al. 2005).
Модель АСТ
[ редактировать ]Еще одним подходом к нейрокомпьютерному моделированию обработки речи является модель ACT, разработанная Берндом Дж. Крегером и его группой. [12] в RWTH Ахенском университете , Германия (Kröger et al. 2014, [13] Крегер и др. 2009, [14] Крегер и др. 2011 год [15] ). Модель ACT во многом соответствует модели DIVA. Модель ACT фокусируется на « хранилище действий » (т.е. хранилище сенсомоторных речевых навыков , сравнимых с ментальным слоговым письмом, см. Levelt and Wheeldon 1994). [16] ), что в модели DIVA подробно не прописано. Более того, модель ACT явно вводит уровень моторных планов , то есть моторное описание высокого уровня для производства речевых элементов (см. Двигательные цели , моторная кора ). Модель ACT, как и любая нейровычислительная модель, остается в некоторой степени спекулятивной.
Структура
[ редактировать ]
Организация или структура модели ACT представлена на рис. 5.
Для производства речи модель ACT начинается с активации фонематического представления речевого элемента (фонематической карты). В случае частого слога происходит коактивация на уровне фонетической карты , приводящая к дальнейшей коактивации предполагаемого сенсорного состояния на уровне карт сенсорных состояний и коактивации моторики . состояние плана на уровне карты моторного плана. В случае редкого слога модуль планирования движений генерирует попытку моторного плана для этого речевого элемента путем активации моторных планов для фонетически похожих речевых элементов через фонетическую карту (см. Kröger et al. 2011). [17] ). Оценка двигательного плана или действий речевого тракта включает в себя перекрывающиеся во времени действия речевого тракта, которые программируются и впоследствии выполняются модулем программирования, выполнения и управления моторикой . Этот модуль получает в режиме реального времени информацию соматосенсорной обратной связи для контроля правильного выполнения (задуманного) двигательного плана. Программирование моторики приводит к паттерну активации на уровне первичной моторной карты и впоследствии активирует нервно-мышечную обработку . Паттерны активации мотонейронов генерируют мышечные силы и, следовательно, паттерны движения всех модельных артикуляторов (губ, языка, небной занавески, голосовой щели). используется артикуляционный синтезатор Birkholz 3D Для генерации акустического речевого сигнала .
Сигналы артикуляционной и акустической обратной связи используются для генерации соматосенсорной и слуховой информации обратной связи через модули сенсорной предварительной обработки, которая передается на слуховую и соматосенсорную карту. На уровне модулей сенсорно-фонетической обработки слуховая и соматосенсорная информация сохраняется в кратковременной памяти и внешний сенсорный сигнал (ЭС, рис. 5, активируемые через сенсорную петлю обратной связи) можно сравнить с уже обученным сенсорные сигналы (ТС, рис. 5, которые активируются через фонетическую карту). Слуховые и соматосенсорные сигналы ошибок могут генерироваться, если внешние и предполагаемые (тренированные) сенсорные сигналы заметно различаются (ср. модель DIVA).
Светло-зеленой областью на рис. 5 обозначены те нейронные карты и модули обработки, которые обрабатывают слог как единое целое (конкретное окно времени обработки около 100 мс и более). Эта обработка включает в себя фонетическую карту и непосредственно связанные карты сенсорных состояний в модулях сенсорно-фонетической обработки и непосредственно связанную карту состояний моторного плана, в то время как первичная двигательная карта, а также (первичная) слуховая и (первичная) соматосенсорная карта обрабатываются меньшими объемами. временные окна (около 10 мс в модели ACT).

Гипотетическое корковое расположение нейронных карт в модели ACT показано на рис. 6. Гипотетическое расположение первичных моторных и первичных сенсорных карт показано пурпурным цветом, гипотетическое расположение карт состояний моторного плана и карт сенсорных состояний (в пределах сенсорно-фонетических состояний). модуль обработки, сравнимый с картами ошибок в DIVA) показаны оранжевым цветом, а гипотетические местоположения зеркальной фонетической карты показаны красным. Двойные стрелки указывают на отображение нейронов. Нейронные карты соединяют нейронные карты, находящиеся недалеко друг от друга (см. выше). Два зеркальных участка фонетической карты соединены нейронным путем (см. выше), что приводит к (простому) взаимно однозначному отражению текущего паттерна активации для обеих реализаций фонетической карты. Предполагается, что этот нервный путь между двумя участками фонетической карты является частью дугообразного пучка (AF, см. рис. 5 и рис. 6).
Для восприятия речи модель начинается с внешнего акустического сигнала (например, создаваемого внешним динамиком). Этот сигнал предварительно обрабатывается, проходит слуховую карту и приводит к шаблону активации для каждого слога или слова на уровне модуля слухо-фонетической обработки (ES: внешний сигнал, см. рис. 5). Вентральный путь восприятия речи (см. Hickok and Poeppel 2007). [18] ) напрямую активирует лексический элемент, но не реализован в ACT. Скорее, в ACT активация фонематического состояния происходит через фонематическую карту и, таким образом, может привести к совместной активации моторных представлений для этого речевого элемента (т.е. дорсальный путь восприятия речи; там же).
Репозиторий действий
[ редактировать ]
Фонетическая карта вместе с картой состояний моторного плана, картами сенсорных состояний (возникающими в модулях сенсорно-фонетической обработки) и фонематической картой (состояний) образуют хранилище действий. Фонетическая карта реализована в ACT как самоорганизующаяся нейронная карта , и разные речевые элементы представлены разными нейронами на этой карте (пунктуальное или локальное представление, см. выше: нейронные представления). Фонетическая карта демонстрирует три основные характеристики:
- может встречаться более одной фонетической реализации В фонетической карте для одного фонематического состояния (см. веса фонематических связей на рис. 7: например, слог /de:m/ представлен тремя нейронами в фонетической карте).
- Фонетотопия : фонетическая карта демонстрирует порядок речевых элементов относительно различных фонетических характеристик (см. веса фонематических связей на рис. 7. Три примера: (i) слоги /p@/, /t@/ и /k@/ встречаются в восходящем порядке в левой части фонетической карты; (ii) начальные слоговые взрывные звуки встречаются в верхней левой части фонетической карты, а начальные фрикативные звуки слогов встречаются в нижней правой половине; (iii) слоги CV и слоги CVC; также встречаются в разных областях фонетической карты.).
- Фонетическая карта является гипермодальной или мультимодальной : активация фонетического элемента на уровне фонетической карты коактивирует (i) фонематическое состояние (см. веса фонематических связей на рис. 7), (ii) состояние двигательного плана (см. двигательный план). веса связей на рис. 7), (iii) слуховое состояние (см. веса слуховых связей на рис. 7) и (iv) соматосенсорное состояние (не показано на рис. 7). Все эти состояния изучаются или тренируются во время овладения речью путем настройки весов синаптических связей между каждым нейроном в фонетической карте, представляющей определенное фонетическое состояние, и всеми нейронами в соответствующем моторном плане и картах сенсорных состояний (см. также рис. 3).
Фонетическая карта реализует связь действие-восприятие- в модели ACT (см. также рис. 5 и рис. 6: двойное нейронное представление фонетической карты в лобной доле и на пересечении височной и теменной долей ).
Моторные планы
[ редактировать ]Двигательный план — это двигательное описание высокого уровня для производства и артикуляции речевых единиц (см. двигательные цели , двигательные навыки , артикуляционная фонетика , артикуляционная фонология ). В нашей нейрокомпьютерной модели ACT двигательный план количественно оценивается как оценка действий голосового тракта. Баллы действий речевого тракта количественно определяют количество действий речевого тракта (также называемых артикуляционными жестами), которые необходимо активировать для образования речевого предмета, их степень реализации и продолжительность, а также временную организацию всех формирующихся действий речевого тракта. речевой элемент (подробное описание оценок действий речевого тракта см., например, Kröger & Birkholz 2007). [19] Детализация каждого действия речевого тракта (артикуляционного жеста) зависит от временной организации всех действий речевого тракта, составляющих речевой предмет, и особенно от их временного перекрытия. Таким образом, в нашей нейрокомпьютерной модели ACT детальная реализация каждого действия речевого тракта в рамках речевого элемента определяется ниже уровня моторного плана (см. Kröger et al. 2011). [20]
Интеграция сенсомоторных и когнитивных аспектов: соединение хранилища действий и ментального лексикона.
[ редактировать ]Серьезная проблема фонетических или сенсомоторных моделей обработки речи (таких как DIVA или ACT) заключается в том, что развитие фонематической карты во время овладения речью не моделируется. Возможным решением этой проблемы может быть прямое соединение хранилища действий и мысленного лексикона без явного введения фонематической карты в начале овладения речью (даже в начале обучения подражанию; см. Kröger et al. 2011 PALADYN Journal of Behavioral Robotics). .
Эксперименты: приобретение речи
[ редактировать ]Очень важной проблемой для всех нейробиологических или нейрокомпьютерных подходов является разделение структуры и знаний. Хотя структура модели (то есть нейронной сети человека, необходимой для обработки речи) в основном определяется эволюционными процессами , знания собираются в основном во время овладения речью в процессе обучения . С моделью ACT были проведены различные эксперименты по обучению, чтобы выучить (i) систему из пяти гласных /i, e, a, o, u/ (см. Kröger et al. 2009), (ii) систему малых согласных ( звонкие взрывные звуки /b, d, g/ в сочетании со всеми пятью гласными, усвоенными ранее как CV-слоги (там же), (iii) малый модельный язык, включающий пятигласную систему, звонкие и глухие взрывные звуки /b, d, g, p, t, k/, носовые /m, n/ и боковой /l/ и трехсложные типы (V, CV и CCV) (см. Kröger et al. 2011) [21] и (iv) 200 наиболее часто встречающихся слогов стандартного немецкого языка для 6-летнего ребенка (см. Kröger et al., 2011). [22] Во всех случаях можно наблюдать упорядоченность фонетических единиц по различным фонетическим признакам.
Эксперименты: восприятие речи
[ редактировать ]Несмотря на то, что модель ACT в ее более ранних версиях была разработана как модель чистого производства речи (включая приобретение речи), модель способна демонстрировать важные базовые явления восприятия речи, то есть категориальное восприятие и эффект Макгерка. В случае категориального восприятия модель способна продемонстрировать, что категориальное восприятие сильнее в случае взрывных звуков, чем в случае гласных (см. Kröger et al. 2009). Более того, модель ACT была способна проявлять эффект МакГерка , если был реализован специфический механизм торможения нейронов уровня фонетической карты (см. Kröger and Kannampuzha 2008). [23]
См. также
[ редактировать ]
- Речевое производство
- Восприятие речи
- Вычислительная нейробиология
- Артикуляционный синтез
- Слуховая обратная связь
Ссылки
[ редактировать ]- ^ «На пути к нейрокомпьютерной обработке речи и звука» . Прогресс в нелинейной обработке речи . Спрингер. Январь 2007 г., стр. 58–77. ISBN 978-3-540-71503-0 .
- ^ Паррелл, Бенджамин; Ламмерт, Адам К.; Сиссарелли, Грегори; Куатьери, Томас Ф. (01 марта 2019 г.). «Текущие модели речевого моторного контроля: теоретический обзор архитектур и свойств» . Журнал Акустического общества Америки . 145 (3): 1456–1481. Бибкод : 2019ASAJ..145.1456P . дои : 10.1121/1.5092807 . ISSN 0001-4966 .
- ^ «Арди Рулофс» . Архивировано из оригинала 26 апреля 2012 г. Проверено 8 декабря 2011 г.
- ^ ТКАЧКА++
- ^ Хинтон Г.Э., Макклелланд Дж.Л., Румельхарт Д.Е. (1968) Распределенные представления. В: Румельхарт Д.Э., Макклелланд Дж.Л. (ред.). Параллельная распределенная обработка: исследования микроструктуры познания . Том 1: Фонды (MIT Press, Кембридж, Массачусетс)
- ^ Модель DIVA: модель производства речи, ориентированная на процессы управления с обратной связью, разработанная Фрэнком Х. Гюнтером и его группой в Бостонском университете, Массачусетс, США . Термин «DIVA» относится к «Направлениям скоростей артикуляторов».
- ^ Гюнтер, Ф. Х., Гош, С. С. и Турвиль, Дж. А. (2006) , pdf. Архивировано 15 апреля 2012 г. в Wayback Machine . Нейронное моделирование и визуализация корковых взаимодействий, лежащих в основе образования слогов. Мозг и язык , 96, стр. 280–301.
- ^ Гюнтер Ф.Х. (2006) Корковое взаимодействие, лежащее в основе производства звуков речи. Журнал коммуникативных расстройств 39, 350–365.
- ^ Гюнтер, Ф.Х., и Перкелл, Дж.С. (2004), pdf. Архивировано 15 апреля 2012 г. в Wayback Machine . Нейронная модель производства речи и ее применение для изучения роли слуховой обратной связи в речи. В: Б. Маассен, Р. Кент, Х. Питерс, П. Ван Лисхаут и В. Хулстейн (ред.), Речевой двигательный контроль в нормальной и нарушенной речи (стр. 29–49). Оксфорд: Издательство Оксфордского университета
- ^ Гюнтер, Фрэнк Х.; Хэмпсон, Мишель; Джонсон, Дэйв (1998). «Теоретическое исследование систем отсчета для планирования речевых движений». Психологический обзор . 105 (4): 611–633. дои : 10.1037/0033-295x.105.4.611-633 . ПМИД 9830375 . S2CID 11179837 .
- ^ Турвиль Дж., Гюнтер Ф., Гош С., Рейли К., Боланд Дж., Ньето-Кастанон А. (2005) Влияние акустических и артикуляционных возмущений на корковую активность во время речевого развития. Плакат, 11-е ежегодное собрание Организации картирования человеческого мозга (Торонто, Канада)
- ^ Модель ACT: модель производства, восприятия и усвоения речи, разработанная Берндом Дж. Крёгером и его группой в RWTH Ахенском университете, Германия . Термин «ДЕЙСТВИЕ» относится к термину «ДЕЙСТВИЕ».
- ^ Б. Дж. Крёгер, Дж. Каннампужа, Э. Кауфманн (2014) pdf Ассоциативное обучение и самоорганизация как основные принципы моделирования овладения речью, производства речи и восприятия речи. EPJ Нелинейная биомедицинская физика 2 (1), 1-28
- ^ Крегер Б.Дж., Каннампужа Дж., Нойшефер-Рубе С. (2009) pdf На пути к нейровычислительной модели производства и восприятия речи. Речевое общение 51: 793-809
- ^ Крегер, Бернд Дж.; Биркхольц, Питер; Нойшефер-Рубе, Кристиана (1 июня 2011 г.). «На пути к артикуляционному подходу к разработке робототехники для обработки текста при личном общении». Паладин, Журнал поведенческой робототехники . 2 (2): 82–93. дои : 10.2478/s13230-011-0016-6 . S2CID 10317127 .
- ^ Левелт, Виллем Дж. М.; Уилдон, Линда (апрель 1994 г.). «Есть ли у говорящих доступ к ментальному слоговому письму?». Познание . 50 (1–3): 239–269. дои : 10.1016/0010-0277(94)90030-2 . hdl : 2066/15533 . ПМИД 8039363 . S2CID 7845880 .
- ^ Крегер Б.Дж., Миллер Н., Ловит А., Нойшефер-Рубе К. (2011)Дефектные нейронно-моторные речевые отображения как источник апраксии речи: данные количественной нейронной модели обработки речи. В: Ловит А., Кент Р. (ред.) Оценка моторных речевых нарушений. (Plural Publishing, Сан-Диего, Калифорния), стр. 325–346.
- ^ Хикок Г., Поппель Д. (2007) На пути к функциональной нейроанатомии восприятия речи. Тенденции в когнитивных науках 4, 131–138.
- ^ Крегер Б.Дж., Биркхольц П. (2007)Концепция управления речевыми движениями, основанная на жестах, при артикуляционном синтезе речи. В: Эспозито А., Фаундес-Зануй М., Келлер Э., Маринаро М. (ред.) Вербальное и невербальное коммуникативное поведение, LNAI 4775 (Springer Verlag, Берлин, Гейдельберг), стр. 174–189.
- ^ Крегер Б.Дж., Биркхольц П., Каннампужа Дж., Экерс С., Кауфманн Э., Нойшефер-Рубе С. (2011) Нейробиологическая интерпретация модели количественной целевой аппроксимации речевых действий. В: Крегер Б.Дж., Биркхольц П. (ред.) Учебные тексты по речевой коммуникации: Электронная обработка речевых сигналов, 2011 (TUDpress, Дрезден, Германия), стр. 184-194.
- ^ Крегер Б.Дж., Миллер Н., Ловит А., Нойшефер-Рубе К. (2011)Дефектные нейронно-моторные речевые отображения как источник апраксии речи: данные количественной нейронной модели обработки речи. В: Ловит А., Кент Р. (ред.) Оценка моторных речевых нарушений. (Plural Publishing, Сан-Диего, Калифорния), стр. 325–346.
- ^ Крегер Б.Дж., Биркхольц П., Каннампужа Дж., Кауфманн Э., Нойшефер-Рубе С. (2011) На пути к приобретению хранилища действий сенсомоторного речевого тракта в рамках нейронной модели обработки речи. В: Эспозито А., Винчарелли А., Вичи К., Пелашо С. , Ниджхолт А. (ред.) Анализ вербального и невербального общения и разыгрывания: проблемы обработки. LNCS 6800 (Шпрингер, Берлин), стр. 287-293.
- ^ Крегер Б.Дж., Каннампужа Дж. (2008) Нейрофункциональная модель речевого производства, включая аспекты слухового и аудиовизуального восприятия речи. Материалы Международной конференции по аудиовизуальной обработке речи, 2008 г. (Остров Мортон, Квинсленд, Австралия), стр. 83–88.