Сегментация речи

Сегментация речи — это процесс определения границ между словами , слогами или фонемами в разговорных естественных языках . Этот термин применяется как к психическим процессам, используемым людьми, так и к искусственным процессам обработки естественного языка .

Сегментация речи является подполем общего восприятия речи и важной подзадачой технологически ориентированной области распознавания речи и не может быть адекватно решена изолированно. Как и в большинстве задач обработки естественного языка , необходимо учитывать контекст , грамматику и семантику , и даже в этом случае результатом часто является вероятностное деление (статистически основанное на правдоподобии), а не категориальное. Хотя кажется, что коартикуляция — явление, которое может произойти между соседними словами так же легко, как и внутри одного слова — представляет собой основную проблему сегментации речи на разных языках, некоторые другие проблемы и стратегии, используемые для решения этих проблем, можно увидеть в следующих разделах. .

Эта проблема в некоторой степени пересекается с проблемой сегментации текста , которая возникает в некоторых языках, которые традиционно пишутся без межсловных пробелов, таких как китайский и японский , по сравнению с системами письма , которые указывают сегментацию речи между словами с помощью разделителя слов , например космос . Однако даже для этих языков сегментация текста зачастую намного проще, чем сегментация речи, поскольку письменный язык обычно мало влияет на соседние слова и часто содержит дополнительные подсказки, отсутствующие в речи (например, использование китайских иероглифов для основ слов в японский).

Лексическое распознавание [ править ]

В естественных языках значение сложного устного предложения можно понять, разложив его на более мелкие лексические сегменты (грубо говоря, слова языка), связав значение с каждым сегментом и объединив эти значения в соответствии с грамматическими правилами языка. .

Хотя считается, что лексическое распознавание не используется младенцами в первый год жизни из-за их весьма ограниченного словарного запаса, это один из основных процессов, участвующих в сегментации речи у взрослых. В текущих исследованиях существуют три основные модели лексического распознавания: во-первых, доступ к целому слову, который утверждает, что слова имеют полное представление в лексиконе; во-вторых, декомпозиция, утверждающая, что морфологически сложные слова разбиваются на их морфемы ( корни , основы , флексии и т. д.), а затем интерпретируются и; в-третьих, точка зрения, согласно которой используются как модели целого слова, так и модели декомпозиции, но что модель целого слова обеспечивает некоторые вычислительные преимущества и, следовательно, доминирует в лексическом распознавании. ^[1]

Например, в модели целого слова слово «кошки» можно хранить и искать по букве: сначала «c», затем «ca», «cat» и, наконец, «cats». То же самое слово в декомпозиционной модели, скорее всего, будет храниться под корневым словом «кошка», и его можно будет искать после удаления суффикса «s». Аналогично слово «падение» будет храниться как «падение» и иметь суффикс «ing». ^[2]

Хотя сторонники декомпозиционной модели признают, что поморфемный анализ может потребовать значительно больше вычислений, они утверждают, что распаковка морфологической информации необходима для других процессов (таких как синтаксическая структура ), которые могут происходить параллельно с лексическим поиском.

В целом исследования систем человеческого лексического распознавания ограничены из-за небольшого количества экспериментальных данных, которые полностью различают три основные модели. ^[1]

В любом случае лексическое распознавание, вероятно, вносит значительный вклад в сегментацию речи посредством контекстуальных подсказок, которые оно предоставляет, учитывая, что это в значительной степени вероятностная система, основанная на статистической вероятности того, что определенные слова или составляющие встречаются вместе. Например, можно представить ситуацию, когда человек может сказать: «Я купил свою собаку в ____ магазине», а гласная в пропущенном слове произносится как «net», «sweat» или «pet». Хотя вероятность употребления слова «сетевой магазин» чрезвычайно низка, поскольку «сетевой магазин» в настоящее время не является составным словом или фразой в английском языке, а «потогонная мастерская» также кажется контекстуально маловероятной, «зоомагазин» хорошо подходит, поскольку это распространенная фраза и также связано со словом «собака». ^[3]

Более того, высказывание может иметь разное значение в зависимости от того, как оно разбито на слова. Популярным примером, часто цитируемым в этой области, является фраза «Как испортить хороший пляж», которая очень похожа на «Как распознавать речь». ^[4] Как показывает этот пример, правильная лексическая сегментация зависит от контекста и семантики , которая опирается на все человеческие знания и опыт, и, следовательно, потребует распознавания образов и искусственного интеллекта внедрения на компьютере передовых технологий .

Лексическое распознавание имеет особую ценность в области компьютерного распознавания речи , поскольку возможность построения и поиска сети семантически связанных идей значительно повысит эффективность программного обеспечения для распознавания речи. Статистические модели можно использовать для сегментации и сопоставления записанной речи со словами или телефонами. Приложения включают в себя автоматическую синхронизацию губ для анимации мультфильмов, субтитров для видео с прыгающим мячом и лингвистические исследования. Программное обеспечение для автоматической сегментации и выравнивания коммерчески доступно.

Фонотаксические сигналы [ править ]

Для большинства разговорных языков границы между лексическими единицами трудно определить; фонотактика является одним из ответов на этот вопрос. Можно было бы ожидать, что промежутки между словами, используемые во многих письменных языках, таких как английский или испанский, будут соответствовать паузам в их устной версии, но это верно только в очень медленной речи, когда говорящий намеренно вставляет эти паузы. В нормальной речи обычно произносится много последовательных слов без пауз между ними, и часто последние звуки одного слова плавно сливаются или сливаются с начальными звуками следующего слова.

Представление о том, что речь создается так же, как письмо, как последовательность отдельных гласных и согласных, может быть пережитком алфавитного наследия для некоторых языковых сообществ. Фактически, способ образования гласных зависит от окружающих согласных точно так же, как на согласные влияют окружающие гласные; это называется коартикуляция . Например, в слове «комплект» [k] находится дальше вперед, чем когда мы говорим «пойман». Но также гласная в слове «кик» фонетически отличается от гласной в слове «кит», хотя обычно мы этого не слышим. Кроме того, в повседневной речи происходят специфические для языка изменения, которые существенно отличают ее от правописания. Например, в английском языке фразу «hit you» чаще можно было бы написать «hitcha».

С точки зрения декомпозиции, во многих случаях фонотактика помогает говорящим понять, где проводить границы слов. В английском языке слово «клубника» воспринимается носителями как состоящее (фонетически) из двух частей: «соломинка» и «ягода». Другие интерпретации, такие как «stra» и «wberry», запрещены английской фонотактикой, которая не допускает скопления слов «wb» в начале. Другими такими примерами являются «день/мечта» и «миля/стоун», которые вряд ли можно интерпретировать как «да/мечта» или «миля/стоун» из-за фонотаксической вероятности или невероятности определенных кластеров. Предложение «Осталось пять женщин», которое можно фонетически транскрибировать как [faɪvwɪmɘnlɛft], отмечено, поскольку ни /vw/ в /faɪvwɪmɘn/, ни /nl/ в /wɪmɘnlɛft/ не допускаются в качестве начала слога или коды в английской фонотактике. Эти фонотаксические сигналы часто позволяют говорящим легко различать границы в словах.

Гармония гласных в таких языках, как финский, также может служить фонотаксическими сигналами. Хотя система не позволяет гласным переднего и заднего ряда существовать вместе в пределах одной морфемы, сложные соединения позволяют двум морфемам сохранять свою собственную гармонию гласных, сосуществуя в слове. Следовательно, в таких сложных словах, как «селкя/онгельма» («проблема со спиной»), где гармония гласных различается между двумя составляющими сложного соединения, граница будет там, где происходит переключение гармонии - между «ä» и «ö». " в этом случае. ^[5] Тем не менее, бывают случаи, когда фонотаксика может не помочь в сегментации. Слова с нечеткими группами или неконтрастной гармонией гласных, как в «opinto/uudistus» («студенческая реформа»), не дают фонотаксических подсказок относительно того, как они сегментированы. ^[6]

Однако с точки зрения модели целого слова считается, что эти слова хранятся как полные слова, поэтому составные части не обязательно будут иметь отношение к лексическому распознаванию.

У младенцев и неместных жителей [ править ]

Младенцы являются одним из основных направлений исследований в области сегментации речи. Поскольку младенцы еще не освоили словарный запас, способный давать обширные контекстуальные подсказки или вероятностный поиск слов в течение первого года жизни, как упоминалось выше, им часто приходится полагаться в первую очередь на фонотаксические и ритмические сигналы (при этом просодия является доминирующим сигналом), все которые зависят от языка. В возрасте от 6 до 9 месяцев младенцы начинают терять способность различать звуки, которых нет в их родном языке, и становятся чувствительными к звуковой структуре своего родного языка, при этом способности к сегментации слов появляются примерно в 7,5 месяцев.

Хотя необходимо провести гораздо больше исследований о том, какие именно процессы используют младенцы для начала сегментации речи, текущие и прошлые исследования показывают, что младенцы, являющиеся носителями английского языка, воспринимают ударные слоги как начало слов. В возрасте 7,5 месяцев младенцы, по-видимому, способны сегментировать двусложные слова с помощью моделей сильного и слабого ударения , хотя модели ударения слабого и сильного часто неправильно интерпретируются, например, интерпретируя «guiTAR is» как «GUI TARis». Похоже, что у младенцев также наблюдаются некоторые сложности в отслеживании частоты и вероятности слов, например, они осознают, что, хотя слоги «the» и «dog» часто встречаются вместе, «the» также часто встречается с другими слогами, что может привести к анализ того, что «собака» — это отдельное слово или понятие, а не интерпретация «собака». ^[7]^[8]

Изучающие язык — это еще одна группа людей, исследуемая в рамках сегментации речи. В некотором смысле, обучение сегментированию речи может быть более трудным для изучающего второй язык, чем для младенца, не только из-за незнания вероятностей и ограничений звука, но особенно из-за чрезмерного применения моделей родного языка. Хотя между языками могут возникать некоторые закономерности, как, например, в слоговой сегментации французского и английского языков, они могут плохо работать с такими языками, как японский, в котором существует система сегментации, основанная на море . Кроме того, фонотаксические ограничения, такие как кластер, обозначающий границы /ld/ на немецком или голландском языке, разрешены (без обязательного обозначения границ) на английском языке. Даже взаимосвязь между ударением и долготой гласной , которая может показаться интуитивно понятной носителям английского языка, может не существовать в других языках, поэтому изучающие второй язык сталкиваются с особенно серьезной проблемой при изучении языка и его сигналов сегментации. ^[9]

См. также [ править ]

Ссылки [ править ]

↑ Перейти обратно: Перейти обратно: ^а ^б Бадекер, Уильям и Марк Аллен. «Морфологический анализ и восприятие лексической идентичности: исследование стволовых омографов в маске» . Журнал памяти и языка 47.1 (2002): 125–144. Проверено 27 апреля 2014 г.
^ Тафт, Маркус и Кеннет И. Форстер. «Лексическое хранение и извлечение полиморфемных и многосложных слов» . Журнал вербального обучения и вербального поведения 15.6 (1976): 607–620. Проверено 27 апреля 2014 г.
^ Либерман, Генри; Александр Фааборг; Васим Дахер; Хосе Эспиноза (9–12 января 2005 г.). Как разрушить хороший пляж, вы поете спокойные благовония (PDF) . IUI '05: Материалы 10-й международной конференции по интеллектуальным пользовательским интерфейсам. Медиатека Массачусетского технологического института. стр. 278–280. дои : 10.1145/1040830.1040898 .
^ Часто используемый в литературе пример распознавания речи . Ранним примером является Н. Рекс Диксон, «Некоторые проблемы автоматического распознавания непрерывной речи и их последствия для распознавания образов». Труды Первой международной совместной конференции по распознаванию образов , IEEE, 1973 г., цитируется Марком Либерманом, «Разрушение хорошего пляжа». ", Языковой журнал , 5 августа 2014 г.
^ Бертрам, Раймонд; Александр Поллацек; и Юкка Хёна. «Морфологический анализ и использование признаков сегментации при чтении финских сложных слов» . Журнал памяти и языка 51.3 (2004): 325–345. Проверено 27 апреля 2014 г.
^ Болл-Аветисян, Натали (2012). «Общее введение» (PDF) . Фонотактика и ее приобретение, представление и использование: экспериментально-фонологическое исследование (PDF) (Диссертация). Международный сериал ЛОТ. Том. 298. Утрехтский университет. стр. 1–13. ISBN 978-94-6093-080-5 . Архивировано из оригинала (PDF) 27 апреля 2014 г.
^ Ющик, Питер В. и Дерек М. Хьюстон. «Начало сегментации слов у младенцев, изучающих английский язык» . Когнитивная психология 39 (1999): 159–207. Проверено 27 апреля 2014 г.
^ Джонсон, Элизабет К. и Питер В. Ющик. «Сегментация слов у 8-месячных детей: когда речевые сигналы имеют большее значение, чем статистика» . Журнал памяти и языка 44 (2001): 548–567. Проверено 27 апреля 2014 г.
^ Тайлер, Майкл Д. и Энн Катлер. «Межъязыковые различия в использовании сигналов для сегментации речи» . Журнал Акустического общества Америки 126 (2009): 367–376. Проверено 27 апреля 2014 г.

Внешние ссылки [ править ]

[Badecker_&_Allen-1] Перейти обратно: Перейти обратно: ^а ^б Бадекер, Уильям и Марк Аллен. «Морфологический анализ и восприятие лексической идентичности: исследование стволовых омографов в маске» . Журнал памяти и языка 47.1 (2002): 125–144. Проверено 27 апреля 2014 г.

[2] Тафт, Маркус и Кеннет И. Форстер. «Лексическое хранение и извлечение полиморфемных и многосложных слов» . Журнал вербального обучения и вербального поведения 15.6 (1976): 607–620. Проверено 27 апреля 2014 г.

[3] Либерман, Генри; Александр Фааборг; Васим Дахер; Хосе Эспиноза (9–12 января 2005 г.). Как разрушить хороший пляж, вы поете спокойные благовония (PDF) . IUI '05: Материалы 10-й международной конференции по интеллектуальным пользовательским интерфейсам. Медиатека Массачусетского технологического института. стр. 278–280. дои : 10.1145/1040830.1040898 .

[4] Часто используемый в литературе пример распознавания речи . Ранним примером является Н. Рекс Диксон, «Некоторые проблемы автоматического распознавания непрерывной речи и их последствия для распознавания образов». Труды Первой международной совместной конференции по распознаванию образов , IEEE, 1973 г., цитируется Марком Либерманом, «Разрушение хорошего пляжа». ", Языковой журнал , 5 августа 2014 г.

[5] Бертрам, Раймонд; Александр Поллацек; и Юкка Хёна. «Морфологический анализ и использование признаков сегментации при чтении финских сложных слов» . Журнал памяти и языка 51.3 (2004): 325–345. Проверено 27 апреля 2014 г.

[6] Болл-Аветисян, Натали (2012). «Общее введение» (PDF) . Фонотактика и ее приобретение, представление и использование: экспериментально-фонологическое исследование (PDF) (Диссертация). Международный сериал ЛОТ. Том. 298. Утрехтский университет. стр. 1–13. ISBN 978-94-6093-080-5 . Архивировано из оригинала (PDF) 27 апреля 2014 г.

[7] Ющик, Питер В. и Дерек М. Хьюстон. «Начало сегментации слов у младенцев, изучающих английский язык» . Когнитивная психология 39 (1999): 159–207. Проверено 27 апреля 2014 г.

[8] Джонсон, Элизабет К. и Питер В. Ющик. «Сегментация слов у 8-месячных детей: когда речевые сигналы имеют большее значение, чем статистика» . Журнал памяти и языка 44 (2001): 548–567. Проверено 27 апреля 2014 г.

[9] Тайлер, Майкл Д. и Энн Катлер. «Межъязыковые различия в использовании сигналов для сегментации речи» . Журнал Акустического общества Америки 126 (2009): 367–376. Проверено 27 апреля 2014 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]