Обработка речи

Обработка речи — это изучение речевых сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработку речи можно рассматривать как частный случай цифровой обработки сигналов , применяемой к речевым сигналам . Аспекты обработки речи включают в себя сбор, манипулирование, хранение, передачу и вывод речевых сигналов. Различные задачи обработки речи включают распознавание речи , синтез речи , диаризацию говорящего , улучшение речи , распознавание говорящего и т. д. ^{[ 1 ]}

История

Ранние попытки обработки и распознавания речи были в первую очередь сосредоточены на понимании нескольких простых фонетических элементов, таких как гласные. В 1952 году трое исследователей из Bell Labs Стивен. Балашек, Р. Биддульф и К. Х. Дэвис разработали систему, которая могла распознавать цифры, произнесенные одним говорящим. ^{[ 2 ]} О пионерских работах в области распознавания речи с использованием анализа ее спектра сообщалось в 1940-х годах. ^{[ 3 ]}

Линейное предсказательное кодирование (LPC), алгоритм обработки речи, был впервые предложен Фумитадой Итакурой из Университета Нагои и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. ^{[ 4 ]} Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталом и Манфредом Р. Шредером в Bell Labs в 1970-х годах. ^{[ 4 ]} LPC стал основой технологии передачи голоса по IP (VoIP). ^{[ 4 ]} а также микросхемы синтезаторов речи , такие как речевые чипы Texas Instruments LPC, используемые в игрушках Speak & Spell 1978 года. ^{[ 5 ]}

Одним из первых коммерчески доступных продуктов распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другими сотрудниками Bell Labs, была использована AT&T в их службе обработки вызовов распознавания голоса для маршрутизации вызовов без участия человека-оператора. К этому моменту словарный запас этих систем был больше, чем словарный запас среднего человека. ^{[ 6 ]}

К началу 2000-х годов доминирующая стратегия обработки речи начала смещаться от скрытых марковских моделей к более современным нейронным сетям и глубокому обучению . ^{[ нужна ссылка ]}

Техники

Динамическое искажение времени

Динамическое искажение времени (DTW) — это алгоритм измерения сходства между двумя временными последовательностями , которые могут различаться по скорости. В общем, DTW — это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное соответствие обозначается совпадением, которое удовлетворяет всем ограничениям и правилам и имеет минимальную стоимость, при этом стоимость вычисляется как сумма абсолютных разностей для каждой сопоставленной пары индексов между их значениями. ^{[ нужна ссылка ]}

Скрытые марковские модели

Скрытую марковскую модель можно представить как простейшую динамическую байесовскую сеть . Цель алгоритма — оценить скрытую переменную x(t) по списку наблюдений y(t). Применяя свойство Маркова , условное распределение вероятностей скрытой переменной x ( t ) в момент времени t , учитывая значения скрытой переменной x в любой момент времени, зависит только от значения скрытой переменной x ( t - 1). Аналогично, значение наблюдаемой переменной y ( t ) зависит только от значения скрытой переменной x ( t ) (оба в момент времени t ). ^{[ нужна ссылка ]}

Искусственные нейронные сети

Искусственная нейронная сеть (ИНС) основана на наборе связанных единиц или узлов, называемых искусственными нейронами , которые в общих чертах моделируют нейроны биологического мозга . Каждое соединение, подобно синапсам в биологическом мозге , может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, получивший сигнал, может его обработать и затем передать сигнал подключенным к нему дополнительным искусственным нейронам. В обычных реализациях ИНС сигнал при соединении между искусственными нейронами представляет собой действительное число , а выход каждого искусственного нейрона вычисляется с помощью некоторой нелинейной функции суммы его входов. ^{[ нужна ссылка ]}

Фазовая обработка

Обычно предполагается, что фаза является случайной однородной величиной и, следовательно, бесполезной. Это связано с переносом фазы: ^{[ 7 ]} результат функции арктангенса не является непрерывным из-за периодических скачков $2\pi$ . После фазовой развертки (см. ^{[ 8 ]} Глава 2.3; Мгновенная фаза и частота ), ее можно выразить как: ^{[ 7 ]}^{[ 9 ]} $\phi (h,l)=\phi _{lin}(h,l)+\Psi (h,l)$ , где $\phi _{lin}(h,l)=\omega _{0}(l'){}_{\Delta }t$ является линейной фазой ( ${}_{\Delta }t$ – временной сдвиг в каждом кадре анализа), $\Psi (h,l)$ – фазовый вклад речевого тракта и источника фазы. ^{[ 9 ]} Полученные оценки фазы можно использовать для снижения шума: временное сглаживание мгновенной фазы. ^{[ 10 ]} и ее производные по времени ( мгновенная частота ) и частоте ( групповая задержка ), ^{[ 11 ]} сглаживание фазы по частоте. ^{[ 11 ]} Объединенные средства оценки амплитуды и фазы могут более точно восстанавливать речь, основываясь на предположении о распределении фазы фон Мизеса. ^{[ 9 ]}

Приложения

См. также

Ссылки

^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкинг; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стивен; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].
^ Хуанг, Б.-Х.; Рабинер, ЛР (2006), «Автоматическое распознавание речи: история», Энциклопедия языка и лингвистики , Elsevier, стр. 806–819, doi : 10.1016/b0-08-044854-2/00906-8 , ISBN 9780080448541
^ Myasnikov, L. L.; Myasnikova, Ye. N. (1970). Automatic recognition of sound pattern (in Russian). Leningrad: Energiya.
^ Jump up to: ^а ^б ^с Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN 1932-8346 .
^ «VC&G - Интервью VC&G: 30 лет спустя, Ричард Виггинс рассказывает о развитии речи и орфографии» .
^ Хуан, Сюэдун; Бейкер, Джеймс; Редди, Радж (01 января 2014 г.). «Историческая перспектива распознавания речи». Коммуникации АКМ . 57 (1): 94–103. дои : 10.1145/2500887 . ISSN 0001-0782 . S2CID 6175701 .
^ Jump up to: ^а ^б Моулаи, Пейман; Кулмер, Йозеф (август 2015 г.). «Оценка фазы при улучшении одноканальной речи: пределы потенциала» . Транзакции IEEE/ACM по обработке звука, речи и языка . 23 (8): 1283–1294. дои : 10.1109/TASLP.2015.2430820 . ISSN 2329-9290 . S2CID 13058142 . Проверено 3 декабря 2017 г.
^ Моулаи, Пейман; Кулмер, Йозеф; Шталь, Йоханнес; Майер, Флориан (2017). Одноканальная фазово-зависимая обработка сигналов в речевой связи: теория и практика . Чичестер: Уайли. ISBN 978-1-119-23882-9 .
^ Jump up to: ^а ^б ^с Кулмер, Йозеф; Моулаи, Пейман (апрель 2015 г.). «Оценка гармонической фазы при улучшении одноканальной речи с использованием распределения фон Мизеса и априорного отношения сигнал/шум». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2015 г., посвященная . IEEE. стр. 5063–5067.
^ Кулмер, Йозеф; Моулаи, Пейман (май 2015 г.). «Оценка фазы при улучшении одноканальной речи с использованием фазового разложения» . Письма об обработке сигналов IEEE . 22 (5): 598–602. Бибкод : 2015ISPL...22..598K . дои : 10.1109/ЛСП.2014.2365040 . ISSN 1070-9908 . S2CID 15503015 . Проверено 3 декабря 2017 г.
^ Jump up to: ^а ^б Моулаи, Пейман; Саиди, Рахим; Стилиану, Яннис (июль 2016 г.). «Достижения в области фазовой обработки сигналов в речевой связи» . Речевое общение . 81 : 1–29. doi : 10.1016/j.specom.2016.04.002 . ISSN 0167-6393 . S2CID 17409161 . Проверено 3 декабря 2017 г.

[1] Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкинг; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стивен; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].

[2] Хуанг, Б.-Х.; Рабинер, ЛР (2006), «Автоматическое распознавание речи: история», Энциклопедия языка и лингвистики , Elsevier, стр. 806–819, doi : 10.1016/b0-08-044854-2/00906-8 , ISBN 9780080448541

[3] Myasnikov, L. L.; Myasnikova, Ye. N. (1970). Automatic recognition of sound pattern (in Russian). Leningrad: Energiya.

[Gray-4] Jump up to: ^а ^б ^с Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN 1932-8346 .

[vintagecomputing_article-5] «VC&G - Интервью VC&G: 30 лет спустя, Ричард Виггинс рассказывает о развитии речи и орфографии» .

[6] Хуан, Сюэдун; Бейкер, Джеймс; Редди, Радж (01 января 2014 г.). «Историческая перспектива распознавания речи». Коммуникации АКМ . 57 (1): 94–103. дои : 10.1145/2500887 . ISSN 0001-0782 . S2CID 6175701 .

[limits-7] Jump up to: ^а ^б Моулаи, Пейман; Кулмер, Йозеф (август 2015 г.). «Оценка фазы при улучшении одноканальной речи: пределы потенциала» . Транзакции IEEE/ACM по обработке звука, речи и языка . 23 (8): 1283–1294. дои : 10.1109/TASLP.2015.2430820 . ISSN 2329-9290 . S2CID 13058142 . Проверено 3 декабря 2017 г.

[8] Моулаи, Пейман; Кулмер, Йозеф; Шталь, Йоханнес; Майер, Флориан (2017). Одноканальная фазово-зависимая обработка сигналов в речевой связи: теория и практика . Чичестер: Уайли. ISBN 978-1-119-23882-9 .

[vonMises-9] Jump up to: ^а ^б ^с Кулмер, Йозеф; Моулаи, Пейман (апрель 2015 г.). «Оценка гармонической фазы при улучшении одноканальной речи с использованием распределения фон Мизеса и априорного отношения сигнал/шум». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2015 г., посвященная . IEEE. стр. 5063–5067.

[10] Кулмер, Йозеф; Моулаи, Пейман (май 2015 г.). «Оценка фазы при улучшении одноканальной речи с использованием фазового разложения» . Письма об обработке сигналов IEEE . 22 (5): 598–602. Бибкод : 2015ISPL...22..598K . дои : 10.1109/ЛСП.2014.2365040 . ISSN 1070-9908 . S2CID 15503015 . Проверено 3 декабря 2017 г.

[Advances-11] Jump up to: ^а ^б Моулаи, Пейман; Саиди, Рахим; Стилиану, Яннис (июль 2016 г.). «Достижения в области фазовой обработки сигналов в речевой связи» . Речевое общение . 81 : 1–29. doi : 10.1016/j.specom.2016.04.002 . ISSN 0167-6393 . S2CID 17409161 . Проверено 3 декабря 2017 г.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]