Обработка речи
Обработка речи — это изучение речевых сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработку речи можно рассматривать как частный случай цифровой обработки сигналов , применяемой к речевым сигналам . Аспекты обработки речи включают в себя сбор, манипулирование, хранение, передачу и вывод речевых сигналов. Различные задачи обработки речи включают распознавание речи , синтез речи , диаризацию говорящего , улучшение речи , распознавание говорящего и т. д. [ 1 ]
История
[ редактировать ]Ранние попытки обработки и распознавания речи были в первую очередь сосредоточены на понимании нескольких простых фонетических элементов, таких как гласные. В 1952 году трое исследователей из Bell Labs Стивен. Балашек, Р. Биддульф и К. Х. Дэвис разработали систему, которая могла распознавать цифры, произнесенные одним говорящим. [ 2 ] О пионерских работах в области распознавания речи с использованием анализа ее спектра сообщалось в 1940-х годах. [ 3 ]
Линейное предсказательное кодирование (LPC), алгоритм обработки речи, был впервые предложен Фумитадой Итакурой из Университета Нагои и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. [ 4 ] Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталом и Манфредом Р. Шредером в Bell Labs в 1970-х годах. [ 4 ] LPC стал основой технологии передачи голоса по IP (VoIP). [ 4 ] а также микросхемы синтезаторов речи , такие как речевые чипы Texas Instruments LPC, используемые в игрушках Speak & Spell 1978 года. [ 5 ]
Одним из первых коммерчески доступных продуктов распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другими сотрудниками Bell Labs, была использована AT&T в их службе обработки вызовов распознавания голоса для маршрутизации вызовов без участия человека-оператора. К этому моменту словарный запас этих систем был больше, чем словарный запас среднего человека. [ 6 ]
К началу 2000-х годов доминирующая стратегия обработки речи начала смещаться от скрытых марковских моделей к более современным нейронным сетям и глубокому обучению . [ нужна ссылка ]
Техники
[ редактировать ]Динамическое искажение времени
[ редактировать ]Динамическое искажение времени (DTW) — это алгоритм измерения сходства между двумя временными последовательностями , которые могут различаться по скорости. В общем, DTW — это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное соответствие обозначается совпадением, которое удовлетворяет всем ограничениям и правилам и имеет минимальную стоимость, при этом стоимость вычисляется как сумма абсолютных разностей для каждой сопоставленной пары индексов между их значениями. [ нужна ссылка ]
Скрытые марковские модели
[ редактировать ]Скрытую марковскую модель можно представить как простейшую динамическую байесовскую сеть . Цель алгоритма — оценить скрытую переменную x(t) по списку наблюдений y(t). Применяя свойство Маркова , условное распределение вероятностей скрытой переменной x ( t ) в момент времени t , учитывая значения скрытой переменной x в любой момент времени, зависит только от значения скрытой переменной x ( t - 1). Аналогично, значение наблюдаемой переменной y ( t ) зависит только от значения скрытой переменной x ( t ) (оба в момент времени t ). [ нужна ссылка ]
Искусственные нейронные сети
[ редактировать ]Искусственная нейронная сеть (ИНС) основана на наборе связанных единиц или узлов, называемых искусственными нейронами , которые в общих чертах моделируют нейроны биологического мозга . Каждое соединение, подобно синапсам в биологическом мозге , может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, получивший сигнал, может его обработать и затем передать сигнал подключенным к нему дополнительным искусственным нейронам. В обычных реализациях ИНС сигнал при соединении между искусственными нейронами представляет собой действительное число , а выход каждого искусственного нейрона вычисляется с помощью некоторой нелинейной функции суммы его входов. [ нужна ссылка ]
Фазовая обработка
[ редактировать ]Обычно предполагается, что фаза является случайной однородной величиной и, следовательно, бесполезной. Это связано с переносом фазы: [ 7 ] результат функции арктангенса не является непрерывным из-за периодических скачков . После фазовой развертки (см. [ 8 ] Глава 2.3; Мгновенная фаза и частота ), ее можно выразить как: [ 7 ] [ 9 ] , где является линейной фазой ( – временной сдвиг в каждом кадре анализа), – фазовый вклад речевого тракта и источника фазы. [ 9 ] Полученные оценки фазы можно использовать для снижения шума: временное сглаживание мгновенной фазы. [ 10 ] и ее производные по времени ( мгновенная частота ) и частоте ( групповая задержка ), [ 11 ] сглаживание фазы по частоте. [ 11 ] Объединенные средства оценки амплитуды и фазы могут более точно восстанавливать речь, основываясь на предположении о распределении фазы фон Мизеса. [ 9 ]
Приложения
[ редактировать ]- Интерактивный голосовой ответ
- Виртуальные помощники
- Голосовая идентификация
- Распознавание эмоций
- Автоматизация колл-центра
- Робототехника
См. также
[ редактировать ]- Компьютерная аудиология
- Нейрокомпьютерная обработка речи
- Кодирование речи
- Речевые технологии
- Обработка естественного языка
Ссылки
[ редактировать ]- ^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкинг; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стивен; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].
- ^ Хуанг, Б.-Х.; Рабинер, ЛР (2006), «Автоматическое распознавание речи: история», Энциклопедия языка и лингвистики , Elsevier, стр. 806–819, doi : 10.1016/b0-08-044854-2/00906-8 , ISBN 9780080448541
- ^ Myasnikov, L. L.; Myasnikova, Ye. N. (1970). Automatic recognition of sound pattern (in Russian). Leningrad: Energiya.
- ^ Jump up to: а б с Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN 1932-8346 .
- ^ «VC&G - Интервью VC&G: 30 лет спустя, Ричард Виггинс рассказывает о развитии речи и орфографии» .
- ^ Хуан, Сюэдун; Бейкер, Джеймс; Редди, Радж (01 января 2014 г.). «Историческая перспектива распознавания речи». Коммуникации АКМ . 57 (1): 94–103. дои : 10.1145/2500887 . ISSN 0001-0782 . S2CID 6175701 .
- ^ Jump up to: а б Моулаи, Пейман; Кулмер, Йозеф (август 2015 г.). «Оценка фазы при улучшении одноканальной речи: пределы потенциала» . Транзакции IEEE/ACM по обработке звука, речи и языка . 23 (8): 1283–1294. дои : 10.1109/TASLP.2015.2430820 . ISSN 2329-9290 . S2CID 13058142 . Проверено 3 декабря 2017 г.
- ^ Моулаи, Пейман; Кулмер, Йозеф; Шталь, Йоханнес; Майер, Флориан (2017). Одноканальная фазово-зависимая обработка сигналов в речевой связи: теория и практика . Чичестер: Уайли. ISBN 978-1-119-23882-9 .
- ^ Jump up to: а б с Кулмер, Йозеф; Моулаи, Пейман (апрель 2015 г.). «Оценка гармонической фазы при улучшении одноканальной речи с использованием распределения фон Мизеса и априорного отношения сигнал/шум». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2015 г., посвященная . IEEE. стр. 5063–5067.
- ^ Кулмер, Йозеф; Моулаи, Пейман (май 2015 г.). «Оценка фазы при улучшении одноканальной речи с использованием фазового разложения» . Письма об обработке сигналов IEEE . 22 (5): 598–602. Бибкод : 2015ISPL...22..598K . дои : 10.1109/ЛСП.2014.2365040 . ISSN 1070-9908 . S2CID 15503015 . Проверено 3 декабря 2017 г.
- ^ Jump up to: а б Моулаи, Пейман; Саиди, Рахим; Стилиану, Яннис (июль 2016 г.). «Достижения в области фазовой обработки сигналов в речевой связи» . Речевое общение . 81 : 1–29. doi : 10.1016/j.specom.2016.04.002 . ISSN 0167-6393 . S2CID 17409161 . Проверено 3 декабря 2017 г.