Jump to content

Обработка речи

(Перенаправлено из «Обработка речи» )

Обработка речи — это изучение речевых сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработку речи можно рассматривать как частный случай цифровой обработки сигналов , применяемой к речевым сигналам . Аспекты обработки речи включают в себя сбор, манипулирование, хранение, передачу и вывод речевых сигналов. Различные задачи обработки речи включают распознавание речи , синтез речи , диаризацию говорящего , улучшение речи , распознавание говорящего и т. д. [ 1 ]

Ранние попытки обработки и распознавания речи были в первую очередь сосредоточены на понимании нескольких простых фонетических элементов, таких как гласные. В 1952 году трое исследователей из Bell Labs Стивен. Балашек, Р. Биддульф и К. Х. Дэвис разработали систему, которая могла распознавать цифры, произнесенные одним говорящим. [ 2 ] О пионерских работах в области распознавания речи с использованием анализа ее спектра сообщалось в 1940-х годах. [ 3 ]

Линейное предсказательное кодирование (LPC), алгоритм обработки речи, был впервые предложен Фумитадой Итакурой из Университета Нагои и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. [ 4 ] Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталом и Манфредом Р. Шредером в Bell Labs в 1970-х годах. [ 4 ] LPC стал основой технологии передачи голоса по IP (VoIP). [ 4 ] а также микросхемы синтезаторов речи , такие как речевые чипы Texas Instruments LPC, используемые в игрушках Speak & Spell 1978 года. [ 5 ]

Одним из первых коммерчески доступных продуктов распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другими сотрудниками Bell Labs, была использована AT&T в их службе обработки вызовов распознавания голоса для маршрутизации вызовов без участия человека-оператора. К этому моменту словарный запас этих систем был больше, чем словарный запас среднего человека. [ 6 ]

К началу 2000-х годов доминирующая стратегия обработки речи начала смещаться от скрытых марковских моделей к более современным нейронным сетям и глубокому обучению . [ нужна ссылка ]

Динамическое искажение времени

[ редактировать ]

Динамическое искажение времени (DTW) — это алгоритм измерения сходства между двумя временными последовательностями , которые могут различаться по скорости. В общем, DTW — это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное соответствие обозначается совпадением, которое удовлетворяет всем ограничениям и правилам и имеет минимальную стоимость, при этом стоимость вычисляется как сумма абсолютных разностей для каждой сопоставленной пары индексов между их значениями. [ нужна ссылка ]

Скрытые марковские модели

[ редактировать ]

Скрытую марковскую модель можно представить как простейшую динамическую байесовскую сеть . Цель алгоритма — оценить скрытую переменную x(t) по списку наблюдений y(t). Применяя свойство Маркова , условное распределение вероятностей скрытой переменной x ( t ) в момент времени t , учитывая значения скрытой переменной x в любой момент времени, зависит только от значения скрытой переменной x ( t - 1). Аналогично, значение наблюдаемой переменной y ( t ) зависит только от значения скрытой переменной x ( t ) (оба в момент времени t ). [ нужна ссылка ]

Искусственные нейронные сети

[ редактировать ]

Искусственная нейронная сеть (ИНС) основана на наборе связанных единиц или узлов, называемых искусственными нейронами , которые в общих чертах моделируют нейроны биологического мозга . Каждое соединение, подобно синапсам в биологическом мозге , может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, получивший сигнал, может его обработать и затем передать сигнал подключенным к нему дополнительным искусственным нейронам. В обычных реализациях ИНС сигнал при соединении между искусственными нейронами представляет собой действительное число , а выход каждого искусственного нейрона вычисляется с помощью некоторой нелинейной функции суммы его входов. [ нужна ссылка ]

Фазовая обработка

[ редактировать ]

Обычно предполагается, что фаза является случайной однородной величиной и, следовательно, бесполезной. Это связано с переносом фазы: [ 7 ] результат функции арктангенса не является непрерывным из-за периодических скачков . После фазовой развертки (см. [ 8 ] Глава 2.3; Мгновенная фаза и частота ), ее можно выразить как: [ 7 ] [ 9 ] , где является линейной фазой ( – временной сдвиг в каждом кадре анализа), – фазовый вклад речевого тракта и источника фазы. [ 9 ] Полученные оценки фазы можно использовать для снижения шума: временное сглаживание мгновенной фазы. [ 10 ] и ее производные по времени ( мгновенная частота ) и частоте ( групповая задержка ), [ 11 ] сглаживание фазы по частоте. [ 11 ] Объединенные средства оценки амплитуды и фазы могут более точно восстанавливать речь, основываясь на предположении о распределении фазы фон Мизеса. [ 9 ]

Приложения

[ редактировать ]

См. также

[ редактировать ]
  1. ^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкинг; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стивен; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].
  2. ^ Хуанг, Б.-Х.; Рабинер, ЛР (2006), «Автоматическое распознавание речи: история», Энциклопедия языка и лингвистики , Elsevier, стр. 806–819, doi : 10.1016/b0-08-044854-2/00906-8 , ISBN  9780080448541
  3. ^ Myasnikov, L. L.; Myasnikova, Ye. N. (1970). Automatic recognition of sound pattern (in Russian). Leningrad: Energiya.
  4. ^ Jump up to: а б с Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN   1932-8346 .
  5. ^ «VC&G - Интервью VC&G: 30 лет спустя, Ричард Виггинс рассказывает о развитии речи и орфографии» .
  6. ^ Хуан, Сюэдун; Бейкер, Джеймс; Редди, Радж (01 января 2014 г.). «Историческая перспектива распознавания речи». Коммуникации АКМ . 57 (1): 94–103. дои : 10.1145/2500887 . ISSN   0001-0782 . S2CID   6175701 .
  7. ^ Jump up to: а б Моулаи, Пейман; Кулмер, Йозеф (август 2015 г.). «Оценка фазы при улучшении одноканальной речи: пределы потенциала» . Транзакции IEEE/ACM по обработке звука, речи и языка . 23 (8): 1283–1294. дои : 10.1109/TASLP.2015.2430820 . ISSN   2329-9290 . S2CID   13058142 . Проверено 3 декабря 2017 г.
  8. ^ Моулаи, Пейман; Кулмер, Йозеф; Шталь, Йоханнес; Майер, Флориан (2017). Одноканальная фазово-зависимая обработка сигналов в речевой связи: теория и практика . Чичестер: Уайли. ISBN  978-1-119-23882-9 .
  9. ^ Jump up to: а б с Кулмер, Йозеф; Моулаи, Пейман (апрель 2015 г.). «Оценка гармонической фазы при улучшении одноканальной речи с использованием распределения фон Мизеса и априорного отношения сигнал/шум». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2015 г., посвященная . IEEE. стр. 5063–5067.
  10. ^ Кулмер, Йозеф; Моулаи, Пейман (май 2015 г.). «Оценка фазы при улучшении одноканальной речи с использованием фазового разложения» . Письма об обработке сигналов IEEE . 22 (5): 598–602. Бибкод : 2015ISPL...22..598K . дои : 10.1109/ЛСП.2014.2365040 . ISSN   1070-9908 . S2CID   15503015 . Проверено 3 декабря 2017 г.
  11. ^ Jump up to: а б Моулаи, Пейман; Саиди, Рахим; Стилиану, Яннис (июль 2016 г.). «Достижения в области фазовой обработки сигналов в речевой связи» . Речевое общение . 81 : 1–29. doi : 10.1016/j.specom.2016.04.002 . ISSN   0167-6393 . S2CID   17409161 . Проверено 3 декабря 2017 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4e4f357e309a9c84067cebf08f9463c0__1715903280
URL1:https://arc.ask3.ru/arc/aa/4e/c0/4e4f357e309a9c84067cebf08f9463c0.html
Заголовок, (Title) документа по адресу, URL1:
Speech processing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)