Jump to content

Обработка речи

Обработка речи — это изучение речевых сигналов и методов обработки сигналов. Сигналы обычно обрабатываются в цифровом представлении, поэтому обработку речи можно рассматривать как частный случай цифровой обработки сигналов , применяемой к речевым сигналам . Аспекты обработки речи включают в себя сбор, манипулирование, хранение, передачу и вывод речевых сигналов. Различные задачи обработки речи включают распознавание речи , синтез речи , диаризацию говорящего , улучшение речи , распознавание говорящего и т. д. [1]

История [ править ]

Ранние попытки обработки и распознавания речи были в первую очередь сосредоточены на понимании нескольких простых фонетических элементов, таких как гласные. В 1952 году трое исследователей из Bell Labs Стивен. Балашек, Р. Биддульф и К. Х. Дэвис разработали систему, которая могла распознавать цифры, произнесенные одним говорящим. [2] О пионерских работах в области распознавания речи с использованием анализа ее спектра сообщалось в 1940-х годах. [3]

Линейное предсказательное кодирование (LPC), алгоритм обработки речи, был впервые предложен Фумитадой Итакурой из Университета Нагои и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. [4] Дальнейшие разработки в технологии LPC были сделаны Бишну С. Аталом и Манфредом Р. Шредером в Bell Labs в 1970-х годах. [4] LPC стал основой технологии передачи голоса по IP (VoIP). [4] а также микросхемы синтезаторов речи , такие как речевые чипы Texas Instruments LPC, используемые в игрушках Speak & Spell 1978 года. [5]

Одним из первых коммерчески доступных продуктов распознавания речи был Dragon Dictate, выпущенный в 1990 году. В 1992 году технология, разработанная Лоуренсом Рабинером и другими сотрудниками Bell Labs, была использована AT&T в их службе обработки вызовов распознавания голоса для маршрутизации вызовов без участия человека-оператора. К этому моменту словарный запас этих систем был больше, чем словарный запас среднего человека. [6]

К началу 2000-х годов доминирующая стратегия обработки речи начала смещаться от скрытых марковских моделей к более современным нейронным сетям и глубокому обучению . [ нужна ссылка ]

Техники [ править ]

Динамическое искажение времени [ править ]

Динамическое искажение времени (DTW) — это алгоритм измерения сходства между двумя временными последовательностями , которые могут различаться по скорости. В общем, DTW — это метод, который вычисляет оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями и правилами. Оптимальное соответствие обозначается совпадением, которое удовлетворяет всем ограничениям и правилам и имеет минимальную стоимость, при этом стоимость вычисляется как сумма абсолютных разностей для каждой сопоставленной пары индексов между их значениями. [ нужна ссылка ]

марковские Скрытые модели

Скрытую марковскую модель можно представить как простейшую динамическую байесовскую сеть . Цель алгоритма — оценить скрытую переменную x(t) по списку наблюдений y(t). Применяя свойство Маркова , условное распределение вероятностей скрытой переменной x ( t ) в момент времени t , учитывая значения скрытой переменной x в любой момент времени, зависит только от значения скрытой переменной x ( t - 1). Аналогично, значение наблюдаемой переменной y ( t ) зависит только от значения скрытой переменной x ( t ) (оба в момент времени t ). [ нужна ссылка ]

Искусственные нейронные сети [ править ]

Искусственная нейронная сеть (ИНС) основана на наборе связанных единиц или узлов, называемых искусственными нейронами , которые в общих чертах моделируют нейроны биологического мозга . Каждое соединение, подобно синапсам в биологическом мозге , может передавать сигнал от одного искусственного нейрона к другому. Искусственный нейрон, получивший сигнал, может его обработать и затем передать сигнал подключенным к нему дополнительным искусственным нейронам. В обычных реализациях ИНС сигнал при соединении между искусственными нейронами представляет собой действительное число , а выход каждого искусственного нейрона вычисляется с помощью некоторой нелинейной функции суммы его входов. [ нужна ссылка ]

Фазовая обработка [ править ]

Обычно предполагается, что фаза является случайной однородной величиной и, следовательно, бесполезной. Это связано с переносом фазы: [7] результат функции арктангенса не является непрерывным из-за периодических скачков . После фазовой развертки (см. [8] Глава 2.3; Мгновенная фаза и частота ), ее можно выразить как: [7] [9] , где является линейной фазой ( – временной сдвиг в каждом кадре анализа), – фазовый вклад речевого тракта и источника фазы. [9] Полученные оценки фазы можно использовать для снижения шума: временное сглаживание мгновенной фазы. [10] и ее производные по времени ( мгновенная частота ) и частоте ( групповая задержка ), [11] сглаживание фазы по частоте. [11] Объединенные средства оценки амплитуды и фазы могут более точно восстанавливать речь, основываясь на предположении о распределении фазы фон Мизеса. [9]

Приложения [ править ]

См. также [ править ]

Ссылки [ править ]

  1. ^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [ eess.AS ].
  2. ^ Хуанг, Б.-Х.; Рабинер, Л.Р. (2006), «Автоматическое распознавание речи: история», Энциклопедия языка и лингвистики , Elsevier, стр. 806–819, doi : 10.1016/b0-08-044854-2/00906-8 , ISBN  9780080448541
  3. ^ Myasnikov, L. L.; Myasnikova, Ye. N. (1970). Automatic recognition of sound pattern (in Russian). Leningrad: Energiya.
  4. Перейти обратно: Перейти обратно: а б с Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN   1932-8346 .
  5. ^ «VC&G - Интервью VC&G: 30 лет спустя, Ричард Виггинс рассказывает о развитии речи и орфографии» .
  6. ^ Хуан, Сюэдун; Бейкер, Джеймс; Редди, Радж (01 января 2014 г.). «Историческая перспектива распознавания речи». Коммуникации АКМ . 57 (1): 94–103. дои : 10.1145/2500887 . ISSN   0001-0782 . S2CID   6175701 .
  7. Перейти обратно: Перейти обратно: а б Моулаи, Пейман; Кулмер, Йозеф (август 2015 г.). «Оценка фазы при улучшении одноканальной речи: ограничения потенциала» . Транзакции IEEE/ACM по обработке звука, речи и языка . 23 (8): 1283–1294. дои : 10.1109/TASLP.2015.2430820 . ISSN   2329-9290 . S2CID   13058142 . Проверено 3 декабря 2017 г.
  8. ^ Моулаи, Пейман; Кулмер, Йозеф; Шталь, Йоханнес; Майер, Флориан (2017). Одноканальная фазово-зависимая обработка сигналов в речевой связи: теория и практика . Чичестер: Уайли. ISBN  978-1-119-23882-9 .
  9. Перейти обратно: Перейти обратно: а б с Кулмер, Йозеф; Моулаи, Пейман (апрель 2015 г.). «Оценка гармонической фазы при улучшении одноканальной речи с использованием распределения фон Мизеса и предварительного отношения сигнал/шум». Акустика, речь и обработка сигналов (ICASSP), Международная конференция IEEE 2015 г., посвященная . IEEE. стр. 5063–5067.
  10. ^ Кулмер, Йозеф; Моулаи, Пейман (май 2015 г.). «Оценка фазы при улучшении одноканальной речи с использованием фазового разложения» . Письма об обработке сигналов IEEE . 22 (5): 598–602. Бибкод : 2015ISPL...22..598K . дои : 10.1109/ЛСП.2014.2365040 . ISSN   1070-9908 . S2CID   15503015 . Проверено 3 декабря 2017 г.
  11. Перейти обратно: Перейти обратно: а б Моулаи, Пейман; Саиди, Рахим; Стилиану, Яннис (июль 2016 г.). «Достижения в области фазовой обработки сигналов в речевой связи» . Речевое общение . 81 : 1–29. дои : 10.1016/j.specom.2016.04.002 . ISSN   0167-6393 . S2CID   17409161 . Проверено 3 декабря 2017 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5f5dec4dc112afbd4b3cece10357ae0f__1715903280
URL1:https://arc.ask3.ru/arc/aa/5f/0f/5f5dec4dc112afbd4b3cece10357ae0f.html
Заголовок, (Title) документа по адресу, URL1:
Speech processing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)