Линейное прогнозирующее кодирование
Кодирование с линейным прогнозированием ( LPC ) — это метод, используемый в основном при аудиосигналов и обработке речи для представления огибающей спектра цифрового обработке сигнала речи форме в сжатой с использованием информации модели линейного прогнозирования . [1] [2]
LPC — наиболее широко используемый метод кодирования и синтеза речи . Это мощный метод анализа речи и полезный метод кодирования речи хорошего качества с низкой скоростью передачи данных .
Обзор [ править ]
LPC начинается с предположения, что речевой сигнал создается зуммером на конце трубки (для звонких звуков) с периодическими добавлением шипящих и хлопающих звуков (для глухих звуков, таких как свистящие и взрывные звуки ). кажется грубой, Хотя эта модель «источник-фильтр» на самом деле она является близким приближением к реальности производства речи. Голосовая щель (пространство между голосовыми связками) производит жужжание, которое характеризуется интенсивностью ( громкостью ) и частотой (высотой звука). Голосовой тракт (горло и рот) образует трубку, для которой характерны резонансы; эти резонансы порождают форманты или расширенные полосы частот в производимом звуке. Шипение и хлопки возникают в результате действия языка, губ и горла во время свистящих и взрывных звуков.
LPC анализирует речевой сигнал, оценивая форманты, удаляя их влияние из речевого сигнала и оценивая интенсивность и частоту оставшегося жужжания. Процесс удаления формант называется обратной фильтрацией, а оставшийся сигнал после вычитания отфильтрованного моделируемого сигнала называется остатком.
Числа, описывающие интенсивность и частоту жужжания, форманты и остаточный сигнал, могут храниться или передаваться куда-то еще. LPC синтезирует речевой сигнал, обращая процесс: используйте параметры жужжания и остаток для создания исходного сигнала, используйте форманты для создания фильтра (который представляет трубку) и пропускайте источник через фильтр, в результате чего получается речь.
Поскольку речевые сигналы изменяются со временем, этот процесс выполняется на коротких фрагментах речевого сигнала, которые называются кадрами; обычно от 30 до 50 кадров в секунду обеспечивают разборчивость речи с хорошим сжатием.
Ранняя история [ править ]
Линейное предсказание (оценка сигнала) восходит как минимум к 1940-м годам, когда Норберт Винер разработал математическую теорию расчета лучших фильтров и предикторов для обнаружения сигналов, скрытых в шуме. [3] [4] Вскоре после того, как Клод Шеннон создал общую теорию кодирования , работу по предиктивному кодированию провел Ч. Чапин Катлер , [5] Бернард М. Оливер [6] и Генри К. Харрисон. [7] Питер Элиас в 1955 году опубликовал две статьи по прогнозирующему кодированию сигналов. [8] [9]
Линейные предсказатели независимо применялись к анализу речи Фумитадой Итакурой из Нагойского университета и Сюдзо Сайто из Nippon Telegraph and Telephone в 1966 году и в 1967 году Бишну С. Аталом , Манфредом Р. Шредером и Джоном Бургом. Итакура и Сайто описали статистический подход, основанный на оценке максимального правдоподобия ; Атал и Шредер описали подход адаптивного линейного прогнозирования ; Бург изложил подход, основанный на принципе максимальной энтропии . [4] [10] [11] [12]
В 1969 году Итакура и Сайто представили метод, основанный на частичной корреляции (PARCOR), Глен Каллер предложил кодирование речи в реальном времени, а Бишну С. Атал представил кодер речи LPC на ежегодном собрании Акустического общества Америки . В 1971 году LPC в реальном времени с использованием 16-битного продемонстрировала компания Philco-Ford оборудования LPC ; было продано четыре единицы. [13] Технология LPC была разработана Бишну Аталом и Манфредом Шредером в 1970–1980-х годах. [13] В 1978 году Атал и Вишванат и др. из BBN разработали первый алгоритм LPC с переменной скоростью . [13] В том же году Атал и Манфред Р. Шредер LPC из Bell Labs предложили речевой кодек , называемый адаптивным прогнозирующим кодированием , который использовал алгоритм психоакустического кодирования, использующий маскирующие свойства человеческого уха. [14] [15] Позже это стало основой для техники перцептивного кодирования , используемой в MP3 формате сжатия звука , представленном в 1993 году. [14] Линейное предсказание с кодовым возбуждением (CELP) было разработано Шредером и Аталом в 1985 году. [16]
LPC является основой технологии передачи голоса по IP (VoIP). [13] В 1972 году Боб Кан из ARPA вместе с Джимом Форги из лаборатории Линкольна (LL) и Дэйвом Уолденом из BBN Technologies начали первые разработки в области пакетной речи, которые в конечном итоге привели к технологии передачи голоса по IP. Согласно неофициальной истории Лаборатории Линкольна, в 1973 году реального времени со скоростью 2400 бит / с Эд Хофстеттер реализовал первый LPC . В 1974 году была осуществлена первая двусторонняя пакетная речевая связь LPC в режиме реального времени через ARPANET на скорости 3500 бит/с между Каллером-Харрисоном и лабораторией Линкольна. В 1976 году первая конференция LPC прошла через ARPANET с использованием сетевого голосового протокола между Culler-Harrison, ISI, SRI и LL на скорости 3500 бит/с. [ нужна ссылка ] [ нужны разъяснения ]
LPC коэффициентов Представления
LPC часто используется для передачи информации о спектральной огибающей, и поэтому он должен быть устойчив к ошибкам передачи. Передача коэффициентов фильтра напрямую (определение коэффициентов см . в линейном предсказании ) нежелательна, поскольку они очень чувствительны к ошибкам. Другими словами, очень маленькая ошибка может исказить весь спектр или, что еще хуже, небольшая ошибка может сделать фильтр прогнозирования нестабильным.
Существуют более сложные представления, такие как коэффициенты логарифмических площадей (LAR), разложение по линейным спектральным парам (LSP) и коэффициенты отражения . Из них особенно приобрела популярность разложение LSP, поскольку оно обеспечивает стабильность предиктора, а спектральные ошибки являются локальными при небольших отклонениях коэффициентов.
Приложения [ править ]
LPC — наиболее широко используемый метод кодирования и синтеза речи . [17] Обычно он используется для анализа и повторного синтеза речи. Он используется телефонными компаниями как форма сжатия голоса, например, в стандарте GSM . Он также используется для безопасной беспроводной связи, где голос необходимо оцифровать , зашифровать и отправить по узкому голосовому каналу; принадлежащий правительству США Ранним примером этого является навахо I, .
Синтез LPC можно использовать для создания вокодеров , в которых музыкальные инструменты используются в качестве сигнала возбуждения для изменяющегося во времени фильтра, оцениваемого на основе речи певца. Это довольно популярно в электронной музыке . Пол Лански сделал известное компьютерное музыкальное произведение не просто пустой болтовней, используя линейное предсказательное кодирование. [18] LPC 10-го порядка использовался в популярной обучающей игрушке 1980-х годов Speak & Spell .
Предикторы LPC используются в Shorten , MPEG-4 ALS , FLAC , SILK аудиокодеках и других без потерь аудиокодеках .
LPC привлек некоторое внимание как инструмент для тонального анализа скрипок и других струнных музыкальных инструментов. [19]
См. также [ править ]
- Информационный критерий Акаике
- Сжатие звука
- Линейное предсказание с кодовым возбуждением (CELP)
- ФС-1015
- ФС-1016
- Обобщенная фильтрация
- Линейное предсказание
- Линейный прогнозный анализ
- Оценка высоты тона
- Деформированное линейное прогнозирующее кодирование
Ссылки [ править ]
- ^ Дэн, Ли; Дуглас О'Шонесси (2003). Обработка речи: динамический и оптимизационно-ориентированный подход . Марсель Деккер . стр. 41–48. ISBN 978-0-8247-4040-5 .
- ^ Бейги, Хомайун (2011). Основы распознавания говорящего . Берлин: Springer Verlag. ISBN 978-0-387-77591-3 .
- ^ Б.С. Атал (2006). «История линейного предсказания» . Журнал обработки сигналов IEEE . 23 (2): 154–161. Бибкод : 2006ISPM...23..154A . дои : 10.1109/MSP.2006.1598091 . S2CID 15601493 .
- ^ Jump up to: Перейти обратно: а б Ю. Сасахира; С. Хашимото (1995). «Изменение высоты голоса с помощью метода линейного прогнозирующего кодирования для сохранения личного тембра певца» (PDF) .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ US 2605361 , CC Cutler, «Дифференциальное квантование сигналов связи», опубликовано 29 июля 1952 г.
- ^ Б. М. Оливер (1952). «Эффективное кодирование». 31 (4). Nokia Bell Labs: 724–750.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Х. К. Харрисон (1952). «Эксперименты с линейным предсказанием на телевидении». 31 . Технический журнал Bell System: 764–783.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ П. Элиас (1955). «Прогнозирующее кодирование I». ИТ-1 нет. 1. ИРЭ Транс. Информ.Теория: 16–24.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ П. Элиас (1955). «Прогнозирующее кодирование II». ИТ-1 нет. 1. ИРЭ Транс. Информ. Теория: 24–33.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ С. Сайто; Ф. Итакура (январь 1967 г.). «Теоретическое рассмотрение статистического оптимального распознавания спектральной плотности речи». Дж. Акуст. Соц.Япония.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Б.С. Атал; М. Р. Шредер (1967). «Прогностическое кодирование речи». Конф. Связь и учеб.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Дж. П. Бург (1967). «Спектральный анализ максимальной энтропии». Протоколы 37-го собрания Общества разведочной геофизики, Оклахома-Сити.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Jump up to: Перейти обратно: а б с д Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN 1932-8346 . Архивировано (PDF) из оригинала 9 октября 2022 г.
- ^ Jump up to: Перейти обратно: а б Шредер, Манфред Р. (2014). «Лаборатории Белла» . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Спрингер. п. 388. ИСБН 9783319056609 .
- ^ Атал, Б.; Шредер, М. (1978). «Прогнозирующее кодирование речевых сигналов и субъективные критерии ошибок». ИКАССП '78. Международная конференция IEEE по акустике, речи и обработке сигналов . Том. 3. С. 573–576. дои : 10.1109/ICASSP.1978.1170564 .
- ^ Шредер, Манфред Р .; Атал, Бишну С. (1985). «Линейное предсказание с кодовым возбуждением (CELP): высококачественная речь при очень низкой скорости передачи данных». ИКАССП '85. Международная конференция IEEE по акустике, речи и обработке сигналов . Том. 10. С. 937–940. дои : 10.1109/ICASSP.1985.1168147 . S2CID 14803427 .
- ^ Гупта, Шипра (май 2016 г.). «Применение MFCC для независимого распознавания текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и разработки программного обеспечения . 6 (5): 805–810 (806). ISSN 2277-128X . S2CID 212485331 . Архивировано из оригинала (PDF) 18 октября 2019 г. Проверено 18 октября 2019 г.
- ^ Лански, Пол. «Больше, чем пустая болтовня» . Архивировано из оригинала 24 декабря 2017 г. Проверено 2 июня 2024 г.
- ^ Тай, Хван-Чинг; Чунг, Дай-Тин (14 июня 2012 г.). «Скрипки Страдивари демонстрируют формантные частоты, напоминающие гласные, произносимые женщинами» . Журнал Савар . 1 (2).
Дальнейшее чтение [ править ]
- О'Шонесси, Д. (1988). «Линейное предсказательное кодирование». Возможности IEEE . 7 (1): 29–32. дои : 10.1109/45.1890 . S2CID 12786562 .
- Банди, Алан ; Валлен, Линкольн (1984). «Линейное прогнозирующее кодирование». Каталог инструментов искусственного интеллекта . п. 61. дои : 10.1007/978-3-642-96868-6_123 . ISBN 978-3-540-13938-6 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - Эль-Джаруди, Амро (2003). «Линейное прогнозирующее кодирование». Энциклопедия телекоммуникаций Wiley . дои : 10.1002/0471219282.eot155 . ISBN 978-0471219286 .
{{cite book}}
:|journal=
игнорируется ( помогите )