Jump to content

Линейное прогнозирующее кодирование

Кодирование с линейным прогнозированием ( LPC ) — это метод, используемый в основном при аудиосигналов и обработке речи для представления огибающей спектра цифрового обработке сигнала речи форме в сжатой с использованием информации модели линейного прогнозирования . [1] [2]

LPC — наиболее широко используемый метод кодирования и синтеза речи . Это мощный метод анализа речи и полезный метод кодирования речи хорошего качества с низкой скоростью передачи данных .

Обзор [ править ]

LPC начинается с предположения, что речевой сигнал создается зуммером на конце трубки (для звонких звуков) с периодическими добавлением шипящих и хлопающих звуков (для глухих звуков, таких как свистящие и взрывные звуки ). кажется грубой, Хотя эта модель «источник-фильтр» на самом деле она является близким приближением к реальности производства речи. Голосовая щель (пространство между голосовыми связками) производит жужжание, которое характеризуется интенсивностью ( громкостью ) и частотой (высотой звука). Голосовой тракт (горло и рот) образует трубку, для которой характерны резонансы; эти резонансы порождают форманты или расширенные полосы частот в производимом звуке. Шипение и хлопки возникают в результате действия языка, губ и горла во время свистящих и взрывных звуков.

LPC анализирует речевой сигнал, оценивая форманты, удаляя их влияние из речевого сигнала и оценивая интенсивность и частоту оставшегося жужжания. Процесс удаления формант называется обратной фильтрацией, а оставшийся сигнал после вычитания отфильтрованного моделируемого сигнала называется остатком.

Числа, описывающие интенсивность и частоту жужжания, форманты и остаточный сигнал, могут храниться или передаваться куда-то еще. LPC синтезирует речевой сигнал, обращая процесс: используйте параметры жужжания и остаток для создания исходного сигнала, используйте форманты для создания фильтра (который представляет трубку) и пропускайте источник через фильтр, в результате чего получается речь.

Поскольку речевые сигналы изменяются со временем, этот процесс выполняется на коротких фрагментах речевого сигнала, которые называются кадрами; обычно от 30 до 50 кадров в секунду обеспечивают разборчивость речи с хорошим сжатием.

Ранняя история [ править ]

Линейное предсказание (оценка сигнала) восходит как минимум к 1940-м годам, когда Норберт Винер разработал математическую теорию расчета лучших фильтров и предикторов для обнаружения сигналов, скрытых в шуме. [3] [4] Вскоре после того, как Клод Шеннон создал общую теорию кодирования , работу по предиктивному кодированию провел Ч. Чапин Катлер , [5] Бернард М. Оливер [6] и Генри К. Харрисон. [7] Питер Элиас в 1955 году опубликовал две статьи по прогнозирующему кодированию сигналов. [8] [9]

Линейные предсказатели независимо применялись к анализу речи Фумитадой Итакурой из Нагойского университета и Сюдзо Сайто из Nippon Telegraph and Telephone в 1966 году и в 1967 году Бишну С. Аталом , Манфредом Р. Шредером и Джоном Бургом. Итакура и Сайто описали статистический подход, основанный на оценке максимального правдоподобия ; Атал и Шредер описали подход адаптивного линейного прогнозирования ; Бург изложил подход, основанный на принципе максимальной энтропии . [4] [10] [11] [12]

В 1969 году Итакура и Сайто представили метод, основанный на частичной корреляции (PARCOR), Глен Каллер предложил кодирование речи в реальном времени, а Бишну С. Атал представил кодер речи LPC на ежегодном собрании Акустического общества Америки . В 1971 году LPC в реальном времени с использованием 16-битного продемонстрировала компания Philco-Ford оборудования LPC ; было продано четыре единицы. [13] Технология LPC была разработана Бишну Аталом и Манфредом Шредером в 1970–1980-х годах. [13] В 1978 году Атал и Вишванат и др. из BBN разработали первый алгоритм LPC с переменной скоростью . [13] В том же году Атал и Манфред Р. Шредер LPC из Bell Labs предложили речевой кодек , называемый адаптивным прогнозирующим кодированием , который использовал алгоритм психоакустического кодирования, использующий маскирующие свойства человеческого уха. [14] [15] Позже это стало основой для техники перцептивного кодирования , используемой в MP3 формате сжатия звука , представленном в 1993 году. [14] Линейное предсказание с кодовым возбуждением (CELP) было разработано Шредером и Аталом в 1985 году. [16]

LPC является основой технологии передачи голоса по IP (VoIP). [13] В 1972 году Боб Кан из ARPA вместе с Джимом Форги из лаборатории Линкольна (LL) и Дэйвом Уолденом из BBN Technologies начали первые разработки в области пакетной речи, которые в конечном итоге привели к технологии передачи голоса по IP. Согласно неофициальной истории Лаборатории Линкольна, в 1973 году реального времени со скоростью 2400 бит / с Эд Хофстеттер реализовал первый LPC . В 1974 году была осуществлена ​​первая двусторонняя пакетная речевая связь LPC в режиме реального времени через ARPANET на скорости 3500 бит/с между Каллером-Харрисоном и лабораторией Линкольна. В 1976 году первая конференция LPC прошла через ARPANET с использованием сетевого голосового протокола между Culler-Harrison, ISI, SRI и LL на скорости 3500 бит/с. [ нужна ссылка ] [ нужны разъяснения ]

LPC коэффициентов Представления

LPC часто используется для передачи информации о спектральной огибающей, и поэтому он должен быть устойчив к ошибкам передачи. Передача коэффициентов фильтра напрямую (определение коэффициентов см . в линейном предсказании ) нежелательна, поскольку они очень чувствительны к ошибкам. Другими словами, очень маленькая ошибка может исказить весь спектр или, что еще хуже, небольшая ошибка может сделать фильтр прогнозирования нестабильным.

Существуют более сложные представления, такие как коэффициенты логарифмических площадей (LAR), разложение по линейным спектральным парам (LSP) и коэффициенты отражения . Из них особенно приобрела популярность разложение LSP, поскольку оно обеспечивает стабильность предиктора, а спектральные ошибки являются локальными при небольших отклонениях коэффициентов.

Приложения [ править ]

LPC — наиболее широко используемый метод кодирования и синтеза речи . [17] Обычно он используется для анализа и повторного синтеза речи. Он используется телефонными компаниями как форма сжатия голоса, например, в стандарте GSM . Он также используется для безопасной беспроводной связи, где голос необходимо оцифровать , зашифровать и отправить по узкому голосовому каналу; принадлежащий правительству США Ранним примером этого является навахо I, .

Синтез LPC можно использовать для создания вокодеров , в которых музыкальные инструменты используются в качестве сигнала возбуждения для изменяющегося во времени фильтра, оцениваемого на основе речи певца. Это довольно популярно в электронной музыке . Пол Лански сделал известное компьютерное музыкальное произведение не просто пустой болтовней, используя линейное предсказательное кодирование. [18] LPC 10-го порядка использовался в популярной обучающей игрушке 1980-х годов Speak & Spell .

Предикторы LPC используются в Shorten , MPEG-4 ALS , FLAC , SILK аудиокодеках и других без потерь аудиокодеках .

LPC привлек некоторое внимание как инструмент для тонального анализа скрипок и других струнных музыкальных инструментов. [19]

См. также [ править ]

Ссылки [ править ]

  1. ^ Дэн, Ли; Дуглас О'Шонесси (2003). Обработка речи: динамический и оптимизационно-ориентированный подход . Марсель Деккер . стр. 41–48. ISBN  978-0-8247-4040-5 .
  2. ^ Бейги, Хомайун (2011). Основы распознавания говорящего . Берлин: Springer Verlag. ISBN  978-0-387-77591-3 .
  3. ^ Б.С. Атал (2006). «История линейного предсказания» . Журнал обработки сигналов IEEE . 23 (2): 154–161. Бибкод : 2006ISPM...23..154A . дои : 10.1109/MSP.2006.1598091 . S2CID   15601493 .
  4. ^ Jump up to: Перейти обратно: а б Ю. Сасахира; С. Хашимото (1995). «Изменение высоты голоса с помощью метода линейного прогнозирующего кодирования для сохранения личного тембра певца» (PDF) . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  5. ^ US 2605361 , CC Cutler, «Дифференциальное квантование сигналов связи», опубликовано 29 июля 1952 г.  
  6. ^ Б. М. Оливер (1952). «Эффективное кодирование». 31 (4). Nokia Bell Labs: 724–750. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  7. ^ Х. К. Харрисон (1952). «Эксперименты с линейным предсказанием на телевидении». 31 . Технический журнал Bell System: 764–783. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  8. ^ П. Элиас (1955). «Прогнозирующее кодирование I». ИТ-1 нет. 1. ИРЭ Транс. Информ.Теория: 16–24. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  9. ^ П. Элиас (1955). «Прогнозирующее кодирование II». ИТ-1 нет. 1. ИРЭ Транс. Информ. Теория: 24–33. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  10. ^ С. Сайто; Ф. Итакура (январь 1967 г.). «Теоретическое рассмотрение статистического оптимального распознавания спектральной плотности речи». Дж. Акуст. Соц.Япония. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  11. ^ Б.С. Атал; М. Р. Шредер (1967). «Прогностическое кодирование речи». Конф. Связь и учеб. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  12. ^ Дж. П. Бург (1967). «Спектральный анализ максимальной энтропии». Протоколы 37-го собрания Общества разведочной геофизики, Оклахома-Сити. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  13. ^ Jump up to: Перейти обратно: а б с д Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN   1932-8346 . Архивировано (PDF) из оригинала 9 октября 2022 г.
  14. ^ Jump up to: Перейти обратно: а б Шредер, Манфред Р. (2014). «Лаборатории Белла» . Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Спрингер. п. 388. ИСБН  9783319056609 .
  15. ^ Атал, Б.; Шредер, М. (1978). «Прогнозирующее кодирование речевых сигналов и субъективные критерии ошибок». ИКАССП '78. Международная конференция IEEE по акустике, речи и обработке сигналов . Том. 3. С. 573–576. дои : 10.1109/ICASSP.1978.1170564 .
  16. ^ Шредер, Манфред Р .; Атал, Бишну С. (1985). «Линейное предсказание с кодовым возбуждением (CELP): высококачественная речь при очень низкой скорости передачи данных». ИКАССП '85. Международная конференция IEEE по акустике, речи и обработке сигналов . Том. 10. С. 937–940. дои : 10.1109/ICASSP.1985.1168147 . S2CID   14803427 .
  17. ^ Гупта, Шипра (май 2016 г.). «Применение MFCC для независимого распознавания текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и разработки программного обеспечения . 6 (5): 805–810 (806). ISSN   2277-128X . S2CID   212485331 . Архивировано из оригинала (PDF) 18 октября 2019 г. Проверено 18 октября 2019 г.
  18. ^ Лански, Пол. «Больше, чем пустая болтовня» . Архивировано из оригинала 24 декабря 2017 г. Проверено 2 июня 2024 г.
  19. ^ Тай, Хван-Чинг; Чунг, Дай-Тин (14 июня 2012 г.). «Скрипки Страдивари демонстрируют формантные частоты, напоминающие гласные, произносимые женщинами» . Журнал Савар . 1 (2).

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0ce2fcde27cd749fa8a0f24831f351af__1717324080
URL1:https://arc.ask3.ru/arc/aa/0c/af/0ce2fcde27cd749fa8a0f24831f351af.html
Заголовок, (Title) документа по адресу, URL1:
Linear predictive coding - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)