КМУ Сфинкс
В этой статье используются голые URL-адреса , которые неинформативны и уязвимы к порче ссылок . ( Август 2022 г. ) |
Стабильная версия | 5-преальфа / 3 августа 2015 г |
---|---|
Написано в | Ява |
Операционная система | Кросс-платформенный |
Тип | Библиотека изображений |
Лицензия | BSD-стиль [1] |
Веб-сайт | Кмусфинкс |
Стабильная версия | 5-преальфа / 5 августа 2015 г |
---|---|
Написано в | С |
Операционная система | Кросс-платформенный |
Тип | Библиотека изображений |
Лицензия | BSD-стиль |
Веб-сайт | Кмусфинкс |
CMU Sphinx , также сокращенно называемый Sphinx, — это общий термин для описания группы систем распознавания речи , разработанных в Университете Карнеги-Меллона . К ним относятся серия распознавателей речи (Sphinx 2 – 4) и тренажер акустических моделей (SphinxTrain).
В 2000 году группа Sphinx в Карнеги-Меллоне обязалась открыть исходный код нескольких компонентов распознавания речи, включая Sphinx 2 и более поздний Sphinx 3 (в 2001 году). Речевые декодеры поставляются с акустическими моделями и примерами приложений. Доступные ресурсы включают в себя, кроме того, программное обеспечение для обучения акустическим моделям, компиляцию языковых моделей и общедоступный словарь произношения cmudict .
Sphinx включает в себя ряд программных систем, описанных ниже.
Сфинкс
[ редактировать ]Sphinx — это система распознавания непрерывной речи, независимая от говорящего, использующая скрытые акустические модели Маркова ( HMM ) и статистическую языковую модель n-грамм . Его разработал Кай-Фу Ли . Sphinx продемонстрировал возможность непрерывной речи, независимого от говорящего распознавания большого словарного запаса, возможность которого в то время оспаривалась (1986). Сфинкс представляет только исторический интерес; его производительность была заменена последующими версиями. Архивная статья [2] подробно описывает систему.
Сфинкс 2
[ редактировать ]Быстрый, ориентированный на производительность распознаватель, первоначально разработанный Сюэдуном Хуаном из Карнеги-Меллона и выпущенный с открытым исходным кодом с лицензией в стиле BSD на SourceForge Кевином Лензо из LinuxWorld в 2000 году. Sphinx 2 ориентирован на распознавание в реальном времени, подходящее для приложений разговорного языка. . По существу, он включает в себя такие функции, как определение конечных точек, генерация частичных гипотез, динамическое переключение языковой модели и т. д. Он используется в диалоговых системах и системах изучения языка. Его можно использовать в компьютерных системах УАТС, таких как Asterisk . Код Sphinx 2 также был включен в ряд коммерческих продуктов. Он больше не находится в активной разработке (за исключением планового обслуживания). Текущая разработка декодера реального времени ведется в рамках проекта Pocket Sphinx . Архивная статья [3] описывает систему.
Сфинкс 3
[ редактировать ]В Sphinx 2 для акустического моделирования использовалось полунепрерывное представление (т. е. для всех моделей используется один набор гауссиан, а отдельные модели представлены в виде весового вектора над этими гауссианами). Sphinx 3 принял распространенное непрерывное представление HMM и использовался в основном для высокоточного распознавания не в реальном времени. Недавние разработки (в алгоритмах и аппаратном обеспечении) сделали Sphinx 3 «почти» реальным временем, хотя пока и не подходящим для критически важных интерактивных приложений. Sphinx 3 находится в активной разработке и в сочетании со SphinxTrain предоставляет доступ к ряду современных методов моделирования, таких как LDA/MLLT, MLLR и VTLN, которые повышают точность распознавания ( см. в статье «Распознавание речи описания этих методов »).
Сфинкс 4
[ редактировать ]Sphinx 4 — это полная переработка движка Sphinx с целью предоставления более гибкой среды для исследований в области распознавания речи, полностью написанной на языке программирования Java. Sun Microsystems поддержала разработку Sphinx 4 и внесла в проект свой опыт разработки программного обеспечения. Среди участников были сотрудники MERL, MIT и CMU . (В настоящее время поддерживаются следующие языки: C, C++, C#, Python, Ruby, Java и JavaScript.)
Текущие цели развития включают в себя:
- разработка нового (акустической модели) тренажера
- реализация адаптации динамиков (например, MLLR)
- улучшение управления конфигурацией
- создание графического пользовательского интерфейса для проектирования графической системы
КарманныйСфинкс
[ редактировать ]Версия Sphinx, которую можно использовать во встраиваемых системах (например, на базе процессора ARM ). PocketSphinx находится в стадии активной разработки и включает в себя такие функции, как арифметика с фиксированной запятой и эффективные алгоритмы вычислений GMM .
См. также
[ редактировать ]- Программное обеспечение для распознавания речи для Linux
- Список программного обеспечения для распознавания речи
- Проект СЛУШАЙТЕ
Ссылки
[ редактировать ]- ^ http://www.speech.cs.cmu.edu/sphinx
- ^ "lee_k_f_1990_1.pdf" (PDF) .
- ^ "huang92sphinxii.pdf" (PDF) .
Внешние ссылки
[ редактировать ]- Разработчики Sphinx теперь рекомендуют Vosk
- Домашняя страница CMU Sphinx
- Репозиторий Sphinx на GitHub следует считать окончательным источником кода.
- SourceForge размещает старые версии и файлы.
- NeXT в кампусе, осень 1990 г. (Этот документ представляет собой постскриптум, сжатый с помощью gzip.) Университет Карнеги-Меллона — Прорывы в распознавании речи и управлении документами , стр. 12-13