КМУ Сфинкс

Карманный сфинкс
Стабильная версия	5-преальфа / 5 августа 2015 г .; 8 лет назад
Написано в	С
Операционная система	Кросс-платформенный
Тип	Библиотека изображений
Лицензия	BSD-стиль
Веб-сайт	Кмусфинкс .github .что /неделя /

Сфинкс4
Стабильная версия	5-преальфа / 3 августа 2015 г .; 8 лет назад
Написано в	Ява
Операционная система	Кросс-платформенный
Тип	Библиотека изображений
Лицензия	BSD-стиль
Веб-сайт	Кмусфинкс .github .что /неделя /

CMU Sphinx , также сокращенно называемый Sphinx, — это общий термин для описания группы систем распознавания речи , разработанных в Университете Карнеги-Меллона . К ним относятся серия распознавателей речи (Sphinx 2 – 4) и тренажер акустических моделей (SphinxTrain).

В 2000 году группа Sphinx в Карнеги-Меллоне обязалась открыть исходный код нескольких компонентов распознавания речи, включая Sphinx 2 и более поздний Sphinx 3 (в 2001 году). Речевые декодеры поставляются с акустическими моделями и примерами приложений. Доступные ресурсы включают в себя, кроме того, программное обеспечение для обучения акустическим моделям, компиляцию языковых моделей и общедоступный словарь произношения cmudict .

Sphinx включает в себя ряд программных систем, описанных ниже.

Сфинкс

Sphinx — это система распознавания непрерывной речи, независимая от говорящего, использующая скрытые акустические модели Маркова ( HMM ) и статистическую языковую модель n-грамм . Его разработал Кай-Фу Ли . Sphinx продемонстрировал возможность непрерывной речи, независимого от говорящего распознавания большого словарного запаса, возможность которого в то время оспаривалась (1986). Сфинкс представляет только исторический интерес; его производительность была заменена последующими версиями. Архивная статья ^[2] подробно описывает систему.

Сфинкс 2

Быстрый, ориентированный на производительность распознаватель, первоначально разработанный Сюэдуном Хуаном из Карнеги-Меллона и выпущенный с открытым исходным кодом с лицензией в стиле BSD на SourceForge Кевином Лензо из LinuxWorld в 2000 году. Sphinx 2 ориентирован на распознавание в реальном времени, подходящее для приложений разговорного языка. . По существу, он включает в себя такие функции, как определение конечных точек, генерация частичных гипотез, динамическое переключение языковой модели и т. д. Он используется в диалоговых системах и системах изучения языка. Его можно использовать в компьютерных системах УАТС, таких как Asterisk . Код Sphinx 2 также был включен в ряд коммерческих продуктов. Он больше не находится в активной разработке (за исключением планового обслуживания). Текущая разработка декодера реального времени ведется в рамках проекта Pocket Sphinx . Архивная статья ^[3] описывает систему.

Сфинкс 3

В Sphinx 2 для акустического моделирования использовалось полунепрерывное представление (т. е. для всех моделей используется один набор гауссиан, а отдельные модели представлены в виде весового вектора над этими гауссианами). Sphinx 3 принял распространенное непрерывное представление HMM и использовался в основном для высокоточного распознавания не в реальном времени. Недавние разработки (в алгоритмах и аппаратном обеспечении) сделали Sphinx 3 «почти» реальным временем, хотя пока и не подходящим для критически важных интерактивных приложений. Sphinx 3 находится в активной разработке и в сочетании со SphinxTrain предоставляет доступ к ряду современных методов моделирования, таких как LDA/MLLT, MLLR и VTLN, которые повышают точность распознавания ( см. в статье «Распознавание речи описания этих методов »).

Сфинкс 4

Sphinx 4 — это полная переработка движка Sphinx с целью предоставления более гибкой среды для исследований в области распознавания речи, полностью написанной на языке программирования Java. Sun Microsystems поддержала разработку Sphinx 4 и внесла в проект свой опыт разработки программного обеспечения. Среди участников были сотрудники MERL, MIT и CMU . (В настоящее время поддерживаются следующие языки: C, C++, C#, Python, Ruby, Java и JavaScript.)

Текущие цели развития включают в себя:

разработка нового (акустической модели) тренажера
реализация адаптации динамиков (например, MLLR)
улучшение управления конфигурацией
создание графического пользовательского интерфейса для проектирования графической системы

КарманныйСфинкс

Версия Sphinx, которую можно использовать во встраиваемых системах (например, на базе процессора ARM ). PocketSphinx находится в стадии активной разработки и включает в себя такие функции, как арифметика с фиксированной запятой и эффективные алгоритмы вычислений GMM .

См. также

Ссылки

Внешние ссылки

Разработчики Sphinx теперь рекомендуют Vosk
Домашняя страница CMU Sphinx
Репозиторий Sphinx на GitHub следует считать окончательным источником кода.
SourceForge размещает старые версии и файлы.
NeXT в кампусе, осень 1990 г. (Этот документ представляет собой постскриптум, сжатый с помощью gzip.) Университет Карнеги-Меллона — Прорывы в распознавании речи и управлении документами , стр. 12-13

[1] ttp://www.speech.cs.cmu.edu/sphinx

[article-2] "lee_k_f_1990_1.pdf" (PDF) .

[huang1992-3] "huang92sphinxii.pdf" (PDF) .

[1]

[2]

[3]