Программное обеспечение для распознавания речи для Linux

По состоянию на начало 2000-х годов существовало несколько пакетов программного обеспечения для распознавания речи (SR) для Linux . Некоторые из них являются бесплатными программами с открытым исходным кодом , а другие являются проприетарным программным обеспечением . Распознавание речи обычно относится к программному обеспечению, которое пытается различить тысячи слов человеческого языка. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд на компьютер.

Распознавание речи в Linux

История

В конце 1990-х годов версия ViaVoice для Linux , созданная IBM , стала доступна пользователям бесплатно. бесплатного комплект разработки В 2002 году разработчик удалил программного обеспечения (SDK).

Статус разработки

В начале 2000-х годов возникла необходимость разработать высококачественный механизм распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи для Linux, таких как Mycroft , аналог Microsoft Cortana , но с открытым исходным кодом.

Образец речи краудсорсинг

Очень важно составить речевой корпус для создания акустических моделей для проектов по распознаванию речи . VoxForge — это хранилище корпусов свободной речи и акустических моделей, созданное для сбора транскрибированной речи для использования в проектах по распознаванию речи. VoxForge принимает краудсорсинговые образцы речи и исправления распознанных речевых последовательностей. Он распространяется по лицензии GNU General Public License (GPL).

Концепция распознавания речи

Первый шаг — начать запись аудиопотока на компьютере. У пользователя есть два основных варианта обработки:

Дискретное распознавание речи (DSR) — полностью обрабатывает информацию на локальном компьютере. Это относится к автономным системам, в которых все аспекты СР полностью выполняются на компьютере пользователя. Это становится критически важным для защиты интеллектуальной собственности (ИС) и предотвращения нежелательного наблюдения (2018 г.).
Удаленный или серверный SR — передает аудиоречевой файл на удаленный сервер для преобразования файла в файл текстовой строки. Благодаря новейшим схемам облачного хранения и интеллектуальному анализу данных этот метод позволяет легче осуществлять наблюдение, кражу информации и внедрение вредоносного ПО.

Раньше удаленное распознавание использовалось смартфонами , поскольку им не хватало производительности, оперативной памяти или памяти для обработки распознавания речи на телефоне. Эти ограничения в значительной степени преодолены, хотя серверный SR на мобильных устройствах остается универсальным.

Распознавание речи в браузере

Дискретное распознавание речи может выполняться в веб-браузере и хорошо работает с поддерживаемыми браузерами. Удаленный SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку в основном это серверная система с присущими ей проблемами безопасности, указанными выше.

Удаленно : служба диктовки записывает аудиодорожку пользователя через веб-браузер.
DSR : Некоторые решения работают только на клиенте, не отправляя данные на серверы.

Механизмы распознавания свободной речи

Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, а также основных собственных решений. Это не приложения для конечных пользователей. Это библиотеки программирования , которые можно использовать для разработки приложений для конечных пользователей.

CMU Sphinx — общий термин для описания группы систем распознавания речи, разработанных в Университете Карнеги-Меллон.
HTK — самое известное и широко используемое программное обеспечение для распознавания речи до Kaldi.
Julius — это высокопроизводительное двухпроходное программное обеспечение для декодера непрерывной речи с большим словарным запасом (LVCSR) для исследователей и разработчиков, связанных с речью.
Kaldi — это набор инструментов для распознавания речи, предоставляемый по лицензии Apache.
Mozilla DeepSpeech разрабатывает механизм преобразования речи в текст с открытым исходным кодом на основе исследования глубокой речи Baidu. ^[1]

VoxForge — это свободный речевой корпус и хранилище акустических моделей для механизмов распознавания речи с открытым исходным кодом.

Собственные механизмы распознавания речи

Janus Recognition Toolkit (JRTk) — это набор инструментов для распознавания речи с закрытым исходным кодом, в основном ориентированный на Linux, разработанный лабораториями Interactive Systems, разработанными в Университете Карнеги-Меллона и Технологическом институте Карлсруэ, для которого доступны коммерческие и исследовательские лицензии. ^[2]

Голосовое управление и сочетания клавиш

Распознавание речи обычно относится к программному обеспечению, которое пытается различить тысячи слов человеческого языка. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд на компьютер или устройство. Голосовое управление обычно требует гораздо меньшего словарного запаса и, следовательно, его гораздо проще реализовать.

Простое программное обеспечение в сочетании с сочетаниями клавиш обладает первым потенциалом практически точного голосового управления в Linux.

Запуск программного обеспечения для распознавания речи Windows в Linux

Через уровень совместимости

В Linux можно использовать такие программы, как Dragon NaturallySpeaking , используя Wine , хотя могут возникнуть некоторые проблемы, в зависимости от того, какая версия используется. ^[3]

Через виртуализированную Windows

Также можно использовать программное обеспечение для распознавания речи Windows под Linux. Используя бесплатное программное обеспечение для виртуализации , можно запускать Windows и NaturallySpeaking под Linux. VMware Server или VirtualBox поддерживают копирование и вставку на/с виртуальной машины, что позволяет легко переносить надиктованный текст на/с виртуальной машины.

См. также

Список программного обеспечения для распознавания речи
Руководство по речевому интерфейсу . Руководство по проектированию интерфейсов, управляемых человеческим голосом.

Ссылки

^ «Реализация TensorFlow архитектуры DeepSpeech от Baidu» . Мозилла. 05.12.2017 . Проверено 5 декабря 2017 г.
^ (IAR), Роддер, Маргит (26 января 2018 г.). «KIT – Набор инструментов для распознавания Януса» . isl.ira.uka.de. {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ «WineHQ – Дракон, естественно говорящий» . appdb.winehq.org .

Внешние ссылки

Доступность, распознавание речи – Справка Ubuntu

[1] «Реализация TensorFlow архитектуры DeepSpeech от Baidu» . Мозилла. 05.12.2017 . Проверено 5 декабря 2017 г.

[2] (IAR), Роддер, Маргит (26 января 2018 г.). «KIT – Набор инструментов для распознавания Януса» . isl.ira.uka.de. {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )

[3] «WineHQ – Дракон, естественно говорящий» . appdb.winehq.org .

[1]

[2]

[3]