Программное обеспечение для распознавания речи для Linux
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
По состоянию на начало 2000-х годов существовало несколько пакетов программного обеспечения для распознавания речи (SR) для Linux . Некоторые из них являются бесплатными программами с открытым исходным кодом , а другие являются проприетарным программным обеспечением . Распознавание речи обычно относится к программному обеспечению, которое пытается различить тысячи слов человеческого языка. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд на компьютер.
Распознавание речи в Linux
[ редактировать ]История
[ редактировать ]В конце 1990-х годов версия ViaVoice для Linux , созданная IBM , стала доступна пользователям бесплатно. бесплатного комплект разработки В 2002 году разработчик удалил программного обеспечения (SDK).
Статус разработки
[ редактировать ]В начале 2000-х годов возникла необходимость разработать высококачественный механизм распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи для Linux, таких как Mycroft , аналог Microsoft Cortana , но с открытым исходным кодом.
Образец речи краудсорсинг
[ редактировать ]Очень важно составить речевой корпус для создания акустических моделей для проектов по распознаванию речи . VoxForge — это хранилище корпусов свободной речи и акустических моделей, созданное для сбора транскрибированной речи для использования в проектах по распознаванию речи. VoxForge принимает краудсорсинговые образцы речи и исправления распознанных речевых последовательностей. Он распространяется по лицензии GNU General Public License (GPL).
Концепция распознавания речи
[ редактировать ]Первый шаг — начать запись аудиопотока на компьютере. У пользователя есть два основных варианта обработки:
- Дискретное распознавание речи (DSR) — полностью обрабатывает информацию на локальном компьютере. Это относится к автономным системам, в которых все аспекты СР полностью выполняются на компьютере пользователя. Это становится критически важным для защиты интеллектуальной собственности (ИС) и предотвращения нежелательного наблюдения (2018 г.).
- Удаленный или серверный SR — передает аудиоречевой файл на удаленный сервер для преобразования файла в файл текстовой строки. Благодаря новейшим схемам облачного хранения и интеллектуальному анализу данных этот метод позволяет легче осуществлять наблюдение, кражу информации и внедрение вредоносного ПО.
Раньше удаленное распознавание использовалось смартфонами , поскольку им не хватало производительности, оперативной памяти или памяти для обработки распознавания речи на телефоне. Эти ограничения в значительной степени преодолены, хотя серверный SR на мобильных устройствах остается универсальным.
Распознавание речи в браузере
[ редактировать ]Дискретное распознавание речи может выполняться в веб-браузере и хорошо работает с поддерживаемыми браузерами. Удаленный SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку в основном это серверная система с присущими ей проблемами безопасности, указанными выше.
- Удаленно : служба диктовки записывает аудиодорожку пользователя через веб-браузер.
- DSR : Некоторые решения работают только на клиенте, не отправляя данные на серверы.
Механизмы распознавания свободной речи
[ редактировать ]Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, а также основных собственных решений. Это не приложения для конечных пользователей. Это библиотеки программирования , которые можно использовать для разработки приложений для конечных пользователей.
- CMU Sphinx — общий термин для описания группы систем распознавания речи, разработанных в Университете Карнеги-Меллон.
- HTK — самое известное и широко используемое программное обеспечение для распознавания речи до Kaldi.
- Julius — это высокопроизводительное двухпроходное программное обеспечение для декодера непрерывной речи с большим словарным запасом (LVCSR) для исследователей и разработчиков, связанных с речью.
- Kaldi — это набор инструментов для распознавания речи, предоставляемый по лицензии Apache.
- Mozilla DeepSpeech разрабатывает механизм преобразования речи в текст с открытым исходным кодом на основе исследования глубокой речи Baidu. [1]
- VoxForge — это свободный речевой корпус и хранилище акустических моделей для механизмов распознавания речи с открытым исходным кодом.
Собственные механизмы распознавания речи
[ редактировать ]- Janus Recognition Toolkit (JRTk) — это набор инструментов для распознавания речи с закрытым исходным кодом, в основном ориентированный на Linux, разработанный лабораториями Interactive Systems, разработанными в Университете Карнеги-Меллона и Технологическом институте Карлсруэ, для которого доступны коммерческие и исследовательские лицензии. [2]
Голосовое управление и сочетания клавиш
[ редактировать ]Распознавание речи обычно относится к программному обеспечению, которое пытается различить тысячи слов человеческого языка. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд на компьютер или устройство. Голосовое управление обычно требует гораздо меньшего словарного запаса и, следовательно, его гораздо проще реализовать.
Простое программное обеспечение в сочетании с сочетаниями клавиш обладает первым потенциалом практически точного голосового управления в Linux.
Запуск программного обеспечения для распознавания речи Windows в Linux
[ редактировать ]Через уровень совместимости
[ редактировать ]В Linux можно использовать такие программы, как Dragon NaturallySpeaking , используя Wine , хотя могут возникнуть некоторые проблемы, в зависимости от того, какая версия используется. [3]
Через виртуализированную Windows
[ редактировать ]Также можно использовать программное обеспечение для распознавания речи Windows под Linux. Используя бесплатное программное обеспечение для виртуализации , можно запускать Windows и NaturallySpeaking под Linux. VMware Server или VirtualBox поддерживают копирование и вставку на/с виртуальной машины, что позволяет легко переносить надиктованный текст на/с виртуальной машины.
См. также
[ редактировать ]- Список программного обеспечения для распознавания речи
- Руководство по речевому интерфейсу . Руководство по проектированию интерфейсов, управляемых человеческим голосом.
Ссылки
[ редактировать ]- ^ «Реализация TensorFlow архитектуры DeepSpeech от Baidu» . Мозилла. 05.12.2017 . Проверено 5 декабря 2017 г.
- ^ (IAR), Роддер, Маргит (26 января 2018 г.). «KIT – Набор инструментов для распознавания Януса» . isl.ira.uka.de.
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ «WineHQ – Дракон, естественно говорящий» . appdb.winehq.org .