Jump to content

Программное обеспечение для распознавания речи для Linux

По состоянию на начало 2000-х годов существовало несколько пакетов программного обеспечения для распознавания речи (SR) для Linux . Некоторые из них являются бесплатными программами с открытым исходным кодом , а другие являются проприетарным программным обеспечением . Распознавание речи обычно относится к программному обеспечению, которое пытается различить тысячи слов человеческого языка. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд на компьютер.

Распознавание речи в Linux

[ редактировать ]

В конце 1990-х годов версия ViaVoice для Linux , созданная IBM , стала доступна пользователям бесплатно. бесплатного комплект разработки В 2002 году разработчик удалил программного обеспечения (SDK).

Статус разработки

[ редактировать ]

В начале 2000-х годов возникла необходимость разработать высококачественный механизм распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи для Linux, таких как Mycroft , аналог Microsoft Cortana , но с открытым исходным кодом.

Образец речи краудсорсинг

[ редактировать ]

Очень важно составить речевой корпус для создания акустических моделей для проектов по распознаванию речи . VoxForge — это хранилище корпусов свободной речи и акустических моделей, созданное для сбора транскрибированной речи для использования в проектах по распознаванию речи. VoxForge принимает краудсорсинговые образцы речи и исправления распознанных речевых последовательностей. Он распространяется по лицензии GNU General Public License (GPL).

Концепция распознавания речи

[ редактировать ]

Первый шаг — начать запись аудиопотока на компьютере. У пользователя есть два основных варианта обработки:

  • Дискретное распознавание речи (DSR) — полностью обрабатывает информацию на локальном компьютере. Это относится к автономным системам, в которых все аспекты СР полностью выполняются на компьютере пользователя. Это становится критически важным для защиты интеллектуальной собственности (ИС) и предотвращения нежелательного наблюдения (2018 г.).
  • Удаленный или серверный SR — передает аудиоречевой файл на удаленный сервер для преобразования файла в файл текстовой строки. Благодаря новейшим схемам облачного хранения и интеллектуальному анализу данных этот метод позволяет легче осуществлять наблюдение, кражу информации и внедрение вредоносного ПО.

Раньше удаленное распознавание использовалось смартфонами , поскольку им не хватало производительности, оперативной памяти или памяти для обработки распознавания речи на телефоне. Эти ограничения в значительной степени преодолены, хотя серверный SR на мобильных устройствах остается универсальным.

Распознавание речи в браузере

[ редактировать ]

Дискретное распознавание речи может выполняться в веб-браузере и хорошо работает с поддерживаемыми браузерами. Удаленный SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку в основном это серверная система с присущими ей проблемами безопасности, указанными выше.

  • Удаленно : служба диктовки записывает аудиодорожку пользователя через веб-браузер.
  • DSR : Некоторые решения работают только на клиенте, не отправляя данные на серверы.

Механизмы распознавания свободной речи

[ редактировать ]

Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, а также основных собственных решений. Это не приложения для конечных пользователей. Это библиотеки программирования , которые можно использовать для разработки приложений для конечных пользователей.

  • CMU Sphinx — общий термин для описания группы систем распознавания речи, разработанных в Университете Карнеги-Меллон.
  • HTK — самое известное и широко используемое программное обеспечение для распознавания речи до Kaldi.
  • Julius — это высокопроизводительное двухпроходное программное обеспечение для декодера непрерывной речи с большим словарным запасом (LVCSR) для исследователей и разработчиков, связанных с речью.
  • Kaldi — это набор инструментов для распознавания речи, предоставляемый по лицензии Apache.
  • Mozilla DeepSpeech разрабатывает механизм преобразования речи в текст с открытым исходным кодом на основе исследования глубокой речи Baidu. [1]
  • VoxForge — это свободный речевой корпус и хранилище акустических моделей для механизмов распознавания речи с открытым исходным кодом.

Собственные механизмы распознавания речи

[ редактировать ]

Голосовое управление и сочетания клавиш

[ редактировать ]

Распознавание речи обычно относится к программному обеспечению, которое пытается различить тысячи слов человеческого языка. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд на компьютер или устройство. Голосовое управление обычно требует гораздо меньшего словарного запаса и, следовательно, его гораздо проще реализовать.

Простое программное обеспечение в сочетании с сочетаниями клавиш обладает первым потенциалом практически точного голосового управления в Linux.

Запуск программного обеспечения для распознавания речи Windows в Linux

[ редактировать ]

Через уровень совместимости

[ редактировать ]

В Linux можно использовать такие программы, как Dragon NaturallySpeaking , используя Wine , хотя могут возникнуть некоторые проблемы, в зависимости от того, какая версия используется. [3]

Через виртуализированную Windows

[ редактировать ]

Также можно использовать программное обеспечение для распознавания речи Windows под Linux. Используя бесплатное программное обеспечение для виртуализации , можно запускать Windows и NaturallySpeaking под Linux. VMware Server или VirtualBox поддерживают копирование и вставку на/с виртуальной машины, что позволяет легко переносить надиктованный текст на/с виртуальной машины.

См. также

[ редактировать ]
  1. ^ «Реализация TensorFlow архитектуры DeepSpeech от Baidu» . Мозилла. 05.12.2017 . Проверено 5 декабря 2017 г.
  2. ^ (IAR), Роддер, Маргит (26 января 2018 г.). «KIT – Набор инструментов для распознавания Януса» . isl.ira.uka.de. {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
  3. ^ «WineHQ – Дракон, естественно говорящий» . appdb.winehq.org .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5932c9844f1ddb748e1894eb3bb09739__1678793160
URL1:https://arc.ask3.ru/arc/aa/59/39/5932c9844f1ddb748e1894eb3bb09739.html
Заголовок, (Title) документа по адресу, URL1:
Speech recognition software for Linux - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)