Jump to content

Голосовые вычисления

Amazon Echo , пример голосового компьютера

Голосовые вычисления — это дисциплина, которая разрабатывает аппаратное или программное обеспечение для обработки голосового ввода. [1]

Он охватывает многие другие области, включая взаимодействие человека и компьютера , разговорные вычисления , лингвистику , обработку естественного языка , автоматическое распознавание речи , синтез речи , аудиотехнику , цифровую обработку сигналов , облачные вычисления , науку о данных , этику , право и информационную безопасность .

Голосовые вычисления приобретают все большее значение в наше время, особенно с появлением интеллектуальных колонок , таких как Amazon Echo и Google Assistant , переходом к бессерверным вычислениям и повышением точности распознавания речи и моделей преобразования текста в речь .

Голосовые вычисления имеют богатую историю. [2] Во-первых, такие ученые, как Вольфганг Кемпелен, начали создавать речевые машины, способные воспроизводить самые ранние синтетические звуки речи. Это привело к дальнейшей работе Томаса Эдисона по записи звука с помощью диктофонов и его воспроизведению в корпоративных условиях. В 1950-1960-х годах были примитивные попытки построить автоматизированные распознавания речи системы компаниями Bell Labs , IBM и другими. Однако только в 1980-х годах, когда скрытые марковские модели были использованы для распознавания до 1000 слов, системы распознавания речи стали актуальными.

Дата Событие
1784 Вольфганг фон Кемпелен создает акустико-механическую речевую машину.
1879 Томас Эдисон изобретает первый диктофон .
1952 Bell Labs выпускает Audrey , способную распознавать произнесенные цифры с точностью 90%.
1962 IBM Shoebox может распознавать до 16 слов.
1971 Гарпия Создана , которая может понимать более 1000 слов.
1986 IBM Tangora использует скрытые модели Маркова для прогнозирования фонем в речи.
2006 Агентство национальной безопасности начинает исследование по обнаружению горячих слов во время обычных разговоров.
2008 Google запускает голосовое приложение, обеспечивающее распознавание речи на мобильных устройствах.
2011 Apple выпускает Siri на iPhone
2014 Amazon выпускает Amazon Echo, чтобы сделать голосовые вычисления актуальными для широкой публики.

Примерно в 2011 году Siri появилась на Apple iPhone как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому сдвигу в построении вычислительных архитектур, ориентированных на голос. PS4 была выпущена Sony в Северной Америке в 2013 году (70+ миллионов устройств), Amazon выпустила Amazon Echo в 2014 году (30+ миллионов устройств), Microsoft выпустила Cortana (2015 год — 400 миллионов пользователей Windows 10), Google выпустила Google Assistant (2016 год). — 2 миллиарда активных пользователей в месяц на телефонах Android), а Apple выпустила HomePod (2018 год — продано 500 000 устройств и 1 миллиард активных устройств с iOS/Siri). Эти изменения, наряду с достижениями в облачной инфраструктуре (например, Amazon Web Services ) и кодеках , укрепили сферу голосовых вычислений и сделали ее широко актуальной для широкой общественности.

Аппаратное обеспечение

[ редактировать ]

Голосовой компьютер — это аппаратное и программное обеспечение для обработки голосового ввода.

Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как, например, в традиционном Amazon Echo . В других вариантах осуществления традиционные портативные компьютеры или мобильные телефоны в качестве голосовых компьютеров можно использовать становится все больше интерфейсов для голосовых компьютеров . Более того, с появлением устройств с поддержкой Интернета вещей , например, в автомобилях или телевизорах, .

По состоянию на сентябрь 2018 года в настоящее время существует более 20 000 типов устройств, совместимых с Amazon Alexa. [3]

Программное обеспечение

[ редактировать ]

Программное обеспечение для голосовых вычислений может читать/записывать, записывать, очищать, шифровать/дешифровать, воспроизводить, перекодировать, транскрибировать, сжимать, публиковать, определять характеристики, моделировать и визуализировать голосовые файлы.

Вот несколько популярных пакетов программного обеспечения, связанных с голосовыми вычислениями:

Имя пакета Описание
FFmpeg для перекодирования аудиофайлов из одного формата в другой (например, .WAV --> .MP3). [4]
Мужество для записи и фильтрации звука. [5]
СоХ для управления аудиофайлами и удаления шума окружающей среды. [6]
Набор инструментов для естественного языка для включения в расшифровки таких вещей, как части речи . [7]
КнигаРОСА для визуализации спектрограмм аудиофайлов и выделения аудиофайлов. [8]
OpenSMILE для добавления в аудиофайлы таких вещей, как мел-частотные коэффициенты кепстра. [9]
КМУ Сфинкс для расшифровки речевых файлов в текст. [10]
Пититх3 для воспроизведения аудиофайлов (преобразование текста в речь). [11]
Пикриптодом для шифрования и дешифрования аудиофайлов. [12]
АудиоФлюкс для анализа аудио и музыки, извлечения признаков. [13]

Приложения

[ редактировать ]

Приложения для голосовых вычислений охватывают многие отрасли, включая голосовые помощники, здравоохранение, электронную коммерцию, финансы, цепочки поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, подбор персонала, облачные вычисления, микрофоны, динамики и подкастинг. По прогнозам, к 2025 году среднегодовой темп роста голосовых технологий составит 19–25%, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов. [14]

[ редактировать ]

В Соединенных Штатах в штатах действуют разные законы о записи телефонных разговоров . В некоторых штатах запись разговора разрешена с согласия только одной стороны, в других требуется согласие всех сторон.

Более того, COPPA является важным законом для защиты несовершеннолетних, использующих Интернет. В связи с увеличением числа несовершеннолетних, взаимодействующих с голосовыми вычислительными устройствами (например, Amazon Alexa), 23 октября 2017 года Федеральная торговая комиссия смягчила правило COPAA, чтобы дети могли выполнять голосовой поиск и команды. [15] [16]

Наконец, GDPR — это новый европейский закон, который регулирует право на забвение и многие другие положения для граждан ЕС. GDPR также четко дает понять, что компаниям необходимо определить четкие меры для получения согласия в случае создания аудиозаписей, а также определить цель и объем использования этих записей, например, в учебных целях. В соответствии с GDPR была повышена планка действительного согласия. Согласия должны быть добровольными, конкретными, информированными и недвусмысленными; молчаливого согласия уже недостаточно. [17]

Научные конференции

[ редактировать ]

Существует множество исследовательских конференций, связанных с голосовыми вычислениями. Некоторые из них включают в себя:

Сообщество разработчиков

[ редактировать ]

По состоянию на январь 2018 года Google Assistant имеет около 2000 действий. [22]

По состоянию на сентябрь 2018 года во всем мире насчитывается более 50 000 навыков Alexa. [23]

В июне 2017 года Google выпустила AudioSet. [24] крупномасштабная коллекция 10-секундных аудиоклипов, помеченных человеком, взятых из видеороликов YouTube. Он содержит 1 010 480 видео файлов человеческой речи, или в общей сложности 2 793,5 часа. [25] Он был выпущен в рамках конференции IEEE ICASSP 2017. [26]

В ноябре 2017 года Mozilla Foundation выпустила Common Voice Project — набор речевых файлов, который поможет внести вклад в более широкое сообщество машинного обучения с открытым исходным кодом. [27] [28] В настоящее время размер голосового банка составляет 12 ГБ, в нем содержится более 500 часов голосовых данных на английском языке, собранных из 112 стран с момента запуска проекта в июне 2017 года. [29] Этот набор данных уже привел к созданию творческих проектов, таких как модель DeepSpeech, модель транскрипции с открытым исходным кодом. [30]

См. также

[ редактировать ]
  1. ^ Швебель, Дж. (2018). Введение в голосовые вычисления на Python. Бостон; Сиэтл, Атланта: Лаборатории НейроЛекс. https://neurolex.ai/voicebook
  2. ^ Сроки распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
  3. ^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
  4. ^ FFmpeg. https://www.ffmpeg.org/
  5. ^ Смелость. https://www.audacityteam.org/
  6. ^ СоХ. http://sox.sourceforge.net/
  7. ^ НЛТК. https://www.nltk.org/
  8. ^ ЛибРОСА. https://librosa.github.io/librosa/
  9. ^ OpenSMILE. https://www.audeering.com/technology/opensmile/
  10. ^ «PocketSphinx — это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает и на настольных компьютерах: Cmusphinx/Pocketsphinx» . Гитхаб . 29 марта 2020 г.
  11. ^ Пыттсx3. https://github.com/nateshmbhat/pyttsx3
  12. ^ Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/
  13. ^ АудиоФлюкс. https://github.com/libAudioFlux/audioFlux/
  14. ^ Бизнесвайр. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
  15. ^ Техкранч. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
  16. ^ «Федеральный реестр::Запросить доступ» .
  17. ^ ПРИЛОЖЕНИЕ. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
  18. ^ Интерспич 2018. http://interspeech2018.org/
  19. ^ С 2018. http://avec2018.org/
  20. ^ 2018 ФГ. https://fg2018.cse.sc.edu/
  21. ^ ASCII 2019. http://acii-conf.org/2019/
  22. ^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
  23. ^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/ .
  24. ^ Google AudioSet. https://research.google.com/audioset/
  25. ^ Данные аудиосета. https://research.google.com/audioset/dataset/speech.html
  26. ^ Геммеке, Дж. Ф., Эллис, Д. П., Фридман, Д., Янсен, А., Лоуренс, В., Мур и Риттер, М. (2017, март). Набор аудио: онтология и набор данных, размеченных человеком, для аудиособытий. По акустике, речи и обработке сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776–780). IEEE.
  27. ^ Проект Common Voice. https://voice.mozilla.org/
  28. ^ Проект Common Voice. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
  29. ^ Большой репозиторий голосовых данных Mozilla определит будущее машинного обучения. https://opensource.com/article/18/4/common-voice
  30. ^ ДипСпич. https://github.com/mozilla/DeepSpeech
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d55e6abfd6501da146dfdb62516e63b2__1722325140
URL1:https://arc.ask3.ru/arc/aa/d5/b2/d55e6abfd6501da146dfdb62516e63b2.html
Заголовок, (Title) документа по адресу, URL1:
Voice computing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)