Голосовые вычисления

Голосовые вычисления — это дисциплина, которая разрабатывает аппаратное или программное обеспечение для обработки голосового ввода. ^[1]

Он охватывает многие другие области, включая взаимодействие человека и компьютера , разговорные вычисления , лингвистику , обработку естественного языка , автоматическое распознавание речи , синтез речи , аудиотехнику , цифровую обработку сигналов , облачные вычисления , науку о данных , этику , право и информационную безопасность .

Голосовые вычисления приобретают все большее значение в наше время, особенно с появлением интеллектуальных колонок , таких как Amazon Echo и Google Assistant , переходом к бессерверным вычислениям и повышением точности распознавания речи и моделей преобразования текста в речь .

История

Голосовые вычисления имеют богатую историю. ^[2] Во-первых, такие ученые, как Вольфганг Кемпелен, начали создавать речевые машины, способные воспроизводить самые ранние синтетические звуки речи. Это привело к дальнейшей работе Томаса Эдисона по записи звука с помощью диктофонов и его воспроизведению в корпоративных условиях. В 1950-1960-х годах были примитивные попытки построить автоматизированные распознавания речи системы компаниями Bell Labs , IBM и другими. Однако только в 1980-х годах, когда скрытые марковские модели были использованы для распознавания до 1000 слов, системы распознавания речи стали актуальными.

Дата	Событие
1784	Вольфганг фон Кемпелен создает акустико-механическую речевую машину.
1879	Томас Эдисон изобретает первый диктофон .
1952	Bell Labs выпускает Audrey , способную распознавать произнесенные цифры с точностью 90%.
1962	IBM Shoebox может распознавать до 16 слов.
1971	Гарпия Создана , которая может понимать более 1000 слов.
1986	IBM Tangora использует скрытые модели Маркова для прогнозирования фонем в речи.
2006	Агентство национальной безопасности начинает исследование по обнаружению горячих слов во время обычных разговоров.
2008	Google запускает голосовое приложение, обеспечивающее распознавание речи на мобильных устройствах.
2011	Apple выпускает Siri на iPhone
2014	Amazon выпускает Amazon Echo, чтобы сделать голосовые вычисления актуальными для широкой публики.

Примерно в 2011 году Siri появилась на Apple iPhone как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому сдвигу в построении вычислительных архитектур, ориентированных на голос. PS4 была выпущена Sony в Северной Америке в 2013 году (70+ миллионов устройств), Amazon выпустила Amazon Echo в 2014 году (30+ миллионов устройств), Microsoft выпустила Cortana (2015 год — 400 миллионов пользователей Windows 10), Google выпустила Google Assistant (2016 год). — 2 миллиарда активных пользователей в месяц на телефонах Android), а Apple выпустила HomePod (2018 год — продано 500 000 устройств и 1 миллиард активных устройств с iOS/Siri). Эти изменения, наряду с достижениями в облачной инфраструктуре (например, Amazon Web Services ) и кодеках , укрепили сферу голосовых вычислений и сделали ее широко актуальной для широкой общественности.

Аппаратное обеспечение

Голосовой компьютер — это аппаратное и программное обеспечение для обработки голосового ввода.

Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как, например, в традиционном Amazon Echo . В других вариантах осуществления традиционные портативные компьютеры или мобильные телефоны в качестве голосовых компьютеров можно использовать становится все больше интерфейсов для голосовых компьютеров . Более того, с появлением устройств с поддержкой Интернета вещей , например, в автомобилях или телевизорах, .

По состоянию на сентябрь 2018 года в настоящее время существует более 20 000 типов устройств, совместимых с Amazon Alexa. ^[3]

Программное обеспечение

Программное обеспечение для голосовых вычислений может читать/записывать, записывать, очищать, шифровать/дешифровать, воспроизводить, перекодировать, транскрибировать, сжимать, публиковать, определять характеристики, моделировать и визуализировать голосовые файлы.

Вот несколько популярных пакетов программного обеспечения, связанных с голосовыми вычислениями:

Имя пакета	Описание
FFmpeg	для перекодирования аудиофайлов из одного формата в другой (например, .WAV --> .MP3). ^[4]
Мужество	для записи и фильтрации звука. ^[5]
СоХ	для управления аудиофайлами и удаления шума окружающей среды. ^[6]
Набор инструментов для естественного языка	для включения в расшифровки таких вещей, как части речи . ^[7]
КнигаРОСА	для визуализации спектрограмм аудиофайлов и выделения аудиофайлов. ^[8]
OpenSMILE	для добавления в аудиофайлы таких вещей, как мел-частотные коэффициенты кепстра. ^[9]
КМУ Сфинкс	для расшифровки речевых файлов в текст. ^[10]
Пититх3	для воспроизведения аудиофайлов (преобразование текста в речь). ^[11]
Пикриптодом	для шифрования и дешифрования аудиофайлов. ^[12]
АудиоФлюкс	для анализа аудио и музыки, извлечения признаков. ^[13]

Приложения

Приложения для голосовых вычислений охватывают многие отрасли, включая голосовые помощники, здравоохранение, электронную коммерцию, финансы, цепочки поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, подбор персонала, облачные вычисления, микрофоны, динамики и подкастинг. По прогнозам, к 2025 году среднегодовой темп роста голосовых технологий составит 19–25%, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов. ^[14]

Юридические соображения

В Соединенных Штатах в штатах действуют разные законы о записи телефонных разговоров . В некоторых штатах запись разговора разрешена с согласия только одной стороны, в других требуется согласие всех сторон.

Более того, COPPA является важным законом для защиты несовершеннолетних, использующих Интернет. В связи с увеличением числа несовершеннолетних, взаимодействующих с голосовыми вычислительными устройствами (например, Amazon Alexa), 23 октября 2017 года Федеральная торговая комиссия смягчила правило COPAA, чтобы дети могли выполнять голосовой поиск и команды. ^[15]^[16]

Наконец, GDPR — это новый европейский закон, который регулирует право на забвение и многие другие положения для граждан ЕС. GDPR также четко дает понять, что компаниям необходимо определить четкие меры для получения согласия в случае создания аудиозаписей, а также определить цель и объем использования этих записей, например, в учебных целях. В соответствии с GDPR была повышена планка действительного согласия. Согласия должны быть добровольными, конкретными, информированными и недвусмысленными; молчаливого согласия уже недостаточно. ^[17]

Научные конференции

Существует множество исследовательских конференций, связанных с голосовыми вычислениями. Некоторые из них включают в себя:

Международная конференция по акустике, речи и обработке сигналов
Интерспич ^[18]
С ^[19]
Международная конференция IEEE. об автоматическом распознавании лиц и жестов ^[20]
ACII2019 8-я Международная конференция. по аффективным вычислениям и интеллектуальному взаимодействию ^[21]

Сообщество разработчиков

По состоянию на январь 2018 года Google Assistant имеет около 2000 действий. ^[22]

По состоянию на сентябрь 2018 года во всем мире насчитывается более 50 000 навыков Alexa. ^[23]

В июне 2017 года Google выпустила AudioSet. ^[24] крупномасштабная коллекция 10-секундных аудиоклипов, помеченных человеком, взятых из видеороликов YouTube. Он содержит 1 010 480 видео файлов человеческой речи, или в общей сложности 2 793,5 часа. ^[25] Он был выпущен в рамках конференции IEEE ICASSP 2017. ^[26]

В ноябре 2017 года Mozilla Foundation выпустила Common Voice Project — набор речевых файлов, который поможет внести вклад в более широкое сообщество машинного обучения с открытым исходным кодом. ^[27]^[28] В настоящее время размер голосового банка составляет 12 ГБ, в нем содержится более 500 часов голосовых данных на английском языке, собранных из 112 стран с момента запуска проекта в июне 2017 года. ^[29] Этот набор данных уже привел к созданию творческих проектов, таких как модель DeepSpeech, модель транскрипции с открытым исходным кодом. ^[30]

См. также

Ссылки

^ Швебель, Дж. (2018). Введение в голосовые вычисления на Python. Бостон; Сиэтл, Атланта: Лаборатории НейроЛекс. https://neurolex.ai/voicebook
^ Сроки распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
^ FFmpeg. https://www.ffmpeg.org/
^ Смелость. https://www.audacityteam.org/
^ СоХ. http://sox.sourceforge.net/
^ НЛТК. https://www.nltk.org/
^ ЛибРОСА. https://librosa.github.io/librosa/
^ OpenSMILE. https://www.audeering.com/technology/opensmile/
^ «PocketSphinx — это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает и на настольных компьютерах: Cmusphinx/Pocketsphinx» . Гитхаб . 29 марта 2020 г.
^ Пыттсx3. https://github.com/nateshmbhat/pyttsx3
^ Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/
^ АудиоФлюкс. https://github.com/libAudioFlux/audioFlux/
^ Бизнесвайр. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
^ Техкранч. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
^ «Федеральный реестр::Запросить доступ» .
^ ПРИЛОЖЕНИЕ. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
^ Интерспич 2018. http://interspeech2018.org/
^ С 2018. http://avec2018.org/
^ 2018 ФГ. https://fg2018.cse.sc.edu/
^ ASCII 2019. http://acii-conf.org/2019/
^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/ .
^ Google AudioSet. https://research.google.com/audioset/
^ Данные аудиосета. https://research.google.com/audioset/dataset/speech.html
^ Геммеке, Дж. Ф., Эллис, Д. П., Фридман, Д., Янсен, А., Лоуренс, В., Мур и Риттер, М. (2017, март). Набор аудио: онтология и набор данных, размеченных человеком, для аудиособытий. По акустике, речи и обработке сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776–780). IEEE.
^ Проект Common Voice. https://voice.mozilla.org/
^ Проект Common Voice. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
^ Большой репозиторий голосовых данных Mozilla определит будущее машинного обучения. https://opensource.com/article/18/4/common-voice
^ ДипСпич. https://github.com/mozilla/DeepSpeech

[1] Швебель, Дж. (2018). Введение в голосовые вычисления на Python. Бостон; Сиэтл, Атланта: Лаборатории НейроЛекс. https://neurolex.ai/voicebook

[2] Сроки распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf

[3] Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/

[4] FFmpeg. https://www.ffmpeg.org/

[5] Смелость. https://www.audacityteam.org/

[6] СоХ. http://sox.sourceforge.net/

[7] НЛТК. https://www.nltk.org/

[8] ЛибРОСА. https://librosa.github.io/librosa/

[9] OpenSMILE. https://www.audeering.com/technology/opensmile/

[10] «PocketSphinx — это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает и на настольных компьютерах: Cmusphinx/Pocketsphinx» . Гитхаб . 29 марта 2020 г.

[11] Пыттсx3. https://github.com/nateshmbhat/pyttsx3

[12] Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/

[13] АудиоФлюкс. https://github.com/libAudioFlux/audioFlux/

[14] Бизнесвайр. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast

[15] Техкранч. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/

[16] «Федеральный реестр::Запросить доступ» .

[17] ПРИЛОЖЕНИЕ. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/

[18] Интерспич 2018. http://interspeech2018.org/

[19] С 2018. http://avec2018.org/

[20] 2018 ФГ. https://fg2018.cse.sc.edu/

[21] ASCII 2019. http://acii-conf.org/2019/

[22] Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/

[23] Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/ .

[24] Google AudioSet. https://research.google.com/audioset/

[25] Данные аудиосета. https://research.google.com/audioset/dataset/speech.html

[26] Геммеке, Дж. Ф., Эллис, Д. П., Фридман, Д., Янсен, А., Лоуренс, В., Мур и Риттер, М. (2017, март). Набор аудио: онтология и набор данных, размеченных человеком, для аудиособытий. По акустике, речи и обработке сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776–780). IEEE.

[27] Проект Common Voice. https://voice.mozilla.org/

[28] Проект Common Voice. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/

[29] Большой репозиторий голосовых данных Mozilla определит будущее машинного обучения. https://opensource.com/article/18/4/common-voice

[30] ДипСпич. https://github.com/mozilla/DeepSpeech

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]