Голосовые вычисления
Голосовые вычисления — это дисциплина, которая разрабатывает аппаратное или программное обеспечение для обработки голосового ввода. [1]
Он охватывает многие другие области, включая взаимодействие человека и компьютера , разговорные вычисления , лингвистику , обработку естественного языка , автоматическое распознавание речи , синтез речи , аудиотехнику , цифровую обработку сигналов , облачные вычисления , науку о данных , этику , право и информационную безопасность .
Голосовые вычисления приобретают все большее значение в наше время, особенно с появлением интеллектуальных колонок , таких как Amazon Echo и Google Assistant , переходом к бессерверным вычислениям и повышением точности распознавания речи и моделей преобразования текста в речь .
История
[ редактировать ]Голосовые вычисления имеют богатую историю. [2] Во-первых, такие ученые, как Вольфганг Кемпелен, начали создавать речевые машины, способные воспроизводить самые ранние синтетические звуки речи. Это привело к дальнейшей работе Томаса Эдисона по записи звука с помощью диктофонов и его воспроизведению в корпоративных условиях. В 1950-1960-х годах были примитивные попытки построить автоматизированные распознавания речи системы компаниями Bell Labs , IBM и другими. Однако только в 1980-х годах, когда скрытые марковские модели были использованы для распознавания до 1000 слов, системы распознавания речи стали актуальными.
Дата | Событие |
---|---|
1784 | Вольфганг фон Кемпелен создает акустико-механическую речевую машину. |
1879 | Томас Эдисон изобретает первый диктофон . |
1952 | Bell Labs выпускает Audrey , способную распознавать произнесенные цифры с точностью 90%. |
1962 | IBM Shoebox может распознавать до 16 слов. |
1971 | Гарпия Создана , которая может понимать более 1000 слов. |
1986 | IBM Tangora использует скрытые модели Маркова для прогнозирования фонем в речи. |
2006 | Агентство национальной безопасности начинает исследование по обнаружению горячих слов во время обычных разговоров. |
2008 | Google запускает голосовое приложение, обеспечивающее распознавание речи на мобильных устройствах. |
2011 | Apple выпускает Siri на iPhone |
2014 | Amazon выпускает Amazon Echo, чтобы сделать голосовые вычисления актуальными для широкой публики. |
Примерно в 2011 году Siri появилась на Apple iPhone как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому сдвигу в построении вычислительных архитектур, ориентированных на голос. PS4 была выпущена Sony в Северной Америке в 2013 году (70+ миллионов устройств), Amazon выпустила Amazon Echo в 2014 году (30+ миллионов устройств), Microsoft выпустила Cortana (2015 год — 400 миллионов пользователей Windows 10), Google выпустила Google Assistant (2016 год). — 2 миллиарда активных пользователей в месяц на телефонах Android), а Apple выпустила HomePod (2018 год — продано 500 000 устройств и 1 миллиард активных устройств с iOS/Siri). Эти изменения, наряду с достижениями в облачной инфраструктуре (например, Amazon Web Services ) и кодеках , укрепили сферу голосовых вычислений и сделали ее широко актуальной для широкой общественности.
Аппаратное обеспечение
[ редактировать ]Голосовой компьютер — это аппаратное и программное обеспечение для обработки голосового ввода.
Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как, например, в традиционном Amazon Echo . В других вариантах осуществления традиционные портативные компьютеры или мобильные телефоны в качестве голосовых компьютеров можно использовать становится все больше интерфейсов для голосовых компьютеров . Более того, с появлением устройств с поддержкой Интернета вещей , например, в автомобилях или телевизорах, .
По состоянию на сентябрь 2018 года в настоящее время существует более 20 000 типов устройств, совместимых с Amazon Alexa. [3]
Программное обеспечение
[ редактировать ]Программное обеспечение для голосовых вычислений может читать/записывать, записывать, очищать, шифровать/дешифровать, воспроизводить, перекодировать, транскрибировать, сжимать, публиковать, определять характеристики, моделировать и визуализировать голосовые файлы.
Вот несколько популярных пакетов программного обеспечения, связанных с голосовыми вычислениями:
Имя пакета | Описание |
---|---|
FFmpeg | для перекодирования аудиофайлов из одного формата в другой (например, .WAV --> .MP3). [4] |
Мужество | для записи и фильтрации звука. [5] |
СоХ | для управления аудиофайлами и удаления шума окружающей среды. [6] |
Набор инструментов для естественного языка | для включения в расшифровки таких вещей, как части речи . [7] |
КнигаРОСА | для визуализации спектрограмм аудиофайлов и выделения аудиофайлов. [8] |
OpenSMILE | для добавления в аудиофайлы таких вещей, как мел-частотные коэффициенты кепстра. [9] |
КМУ Сфинкс | для расшифровки речевых файлов в текст. [10] |
Пититх3 | для воспроизведения аудиофайлов (преобразование текста в речь). [11] |
Пикриптодом | для шифрования и дешифрования аудиофайлов. [12] |
АудиоФлюкс | для анализа аудио и музыки, извлечения признаков. [13] |
Приложения
[ редактировать ]Приложения для голосовых вычислений охватывают многие отрасли, включая голосовые помощники, здравоохранение, электронную коммерцию, финансы, цепочки поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, подбор персонала, облачные вычисления, микрофоны, динамики и подкастинг. По прогнозам, к 2025 году среднегодовой темп роста голосовых технологий составит 19–25%, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов. [14]
Юридические соображения
[ редактировать ]В Соединенных Штатах в штатах действуют разные законы о записи телефонных разговоров . В некоторых штатах запись разговора разрешена с согласия только одной стороны, в других требуется согласие всех сторон.
Более того, COPPA является важным законом для защиты несовершеннолетних, использующих Интернет. В связи с увеличением числа несовершеннолетних, взаимодействующих с голосовыми вычислительными устройствами (например, Amazon Alexa), 23 октября 2017 года Федеральная торговая комиссия смягчила правило COPAA, чтобы дети могли выполнять голосовой поиск и команды. [15] [16]
Наконец, GDPR — это новый европейский закон, который регулирует право на забвение и многие другие положения для граждан ЕС. GDPR также четко дает понять, что компаниям необходимо определить четкие меры для получения согласия в случае создания аудиозаписей, а также определить цель и объем использования этих записей, например, в учебных целях. В соответствии с GDPR была повышена планка действительного согласия. Согласия должны быть добровольными, конкретными, информированными и недвусмысленными; молчаливого согласия уже недостаточно. [17]
Научные конференции
[ редактировать ]Существует множество исследовательских конференций, связанных с голосовыми вычислениями. Некоторые из них включают в себя:
- Международная конференция по акустике, речи и обработке сигналов
- Интерспич [18]
- С [19]
- Международная конференция IEEE. об автоматическом распознавании лиц и жестов [20]
- ACII2019 8-я Международная конференция. по аффективным вычислениям и интеллектуальному взаимодействию [21]
Сообщество разработчиков
[ редактировать ]По состоянию на январь 2018 года Google Assistant имеет около 2000 действий. [22]
По состоянию на сентябрь 2018 года во всем мире насчитывается более 50 000 навыков Alexa. [23]
В июне 2017 года Google выпустила AudioSet. [24] крупномасштабная коллекция 10-секундных аудиоклипов, помеченных человеком, взятых из видеороликов YouTube. Он содержит 1 010 480 видео файлов человеческой речи, или в общей сложности 2 793,5 часа. [25] Он был выпущен в рамках конференции IEEE ICASSP 2017. [26]
В ноябре 2017 года Mozilla Foundation выпустила Common Voice Project — набор речевых файлов, который поможет внести вклад в более широкое сообщество машинного обучения с открытым исходным кодом. [27] [28] В настоящее время размер голосового банка составляет 12 ГБ, в нем содержится более 500 часов голосовых данных на английском языке, собранных из 112 стран с момента запуска проекта в июне 2017 года. [29] Этот набор данных уже привел к созданию творческих проектов, таких как модель DeepSpeech, модель транскрипции с открытым исходным кодом. [30]
См. также
[ редактировать ]- Распознавание речи
- Обработка естественного языка
- Голосовой пользовательский интерфейс
- Аудиокодек
- Повсеместные вычисления
- Компьютеры без помощи рук
Ссылки
[ редактировать ]- ^ Швебель, Дж. (2018). Введение в голосовые вычисления на Python. Бостон; Сиэтл, Атланта: Лаборатории НейроЛекс. https://neurolex.ai/voicebook
- ^ Сроки распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
- ^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
- ^ FFmpeg. https://www.ffmpeg.org/
- ^ Смелость. https://www.audacityteam.org/
- ^ СоХ. http://sox.sourceforge.net/
- ^ НЛТК. https://www.nltk.org/
- ^ ЛибРОСА. https://librosa.github.io/librosa/
- ^ OpenSMILE. https://www.audeering.com/technology/opensmile/
- ^ «PocketSphinx — это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает и на настольных компьютерах: Cmusphinx/Pocketsphinx» . Гитхаб . 29 марта 2020 г.
- ^ Пыттсx3. https://github.com/nateshmbhat/pyttsx3
- ^ Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/
- ^ АудиоФлюкс. https://github.com/libAudioFlux/audioFlux/
- ^ Бизнесвайр. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
- ^ Техкранч. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
- ^ «Федеральный реестр::Запросить доступ» .
- ^ ПРИЛОЖЕНИЕ. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
- ^ Интерспич 2018. http://interspeech2018.org/
- ^ С 2018. http://avec2018.org/
- ^ 2018 ФГ. https://fg2018.cse.sc.edu/
- ^ ASCII 2019. http://acii-conf.org/2019/
- ^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
- ^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/ .
- ^ Google AudioSet. https://research.google.com/audioset/
- ^ Данные аудиосета. https://research.google.com/audioset/dataset/speech.html
- ^ Геммеке, Дж. Ф., Эллис, Д. П., Фридман, Д., Янсен, А., Лоуренс, В., Мур и Риттер, М. (2017, март). Набор аудио: онтология и набор данных, размеченных человеком, для аудиособытий. По акустике, речи и обработке сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776–780). IEEE.
- ^ Проект Common Voice. https://voice.mozilla.org/
- ^ Проект Common Voice. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
- ^ Большой репозиторий голосовых данных Mozilla определит будущее машинного обучения. https://opensource.com/article/18/4/common-voice
- ^ ДипСпич. https://github.com/mozilla/DeepSpeech