Распознавание речи
Распознавание речи является междисциплинарным подполом компьютерной науки и вычислительной лингвистики , которая разрабатывает методологии и технологии, которые позволяют распознавать и переводить разговорного языка в текст компьютерами. Он также известен как автоматическое распознавание речи ( ASR ), распознавание речи компьютера или речь в тексте ( STT ). Он включает в себя знания и исследования в области компьютерных наук , лингвистики и компьютерной инженерии . Обратный процесс - это синтез речи .
Некоторые системы распознавания речи требуют «обучения» (также называемого «зачислением»), где отдельный динамик считывает текст или изолированный словарь в систему. Система анализирует конкретный голос человека и использует его для точной настройки признания речи этого человека, что приводит к повышению точности. Системы, которые не используют обучение, называются «независимыми от динамика» [ 1 ] система Системы, которые используют обучение, называются «зависимыми от динамика».
Приложения для распознавания речи включают интерфейсы голосового пользователя , такие как голосовой набор (например, «Call Home»), маршрутизацию вызова (например, «Я хотел бы сделать вызов сбора»), управление домотическим устройством, ключевые слова поиска (например, найдите подкаст, где конкретные слова слова были сказаны), простой ввод данных (например, ввод номер кредитной карты), подготовка структурированных документов (например, радиологический отчет), определение характеристик оратора, [ 2 ] Обработка речи к тексту (например, текстовые процессоры или электронные письма ) и самолет (обычно называемый прямой голосовой ввод ). Автоматическая оценка произношения используется в образовании, например, для изучения разговорного языка.
Термин распознание голоса [ 3 ] [ 4 ] [ 5 ] или идентификация динамика [ 6 ] [ 7 ] [ 8 ] относится к определению спикера, а не то, что они говорят. Признание говорящего может упростить задачу перевода речи в системах, которые были обучены голосу конкретного человека, или его можно использовать для аутентификации или проверки идентификации говорящего в рамках процесса безопасности.
С технологической точки зрения, распознавание речи имеет долгую историю с несколькими волнами крупных инноваций. Совсем недавно эта область выиграла от достижений в глубоком обучении и больших данных . Достижения свидетельствуют не только всплеск академических работ, опубликованных в этой области, но, что более важно, мировой отрасли внедрением различных методов глубокого обучения в разработке и развертывании систем распознавания речи.
История
[ редактировать ]Ключевыми областями роста были: размер словарного запаса, независимость динамика и скорость обработки.
До 1970 года
[ редактировать ]- 1952 - Три исследователи Bell Labs, Стивен Балашек, [ 9 ] Р. Биддульф и К.Х. Дэвис построили систему под названием «Одри» [ 10 ] Для распознавания цифр с одним ди-ди-ди-дивизией. Их система обнаружила формантов в спектре мощности каждого высказывания. [ 11 ]
- 1960 - Гуннар Фэнте разработал и опубликовал модель производства речи исходного фильтра .
- 1962 - IBM продемонстрировала возможность распознавания речи на 16 сложном «обувном ярмарке» на мировой ярмарке 1962 года . [ 12 ]
- 1966 - Линейное прогнозирующее кодирование (LPC), метод речевого кодирования , впервые был предложен Fumitada Itakura из Университета Нагоя и Шузо Сайто из Nippon Telegraph и телефона (NTT), работая над распознаванием речи. [ 13 ]
- 1969 - Финансирование в Bell Labs высушило в течение нескольких лет, когда в 1969 году влиятельный Джон Пирс написал открытое письмо, которое критиковало и оправдано исследования по распознаванию речи. [ 14 ] Это защищение длилось до тех пор, пока Пирс не ушел в отставку, и Джеймс Л. Фланаган вступил во владение.
Радж Редди принял постоянное признание речи в качестве аспиранта в Стэнфордском университете был первым человеком, который в конце 1960 -х годов . Предыдущие системы требовали, чтобы пользователи сделали паузу после каждого слова. Система Редди выпустила разговорные команды для игры в шахматы .
Примерно в это же время советские исследователи изобрели алгоритм динамического искажения времени (DTW) и использовали его для создания распознавателя, способного работать на словарном запасе 200 слов. [ 15 ] DTW обрабатывала речь, разделяя его на короткие рамки, например, 10 мс и обрабатывая каждый кадр как единый блок. Хотя DTW будет заменен более поздними алгоритмами, техника продолжалась. Достижение независимости спикера оставалось нерешенной в этот период времени.
1970–1990
[ редактировать ]- 1971 - DARPA финансировала пять лет за исследование по пониманию речи , исследования распознавания речи, в поисках минимального словаря 1000 слов. Они думали, речи что понимание будет ключом к достижению прогресса в распознавании речи , но это позже оказалось неправным. [ 16 ] BBN , IBM , Carnegie Mellon и Stanford Research Institute приняли участие в программе. [ 17 ] [ 18 ] Это возрожденное исследование по признанию речи после письма Джона Пирса.
- 1972 - Группа Acoustics, IEEE, речи и обработки сигналов провела конференцию в Ньютоне, штат Массачусетс.
- 1976 - Первый ICASSP был проведен в Филадельфии , которая с тех пор стала главным местом публикации исследований по распознаванию речи. [ 19 ]
В конце 1960 -х годов Леонард Баум разработал математику цепочек Маркова в Институте защиты . Десять лет спустя, в CMU, ученики Радж Редди Джеймс Бейкер и Джанет М. Бейкер начали использовать скрытую модель Маркова (HMM) для распознавания речи. [ 20 ] Джеймс Бейкер узнал о HMM с летней работы в анализе Института обороны во время обучения в бакалавриате. [ 21 ] Использование HMMS позволило исследователям объединить различные источники знаний, такие как акустика, язык и синтаксис, в единой вероятностной модели.
- К середине 1980-х годов команда IBM Fred Jelinek создала пишущую машинку Activerated Active Calling Tangora, которая может справиться с словарным запасом в 20 000 слов. [ 22 ] Статистический подход Jelinek уделяется меньше акцента на подражании тому, как человеческий мозг обрабатывает и понимает речь в пользу использования методов статистического моделирования, таких как HMMS. (Группа Jelinek независимо обнаружила применение HMM к речи. [ 21 ] ) Это было спорно с лингвистами, поскольку HMM слишком упрощены, чтобы объяснить многие общие черты человеческих языков. [ 23 ] Тем не менее, HMM оказался очень полезным способом для моделирования речи и заменил динамическое время, чтобы стать доминирующим алгоритмом распознавания речи в 1980 -х годах. [ 24 ] [ 25 ]
- 1982 - Dragon Systems, основанная Джеймсом и Джанет М. Бейкер , [ 26 ] был одним из немногих конкурентов IBM.
Практическое признание речи
[ редактировать ]1980-е годы также увидели модель языка N-грамма .
- 1987 - модель отступления позволила языковым моделям использовать несколько N-граммов и CSELT [ 27 ] использовал HMM для распознавания языков (как в программном обеспечении, так и в специализированных процессорах оборудования, например, RIPAC ).
Большая часть прогресса в этой области должна быть быстро растущей способности компьютеров. В конце программы DARPA в 1976 году лучшим компьютером, доступным для исследователей, был PDP-10 с 4 МБ оперативной памяти. [ 28 ] Это может занять до 100 минут, чтобы расшифровать всего 30 секунд речи. [ 29 ]
Два практических продукта были:
- 1984 - был выпущен абрикосовый портативный с поддержкой до 4096 слов, из которых только 64 может проводиться в оперативной памяти за раз. [ 30 ]
- 1987 - признание из Kurzweil Applied Intelligence
- 1990 - Dragon Dictate, потребительский продукт, выпущенный в 1990 году [ 31 ] [ 32 ] В 1992 году AT & T развернула службу обработки вызовов голоса в 1992 году для маршрутизации телефонных звонков без использования оператора человека. [ 33 ] Технология была разработана Лоуренсом Рабинером и другими в Bell Labs.
К этому моменту словарный запас типичной коммерческой системы распознавания речи был больше, чем обычный человеческий словарный запас. [ 28 ] Бывший студент Радж Редди, Xuedong Huang , разработал систему Sphinx-II в CMU. Система Sphinx-II была первой, кто сделал независимый от говорящего, большой словарный запас, непрерывное распознавание речи, и она имела наилучшее выступление в оценке DARPA 1992 года. Обработка непрерывной речи с большим словарным запасом стала важной вехой в истории распознавания речи. Далее Хуан в 1993 году основал группу распознавания речи в Microsoft. Студент Радж Редди Кай-Фу Ли присоединился к Apple, где в 1992 году он помог разработать прототип речевого интерфейса для компьютера Apple, известного как Casper.
Lernout & Hauspie , базирующаяся в Бельгии, компания по признанию речи, приобрела несколько других компаний, в том числе Kurzweil Applied Intelligence в 1997 году и Dragon Systems в 2000 году. Речевая технология L & H была использована в операционной системе Windows XP . L & H был лидером отрасли, пока в 2001 году скандал с бухгалтерским учетом не положил конец компании. Речевые технологии L & H были куплены Scansoft, которая стала нюансом в 2005 году. Первоначально Apple лицензировала программное обеспечение от Nuance, чтобы обеспечить возможности распознавания речи для своего цифрового помощника Siri . [ 34 ]
2000 -е годы
[ редактировать ]В 2000-х годах DARPA спонсировала две программы распознавания речи: эффективная доступная многоразовая речь в тексте (уши) в 2002 году и глобальная эксплуатация автономного языка (Gale). Четыре команды приняли участие в программе ушей: IBM , команда, возглавляемая BBN с Limsi и Univ. Питтсбург , Кембриджский университет и команда, состоящая из ICSI , SRI и Университета Вашингтона . Уши финансировали коллекцию телефонного речевого корпуса с коммутатором , содержащим 260 часов записанных разговоров из более чем 500 динамиков. [ 35 ] Программа Гейла была сосредоточена на арабском и мандаринском вещательном речи. . Первые усилия Google по распознаванию речи пришли в 2007 году после найма некоторых исследователей из Nuance [ 36 ] Первым продуктом был GOOG-411 , телефонная служба каталогов. Записи GOOG-411 создали ценные данные, которые помогли Google улучшить их системы распознавания. Google Voice Search теперь поддерживается на более чем 30 языках.
В Соединенных Штатах Агентство национальной безопасности использовало тип признания речи для определения ключевых слов как минимум 2006 года. [ 37 ] Эта технология позволяет аналитикам искать большие объемы записанных разговоров и изолят упоминаний о ключевых словах. Записи могут быть проиндексированы, и аналитики могут запускать запросы по базе данных, чтобы найти интересующие разговоры. Некоторые государственные исследовательские программы были сосредоточены на разведывании применения признания речи, программы EG DARPA's Ears и IARPA Babel программы .
В начале 2000 -х годов в распознавании речи все еще преобладали традиционные подходы, такие как скрытые модели Маркова в сочетании с искусственными нейронными сетями . [ 38 ] Однако сегодня многие аспекты распознавания речи были приняты с помощью глубокого метода обучения, называемого длинной кратковременной памятью (LSTM), повторяющейся нейронной сетью, опубликованной Sepp Hochreiter & Jürgen Schmidhuber в 1997 году. [ 39 ] LSTM RNN избегают проблемы с градиентом исчезновения и могут изучать задачи «очень глубокое обучение» [ 40 ] Это требуют воспоминаний о событиях, которые произошли тысячи дискретных времен, что важно для речи. Примерно в 2007 году LSTM обучен временной классификацией коннекционистской коннекционистской сети (CTC) [ 41 ] начал превосходить традиционное распознавание речи в определенных приложениях. [ 42 ] В 2015 году, как сообщается, в Google по распознаванию речи оказалось драматическим прыжком на 49% через LSTM, обученный CTC, который теперь доступен через Google Voice для всех пользователей смартфонов. [ 43 ] Трансформеры , тип нейронной сети, основанной исключительно на «внимании», широко использовались в компьютерном видении [ 44 ] [ 45 ] и языковое моделирование, [ 46 ] [ 47 ] вызвать интерес к адаптации таких моделей к новым областям, включая распознавание речи. [ 48 ] [ 49 ] [ 50 ] В некоторых недавних работах сообщалось о превосходных уровнях производительности с использованием трансформаторных моделей для распознавания речи, но эти модели обычно требуют крупномасштабных наборов учебных данных для достижения высоких уровней производительности.
Использование глубоководных (необычных) сетей для акустического моделирования было введено в более позднюю часть 2009 года Джеффри Хинтоном и его учениками в Университете Торонто и Ли Денгом [ 51 ] и коллеги из Microsoft Research, первоначально в совместной работе между Microsoft и Университетом Торонто, которая впоследствии была расширена, чтобы включить IBM и Google (следовательно, «общие взгляды четырех исследовательских групп» подзаголовок в их обзоре 2012 года). [ 52 ] [ 53 ] [ 54 ] Исследователь Microsoft Research назвал эту инновацию «самым драматичным изменением в точности с 1979 года». [ 55 ] В отличие от устойчивых постепенных улучшений последних нескольких десятилетий, применение глубокого обучения снизило частоту ошибок слова на 30%. [ 55 ] Это инновация была быстро принята по всей области. Исследователи также начали использовать методы глубокого обучения для языкового моделирования.
В долгой истории признания речи как мелкой формы, так и глубокой формы (например, рецидивирующих сети) искусственных нейронных сетей были изучены в течение многих лет в течение 1980 -х, 1990 -х и в течение нескольких лет до 2000 -х годов. [ 56 ] [ 57 ] [ 58 ] Но эти методы никогда не выигрывали из-за неравномерной технологии гауссовой модели смеси / скрытой модели Markov Model (GMM-HMM), основанной на генеративных моделях обученного речи дискриминационно. [ 59 ] Ряд ключевых трудностей был методологически проанализирован в 1990 -х годах, включая убывание градиента [ 60 ] и слабая временная корреляционная структура в нейронных моделях прогнозирования. [ 61 ] [ 62 ] Все эти трудности были в дополнение к отсутствию больших учебных данных и большой вычислительной мощности в эти первые дни. Большинство исследователей по признанию речи, которые понимали такие барьеры, следовательно, впоследствии отошли от нейронных сетей, чтобы использовать подходы к генеративному моделированию до недавнего возрождения глубокого обучения, начиная с 2009–2010 годов, которые преодолели все эти трудности. Hinton et al. и Deng et al. Просматривал часть этой недавней истории о том, как их сотрудничество друг с другом, а затем с коллегами по четырем группам (Университет Торонто, Microsoft, Google и IBM) зажгли эпохи Возрождения приложений глубоководных нейронных сетей для распознавания речи. [ 53 ] [ 54 ] [ 63 ] [ 64 ]
2010 -е
[ редактировать ]К началу распознавания речи , также называемого признанием голоса [ 65 ] [ 66 ] [ 67 ] был четко дифференцирован от признания спикеров , а независимость спикера считалась серьезным прорывом. До тех пор системы требовал «тренировочного» периода. Должность 1987 года для куклы носила слоган «Наконец -то, кукла, которая вас понимает». - Несмотря на то, что это было описано как «с которым дети могли тренироваться, чтобы ответить на свой голос». [ 12 ]
В 2017 году исследователи Microsoft достигли исторического человеческого паритета, связанной с транскрибированием разговорной телефона по широко сравниваемой задаче коммутатора. Многочисленные модели глубокого обучения использовались для оптимизации точности распознавания речи. Сообщалось, что уровень ошибок в распознавании речи составляет всего лишь 4 профессиональных человеческих транскриберов, работающих вместе на том же этапе, который финансировался речевой командой IBM Watson по одной и той же задаче. [ 68 ]
Модели, методы и алгоритмы
[ редактировать ]Как акустическое моделирование , так и языковое моделирование являются важными частями современных статистически основанных алгоритмов распознавания речи. Скрытые модели Маркова (HMMS) широко используются во многих системах. Языковое моделирование также используется во многих других приложениях по обработке естественного языка, таких как классификация документов или статистический машинный перевод .
Скрытые модели Маркова
[ редактировать ]Современные системы распознавания речи общего назначения основаны на скрытых моделях Маркова. Это статистические модели, которые выводят последовательность символов или величин. HMM используются при распознавании речи, потому что речевой сигнал можно рассматривать как кусочный стационарный сигнал или короткий стационарный сигнал. За короткие временной шкалы (например, 10 миллисекунд) речь может быть аппроксимирована в качестве стационарного процесса . Речь можно рассматривать как модель Маркова для многих стохастических целей.
Другая причина, по которой HMM популярны, заключается в том, что их можно обучать автоматически и просты и вычисляются в вычислительном отношении для использования. При распознавании речи, скрытая модель Маркова выведет последовательность n -мерных реальных векторов (с n , представляющим небольшое целое число, например, 10), выводя одну из них каждые 10 миллисекунд. Векторы будут состоять из коэффициентов Cepstral , которые получают путем преобразования Фурье из короткого времени речи и декореляции спектра с использованием косинусного преобразования , а затем принять первые (наиболее значимые) коэффициенты. Скрытая модель Маркова будет иметь тенденцию иметь в каждом состоянии статистическое распределение, которое представляет собой смесь диагональной ковариации гауссов, которая даст вероятность каждого наблюдаемого вектора. Каждое слово, или (для более общих систем распознавания речи), каждая фонема будет иметь различное распределение выводов; Скрытая модель Маркова для последовательности слов или фонем создается путем объединения отдельных подготовленных скрытых моделей Маркова для отдельных слов и фонем.
Описаны выше основные элементы наиболее распространенного подхода на основе HMM к распознаванию речи. Современные системы распознавания речи используют различные комбинации ряда стандартных методов, чтобы улучшить результаты по сравнению с основным подходом, описанным выше. Типичная система с крупной вокабуляцией потребует контекстной зависимости для фонем (так что фонемы с различным левым и правым контекстом будут иметь разные реализации, как состоящие HMM состояния); Он использовал бы нормализацию Cepstral для нормализации для другого динамика и условий записи; Для дальнейшей нормализации динамиков он может использовать нормализацию длины голосового тракта (VTLN) для нормализации мужчин и женского и максимального правдоподобия (MLLR) для более общей адаптации ораторов. Эти особенности будут иметь так называемые коэффициенты дельта и дельта-дельты для захвата динамики речи и, кроме того, могут использовать гетероскедастический линейный дискриминант (HLDA); или может пропустить коэффициенты дельты и дельта-дельта и использовать сплайсинг и Проекция на основе LDA с последующей гетероскедастическим линейным дискриминантным анализом или глобальным полузавитанным преобразованием CO (также известным как линейное преобразование максимального правдоподобия или MLLT). Многие системы используют так называемые дискриминационные методы обучения, которые распространяются с чисто статистическим подходом к оценке параметров HMM и вместо этого оптимизируют некоторые связанные с классификацией меру учебных данных. Примерами являются максимальная взаимная информация (MMI), минимальная ошибка классификации (MCE) и минимальная ошибка телефона (MPE).
Декодирование речи (термин для того, что происходит, когда система представлена с новым высказыванием и должно вычислить наиболее вероятное предложение исходного предложения), вероятно, будет использовать алгоритм Viterbi , чтобы найти лучший путь, и здесь есть выбор между динамическим созданием Комбинированная скрытая модель Маркова, которая включает в себя как акустическую информацию, так и языковую информацию и заранее объединяющую ее ( подход конечного состояния , или FST, подход).
Возможное улучшение декодирования состоит в том, чтобы сохранить набор хороших кандидатов вместо того, чтобы просто сохранить лучшего кандидата, и использовать лучшую функцию оценки ( повторное оценку ), чтобы оценить этих хороших кандидатов, чтобы мы могли выбрать лучший в соответствии с этой утонченной оценкой Полем Набор кандидатов может храниться либо в качестве списка ( подход N-лучшего списка ), либо в качестве подмножества моделей (решетчатая ) . Повторная оценка обычно выполняется, пытаясь свести к минимуму риск Байеса [ 69 ] (или его приближение) Вместо того, чтобы принять исходное предложение с максимальной вероятностью, мы стараемся принять предложение, которое минимизирует ожидаемую функцию данной потери в отношении всех возможных транскрипций (т.е. мы принимаем предложение, которое минимизирует среднее расстояние до Другие возможные предложения, взвешенные по их предполагаемой вероятности). Функция потерь, как правило, является расстоянием Левенштейна , хотя это может быть разным расстоянием для определенных задач; Набор возможных транскрипций, конечно, обрезан для поддержания управляемости. Эффективные алгоритмы были разработаны для RE RE -баллы с решающими, представленными в качестве взвешенных датчиков конечных состояний с отредактированными расстояниями, представленными как конечный преобразователь состояния, проверяющий определенные предположения. [ 70 ]
Динамическое деформация времени (DTW) распознавание речи на основе
[ редактировать ]Динамическое деформация времени-это подход, который исторически использовался для распознавания речи, но в настоящее время в значительной степени вытесняется более успешный подход на основе HMM.
Динамическое деформация времени является алгоритмом измерения сходства между двумя последовательностями, которые могут варьироваться со временем или скоростью. Например, сходство в схемах ходьбы было бы обнаружено, даже если в одном видео человек ходил медленно, и если в другом он или она ходили быстрее, или даже если были ускорения и замедление в течение одного наблюдения. DTW был применен к видео, аудио и графике - действительно, любые данные, которые можно превратить в линейное представление, могут быть проанализированы с помощью DTW.
Хорошо известным применением было автоматическое распознавание речи, чтобы справиться с различными скоростями разговоров. В целом, это метод, который позволяет компьютеру найти оптимальное соответствие между двумя данными последовательностями (например, временные ряды) с определенными ограничениями. То есть последовательности «деформированы» нелинейно, чтобы соответствовать друг другу. Этот метод выравнивания последовательности часто используется в контексте скрытых моделей Маркова.
Нейронные сети
[ редактировать ]Нейронные сети стали привлекательным подходом акустического моделирования в ASR в конце 1980 -х годов. С тех пор нейронные сети использовались во многих аспектах признания речи, таких как классификация фонем, [ 71 ] Классификация фонем с помощью многообъективных эволюционных алгоритмов, [ 72 ] изолированное распознавание слов, [ 73 ] Аудиовизуальное распознавание речи , аудиовизуальное распознавание спикеров и адаптация докладчиков.
Нейронные сети делают меньше явных предположений о статистических свойствах функций, чем HMM, и имеют несколько качеств, что делает их более привлекательными моделями распознавания для распознавания речи. При использовании для оценки вероятностей сегмента речевой функции нейронные сети позволяют естественным и эффективным образом дискриминационную подготовку. Однако, несмотря на их эффективность в классификации краткосрочных единиц, таких как отдельные фонемы и изолированные слова, [ 74 ] Ранние нейронные сети были редко успешными для задач непрерывного распознавания из -за их ограниченной способности моделировать временные зависимости.
Одним из подходов к этому ограничению было использование нейронных сетей в качестве предварительной обработки, преобразования признаков или уменьшения размерности, [ 75 ] Шаг перед распознаванием на основе HMM. Однако в последнее время LSTM и связанные с ними повторяющиеся нейронные сети (RNNS), [ 39 ] [ 43 ] [ 76 ] [ 77 ] Нейронные сети задержки времени (TDNN), [ 78 ] и трансформаторы [ 48 ] [ 49 ] [ 50 ] продемонстрировали улучшенную производительность в этой области.
Глубокий питательный и повторяющийся нейронные сети
[ редактировать ]Глубокие нейронные сети и разоблачение автоэкодоров [ 79 ] также находятся под следствием. Глубокая нейронная сеть (DNN) - это искусственная нейронная сеть с несколькими скрытыми уровнями единиц между входными и выходными слоями. [ 53 ] Подобно мелким нейронным сетям, DNN могут моделировать сложные нелинейные отношения. Архитектуры DNN генерируют композиционные модели, где дополнительные слои обеспечивают композицию функций из нижних слоев, обеспечивая огромную способность обучения и, следовательно, потенциал моделирования сложных моделей речевых данных. [ 80 ]
Успех DNNS в распознавании крупных словарных речи произошел в 2010 году промышленными исследователями, в сотрудничестве с академическими исследователями, где были приняты большие объемы производства DNN на основе контекста, зависимых от состояний HMM HMM, построенных в деревьях решений. [ 81 ] [ 82 ] [ 83 ] См. Комплексные обзоры этого развития и состояния искусства по состоянию на октябрь 2014 года в недавней книге Springer от Microsoft Research. [ 84 ] См. Также связанный с этим фон автоматического распознавания речи и влияние различных парадигм машинного обучения, в частности, включая глубокое обучение , в Недавние обзорные статьи. [ 85 ] [ 86 ]
Один фундаментальный принцип глубокого обучения -покончить с инженерной инженером с помощью ручной работы и использовать необработанные функции. Этот принцип был впервые успешно исследован в архитектуре глубокого автоэкодора на «необработанной» спектрограмме или линейных банках фильтра, [ 87 ] Показывая его превосходство по сравнению с мель-псельтизационными функциями, которые содержат несколько стадий фиксированного преобразования из спектрограмм. В последнее время было показано, что настоящие «сырые» особенности речи, формы волн, дают отличные более масштабные результаты распознавания речи. [ 88 ]
Сквозное автоматическое распознавание речи
[ редактировать ]С 2014 года существует большой исследовательский интерес к «сквозному» ASR. Традиционные подходы на основе фонетической основы (т. Е. Все подходы на основе HMM ) требовали отдельных компонентов и обучения для модели произношения, акустики и языка . Сквозные модели совместно изучают все компоненты распознавателя речи. Это полезно, поскольку он упрощает процесс обучения и процесс развертывания. Например, модель N-грамма , а типичная модель языка N-грамма часто принимает несколько гигабайт в памяти, что делает их непрактичным для развертывания на мобильных устройствах. для всех систем на основе HMM требуется [ 89 ] Следовательно, современные коммерческие системы ASR из Google и Apple (по состоянию на 2017 год [update]) развернуты в облаке и требуют сетевого соединения, а не устройства локально.
Первая попытка в конечном итоге ASR была с систем на основе височной классификации Conneciation (CTC), представленных Алексом Грейвсом из Google DeepMind и Navdeep Jaitly из Университета Торонто в 2014 году. [ 90 ] Модель состояла из повторяющихся нейронных сетей и слоя CTC. Совместно, модель RNN-CTC вместе изучает произношение и акустическую модель, однако она не способна изучить язык из-за условных предположений об независимости, аналогичных HMM. Следовательно, модели CTC могут напрямую научиться отображать акустику речи с английскими персонажами, но модели делают много общих орфографических ошибок и должны полагаться на отдельную языковую модель для очистки транскриптов. Позже Baidu расширил работу с чрезвычайно большими наборами данных и продемонстрировал некоторый коммерческий успех в китайском мандарине и английском языке. [ 91 ] В 2016 году Оксфордский университет представил Lipnet , [ 92 ] Первая сквозная модель губ на уровне предложений, использующая пространственно-временные совет, в сочетании с архитектурой RNN-CTC, превзойдя производительность на уровне человека в ограниченном наборе данных. [ 93 ] Крупномасштабная архитектура CNN-RNN-CTC была представлена в 2018 году Google DeepMind, достигнутым в 6 раз лучшей производительности, чем человеческие эксперты. [ 94 ]
Альтернативный подход к моделям на основе CTC-это модели на основе внимания. Модели ASR, основанные на внимании, были введены одновременно Chan et al. Университета Карнеги -Меллона и Google Brain и Bahdanau et al. Университета Монреаля в 2016 году. [ 95 ] [ 96 ] Модель под названием «Слушать, посещать и заклинание» (LAS), буквально «прослушивает» акустический сигнал, обращает «внимание» на разные части сигнала и «заклинания» из стенограммы по одному персонажу за раз. В отличие от моделей на основе CTC, модели, основанные на внимании, не имеют условной независимости и могут непосредственно изучать все компоненты распознавателя речи, включая модель произношения, акустики и языка. Это означает, что во время развертывания нет необходимости носить с собой языковую модель, что делает ее очень практичной для приложений с ограниченной памятью. К концу 2016 года модели, основанные на внимании, добились значительного успеха, включая превосходство моделей CTC (с моделью внешнего языка или без него). [ 97 ] Различные расширения были предложены с момента оригинальной модели LAS. Декомпозиции скрытых последовательностей (LSD) были предложены Университетом Карнеги-Меллона , MIT и Google Brain, чтобы непосредственно излучать подразделения подслов, которые более естественны, чем английские персонажи; [ 98 ] Оксфордский университет и Google DeepMind расширили LAS, чтобы «смотреть, слушать, посещать и заклинание» (WLAS), чтобы справиться с чтением губ, превосходящего производительность на уровне человека. [ 99 ]
Приложения
[ редактировать ]Автомобильные системы
[ редактировать ]Как правило, ручной вход управления, например, с помощью управления пальцами на рулевом колесе, позволяет систему распознавания речи, и это сигнализируется водителю с помощью аудиозребки. Следуя звуковой подсказке, система имеет «окно прослушивания», в течение которого она может принять речевой ввод для распознавания. [ Цитация необходима ]
Простые голосовые команды могут использоваться для инициирования телефонных звонков, выбора радиостанций или воспроизведения музыки со совместимого смартфона, MP3-плеер или флэш-диска, загруженного музыкой. Возможности распознавания голоса варьируются в зависимости от марки автомобиля и модели. Некоторые из самых последних [ когда? ] Автомобильные модели предлагают естественное распознавание речи вместо фиксированного набора команд, что позволяет водителю использовать полные предложения и общие фразы. Поэтому при таких системах нет необходимости запоминать набор фиксированных командных слов. [ Цитация необходима ]
Образование
[ редактировать ]Автоматическая оценка произношения - это использование распознавания речи, чтобы проверить правильность выраженной речи, [ 100 ] как отличается от ручной оценки инструктором или проктором. [ 101 ] Также называется проверкой речи, оценкой произношения и оценке произношения, основным применением этой технологии является компьютерное обучение произношению (капитан) в сочетании с компьютерной инструкцией для обучения языку с помощью компьютера (вызов), исправления речи или сокращения акцента Полем Оценка произношения не определяет неизвестную речь (как при диктовке или автоматической транскрипции вместо этого, зная ожидаемое слово (ы) но ) , [ 102 ] [ 103 ] иногда наряду с часто несущественной просодией, такой как интонация , высота , темп , ритм и стресс . [ 104 ] Оценка произношения также используется при чтении обучения , например, в таких продуктах, как команды Microsoft [ 105 ] и от Амиры обучения. [ 106 ] Автоматическая оценка произношения также может быть использована, чтобы помочь диагностировать и лечить речевые расстройства, такие как апраксия . [ 107 ]
Оценка подлинной разборчивости слушателя имеет важное значение для предотвращения неточностей от предвзятости акцента , особенно в оценках с высокими ставками; [ 108 ] [ 109 ] [ 110 ] от слов с несколькими правильными произношениями; [ 111 ] и из ошибок кодирования фонем в машиночитаемых словарях произношения. [ 112 ] В 2022 году исследователи обнаружили, что некоторые новые речи в текстовых системах, основанные на сквозном обучении подкреплению, чтобы отображать аудиосигналы непосредственно в словах, создают слова и фразы уверенности, очень тесно связанные с настоящей понятией слушателя. [ 113 ] В общей европейской структуре ссылки для языков (CEFR) критерии оценки для «общего фонологического контроля», разумность перевешивает формально правильное произношение на всех уровнях. [ 114 ]
Здравоохранение
[ редактировать ]Медицинская документация
[ редактировать ]В секторе здравоохранения распознавание речи может быть реализовано в переднем конце или в конце процесса медицинской документации. Распознавание речи переднего конца-это то, где провайдер диктует в двигатель распознавания речи, признанные слова отображаются по мере их провозглашения, а диктатор отвечает за редактирование и подписание документа. Бэк-энд или отложенное распознавание речи-это то, где поставщик диктует в систему цифровой диктовки , голос направляется через машину распознавания речи, а распознанный черновой документ направляется вместе с оригинальным голосовым файлом в редактор, где проект редактируется и сообщить о завершении. Отложенное распознавание речи широко используется в отрасли в настоящее время.
Одна из основных вопросов, связанных с использованием признания речи в здравоохранении, заключается в том, что Американский закон о восстановлении и реинвестировании 2009 года ( ARRA ) предоставляет существенные финансовые выгоды для врачей, которые используют EMR в соответствии с стандартами «значимого использования». Эти стандарты требуют, чтобы EMR поддерживался значительным объемом данных (теперь чаще всего называется электронной медицинской помощью или EHR). Использование распознавания речи более естественно подходит для генерации повествовательного текста, как часть радиологии/патологической интерпретации, примечания к прогрессу или резюме разрядов: эргономические выгоды от распознавания речи для ввода структурированных дискретных данных (например, числовые значения или коды Из списка или контролируемого словаря ) относительно минимальны для людей, которые зрятся и могут управлять клавиатурой и мышью.
Более важная проблема заключается в том, что большинство EHR не были явно адаптированы, чтобы воспользоваться преимуществами распознавания голоса. Большая часть взаимодействия клинициста с EHR включает навигацию через пользовательский интерфейс с использованием меню, а также нажатия вкладки/кнопки, и сильно зависит от клавиатуры и мыши: навигация на основе голоса обеспечивает только скромные эргономические преимущества. Напротив, многие высоко настраиваемые системы для радиологии или диктовки патологии реализуют голосовые «макросы», где использование определенных фраз - например, «нормальный отчет» автоматически заполняет большое количество значений по умолчанию и/или генерировать шаблон, который будет В зависимости от типа экзамена-например, рентгеновский рентгенов грудной клетки против желудочно-кишечного контраста для радиологической системы.
Терапевтическое использование
[ редактировать ]Длительное использование программного обеспечения для распознавания речи в сочетании с текстовыми процессорами показало преимущества для сокращения кратковременной памяти у пациентов с AVM мозга , которые получали лечение с резекцией . Необходимо провести дальнейшие исследования для определения когнитивных преимуществ для людей, чьи AVM были обработаны с использованием радиологических методов. [ Цитация необходима ]
Военный
[ редактировать ]Высокопроизводительные истребительные самолеты
[ редактировать ]В последнее десятилетие были посвящены существенным усилиям, чтобы испытать и оценку распознавания речи в истребительных самолетах . Особо следует отметить программу США по распознаванию речи для самолетов Advanced Fighter Technology Integration (AFTI) / F-16 ( F-16 Vista ), программы во Франции для самолетов Mirage и других программ в Великобритании, посвященных разнообразию авиационных платформ. В этих программах распознаватели речи успешно работали на самолетах истребителях, в том числе приложения, включая установку радиочастотных, командование системой автопилота, установление координатов по укреплению точек и параметров выпуска оружия и управление дисплеем полета.
Работая со шведскими пилотами, летящими в кабине GRIPEN JAS-39 , Englund (2004) обнаружил, что признание ухудшилось с увеличением G-загрузки . В отчете также пришло вывод, что адаптация значительно улучшила результаты во всех случаях и что введение моделей для дыхания было показано, что значительно улучшает показатели распознавания. Вопреки тому, что можно было ожидать, никаких последствий сломанного английского языка не было найдено. Было очевидно, что спонтанная речь вызвала проблемы для распознавателя, как и следовало ожидать. Таким образом, можно ожидать, что ограниченный словарный запас и, прежде всего, правильный синтаксис, существенно повысит точность распознавания. [ 115 ]
Eurofighter Typhoon , в настоящее время находится в эксплуатации в RAF в Великобритании , использует зависимую от динамики систему, требующая от каждого пилота создать шаблон. Система не используется для каких-либо критических или критически важных задач, таких как выпуск оружия или снижение ходовой части, но используется для широкого спектра других функций кабины. Голосовые команды подтверждаются визуальной и/или слуховой обратной связью. Система рассматривается как основная особенность проектирования при сокращении рабочей нагрузки пилота , [ 116 ] и даже позволяет пилоту назначать цели своему самолету с двумя простыми голосовыми командами или любому из его ведомого с пятью командами. [ 117 ]
Независимые от динамики системы также разрабатываются и находятся под тестированием для F35 Lightning II (JSF) и Alenia Aermacchi M-346 Master Lead-In Trainer. Эти системы дали показатели точности слова превышают 98%. [ 118 ]
Вертолеты
[ редактировать ]Проблемы достижения высокой точности распознавания при стрессе и шуме особенно актуальны в среде вертолета , а также в среде реактивных истребителей. Проблема акустического шума на самом деле более серьезна в вертолетной среде, не только из -за высоких уровней шума, но и потому, что пилот вертолета, как правило, не носит маски , что уменьшило бы акустический шум в микрофоне . За последнее десятилетие были проведены существенные программы тестирования и оценки в приложениях «Системы распознавания речи» на вертолетах, в частности, в области исследований и разработок армии США (Avrada) и королевского аэрокосмического учреждения ( RAE ) в Великобритании. Работа во Франции включала распознавание речи в вертолете Puma . также было много полезной работы В Канаде . Результаты были обнадеживающими, и голосовые приложения включали: управление радиосвязанными радиостанциями, настройки навигационных систем и управление автоматизированной системой передачи целей.
Как и в истребительных приложениях, перейти на голосовой выставке в вертолетах является влияние на эффективность пилота. Обнаружение результатов сообщается для тестов Avrada, хотя они представляют собой только осуществимость в тестовой среде. Многое еще предстоит сделать как при распознавании речи, так и в общих речевых технологиях , чтобы постоянно достичь улучшения производительности в операционных условиях.
Обучение воздушного движения
[ редактировать ]Обучение для авиадиспетчеров (ATC) представляет собой отличное применение для систем распознавания речи. Многие учебные системы ATC в настоящее время требуют, чтобы человек выступал в качестве «псевдо-пилота», ведущего голосовой диалог с контроллером стажера, который имитирует диалог, который контроллер должен был бы вести с пилотами в реальной ситуации с ATC. Методы распознавания речи и синтеза предоставляют потенциал для устранения необходимости, чтобы человек выступил в качестве псевдопилота, тем самым уменьшая обучение и вспомогательный персонал. Теоретически, задачи воздушного контроллера также характеризуются высоко структурированной речью как основной выход контроллера, следовательно, должно быть возможным снижение сложности задачи распознавания речи. На практике это редко бывает. В документе FAA 7110.65 подробно описывается фразы, которые должны использоваться контролсами воздушного движения. В то время как этот документ приводит менее 150 примеров таких фраз, количество фраз, поддерживаемые одной из систем распознавания речи и моделирования, превышает 500 000.
ВВС США, USMC, Армия США, ВМС США и ФАУ, а также ряд международных учебных организаций УВД, таких как власти Королевских австралийских военно -воздушных сил и гражданские авиации в Италии, Бразилии и Канаде, в настоящее время используют симуляторы УВД с признанием речи от речи от речи от ряд разных поставщиков. [ Цитация необходима ]
Телефония и другие домены
[ редактировать ]ASR в настоящее время является обычным явлением в области телефонии и становится все более распространенным в области компьютерных игр и моделирования. В телефонных системах ASR теперь преимущественно используется в контактных центрах, интегрируя его с системами IVR . Несмотря на высокий уровень интеграции с обработкой текста в общих персональных вычислениях, в области производства документов ASR не видел ожидаемого увеличения использования.
Улучшение скоростей мобильного процессора стало практичным в смартфонах . Речь используется в основном как часть пользовательского интерфейса для создания предопределенных или пользовательских речевых команд.
Люди с ограниченными возможностями
[ редактировать ]Люди с ограниченными возможностями могут извлечь выгоду из программ распознавания речи. Для людей, которые являются глухими или тяжелыми слушанием, программное обеспечение для распознавания речи используется для автоматического создания закрытых разговоров, таких как дискуссии в конференц-залах, лекции в классе и/или религиозных услуг. [ 119 ]
Студенты, которые слепы (см. Слезость и образование ) или имеют очень низкое зрение, могут извлечь выгоду из использования технологии для передачи слов, а затем услышать, как компьютер повторяет их, а также использовать компьютер, командуя своим голосом, вместо того, чтобы смотреть на экран и клавиатура. [ 120 ]
Учащиеся, которые физически инвалида имеют повторяющуюся травму напряжения /другие травмы верхних конечностей, могут быть освобождены от необходимости беспокоиться о почерке, печати или работы с писцом на школьных заданиях с помощью программ речи в тексте. Они также могут использовать технологию распознавания речи, чтобы насладиться поиском в Интернете или использованию компьютера дома без необходимости физического управления мышью и клавиатурой. [ 120 ]
Признание речи может позволить студентам с нарушениями обучения стать лучшими писателями. Сказав слова вслух, они могут увеличить плавность своего письма и ослабить опасения в отношении орфографии, пунктуации и других механиков письма. [ 121 ] Кроме того, см. Неспособность к обучению .
Использование программного обеспечения для распознавания голоса в сочетании с цифровым звуковым регистратором и персональным компьютером, управляющим программным обеспечением для обработки слов, оказалось положительным для восстановления поврежденной кратковременной емкости памяти, у инсульта и лиц краниотомии.
Распознавание речи также очень полезно для людей, которым трудно использовать свои руки, начиная от легких повторяющихся стрессовых травм до инвалидности, которые исключают с использованием обычных устройств ввода компьютера. На самом деле, люди, которые много использовали клавиатуру и разработали RSI, стали неотложным ранним рынком признания речи. [ 122 ] [ 123 ] Распознавание речи используется в глухих телефонии , такой как голосовая почта для текста, услуги эстафеты и подпись телефона . Люди с нарушениями обучения, у которых есть проблемы с общением с бумажкой (по сути, они думают об идее, но она обрабатывается неправильно, что приводит к тому, что она окажется по-разному на бумаге), могут извлечь выгоду из программного обеспечения, но технология не является доказательством ошибок. [ 124 ] Кроме того, вся идея говорить с текстом может быть трудной для интеллектуальных инвалидов из -за того, что редко кто -то пытается изучить технологию, чтобы научить человека инвалидности. [ 125 ]
Этот тип технологий может помочь людям с дислексией, но другие инвалидность все еще под вопросом. Эффективность продукта - это проблема, которая мешает его быть эффективной. Хотя ребенок может сказать слово в зависимости от того, насколько ясно, что они говорят, технология может подумать, что они говорят другое слово и вводят неправильное. Давая им больше работы, чтобы исправить, заставляя их уделять больше времени, исправляя неправильное слово. [ 126 ]
Дальнейшие приложения
[ редактировать ]- Аэрокосмическая (например, исследование космоса , космический корабль и т. Д.) Марс Поляр Ландер использовал технологию распознавания речи от Sensory, Inc. в Mars Microphone на Lander [ 127 ]
- Автоматическая субтитр с распознаванием речи
- Автоматическое распознавание эмоций [ 128 ]
- Автоматический список выстрелов в аудиовизуальном производстве
- Автоматический перевод
- Ediscovery (юридическое открытие)
- Комплект без громкой связи компьютера распознавания речи : пользовательский интерфейс
- Домашняя автоматизация
- Интерактивный голосовой ответ
- Мобильная телефония , включая мобильную электронную почту
- Мультимодальное взаимодействие [ 64 ]
- В реальном времени подпись [ 129 ]
- Робототехника
- Безопасность, включая использование с другими биометрическими сканерами для многофакторной аутентификации [ 130 ]
- Речь к тексту (транскрипция речи в текст, подписание видео в реальном времени , судебная отчетность)
- Телематика (например, навигационные системы транспортных средств)
- Транскрипция (цифровой речь в текст)
- Видеоигры с Тома Клэнси конечными и жизненными линиями в качестве рабочих примеров
- Виртуальный помощник (например, Siri's Apple )
Производительность
[ редактировать ]Производительность систем распознавания речи обычно оценивается с точки зрения точности и скорости. [ 131 ] [ 132 ] Точность обычно оценивается с частотой ошибок слова (WER), тогда как скорость измеряется с помощью фактора в реальном времени . Другие меры точности включают в себя частоту ошибок (SWER) и коэффициент успеха команды (CSR).
Однако распознавание речи машиной является очень сложной проблемой. Вокализации варьируются с точки зрения акцента, произношения, артикуляции, шероховатости, насательности, высоты, объема и скорости. Речь искажается фоновым шумом и эхо, электрическими характеристиками. Точность распознавания речи может варьироваться в зависимости от следующего: [ 133 ] [ Цитация необходима ]
- Размер словарного запаса и запутанность
- Зависимость от оратора против независимости
- Изолированная, прерывистая или непрерывная речь
- Задача и языковые ограничения
- Читать против спонтанной речи
- Неблагоприятные условия
Точность
[ редактировать ]Как упоминалось ранее в этой статье, точность распознавания речи может варьироваться в зависимости от следующих факторов:
- Частота ошибок увеличивается по мере роста размер словарного запаса:
- Например, 10 цифр «ноль» до «девять» могут быть признаны практически идеально, но размер словарного запаса 200, 5000 или 100000 может иметь частоту ошибок 3%, 7%или 45%соответственно.
- Словарь трудно распознать, если он содержит запутанные буквы:
- Например, 26 букв английского алфавита трудно различить, потому что они сбивают с толку слова (наиболее общеизвестно, E-Set: «B, C, D, E, G, P, T, V, z-когда« z » произносится «Zee», а не «ZED» в зависимости от английского региона); [ 134 ]
- Зависимость от говорящего против независимости:
- Зависимая от динамика система предназначена для использования одним динамиком.
- Независимая от динамика система предназначена для использования любым динамиком (сложнее).
- Изолированная, прерывистая или непрерывная речь
- При изолированной речи используются отдельные слова, поэтому становится легче распознать речь.
С использованием прерывистой речи полные предложения, разделенные тишиной, используются, поэтому становится легче распознавать речь как с изолированной речью.
С непрерывной речью используются естественные произнесенные предложения, поэтому становится все труднее распознавать речь, отличную от изолированной и прерывистой речи.
- Задача и языковые ограничения
- Например, заявление о запросе может отклонить гипотезу «Яблоко красное».
- Например, ограничения могут быть семантическими; отвергая «Яблоко злится».
- например, синтаксическая; отвергая "Red Is Apple".
Ограничения часто представлены грамматикой.
- Читайте против спонтанной речи - когда человек читает, это обычно находится в контексте, который был ранее подготовлен, но когда человек использует спонтанную речь, трудно распознать речь из -за недостатков (например, «UH» и «UM», Ложные запуска, неполные предложения, заикание, кашля и смех) и ограниченный словарный запас.
- Неблагоприятные условия - шум окружающей среды (например, шум в автомобиле или на заводе). Акустические искажения (например, эхо, комната акустика)
Распознавание речи-это многоуровневая задача распознавания образца.
- Акустические сигналы структурированы в иерархию единиц, например , фонемы , слова, фразы и предложения;
- Каждый уровень обеспечивает дополнительные ограничения;
Например, известные произношения слова или юридические последовательности слов, которые могут компенсировать ошибки или неопределенности на более низком уровне;
- Эта иерархия ограничений эксплуатируется. Благодаря вероятному объединению решений на всех более низких уровнях и принятии более детерминированных решений только на самом высоком уровне, распознавание речи машиной - это процесс, разбитый на несколько этапов. Вычислительно, это проблема, в которой звуковой шаблон должен быть распознан или классифицирован в категорию, которая представляет значение для человека. Каждый акустический сигнал может быть разбит на более мелкие более базовые подписание. Поскольку более сложный звуковой сигнал разбивается на более мелкие подсказки, создаются разные уровни, где на верхнем уровне у нас есть сложные звуки, которые изготовлены из более простых звуков на более низком уровне, и еще более низкие уровни, еще больше Мы создаем более простые и более короткие и более простые звуки. На самом низком уровне, где звуки являются наиболее фундаментальными, машина проверит простые и более вероятностные правила того, что должен представлять звук. Как только эти звуки составлены в более сложные звуки на верхнем уровне, новый набор более детерминированных правил должен предсказать, что должен представлять новый сложный звук. Самый верхний уровень детерминированного правила должен выяснить значение сложных выражений. Чтобы расширить наши знания о распознавании речи, мы должны учитывать нейронные сети. Существует четыре шага подходов нейронной сети:
- Оцифровать речь, которую мы хотим узнать
Для телефонной речи скорость отбора проб составляет 8000 образцов в секунду;
- Вычислять особенности спектральной области речи (с преобразованием Фурье);
вычисляется каждые 10 мс, с одним разделом 10 мс, называемой кадром;
Анализ четырехэтапных подходов нейронной сети может быть объяснен дополнительной информацией. Звук производится воздушной (или какой -то другой средней) вибрацией, которую мы регистрируемся по ушам, но машины по приемникам. Базовый звук создает волну, которая имеет два описания: амплитуда (насколько она сильна) и частота (как часто она вибрирует в секунду). Точность может быть рассчитана с помощью частоты ошибок слова (WER). Скорость ошибок слова может быть рассчитана путем выравнивания расположенного слова и ссылочного слова с использованием динамического выравнивания строки. Проблема может возникнуть при вычислении частоты ошибок слова из -за разницы между длиной последовательности расположенного слова и ссылочным словом.
Формула для вычисления частоты ошибок слова (WER):
Если S - количество замен, D - количество удалений, я - количество вставок, а n - количество ссылок на слова.
При вычислении используется скорость распознавания слова (WRR). Формула:
где h - количество правильно распознанных слов:
Проблемы безопасности
[ редактировать ]Распознавание речи может стать средством атаки, кражи или случайной работы. Например, активационные слова, такие как «Alexa», сказанные в аудио или видео, могут привести к тому, что устройства в домах и офисах начинают прислушиваться к вводу, или, возможно, предпринять нежелательные действия. [ 135 ] Устройства, контролируемые голосом, также доступны для посетителей здания или даже для тех, кто за пределами здания, если их можно услышать внутри. Злоумышленники могут получить доступ к личной информации, такой как календарь, содержимое адресной книги, частные сообщения и документы. Они также могут быть в состоянии выдать себя за пользователя отправлять сообщения или совершать покупки в Интернете.
Было продемонстрировано две атаки, которые используют искусственные звуки. Один передает ультразвук и пытается отправить команды без близлежащих людей. [ 136 ] Другой добавляет небольшие, неразборчивые искажения к другим речи или музыке, которые специально созданы, чтобы запутать конкретную систему распознавания речи в распознавании музыки в качестве речи, или для того, чтобы сделать то, что звучит как одна команда для человеческого звука, как иная команда для системы. [ 137 ]
Дополнительная информация
[ редактировать ]Конференции и журналы
[ редактировать ]Популярные конференции по признанию речи, проводимые каждый год или два, включают Speechtek и Speechtek Europe, ICASSP , Interspeech /Eurospeech и IEEE ASRU. Конференции в области обработки естественного языка , такие как ACL , NAACL , EMNLP и HLT, начинают включать документы по обработке речи . Важные журналы включают в себя транзакции IEEE по обработке речи и аудио (позже переименованные в транзакции IEEE по обработке аудио, речи и языка, а также с сентября 2014 года переименованные в транзакциях IEEE /ACM по аудио, речевой и языковой обработке - после слияния с публикацией ACM), Компьютерная речь и язык и речевое общение.
Книги
[ редактировать ]Книги, такие как «Основы признания речи» Лоуренса Рабинера, могут быть полезны для приобретения базовых знаний, но не могут быть полностью актуальны (1993). Другим хорошим источником может быть «статистические методы распознавания речи» Фредерика Джелинка и «Обработка разговорного языка (2001)» « Xuendong Huang и т. Д.», «Компьютерная речь», Манфред Р. Шредер , второе издание, опубликованное в 2004 году, и «Речь» Обработка: динамический и ориентированный на оптимизацию подход », опубликованный в 2003 году Ли Денгом и Дугом О'Шоннесси. Обновленная учебная речь и языковая обработка (2008) от Jurafsky и Martin представляет основы и состояние искусства для ASR. Распознавание динамиков также использует те же функции, большинство тех же самых методов обработки и классификации, что и в распознавании речи. Комплексный учебник «Основы распознавания говорящих» является глубоким источником для актуальных подробностей о теории и практике. [ 138 ] Хорошее понимание методов, используемых в лучших современных системах, может быть получено, обратив внимание на спонсируемые правительством оценки, такие как методы, организованные DARPA (крупнейший проект, связанный с признанием речи, продолжающийся по состоянию на 2007 год, который включает в себя распознавание речи и компоненты перевода).
Хорошее и доступное введение в технологию распознавания речи и ее историю предоставляется книгой общей аудитории «Голос в машине. Создание компьютеров, которые понимают речь» Роберто Пьераччини (2012).
Самая последняя книга о распознавании речи - автоматическое распознавание речи: подход глубокого обучения (издатель: Springer), написанный исследователями Microsoft D. Yu и L. Deng, и опубликованный ближе к концу 2014 года с высокой математически ориентированной технической детализацией о том, как глубокое обучение Методы получены и реализуются в современных системах распознавания речи на основе DNNS и связанных с ними методов глубокого обучения. [ 84 ] Связанная книга, опубликованная ранее в 2014 году, «Глубокое обучение: методы и приложения» Л. Дэн и Д. Ю предоставляют менее технический, но более ориентированный на методологию обзор распознавания речи на основе DNN в течение 2009–2014 гг. Общий контекст приложений глубокого обучения, включая не только распознавание речи, но и распознавание изображений, обработку естественного языка, поиск информации, мультимодальную обработку и многозадачное обучение. [ 80 ]
Программное обеспечение
[ редактировать ]С точки зрения свободно доступных ресурсов, Карнеги -Меллона Университета инструментарий - это одно место, где можно начать узнать о распознавании речи и начать экспериментирование. Другим ресурсом (свободным, но защищенным авторским правом) является книга HTK (и сопровождающий инструментарий HTK). Для более поздних и современных методов Kaldi Toolkit. можно использовать [ 139 ] В 2017 году Mozilla запустила проект с открытым исходным кодом под названием Common Voice [ 140 ] Чтобы собрать большую базу данных голосов, которые помогут создать проект по распознаванию свободы слова DeepSpeech (доступно бесплатно на Github ), [ 141 ] Использование платформы Google с открытым исходным кодом TensorFlow . [ 142 ] Когда Mozilla перенаправляла финансирование вдали от проекта в 2020 году, его первоначальные разработчики были раздвоены его первоначальными разработчиками в качестве Coqui Stt [ 143 ] Используя ту же лицензию с открытым исходным кодом. [ 144 ] [ 145 ]
Google Gboard поддерживает распознавание речи во всех Android приложениях . Он может быть активирован через микрофона значок . [ 146 ]
Коммерческие облачные API распознавания речи широко доступны.
Для получения дополнительных программных ресурсов см. Список программного обеспечения для распознавания речи .
Смотрите также
[ редактировать ]- У тебя есть эффект
- Альп
- Применение искусственного интеллекта
- Распознавание артикуляции речи
- Аудио добыча
- Аудиовизуальное распознавание речи
- Автоматический языковой переводчик
- Автомобильная головка
- Мозг
- Кеш -языковая модель
- Дракон естественно
- Технология голосования беглости
- Google Voice Search
- IBM Viavoice
- Ключевое место Spotting
- Kinect
- Мондегрин
- Поиск мультимедийной информации
- Происхождение речи
- Фонетический поиск технологии
- Диаризация спикера
- Признание спикера
- Речевая аналитика
- Руководство по интерфейсу речи
- Программное обеспечение для распознавания речи для Linux
- Синтез речи
- Проверка речи
- Субтитры (подписание)
- Voicexml
- Voxforge
- Узнавание речи Windows
- Списки
Ссылки
[ редактировать ]- ^ «Независимый докладчик, подключенное к распознаванию речи- Компьютерная корпорация пятого поколения» . Fifthgen.com. Архивировано с оригинала 11 ноября 2013 года . Получено 15 июня 2013 года .
- ^ П. Нгуен (2010). «Автоматическая классификация характеристик динамика». Международная конференция по коммуникациям и электронике 2010 . С. 147–152. doi : 10.1109/icce.2010.5670700 . ISBN 978-1-4244-7055-6 Полем S2CID 13482115 .
- ^ «Британское английское определение распознавания голоса» . Macmillan Publishers Limited. Архивировано из оригинала 16 сентября 2011 года . Получено 21 февраля 2012 года .
- ^ «Распознавание голоса, определение» . Webfinance, Inc. Архивирована из оригинала 3 декабря 2011 года . Получено 21 февраля 2012 года .
- ^ "Mailbag LG #114" . Linuxgazette.net. Архивировано из оригинала 19 февраля 2013 года . Получено 15 июня 2013 года .
- ^ Саранги, Сусанта; Сахидулла, доктор медицины; Саха, Гутам (сентябрь 2020 г.). «Оптимизация FilterBank, управляемого данными для автоматической проверки динамиков». Цифровая обработка сигнала . 104 : 102795. Arxiv : 2007.10729 . Bibcode : 2020DSP ... 10402795S . doi : 10.1016/j.dsp.2020.102795 . S2CID 220665533 .
- ^ Рейнольдс, Дуглас; Роуз, Ричард (январь 1995 г.). «Надежная идентификация динамиков, независимая от текста с использованием моделей гауссовых динамиков» (PDF) . IEEE транзакции по обработке речи и аудио . 3 (1): 72–83. doi : 10.1109/89.365379 . ISSN 1063-6676 . OCLC 26108901 . S2CID 7319345 . Архивировано (PDF) из оригинала 8 марта 2014 года . Получено 21 февраля 2014 года .
- ^ «Идентификация динамика (Whisperid)» . Microsoft Research . Microsoft. Архивировано из оригинала 25 февраля 2014 года . Получено 21 февраля 2014 года .
Когда вы говорите с кем -то, они не просто узнают, что вы говорите: они узнают, кто вы есть. WhisperID позволит компьютерам сделать это тоже, выяснив, кто вы есть, кстати, звучит.
- ^ «Некрологи: Стивен Балашек» . Звездный Леджер . 22 июля 2012 года. Архивировано с оригинала 4 апреля 2019 года . Получено 9 сентября 2024 года .
- ^ "IBM-SHOEBOX-FRONT.JPG" . AndroidAuthority.net. Архивировано с оригинала 9 августа 2018 года . Получено 4 апреля 2019 года .
- ^ Juang, BH; Рабинер, Лоуренс Р. «Автоматическое распознавание речи - краткая история развития технологий» (PDF) . п. 6. Архивированный (PDF) от оригинала 17 августа 2014 года . Получено 17 января 2015 года .
- ^ Jump up to: а беременный Мелани Пинола (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы оказались с Сири» . ПК Мир . Архивировано с оригинала 3 ноября 2018 года . Получено 22 октября 2018 года .
- ^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного прогнозирующего кодирования и интернет -протокола» (PDF) . Найденный. Тенденции сигнализирует процесс . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346 . Архивировано (PDF) из оригинала 9 октября 2022 года . Получено 9 сентября 2024 года .
- ^ Джон Р. Пирс (1969). "Куда признание речи?". Журнал Акустического общества Америки . 46 (48): 1049–1051. Bibcode : 1969asaj ... 46.1049p . doi : 10.1121/1.1911801 .
- ^ Бенистия, Джейкоб; Сондхи, мм; Huang, Yiteng (2008). Справочник Springer по обработке речи . Springer Science & Business Media. ISBN 978-3540491255 .
- ^ Джон Махул. «Призер ISCA: для лидерства и обширного вклада в обработку речи и языка» . Архивировано с оригинала 24 января 2018 года . Получено 23 января 2018 года .
- ^ Blechman, Ro; Блехман, Николас (23 июня 2008 г.). "Привет, Хэл" . Житель Нью -Йорка . Архивировано с оригинала 20 января 2015 года . Получено 17 января 2015 года .
- ^ Клатт, Деннис Х. (1977). «Обзор проекта« Понимание речи »ARPA». Журнал Акустического общества Америки . 62 (6): 1345–1366. Bibcode : 1977asaj ... 62.1345K . doi : 10.1121/1.381666 .
- ^ Рабинер (1984). «Общество акустики, речи и обработки сигналов. Историческая перспектива» (PDF) . Архивировано (PDF) из оригинала 9 августа 2017 года . Получено 23 января 2018 года .
- ^ «Из первых рук: скрытая модель Маркова-инженерная и технологическая история вики» . Ethw.org . 12 января 2015 года. Архивировано с оригинала 3 апреля 2018 года . Получено 1 мая 2018 года .
- ^ Jump up to: а беременный "Джеймс Бейкер интервью" . Архивировано из оригинала 28 августа 2017 года . Получено 9 февраля 2017 года .
- ^ «Новаторское распознавание речи» . 7 марта 2012 года. Архивировано с оригинала 19 февраля 2015 года . Получено 18 января 2015 года .
- ^ Хуан, Xuedong; Бейкер, Джеймс; Редди, Радж (январь 2014). «Историческая перспектива признания речи» . Коммуникации ACM . 57 (1): 94–103. doi : 10.1145/2500887 . ISSN 0001-0782 . S2CID 6175701 . Архивировано из оригинала 8 декабря 2023 года.
- ^ Juang, BH; Рабинер, Лоуренс Р. Автоматическое распознавание речи - Краткая история развития технологий (PDF) (отчет). п. 10. Архивировал (PDF) из оригинала 17 августа 2014 года . Получено 17 января 2015 года .
- ^ Ли, Сяочанг (1 июля 2023 г.). « Там нет данных, таких как больше данных»: автоматическое распознавание речи и создание алгоритмической культуры » . Осирис . 38 : 165–182. doi : 10.1086/725132 . ISSN 0369-7827 . S2CID 259502346 .
- ^ «История признания речи» . Драконная медицинская транскрипция . Архивировано из оригинала 13 августа 2015 года . Получено 17 января 2015 года .
- ^ Билли, Роберто; Canavesio, Franco; Ciaramella, Альберто; Неббия, Лучано (1 ноября 1995 г.). «Интерактивная голосовая технология на работе: опыт CSELT» . Речевая общение . 17 (3): 263–271. doi : 10.1016/0167-6393 (95) 00030-R .
- ^ Jump up to: а беременный Xuedong Huang; Джеймс Бейкер; Радж Редди (январь 2014 г.). «Историческая перспектива признания речи» . Коммуникации ACM. Архивировано с оригинала 20 января 2015 года . Получено 20 января 2015 года .
- ^ Кевин Маккин (8 апреля 1980 г.). «Когда Коул говорит, компьютеры слушают» . Сарасота Журнал. Доступа Получено 23 ноября 2015 года .
- ^ «Акт/абрикос - история абрикоса» . Actapricot.org . Архивировано из оригинала 21 декабря 2016 года . Получено 2 февраля 2016 года .
- ^ Мелани Пинола (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы оказались с Сири» . ПК Мир . Архивировано с оригинала 13 января 2017 года . Получено 28 июля 2017 года .
- ^ «Биография Рэя Курцвейла» . Kurzweilainetwork. Архивировано из оригинала 5 февраля 2014 года . Получено 25 сентября 2014 года .
- ^ Juang, BH; Рабинер, Лоуренс. Автоматическое распознавание речи - краткая история разработки технологий (PDF) (отчет). Архивировано (PDF) из оригинала 9 августа 2017 года . Получено 28 июля 2017 года .
- ^ «Nuance Exec на iPhone 4s, Siri и будущее речи» . Tech.pinions. 10 октября 2011 года. Архивировано с оригинала 19 ноября 2011 года . Получено 23 ноября 2011 года .
- ^ «Switchboard-1 выпуск 2» . Архивировано из оригинала 11 июля 2017 года . Получено 26 июля 2017 года .
- ^ Джейсон Кинкейд (13 февраля 2011 г.). «Сила голоса: разговор с главой речевой технологии Google» . Технологический хруст . Архивировано из оригинала 21 июля 2015 года . Получено 21 июля 2015 года .
- ^ Фрумкин, Дэн (5 мая 2015 г.). «Компьютеры слушают» . Перехват . Архивировано из оригинала 27 июня 2015 года . Получено 20 июня 2015 года .
- ^ Herve Bourlard и Nelson Morgan , распознавание речи коннекционистов: гибридный подход, Международная серия Kluwer в области инженерии и компьютерных наук; v. 247, Бостон: Kluwer Academic Publishers, 1994.
- ^ Jump up to: а беременный Сепп Хохрейтер ; J. Schmidhuber (1997). «Длинная кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. doi : 10.1162/neco.1997.9.8.1735 . PMID 9377276 . S2CID 1915014 .
- ^ Шмидхубер, Юрген (2015). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. Arxiv : 1404.7828 . doi : 10.1016/j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .
- ^ Алекс Грейвс, Сантьяго Фернандес, Фаустино Гомес и Юрген Шмидхубер (2006). Временная классификация соединения: маркировка не сегментированных данных последовательности с помощью рецидивирующих нейронных сетей архивировала 9 сентября 2024 года на машине Wayback . Материалы ICML'06, с. 369–376.
- ^ Сантьяго Фернандес, Алекс Грейвс и Юрген Шмидхубер (2007). Применение повторяющихся нейронных сетей к дискриминационному определению ключевых слов [ Постоянная мертвая ссылка ] Полем Материалы ICANN (2), с. 220–229.
- ^ Jump up to: а беременный Хашим Сак, Эндрю старший, Канишка Рао, Франсуаз Бофейс и Йохан Шалквик (сентябрь 2015 г.): " «Голосовой поиск Google: быстрее и точнее» . Архивировано с оригинала 9 марта 2016 года . Получено 5 апреля 2016 года . . "
- ^ Dosovitskiy, Алексей; Бейер, Лукас; Колесников, Александр; Вайссенборн, Дирк; Чжай, Сяохуа; Unterthiner, Thomas; Дехгани, Мостафа; Minderer, Matthias; Хейголд, Георг; Гелли, Сильвен; Uszkoreit, Jakob; Хоулсби, Нил (3 июня 2021 года). «Изображение стоит 16x16 слов: трансформаторы для распознавания изображений в масштабе». arxiv : 2010.11929 [ Cs.cv ].
- ^ Ву, Хайпинг; Сяо, бин; Коделла, Ноэль; Лю, Мэнхен; Дай, Xiyang; Юань, Лу; Чжан, Лей (29 марта 2021 г.). «CVT: введение свержений в трансформеры зрения». Arxiv : 2103.15808 [ CS.CV ].
- ^ Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Uszkoreit, Jakob; Джонс, Ллион; Гомес, Эйдан Н; Кайзер, Лукаш; Polosukhin, Illia (2017). «Внимание - это все, что вам нужно» . Достижения в системах обработки нейронной информации . 30 Curran Associates. Архивировано из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ Девлин, Джейкоб; Чанг, Мин-Вей; Ли, Кентон; Тутанова, Кристина (24 мая 2019 г.). «Берт: предварительное обучение глубоких двунаправленных трансформаторов для понимания языка». Arxiv : 1810.04805 [ Cs.cl ].
- ^ Jump up to: а беременный Гонг, Юань; Чунг, Ю-Ан; Стекло, Джеймс (8 июля 2021 года). «AST: Аудио -спектрограмма трансформатор». Arxiv : 2104.01778 [ CS.SD ].
- ^ Jump up to: а беременный Ristea, Никола-Каталин; Ионеску, Раду Тюдор; Хан, Фахад Шахбаз (20 июня 2022 года). «SEPTR: калибный трансформатор для обработки аудиопрограммы». Arxiv : 2203.09581 [ CS.CV ].
- ^ Jump up to: а беременный Лориз, Тимо; Ли, Чженгьян; Fingscheidt, Тим (14 июля 2021 года). «Обучение мультинокодера и слияние потока для трансформатора, основанного на сквозном автоматическом распознавании речи». arxiv : 2104.00120 [ eess.as ].
- ^ "Ли Дэн" . Li Deng Site. Архивировано из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ NIPS Workshop: Глубокое обучение для признания речи и связанных с ними приложений, Уистлер, Британская Колумбия, Канада, декабрь 2009 г. (Организаторы: Ли Дэн, Джефф Хинтон, Д. Ю).
- ^ Jump up to: а беременный в Хинтон, Джеффри; Дэн, Ли; Ю, Донг; Дал, Джордж; Мохамед, Абдель-Рахман; Джайли, Навдип; Старший, Эндрю; Ванхук, Винсент; Нгуен, Патрик; Сайнат, Тара ; Кингсбери, Брайан (2012). «Глубокие нейронные сети для акустического моделирования при распознавании речи: общие взгляды четырех исследовательских групп». IEEE Signal Processing Magazine . 29 (6): 82–97. Bibcode : 2012ispm ... 29 ... 82H . doi : 10.1109/msp.2012.2205597 . S2CID 206485943 .
- ^ Jump up to: а беременный Дэн, Л.; Хинтон, Г.; Кингсбери, Б. (2013). «Новые типы глубокого обучения нейронной сети для распознавания речи и связанных с ним приложений: обзор». Международная конференция IEEE IEEE по акустике, речевой и сигнальной обработке: новые типы глубоких нейронных сети для распознавания речи и связанных с ним приложений: обзор . п. 8599. DOI : 10.1109/icassp.2013.6639344 . ISBN 978-1-4799-0356-6 Полем S2CID 13953660 .
- ^ Jump up to: а беременный Маркофф, Джон (23 ноября 2012 г.). «Ученые видят обещание в программах глубокого обучения» . Нью -Йорк Таймс . Архивировано с оригинала 30 ноября 2012 года . Получено 20 января 2015 года .
- ^ Morgan, Bourlard, Renals, Cohen, Franco (1993) «Гибридная нейронная сеть/модельные системы скрытых марков
- ^ Т. Робинсон (1992). «Система распознавания слов рецидивирующей ошибки в реальном времени» . [Труды] ICASSP-92: 1992 Международная конференция IEEE по акустике, речи и обработке сигналов . С. 617–620 т.1. doi : 10.1109/icassp.1992.225833 . ISBN 0-7803-0532-9 Полем S2CID 62446313 .
- ^ Waibel , Hanazawa, Hinton, Shikano, Lang. (1989) « Распознавание фонем с использованием нейронных сетей задержки времени архивировало 25 февраля 2021 года на машине Wayback . Транзакции IEEE по акустике, речи и обработке сигналов».
- ^ Бейкер, Дж.; Ли Дэн; Стекло, J.; Khudanpur, S.; Чин Хуи Ли ; Morgan, N.; О'Шонесси, Д. (2009). «Развития и направления в распознавании и понимании речи, часть 1». IEEE Signal Processing Magazine . 26 (3): 75–80. Bibcode : 2009ispm ... 26 ... 75b . doi : 10.1109/msp.2009.932166 . HDL : 1721.1/51891 . S2CID 357467 .
- ^ Sepp Hochreiter (1991), Исследования по динамическим нейрональным сетям архивировали 6 марта 2015 года на машине Wayback , дипломной диссертации. Институт компьютерных наук, технический университет. Мюнхен. Консультант: Дж. Шмидхубер.
- ^ Бенгио, Ю. (1991). Искусственные нейронные сети и их применение к распознаванию речи/последовательности (докторская диссертация). Университет Макгилла.
- ^ Дэн, Л.; Hassanein, K.; Elmasry, M. (1994). «Анализ корреляционной структуры для нейронной прогнозирующей модели с применением к распознаванию речи». Нейронные сети . 7 (2): 331–339. doi : 10.1016/0893-6080 (94) 90027-2 .
- ^ Основные доклад: последние события в глубоких нейронных сетях. ICASSP, 2013 (Джефф Хинтон).
- ^ Jump up to: а беременный Основные выступления: « Достижения и проблемы глубокого обучения: от анализа речи и признания до языковой и мультимодальной обработки архивированы 5 марта 2021 года на The Wayback Machine », Interspeech, сентябрь 2014 г. ( Ли Денг ).
- ^ «Улучшения в программном обеспечении для распознавания голоса увеличиваются» . TechRepublic.com . 27 августа 2002 года. Архивировано с оригинала 23 октября 2018 года . Получено 22 октября 2018 года .
Манерс сказал, что IBM работает над повышением признания речи ... или на полу шумной выставки.
- ^ «Признание голоса, чтобы облегчить бронирование путешествий: новости о деловых путешествиях» . BusinessTravelnews.com . 3 марта 1997 года. Архивировано с оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
Самыми ранними приложениями программного обеспечения для распознавания речи были диктовка ... Четыре месяца назад IBM представила «постоянный диктационный продукт», предназначенный для ... дебютированной на выставке Национальной выставки ассоциации бизнес -путешествий в 1994 году.
- ^ Эллис Букер (14 марта 1994 г.). «Распознавание голоса входит в мейнстрим». Computerworld . п. 45.
Всего несколько лет назад распознавание речи было ограничено ...
- ^ «Исследователи Microsoft достигают новой вехи распознавания разговорной речи» . Microsoft . 21 августа 2017 года. Архивировано с оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ Гоэль, Вайбхава; Бирн, Уильям Дж. (2000). «Минимальное автоматическое распознавание речи байеса» . Компьютерная речь и язык . 14 (2): 115–135. doi : 10.1006/csla.2000.0138 . S2CID 206561058 . Архивировано из оригинала 25 июля 2011 года . Получено 28 марта 2011 года .
- ^ Мохри, М. (2002). «Редактирование разворота взвешенных автоматов: общие определения и алгоритмы» (PDF) . Международный журнал фондов компьютерных наук . 14 (6): 957–982. doi : 10.1142/s0129054103002114 . Архивировано (PDF) из оригинала 18 марта 2012 года . Получено 28 марта 2011 года .
- ^ Waibel, A.; Hanazawa, T.; Хинтон, Г.; Шикано, К.; Ланг, К.Дж. (1989). «Распознавание фонем с использованием нейронных сетей задержки». IEEE транзакции по акустике, речи и обработке сигналов . 37 (3): 328–339. doi : 10.1109/29.21701 . HDL : 10338.dmlcz/135496 . S2CID 9563026 .
- ^ Птица, Джордан Дж.; Ваннер, Элизабет; Экарт, Анико; Фария, Диего Р. (2020). «Оптимизация распознавания речи фонетической осведомленности с помощью многоцелевых эволюционных алгоритмов» (PDF) . Экспертные системы с приложениями . 153 Elsevier BV: 113402. DOI : 10.1016/j.eswa.2020.113402 . ISSN 0957-4174 . S2CID 216472225 . Архивировано (PDF) из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ Wu, J.; Чан, С. (1993). «Изолированное распознавание слов с помощью моделей нейронной сети с коэффициентами кросс-корреляции для динамики речи». IEEE транзакции по анализу шаблонов и интеллектую машины . 15 (11): 1174–1185. doi : 10.1109/34.244678 .
- ^ Sa Zahorian, Am Zimmer и F. Meng, (2002) « Классификация гласных для компьютерной визуальной обратной связи для обучения речи для нарушения слуха », в ICSLP 2002
- ^ Ху, Хонбинг; Захориан, Стивен А. (2010). «Методы уменьшения размерности для фонетического распознавания HMM» (PDF) . ICASSP 2010 . Архивировано (PDF) из оригинала 6 июля 2012 года.
- ^ Фернандес, Сантьяго; Грейвз, Алекс; Шмидхубер, Юрген (2007). «Маркировка последовательности в структурированных доменах с иерархическими повторяющимися нейронными сетями» (PDF) . Труды IJCAI . Архивировано (PDF) из оригинала 15 августа 2017 года.
- ^ Грейвз, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (2013). «Распознавание речи с глубокими повторяющимися нейронными сетями». arxiv : 1303.5778 [ cs.ne ]. ICASSP 2013.
- ^ Waibel, Alex (1989). «Модульная конструкция нейронных сетей задержки времени для распознавания речи» (PDF) . Нейронные вычисления . 1 (1): 39–46. doi : 10.1162/neco.1989.1.1.39 . S2CID 236321 . Архивировал (PDF) из оригинала 29 июня 2016 года.
- ^ Маас, Эндрю Л.; Le, Quoc v.; О'Нил, Тайлер М.; Виньялы, Ориол; Нгуен, Патрик; Нг, Эндрю Ю. (2012). «Рецидивирующие нейронные сети для шумоподавления в надежном ASR». Труды Interspeech 2012 .
- ^ Jump up to: а беременный Дэн, Ли; Ю, Донг (2014). «Глубокое обучение: методы и приложения» (PDF) . Основы и тенденции в обработке сигнала . 7 (3–4): 197–387. Citeseerx 10.1.1.691.3679 . doi : 10.1561/2000000039 . Архивировано (PDF) из оригинала 22 октября 2014 года.
- ^ Ю, Д.; Дэн, Л.; Дал, Г. (2010). «Роли предварительного обучения и тонкой настройки в контекстно-зависимых DBN-HMM для реального распознавания речи» (PDF) . NIPS Workshop по глубокому обучению и неконтролируемому обучению .
- ^ Дал, Джордж Э.; Ю, Донг; Дэн, Ли; Acero, Alex (2012). «Контекстно-зависимые предварительно обученные глубокие нейронные сети для распознавания речи с крупным вокабуляцией». IEEE транзакции по аудио, речи и языковой обработке . 20 (1): 30–42. doi : 10.1109/tasl.2011.2134090 . S2CID 14862572 .
- ^ Deng L., Li, J., Huang, J., Yao, K., Yu, Yu, Sede, F. Недавние достижения в области глубокого обучения для исследований речи в Microsoft Archived 9 сентября 2024 года в The Wayback Machine Icassp,
- ^ Jump up to: а беременный Ю, Д.; Дэн Л. (2014). «Автоматическое распознавание речи: подход глубокого обучения (издатель: Springer)».
{{cite journal}}
: CITE Journal требует|journal=
( помощь ) - ^ Дэн, Л.; Ли, Сяо (2013). «Парадигмы машинного обучения для распознавания речи: обзор» (PDF) . IEEE транзакции по аудио, речи и языковой обработке . 21 (5): 1060–1089. doi : 10.1109/tasl.2013.2244083 . S2CID 16585863 . Архивировано (PDF) из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ Шмидхубер, Юрген (2015). "Глубокое обучение" . Scholaredia . 10 (11): 32832. Bibcode : 2015schpj..1032832S . doi : 10.4249/Scholaredia.32832 .
- ^ L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed и G. Hinton (2010) Бинарное кодирование речевых спектрограмм с использованием глубокого автооходера . Межспика.
- ^ Тюске, Золтан; Голик, Павел; Schlüter, Ralf; Ней, Германн (2014). «Акустическое моделирование с глубокими нейронными сетями с использованием необработанного сигнала времени для LVCSR» (PDF) . Interspeech 2014 . Архивировано (PDF) из оригинала 21 декабря 2016 года.
- ^ Юрафски, Даниэль (2016). Речевая и языковая обработка .
- ^ Грейвс, Алекс (2014). «На пути к сквозному распознаванию речи с повторяющимися нейронными сетями» (PDF) . ICML . Архивировано из оригинала (PDF) 10 января 2017 года . Получено 22 июля 2019 года .
- ^ Amodei, Dario (2016). «Глубокая речь 2: сквозное признание речи на английском и мандарине». Arxiv : 1512.02595 [ Cs.cl ].
- ^ "LipNet: Как вы думаете, насколько легко губ?" Полем YouTube . 4 ноября 2016 года. Архивировано с оригинала 27 апреля 2017 года . Получено 5 мая 2017 года .
- ^ Ассаэль, Яннис; Шиллингфорд, Брендан; Уайтсон, Шмон; Де Фрейтас, Нандо (5 ноября 2016 г.). «LipNet: сквозное нагрузка на губ на уровне предложения». arxiv : 1611.01599 [ CS.CV ].
- ^ Шиллингфорд, Брендан; Ассаэль, Яннис; Хоффман, Мэттью В.; Пейн, Томас; Хьюз, Сиан; Прабху, Утсак; Ляо, Хэнк; Сак, Хасим; Рао, Канихка (13 июля 2018 г.). Визуально визуально. Arxiv : 1807.05162 [ CS.CV ]
- ^ Чан, Уильям; Джайли, Навдип; Le, Quoc; Виньялс, Ориол (2016). «Слушайте, посещайте и заклинайте: нейронная сеть для большого словаря разговорной речи» (PDF) . Icassp . Архивировано (PDF) из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ Bahdanau, Dzmitry (2016). «Сквозное распознавание большого внимания, основанное на внимании, распознавание речи». arxiv : 1508.04395 [ Cs.cl ].
- ^ Чаровский, Ян; Jaitly, Navdeep (8 декабря 2016 г.). «На пути к лучшему декодированию и интеграции языковой модели в последовательности к моделям последовательности». arxiv : 1612.02695 [ Cs.ne ].
- ^ Чан, Уильям; Чжан, Ю; Le, Quoc; Jaitly, Navdeep (10 октября 2016 г.). «Декомпозиции скрытых последовательностей». arxiv : 1610.03035 [ stat.ml ].
- ^ Чунг, Джун Сон; Старший, Эндрю; Виньялы, Ориол; Зиссерман, Эндрю (16 ноября 2016 г.). «Предложения по чтению губ в дикой природе». 2017 IEEE Conference по компьютерному видению и распознаванию шаблонов (CVPR) . С. 3444–3453. Arxiv : 1611.05358 . doi : 10.1109/cvpr.2017.367 . ISBN 978-1-5386-0457-1 Полем S2CID 1662180 .
- ^ Эль Хейр, Яссин; и др. (21 октября 2023 г.), Оценка автоматического произношения - обзор , конференция по эмпирическим методам в обработке естественного языка, ARXIV : 2310.13974 , S2CID 264426545
- ^ Исаакс, Талия; Хардинг, Люк (июль 2017 г.). «Оценка произношения» . Языковое обучение . 50 (3): 347–366. doi : 10.1017/s0261444817000118 . ISSN 0261-4448 . S2CID 209353525 .
- ^ Лукина, Анастассия; и др. (6 сентября 2015 г.), «Точность произношения и разумность неродной речи» (PDF) , Interspeech 2015 , Дрезден, Германия: Международная ассоциация речевой коммуникации , стр. 1917–1921, архивировано (PDF) из оригинала 9 сентября 2024 г. Получено 9 сентября 2024 года ,
только 16% от изменчивости в разборте на уровне слов можно объяснить наличием очевидных ошибок.
- ^ О'Брайен, Мэри Грантхам; и др. (31 декабря 2018 г.). «Направления о будущем технологий в исследованиях и преподавании произношения» . Журнал произношения второго языка . 4 (2): 182–207. doi : 10.1075/jslp.17001.obr . HDL : 2066/199273 . ISSN 2215-1931 . S2CID 86440885 .
Исследователи произношения в первую очередь заинтересованы в улучшении разумности и понимания учащихся L2, но они еще не собрали достаточных объемов репрезентативных и надежных данных (речевые записи с соответствующими аннотациями и суждениями), указывающие, какие ошибки влияют на эти размеры речи, а какие - нет. Эти данные важны для обучения алгоритмов ASR для оценки понятности учащихся L2.
- ^ Эскенази, Максин (январь 1999 г.). «Использование автоматической обработки речи для обучения произношению иностранного языка: некоторые проблемы и прототип» . Изучение языка и технологии . 2 (2): 62–76. Архивировано из оригинала 9 сентября 2024 года . Получено 11 февраля 2023 года .
- ^ Толфсен, Майк (9 февраля 2023 г.). «Чтение тренера в иммерсивном читателе плюс новые функции, приходящие в чтение прогресса в командах Microsoft» . TechCommunity Education Blog . Microsoft. Архивировано из оригинала 9 сентября 2024 года . Получено 12 февраля 2023 года .
- ^ Банерджи, Олина (7 марта 2023 г.). «Школы используют голосовые технологии для обучения чтению. Это помогает?» Полем Edsurge News . Архивировано из оригинала 9 сентября 2024 года . Получено 7 марта 2023 года .
- ^ Волосы, Адам; и др. (19 июня 2018 г.). «Мир Apraxia: игра речевой терапии для детей с расстройствами звука речи». Труды 17 -й конференции ACM по дизайну взаимодействия и детей (PDF) . С. 119–131. doi : 10.1145/3202185.3202733 . ISBN 9781450351522 Полем S2CID 13790002 . Архивировано (PDF) из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ «Компьютер говорит нет: ирландский ветеринар не проходит пероральный английский тест, необходимый для проживания в Австралии» . Хранитель . Австралийская Associated Press. 8 августа 2017 года. Архивировано с оригинала 9 сентября 2024 года . Получено 12 февраля 2023 года .
- ^ Ферье, Трейси (9 августа 2017 г.). «Австралийский бывший читатель-но-нового в английской степени проваливает английский тест робота» . Сиднейский утренний геральд . Архивировано из оригинала 9 сентября 2024 года . Получено 12 февраля 2023 года .
- ^ Main, ed; Уотсон, Ричард (9 февраля 2022 года). «Английский тест, который разрушил тысячи жизней» . BBC News . Архивировано из оригинала 9 сентября 2024 года . Получено 12 февраля 2023 года .
- ^ Джойс, Кэти Спратт (24 января 2023 г.). «13 слов, которые могут быть произнесены двумя способами» . Digest Reader. Архивировано из оригинала 9 сентября 2024 года . Получено 23 февраля 2023 года .
- ^ Например, Cmudict , «Словарь произношения CMU» . www.speech.cs.cmu.edu . Архивировано из оригинала 15 августа 2010 года . Получено 15 февраля 2023 года . Сравните «Четыре», данные как «f ao r» с гласным AO, как в «пойманном», чтобы «row», данный как «r ow» с гласным, как в «Oat».
- ^ Ту, Зехай; Ма, Нин; Баркер, Джон (2022). «Неопроверленные меры неопределенности автоматического распознавания речи для неинтрузивного прогнозирования разборчивости речи» (PDF) . Прокурор Межспика 2022 . Interspeech 2022. Isca. С. 3493–3497. doi : 10.21437/Interspeech.2022-10408 . Архивировано (PDF) из оригинала 9 сентября 2024 года . Получено 17 декабря 2023 года .
- ^ Общая европейская структура ссылки для обучения языках, обучение, оценка: том сопутствующего с новыми дескрипторами . Программа языковой политики, Отдел образования, отдел образования, Совет Европы . Февраль 2018 г. с. 136. OCLC 1090351600 . Архивировано из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ Энглунд, Кристина (2004). Распознавание речи в самолете JAS 39 Gripen: адаптация к речи при различных G-нагрузках (PDF) (тезис магистерской диссертации). Стокгольмский Королевский технологический институт . Архивировано (PDF) из оригинала 2 октября 2008 года.
- ^ "Кабина" . Eurofighter Typhoon . Архивировано с оригинала 1 марта 2017 года.
- ^ «Eurofighter Typhoon - самый продвинутый истребительный самолет в мире» . www.eurofighter.com . Архивировано из оригинала 11 мая 2013 года . Получено 1 мая 2018 года .
- ^ Шутте, Джон (15 октября 2007 г.). «Исследователи тонкая настройка F-35 Pilot-Aircraft System» . ВВС США. Архивировано из оригинала 20 октября 2007 года.
- ^ «Преодоление коммуникационных барьеров в классе» . Массматч. 18 марта 2010 года. Архивировано с оригинала 25 июля 2013 года . Получено 15 июня 2013 года .
- ^ Jump up to: а беременный «Распознавание речи для обучения» . Национальный центр технологических инноваций. 2010. Архивировано из оригинала 13 апреля 2014 года . Получено 26 марта 2014 года .
- ^ Фолленсби, Боб; Макклоски-Дейл, Сьюзен (2000). «Признание речи в школах: обновление с поля» . Технологии и люди с ограниченными возможностями конференция 2000 года . Архивировано из оригинала 21 августа 2006 года . Получено 26 марта 2014 года .
- ^ «Признание речи для людей с ограниченными возможностями» . Архивировано из оригинала 4 апреля 2008 года.
- ^ Международная группа поддержки друзей
- ^ Гаррет, Дженнифер Тумлин; и др. (2011). «Использование программного обеспечения для распознавания речи для увеличения беглости письма для людей с физическими нарушениями» . Журнал технических технологий специального образования . 26 (1): 25–41. doi : 10.1177/016264341102600104 . S2CID 142730664 . Архивировано из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ Форгрейв, Карен Э. «Помощная технология: расширение прав и возможностей студентов с ограниченными возможностями». Кринг -дом 75.3 (2002): 122–6. Веб -
- ^ Тан, KW; Камуа, Ридха; Сутан, Виктор (2004). «Технология распознавания речи для образования с ограниченными возможностями». Журнал систем образовательных технологий . 33 (2): 173–84. Citeseerx 10.1.1.631.3736 . doi : 10.2190/k6k8-78k2-59y7-r9r2 . S2CID 143159997 .
- ^ «Проекты: планетарные микрофоны» . Планетарное общество. Архивировано из оригинала 27 января 2012 года.
- ^ Каридакис, Джордж; Кастеллано, Гиневра; Кессаус, лоик; Раузайу, Амариллис; Малатеста, Лори; Asteriadis, Stelios; Карпузис, Костас (19 сентября 2007 г.). «Многомодальное распознавание эмоций от выразительных лиц, жестов тела и речи». Искусственный интеллект и инновации 2007: от теории к приложениям . IFIP Международная федерация для обработки информации. Тол. 247. Springer US. С. 375–388. doi : 10.1007/978-0-387-74161-1_41 . ISBN 978-0-387-74160-4 .
- ^ «Что такое подпись в реальном времени? | Do-It» . www.washington.edu . Архивировано из оригинала 9 сентября 2024 года . Получено 11 апреля 2021 года .
- ^ Чжэн, Томас Фанг; Ли, Лантиан (2017). Связанные с надежностью проблемы в распознавании спикеров . Springerbriefs в электрической и компьютерной технике. Сингапур: Спрингер Сингапур. doi : 10.1007/978-981-10-3238-7 . ISBN 978-981-10-3237-0 Полем Архивировано из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
- ^ Ciaramella, Альберто. «Отчет об оценке эффективности прототипа». Sundial Workpackage 8000 (1993).
- ^ Гербино, Е.; Baggia, P.; Ciaramella, A.; Rullent, C. (1993). «Проверка и оценка разговорной системы диалога». Международная конференция IEEE по акустической речи и обработке сигналов . С. 135–138 т.2. doi : 10.1109/icassp.1993.319250 . ISBN 0-7803-0946-4 Полем S2CID 57374050 .
- ^ Национальный институт стандартов и технологий. « История автоматической оценки распознавания речи в NIST Archived 8 октября 2013 года на машине Wayback ».
- ^ «Письмовые имена могут вызвать путаницу и другие вещи, которые можно знать о отношениях буквы» . Naeyc . Архивировано из оригинала 9 сентября 2024 года . Получено 27 октября 2023 года .
- ^ «Слушай: твой помощник по искусственному ИИ тоже сходит с ума от NPR» . ЭНЕРГЕТИЧЕСКИЙ ЯДЕРНЫЙ РЕАКТОР . 6 марта 2016 года. Архивировано с оригинала 23 июля 2017 года.
- ^ Клаберн, Томас (25 августа 2017 г.). «Можно ли контролировать Amazon Alexa, Google теперь использует неразборчивые команды? Абсолютно» . Реестр . Архивировано с оригинала 2 сентября 2017 года.
- ^ «Атака нацелена на автоматические системы распознавания речи» . Vice.com . 31 января 2018 года. Архивировано с оригинала 3 марта 2018 года . Получено 1 мая 2018 года .
- ^ Бейджи, Хомаюн (2011). Основы признания спикеров . Нью -Йорк: Спрингер. ISBN 978-0-387-77591-3 Полем Архивировано из оригинала 31 января 2018 года.
- ^ Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & vesely, K. (2011). Инструментарий распознавания речи Калди. В семинаре IEEE 2011 по автоматическому распознаванию и пониманию речи (№ CONF). IEEE Signal Resecking Society.
- ^ «Общий голос Мозиллы» . Voice.mozilla.org . Архивировано из оригинала 27 февраля 2020 года . Получено 9 ноября 2019 года .
- ^ «Тенорфлоу внедрение архитектуры Deepspeech от Baidu: Mozilla/Deepspeech» . 9 ноября 2019 года. Архивировано с оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года - через GitHub.
- ^ «GitHub - TensorFlow/Docs: Tensorflow Documentation» . 9 ноября 2019 года. Архивировано с оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года - через GitHub.
- ^ «Coqui, стартап, обеспечивающий открытый речевой технологии для всех» . GitHub . Архивировано из оригинала 9 сентября 2024 года . Получено 7 марта 2022 года .
- ^ Коффи, Донавин (28 апреля 2021 года). «Маори пытаются спасти свой язык от Big Tech» . Wired UK . ISSN 1357-0978 . Архивировано из оригинала 9 сентября 2024 года . Получено 16 октября 2021 года .
- ^ «Почему вы должны переехать из Deepspeech к Coqui.ai» . Мозилла дискурс . 7 июля 2021 года . Получено 16 октября 2021 года .
- ^ «Тип с вашим голосом» . Архивировано из оригинала 9 сентября 2024 года . Получено 9 сентября 2024 года .
Дальнейшее чтение
[ редактировать ]- Коул, Рональд; Марани, Джозеф ; Ускорет, Ганс; Разнообразие, Джованни Бэтста; Заенен, Энни; Заполи; Zue, Victor, eds. (1997). Обследование состояния искусства в технологиях человеческого языка Кембриджские исследования по обработке естественного языка. Тол. Xi - xiii. Издательство Кембриджского университета. ISBN 978-0-521-59277-2 .
- Junqua, J.-C.; Хатон, J.-P. (1995). Надежность автоматического признания речи: основы и приложения . Kluwer Academic Publishers. ISBN 978-0-7923-9646-8 .
- Карат, Клэр-Мари; Верго, Джон; Нахаму, Дэвид (2007). «Технологии разговорного интерфейса». В Сирсе, Эндрю ; Джеко, Джули А. (ред.). Справочник по взаимодействию с человеком-компьютером: основы, развивающиеся технологии и новые приложения (человеческий фактор и эргономика) . Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9 .
- Pieraccini, Roberto (2012). Голос в машине. Создание компьютеров, которые понимают речь . MIT Press. ISBN 978-0262016858 .
- Пирани, Джанкарло, изд. (2013). Усовершенствованные алгоритмы и архитектуры для понимания речи . Springer Science & Business Media. ISBN 978-3-642-84341-9 .
- Подписавшись, бит; Хост, Лоде (декабрь 2013 г.). «SPEEG2: интерфейс на основе речи и жестов для эффективной бесконечной текстовой записи» . Материалы ICMI 2013 . 15 -я Международная конференция по мультимодальному взаимодействию. Сидней, Австралия.
- Woelfel, Matthias; Макдоно, Джон (26 мая 2009 г.). Отдаленное распознавание речи . Уайли. ISBN 978-0470517048 .