Распознавание говорящего

Распознавание говорящего – это идентификация человека по характеристикам голоса. ^[1] Он используется для ответа на вопрос «Кто говорит?» Термин «распознавание голоса» ^[2]^[3]^[4]^[5]^[6] может относиться к распознаванию говорящего или распознаванию речи . Проверка говорящего (также называемая аутентификацией говорящего ) контрастирует с идентификацией, а распознавание говорящего отличается от диаризации говорящего (распознавание того, когда говорит один и тот же говорящий).

Распознавание говорящего может упростить задачу перевода речи в системах, обученных на определенных голосах, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было обнаружено, различаются у разных людей. Эти акустические паттерны отражают как анатомию , так и усвоенные модели поведения.

Проверка против идентификации

Существует два основных применения технологий и методологий распознавания говорящих. Если говорящий утверждает, что является определенной личностью, и голос используется для проверки этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация — это задача определения личности неизвестного говорящего. В некотором смысле проверка говорящего — это совпадение 1:1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего — это совпадение 1:N, когда голос сравнивается с несколькими шаблонами.

С точки зрения безопасности идентификация отличается от проверки. Проверка говорящего обычно используется в качестве «привратника» для обеспечения доступа к защищенной системе. Эти системы работают на основе знаний пользователей и обычно требуют их сотрудничества. Системы идентификации докладчиков также могут быть реализованы скрытно, без ведома пользователя, чтобы идентифицировать говорящих в дискуссии, предупреждать автоматизированные системы о смене докладчиков, проверять, зарегистрирован ли пользователь уже в системе и т. д.

В судебно-медицинских приложениях обычно сначала выполняется процесс идентификации говорящего, чтобы создать список «наилучших совпадений», а затем выполняется серия процессов проверки для определения окончательного совпадения. Работа по сопоставлению образцов говорящего со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком, исходя из количества сходств или различий. Обвинение и защита используют это в качестве доказательства, чтобы определить, действительно ли подозреваемый является преступником. ^[7]

Обучение

Одна из первых коммерциализированных технологий обучения была реализована в кукле Джули из Worlds of Wonder 1987 года. На тот момент независимость динамиков была запланированным прорывом, и системы требовали периода обучения. В рекламе куклы 1987 года был слоган «Наконец-то кукла, которая тебя понимает». — несмотря на то, что его описывали как продукт, «который дети могли бы научить реагировать на свой голос». ^[8] Термин «распознавание голоса», даже десятилетие спустя, относился к независимости говорящего. ^[9]^{[ нужны разъяснения ]}

Варианты распознавания говорящего

Каждая система распознавания говорящих состоит из двух этапов: регистрация и проверка. Во время регистрации голос говорящего записывается и обычно извлекается ряд функций для формирования отпечатка голоса, шаблона или модели. На этапе проверки образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. В системах идентификации высказывание сравнивается с несколькими отпечатками голоса, чтобы определить наилучшее совпадение, в то время как системы проверки сравнивают высказывание с одним отпечатком голоса. Из-за сложного процесса проверка происходит быстрее, чем идентификация.

Системы распознавания говорящего делятся на две категории: текстозависимые и текстонезависимые. ^[10] Текстозависимое распознавание требует, чтобы текст был одинаковым как для регистрации, так и для проверки. ^[11] В текстово-зависимой системе подсказки могут быть либо общими для всех говорящих (например, общая фраза-пароль), либо уникальными. можно использовать общие секреты (например, пароли и PIN-коды) или информацию, основанную на знаниях Кроме того, для создания сценария многофакторной аутентификации . И наоборот, текстонезависимые системы не требуют использования конкретного текста. Они чаще всего используются для идентификации говорящего, поскольку требуют очень незначительного сотрудничества со стороны говорящего. В этом случае текст при зачислении и тестировании будет разным. Фактически, регистрация может произойти без ведома пользователя, как и в случае со многими судебно-медицинскими приложениями. Поскольку текстонезависимые технологии не сравнивают то, что было сказано при регистрации и проверке, приложения проверки, как правило, также используют распознавание речи , чтобы определить, что говорит пользователь в момент аутентификации. ^{[ нужна ссылка ]} В текстонезависимых системах как акустические , так и речевые методы анализа . используются ^[12]

Технология

Распознавание говорящего — это проблема распознавания образов . Различные технологии, используемые для обработки и хранения отпечатков голоса, включают оценку частоты , скрытые модели Маркова , модели гауссовой смеси , сопоставления с образцом алгоритмы , нейронные сети , матричное представление , векторное квантование и деревья решений . Для сравнения высказываний с отпечатками голоса более простые методы, такие как косинусное сходство, традиционно используются из-за их простоты и эффективности. Некоторые системы также используют методы «анти-говорящих», такие как когортные модели и модели мира. Спектральные характеристики преимущественно используются для представления характеристик динамика. ^[13] Линейное прогнозирующее кодирование (LPC) — это метод кодирования речи, используемый для распознавания говорящего и проверки речи . ^{[ нужна ссылка ]}

Уровни окружающего шума могут препятствовать сбору как начальных, так и последующих голосовых образцов. Алгоритмы шумоподавления можно использовать для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений в поведенческих характеристиках голоса, а также регистрации с использованием одного телефона и проверки на другом телефоне. интеграции с продуктами двухфакторной аутентификации Ожидается расширение . Изменения голоса из-за старения могут со временем повлиять на производительность системы. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы фиксировать такие долгосрочные изменения в голосе, хотя ведутся споры относительно общего влияния на безопасность, оказываемого автоматической адаптацией. ^{[ нужна ссылка ]}

Юридические последствия

В связи с принятием таких законов, как Общий регламент по защите данных в Европейском Союзе и Калифорнийский закон о конфиденциальности потребителей в США, было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях. ^[14]

Приложения

Первый международный патент был подан в 1983 году в результате телекоммуникационных исследований в CSELT. ^[15] (Италия) Микеле Кавацца и Альберто Чиарамелла в качестве основы как для будущих телекоммуникационных услуг конечным клиентам, так и для улучшения методов снижения шума во всей сети.

В период с 1996 по 1998 год технология распознавания говорящих использовалась на пограничном переходе Скоби-Коронак , чтобы позволить зарегистрированным местным жителям, которым нечего декларировать, пересекать границу Канады и США, когда досмотровые посты были закрыты на ночь. ^[16] Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган. ^{[ нужна ссылка ]}

В 2013 году Barclays Wealth , подразделение частного банковского обслуживания Barclays, стало первой фирмой, оказывающей финансовые услуги, которая внедрила голосовую биометрию в качестве основного средства идентификации клиентов в своих колл-центрах . Система использовала пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд после обычного разговора. ^[17] Он был разработан компанией Nuance , занимающейся распознаванием голоса (которая в 2011 году приобрела компанию Loquendo , дочернюю компанию CSELT по речевым технологиям), компанией, стоящей за Apple Siri технологией . 93% клиентов дали системе оценку «9 из 10» за скорость, простоту использования и безопасность. ^[18]

Распознавание говорящего также может быть использовано в уголовных расследованиях, например, в расследованиях казней в 2014 году, в частности, Джеймса Фоули и Стивена Сотлоффа . ^[19]

В феврале 2016 года популярный британский банк HSBC и его розничный интернет-банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн-счетам и телефонным счетам с помощью отпечатков пальцев или голоса. ^[20]

В 2023 году Vice News и The Guardian по отдельности продемонстрировали, что могут победить стандартные финансовые системы аутентификации говорящих, используя голоса, сгенерированные искусственным интеллектом, сгенерированные примерно из пяти минут образцов голоса цели. ^[21]^[22]

См. также

Списки

Примечания

^ Поддар, Арнаб; Сахидулла, Мэриленд; Саха, Гутам (27 ноября 2017 г.). «Верификация говорящего короткими высказываниями: обзор проблем, тенденций и возможностей». ИЭПП Биометрия . 7 (2). Институт техники и технологий (ИЭТ): 91–101. дои : 10.1049/iet-bmt.2017.0065 . ISSN 2047-4938 .
^ Ласс, Норман Дж. (1974). Экспериментальная фонетика . Информационная корпорация МСС. стр. 251–258. ISBN 978-0-8422-5149-5 .
^ Ван Ланкер, Диана; Крейман, Джоди; Эммори, Карен (1985). «Распознавание знакомого голоса: закономерности и параметры. Часть I: Распознавание задом наперед голосов» . Журнал фонетики . 13 (1). Эльзевир Б.В.: 19–38. дои : 10.1016/s0095-4470(19)30723-5 . ISSN 0095-4470 .
^ «РАСПОЗНАВАНИЕ ГОЛОСА (существительное) определение и синонимы» . macmillandictionary.com . 23 января 2010 года. Архивировано из оригинала 27 марта 2023 года . Проверено 13 октября 2023 г. {{cite web}}: CS1 maint: неподходящий URL ( ссылка )
^ «Что такое распознавание голоса? Определение и значение» . businessdictionary.com . 6 октября 2008 г. Архивировано из оригинала 3 декабря 2011 г.
^ «Почтовый мешок LG №114» . Linux-вестник . 28 марта 2005 г.
^ Роуз, Фил; Осанаи, Такаши; Киносита, Юко (6 августа 2003 г.). «Надежность судебно-медицинских доказательств идентификации говорящего: сегментарная дискриминация на основе формант и кепстра с несколькими говорящими с байесовским отношением правдоподобия в качестве порога». Международный журнал речи, языка и права . 10 (2). Издательство «Равноденствие»: 179–202. дои : 10.1558/sll.2003.10.2.179 . ISSN 1748-8893 .
^ Пинола, Мелани (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы пришли к Siri» . ПКМир .
^ Розен, Шерил (3 марта 1997 г.). «Распознавание голоса для облегчения бронирования поездок» . Новости делового туризма . Самыми ранними приложениями программного обеспечения для распознавания речи была диктовка... Четыре месяца назад IBM представила «продукт непрерывной диктовки», предназначенный для... дебюта на выставке Национальной ассоциации деловых путешествий в 1994 году.
^ «Проверка говорящего: текстозависимая или текстонезависимая» . Исследования Майкрософт . 19 июня 2017. Текстозависимый и текстонезависимый динамик.. у обоих одинаковая частота ошибок и обнаружение..
^ Эбер, Матье (2008). «Текстозависимое распознавание говорящего». Справочник Springer по обработке речи . Справочники Спрингера. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 743–762. дои : 10.1007/978-3-540-49127-9_37 . ISBN 978-3-540-49125-5 . ISSN 2522-8692 . задача .. проверка или идентификация
^ Майерс, Лиза (25 июля 2004 г.). «Исследование голосовой биометрии» . Институт САНС .
^ Сахидулла, Мэриленд; Киннунен, Томи (2016). «Функции локальной спектральной изменчивости для проверки динамиков» (PDF) . Цифровая обработка сигналов . 50 . Эльзевир Б.В.: 1–11. дои : 10.1016/j.dsp.2015.10.011 . ISSN 1051-2004 .
^ «Эксперт по распознаванию речи выражает обеспокоенность по поводу голосовых технологий на рабочем месте» . Независимый.т.е . 29 сентября 2019 года . Проверено 30 сентября 2019 г.
^ US4752958 A, Микеле Кавацца, Альберто Чиарамелла, «Устройство для проверки говорящего» https://patents.google.com/patent/US4752958/en
^ Мейер, Барб (12 июня 1996 г.). «Автоматизированный переход границы». Репортаж телевизионных новостей . Телевизионные новости Мейера.
^ Международное банковское дело (27 декабря 2013 г.). «Голосовые биометрические технологии в банковском деле | Barclays» . Wealth.barclays.com . Проверено 21 февраля 2016 г.
^ Мэтт Уорман (8 мая 2013 г.). «Попрощайтесь с значком: распознавание голоса берет верх в Barclays Wealth» . Проверено 5 июня 2013 г.
^ Юэн Макаскилл. «Убил ли «Джихадист Джон» Стивена Сотлоффа? | СМИ» . Хранитель . Проверено 21 февраля 2016 г.
^ Юлия Коллеве (19 февраля 2016 г.). «HSBC внедряет систему голосовой и сенсорной идентификации для клиентов банков | Бизнес» . Хранитель . Проверено 21 февраля 2016 г.
^ «Как я взломал банковский счет с помощью голоса, сгенерированного искусственным интеллектом» . 23 февраля 2023 г.
^ Эвершед, Ник; Тейлор, Джош (16 марта 2023 г.). «ИИ может обмануть распознавание голоса, используемое для проверки личности Centrelink и австралийской налоговой службой» . Хранитель . Проверено 16 июня 2023 г.

Ссылки

Хомайон Бейги (2011 г.), « Основы распознавания говорящих », Springer-Verlag, Берлин, 2011 г., ISBN 978-0-387-77591-3 .
«Биометрия из кино» – Национальный институт стандартов и технологий.
Элизабет Зеттерхольм (2003), Имитация голоса. Фонетическое исследование перцептивных иллюзий и акустического успеха , докторская диссертация, Лундский университет .
Доктор Сахидулла (2015), Повышение эффективности распознавания говорящего с использованием уровня блока, относительной и временной информации об энергиях поддиапазонов , докторская диссертация, Индийский технологический институт Харагпур .

Внешние ссылки

Обход голосовой аутентификации. Архивировано 10 июня 2008 г., в Wayback Machine. В подкасте PLA Radio недавно был представлен простой способ обмануть элементарные системы голосовой аутентификации.
Распознавание спикера - Scholarpedia
Преимущества и проблемы распознавания голоса при контроле доступа

Программное обеспечение

[1] Поддар, Арнаб; Сахидулла, Мэриленд; Саха, Гутам (27 ноября 2017 г.). «Верификация говорящего короткими высказываниями: обзор проблем, тенденций и возможностей». ИЭПП Биометрия . 7 (2). Институт техники и технологий (ИЭТ): 91–101. дои : 10.1049/iet-bmt.2017.0065 . ISSN 2047-4938 .

[Experimental_phonetics-2] Ласс, Норман Дж. (1974). Экспериментальная фонетика . Информационная корпорация МСС. стр. 251–258. ISBN 978-0-8422-5149-5 .

[Familiar_voice_recognition:_Patterns_and_parameters._Part_I:_Recognition_of_backward_voices-3] Ван Ланкер, Диана; Крейман, Джоди; Эммори, Карен (1985). «Распознавание знакомого голоса: закономерности и параметры. Часть I: Распознавание задом наперед голосов» . Журнал фонетики . 13 (1). Эльзевир Б.В.: 19–38. дои : 10.1016/s0095-4470(19)30723-5 . ISSN 0095-4470 .

[Macmillan_Brit._def_of_voice_recognition-4] «РАСПОЗНАВАНИЕ ГОЛОСА (существительное) определение и синонимы» . macmillandictionary.com . 23 января 2010 года. Архивировано из оригинала 27 марта 2023 года . Проверено 13 октября 2023 г. {{cite web}}: CS1 maint: неподходящий URL ( ссылка )

[Voice_recognition,_definition-5] «Что такое распознавание голоса? Определение и значение» . businessdictionary.com . 6 октября 2008 г. Архивировано из оригинала 3 декабря 2011 г.

[mail_bag,_gazette-6] «Почтовый мешок LG №114» . Linux-вестник . 28 марта 2005 г.

[7] Роуз, Фил; Осанаи, Такаши; Киносита, Юко (6 августа 2003 г.). «Надежность судебно-медицинских доказательств идентификации говорящего: сегментарная дискриминация на основе формант и кепстра с несколькими говорящими с байесовским отношением правдоподобия в качестве порога». Международный журнал речи, языка и права . 10 (2). Издательство «Равноденствие»: 179–202. дои : 10.1558/sll.2003.10.2.179 . ISSN 1748-8893 .

[PCW.Siri-8] Пинола, Мелани (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы пришли к Siri» . ПКМир .

[9] Розен, Шерил (3 марта 1997 г.). «Распознавание голоса для облегчения бронирования поездок» . Новости делового туризма . Самыми ранними приложениями программного обеспечения для распознавания речи была диктовка... Четыре месяца назад IBM представила «продукт непрерывной диктовки», предназначенный для... дебюта на выставке Национальной ассоциации деловых путешествий в 1994 году.

[10] «Проверка говорящего: текстозависимая или текстонезависимая» . Исследования Майкрософт . 19 июня 2017. Текстозависимый и текстонезависимый динамик.. у обоих одинаковая частота ошибок и обнаружение..

[11] Эбер, Матье (2008). «Текстозависимое распознавание говорящего». Справочник Springer по обработке речи . Справочники Спрингера. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 743–762. дои : 10.1007/978-3-540-49127-9_37 . ISBN 978-3-540-49125-5 . ISSN 2522-8692 . задача .. проверка или идентификация

[12] Майерс, Лиза (25 июля 2004 г.). «Исследование голосовой биометрии» . Институт САНС .

[13] Сахидулла, Мэриленд; Киннунен, Томи (2016). «Функции локальной спектральной изменчивости для проверки динамиков» (PDF) . Цифровая обработка сигналов . 50 . Эльзевир Б.В.: 1–11. дои : 10.1016/j.dsp.2015.10.011 . ISSN 1051-2004 .

[14] «Эксперт по распознаванию речи выражает обеспокоенность по поводу голосовых технологий на рабочем месте» . Независимый.т.е . 29 сентября 2019 года . Проверено 30 сентября 2019 г.

[15] US4752958 A, Микеле Кавацца, Альберто Чиарамелла, «Устройство для проверки говорящего» https://patents.google.com/patent/US4752958/en

[16] Мейер, Барб (12 июня 1996 г.). «Автоматизированный переход границы». Репортаж телевизионных новостей . Телевизионные новости Мейера.

[17] Международное банковское дело (27 декабря 2013 г.). «Голосовые биометрические технологии в банковском деле | Barclays» . Wealth.barclays.com . Проверено 21 февраля 2016 г.

[18] Мэтт Уорман (8 мая 2013 г.). «Попрощайтесь с значком: распознавание голоса берет верх в Barclays Wealth» . Проверено 5 июня 2013 г.

[19] Юэн Макаскилл. «Убил ли «Джихадист Джон» Стивена Сотлоффа? | СМИ» . Хранитель . Проверено 21 февраля 2016 г.

[20] Юлия Коллеве (19 февраля 2016 г.). «HSBC внедряет систему голосовой и сенсорной идентификации для клиентов банков | Бизнес» . Хранитель . Проверено 21 февраля 2016 г.

[21] «Как я взломал банковский счет с помощью голоса, сгенерированного искусственным интеллектом» . 23 февраля 2023 г.

[22] Эвершед, Ник; Тейлор, Джош (16 марта 2023 г.). «ИИ может обмануть распознавание голоса, используемое для проверки личности Centrelink и австралийской налоговой службой» . Хранитель . Проверено 16 июня 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]