Jump to content

Распознавание говорящего

Распознавание говорящего – это идентификация человека по характеристикам голоса. [1] Он используется для ответа на вопрос «Кто говорит?» Термин «распознавание голоса» [2] [3] [4] [5] [6] может относиться к распознаванию говорящего или распознаванию речи . Проверка говорящего (также называемая аутентификацией говорящего ) контрастирует с идентификацией, а распознавание говорящего отличается от диаризации говорящего (распознавание того, когда говорит один и тот же говорящий).

Распознавание говорящего может упростить задачу перевода речи в системах, обученных на определенных голосах, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было обнаружено, различаются у разных людей. Эти акустические паттерны отражают как анатомию , так и усвоенные модели поведения.

Проверка против идентификации [ править ]

Существует два основных применения технологий и методологий распознавания говорящих. Если говорящий утверждает, что является определенной личностью, и голос используется для проверки этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация — это задача определения личности неизвестного говорящего. В некотором смысле проверка говорящего — это совпадение 1:1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего — это совпадение 1:N, когда голос сравнивается с несколькими шаблонами.

С точки зрения безопасности идентификация отличается от проверки. Проверка говорящего обычно используется в качестве «привратника» для обеспечения доступа к защищенной системе. Эти системы работают на основе знаний пользователей и обычно требуют их сотрудничества. Системы идентификации докладчиков также могут быть реализованы скрытно, без ведома пользователя, чтобы идентифицировать говорящих в дискуссии, предупреждать автоматизированные системы о смене докладчиков, проверять, зарегистрирован ли пользователь уже в системе и т. д.

В судебно-медицинских приложениях обычно сначала выполняется процесс идентификации говорящего, чтобы создать список «наилучших совпадений», а затем выполняется серия процессов проверки для определения окончательного совпадения. Работа по сопоставлению образцов говорящего со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком, исходя из количества сходств или различий. Обвинение и защита используют это в качестве доказательства, чтобы определить, действительно ли подозреваемый является преступником. [7]

Обучение [ править ]

Одна из первых коммерциализированных технологий обучения была реализована в кукле Джули из Worlds of Wonder 1987 года. На тот момент независимость динамиков была запланированным прорывом, и системам требовался период обучения. В рекламе куклы 1987 года был слоган «Наконец-то кукла, которая тебя понимает». — несмотря на то, что его описывали как продукт, «который дети могут научить реагировать на свой голос». [8] Термин «распознавание голоса», даже десятилетие спустя, относился к независимости говорящего. [9] [ нужны разъяснения ]

Варианты распознавания говорящего [ править ]

Каждая система распознавания говорящих состоит из двух этапов: регистрация и проверка. Во время регистрации голос говорящего записывается и обычно извлекается ряд функций для формирования отпечатка голоса, шаблона или модели. На этапе проверки образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. В системах идентификации высказывание сравнивается с несколькими отпечатками голоса, чтобы определить наилучшее совпадение, в то время как системы проверки сравнивают высказывание с одним отпечатком голоса. Из-за сложного процесса проверка происходит быстрее, чем идентификация.

Системы распознавания говорящего делятся на две категории: текстозависимые и текстонезависимые. [10] Текстозависимое распознавание требует, чтобы текст был одинаковым как для регистрации, так и для проверки. [11] В текстово-зависимой системе подсказки могут быть либо общими для всех говорящих (например, общая фраза-пароль), либо уникальными. можно использовать общие секреты (например, пароли и PIN-коды) или информацию, основанную на знаниях Кроме того, для создания сценария многофакторной аутентификации . И наоборот, текстонезависимые системы не требуют использования конкретного текста. Они чаще всего используются для идентификации говорящего, поскольку требуют очень незначительного сотрудничества со стороны говорящего. В этом случае текст при зачислении и тестировании будет разным. Фактически, регистрация может произойти без ведома пользователя, как и в случае со многими судебно-медицинскими приложениями. Поскольку текстонезависимые технологии не сравнивают то, что было сказано при регистрации и проверке, приложения проверки, как правило, также используют распознавание речи , чтобы определить, что говорит пользователь в момент аутентификации. [ нужна ссылка ] В текстонезависимых системах как акустические , так и речевые методы анализа . используются [12]

Технология [ править ]

Распознавание говорящего — это проблема распознавания образов . Различные технологии, используемые для обработки и хранения отпечатков голоса, включают оценку частоты , скрытые модели Маркова , модели гауссовой смеси , сопоставления с образцом алгоритмы , нейронные сети , матричное представление , векторное квантование и деревья решений . Для сравнения высказываний с отпечатками голоса более простые методы, такие как косинусное сходство, традиционно используются из-за их простоты и эффективности. Некоторые системы также используют «антиговорящие» методы, такие как когортные модели и модели мира. Спектральные характеристики преимущественно используются для представления характеристик динамиков. [13] Линейное прогнозирующее кодирование (LPC) — это метод кодирования речи, используемый для распознавания говорящего и проверки речи . [ нужна ссылка ]

Уровни окружающего шума могут препятствовать сбору как начальных, так и последующих голосовых образцов. Алгоритмы шумоподавления можно использовать для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений в поведенческих характеристиках голоса, а также регистрации с использованием одного телефона и проверки на другом телефоне. интеграции с продуктами двухфакторной аутентификации Ожидается расширение . Изменения голоса из-за старения могут со временем повлиять на производительность системы. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы фиксировать такие долгосрочные изменения в голосе, хотя ведутся споры относительно общего влияния на безопасность, оказываемого автоматической адаптацией. [ нужна ссылка ]

последствия Юридические

В связи с принятием таких законов, как Общий регламент по защите данных в Европейском Союзе и Калифорнийский закон о конфиденциальности потребителей в США, было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях. [14]

Приложения [ править ]

Первый международный патент был подан в 1983 году в результате телекоммуникационных исследований в CSELT. [15] (Италия) Микеле Кавацца и Альберто Чиарамеллы в качестве основы как для будущих телекоммуникационных услуг конечным клиентам, так и для улучшения методов снижения шума во всей сети.

В период с 1996 по 1998 год технология распознавания говорящих использовалась на пограничном переходе Скоби-Коронак , чтобы позволить зарегистрированным местным жителям, которым нечего декларировать, пересекать границу Канады и США, когда досмотровые посты были закрыты на ночь. [16] Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган. [ нужна ссылка ]

В 2013 году Barclays Wealth , подразделение частного банковского обслуживания Barclays, стало первой фирмой, оказывающей финансовые услуги, которая внедрила голосовую биометрию в качестве основного средства идентификации клиентов в своих колл-центрах . Система использовала пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд после обычного разговора. [17] Он был разработан компанией Nuance , занимающейся распознаванием голоса (которая в 2011 году приобрела компанию Loquendo , дочернюю компанию CSELT по речевым технологиям), компанией, стоящей за Apple Siri технологией . 93% клиентов дали системе оценку «9 из 10» за скорость, простоту использования и безопасность. [18]

Распознавание говорящего также может быть использовано в уголовных расследованиях, например, в расследованиях казней в 2014 году, в частности, Джеймса Фоули и Стивена Сотлоффа . [19]

В феврале 2016 года популярный британский банк HSBC и его розничный интернет-банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн-счетам и телефонным счетам с помощью отпечатков пальцев или голоса. [20]

В 2023 году Vice News и The Guardian по отдельности продемонстрировали, что могут победить стандартные финансовые системы аутентификации говорящих, используя голоса, сгенерированные искусственным интеллектом, сгенерированные примерно из пяти минут образцов голоса цели. [21] [22]

См. также [ править ]

Списки

Примечания [ править ]

  1. ^ Поддар, Арнаб; Сахидулла, Мэриленд; Саха, Гутам (27 ноября 2017 г.). «Верификация говорящего короткими высказываниями: обзор проблем, тенденций и возможностей». ИЭПП Биометрия . 7 (2). Институт техники и технологий (ИЭТ): 91–101. дои : 10.1049/iet-bmt.2017.0065 . ISSN   2047-4938 .
  2. ^ Ласс, Норман Дж. (1974). Экспериментальная фонетика . Информационная корпорация МСС. стр. 251–258. ISBN  978-0-8422-5149-5 .
  3. ^ Ван Ланкер, Диана; Крейман, Джоди; Эммори, Карен (1985). «Распознавание знакомого голоса: закономерности и параметры. Часть I: Распознавание задом наперед голосов» . Журнал фонетики . 13 (1). Эльзевир Б.В.: 19–38. дои : 10.1016/s0095-4470(19)30723-5 . ISSN   0095-4470 .
  4. ^ «РАСПОЗНАВАНИЕ ГОЛОСА (существительное) определение и синонимы» . macmillandictionary.com . 23 января 2010 года. Архивировано из оригинала 27 марта 2023 года . Проверено 13 октября 2023 г. {{cite web}}: CS1 maint: неподходящий URL ( ссылка )
  5. ^ «Что такое распознавание голоса? Определение и значение» . businessdictionary.com . 6 октября 2008 г. Архивировано из оригинала 3 декабря 2011 г.
  6. ^ «Почтовый мешок LG №114» . Linux-вестник . 28 марта 2005 г.
  7. ^ Роуз, Фил; Осанаи, Такаши; Киносита, Юко (6 августа 2003 г.). «Надежность судебно-медицинских доказательств идентификации говорящего: сегментарная дискриминация на основе формант и кепстра с несколькими говорящими с байесовским отношением правдоподобия в качестве порога». Международный журнал речи, языка и права . 10 (2). Издательство «Равноденствие»: 179–202. дои : 10.1558/sll.2003.10.2.179 . ISSN   1748-8893 .
  8. ^ Пинола, Мелани (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы пришли к Siri» . ПКМир .
  9. ^ Розен, Шерил (3 марта 1997 г.). «Распознавание голоса для облегчения бронирования поездок» . Новости делового туризма . Самыми ранними приложениями программного обеспечения для распознавания речи была диктовка... Четыре месяца назад IBM представила «продукт непрерывной диктовки», предназначенный для... дебюта на выставке Национальной ассоциации деловых путешествий в 1994 году.
  10. ^ «Проверка говорящего: текстозависимая или текстонезависимая» . Исследования Майкрософт . 19 июня 2017. Текстозависимый и текстонезависимый динамик.. у обоих одинаковая частота ошибок и обнаружение..
  11. ^ Эбер, Матье (2008). «Текстозависимое распознавание говорящего». Справочник Springer по обработке речи . Справочники Спрингера. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 743–762. дои : 10.1007/978-3-540-49127-9_37 . ISBN  978-3-540-49125-5 . ISSN   2522-8692 . задача .. проверка или идентификация
  12. ^ Майерс, Лиза (25 июля 2004 г.). «Исследование голосовой биометрии» . Институт САНС .
  13. ^ Сахидулла, Мэриленд; Киннунен, Томи (2016). «Функции локальной спектральной изменчивости для проверки динамиков» (PDF) . Цифровая обработка сигналов . 50 . Эльзевир Б.В.: 1–11. дои : 10.1016/j.dsp.2015.10.011 . ISSN   1051-2004 .
  14. ^ «Эксперт по распознаванию речи выражает обеспокоенность по поводу голосовых технологий на рабочем месте» . Независимый.т.е . 29 сентября 2019 г. . Проверено 30 сентября 2019 г.
  15. ^ US4752958 A, Мишель Кавацца, Альберто Чиарамелла, «Устройство для проверки говорящего» https://patents.google.com/patent/US4752958/en
  16. ^ Мейер, Барб (12 июня 1996 г.). «Автоматизированное пересечение границы». Репортаж телевизионных новостей . Телевизионные новости Мейера.
  17. ^ Международное банковское дело (27 декабря 2013 г.). «Голосовые биометрические технологии в банковском деле | Barclays» . Wealth.barclays.com . Проверено 21 февраля 2016 г.
  18. ^ Мэтт Уорман (8 мая 2013 г.). «Попрощайтесь с значком: распознавание голоса берет верх в Barclays Wealth» . Проверено 5 июня 2013 г.
  19. ^ Юэн Макаскилл. «Убил ли «Джихадист Джон» Стивена Сотлоффа? | СМИ» . Хранитель . Проверено 21 февраля 2016 г.
  20. ^ Юлия Коллеве (19 февраля 2016 г.). «HSBC внедряет систему голосовой и сенсорной идентификации для клиентов банков | Бизнес» . Хранитель . Проверено 21 февраля 2016 г.
  21. ^ «Как я взломал банковский счет с помощью голоса, сгенерированного искусственным интеллектом» . 23 февраля 2023 г.
  22. ^ Эвершед, Ник; Тейлор, Джош (16 марта 2023 г.). «ИИ может обмануть распознавание голоса, используемое для проверки личности Centrelink и австралийской налоговой службой» . Хранитель . Проверено 16 июня 2023 г.

Ссылки [ править ]

Внешние ссылки [ править ]

Программное обеспечение [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9972526556711f3260ba73c4402d709c__1717856760
URL1:https://arc.ask3.ru/arc/aa/99/9c/9972526556711f3260ba73c4402d709c.html
Заголовок, (Title) документа по адресу, URL1:
Speaker recognition - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)