Распознавание говорящего
Распознавание говорящего – это идентификация человека по характеристикам голоса. [1] Он используется для ответа на вопрос «Кто говорит?» Термин «распознавание голоса» [2] [3] [4] [5] [6] может относиться к распознаванию говорящего или распознаванию речи . Проверка говорящего (также называемая аутентификацией говорящего ) контрастирует с идентификацией, а распознавание говорящего отличается от диаризации говорящего (распознавание того, когда говорит один и тот же говорящий).
Распознавание говорящего может упростить задачу перевода речи в системах, обученных на определенных голосах, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса безопасности. Распознавание говорящего имеет историю, насчитывающую около четырех десятилетий по состоянию на 2019 год, и использует акустические особенности речи, которые, как было обнаружено, различаются у разных людей. Эти акустические паттерны отражают как анатомию , так и усвоенные модели поведения.
Проверка против идентификации [ править ]
Существует два основных применения технологий и методологий распознавания говорящих. Если говорящий утверждает, что является определенной личностью, и голос используется для проверки этого утверждения, это называется проверкой или аутентификацией . С другой стороны, идентификация — это задача определения личности неизвестного говорящего. В некотором смысле проверка говорящего — это совпадение 1:1, когда голос одного говорящего сопоставляется с определенным шаблоном, тогда как идентификация говорящего — это совпадение 1:N, когда голос сравнивается с несколькими шаблонами.
С точки зрения безопасности идентификация отличается от проверки. Проверка говорящего обычно используется в качестве «привратника» для обеспечения доступа к защищенной системе. Эти системы работают на основе знаний пользователей и обычно требуют их сотрудничества. Системы идентификации докладчиков также могут быть реализованы скрытно, без ведома пользователя, чтобы идентифицировать говорящих в дискуссии, предупреждать автоматизированные системы о смене докладчиков, проверять, зарегистрирован ли пользователь уже в системе и т. д.
В судебно-медицинских приложениях обычно сначала выполняется процесс идентификации говорящего, чтобы создать список «наилучших совпадений», а затем выполняется серия процессов проверки для определения окончательного совпадения. Работа по сопоставлению образцов говорящего со списком лучших совпадений помогает выяснить, являются ли они одним и тем же человеком, исходя из количества сходств или различий. Обвинение и защита используют это в качестве доказательства, чтобы определить, действительно ли подозреваемый является преступником. [7]
Обучение [ править ]
Одна из первых коммерциализированных технологий обучения была реализована в кукле Джули из Worlds of Wonder 1987 года. На тот момент независимость динамиков была запланированным прорывом, и системам требовался период обучения. В рекламе куклы 1987 года был слоган «Наконец-то кукла, которая тебя понимает». — несмотря на то, что его описывали как продукт, «который дети могут научить реагировать на свой голос». [8] Термин «распознавание голоса», даже десятилетие спустя, относился к независимости говорящего. [9] [ нужны разъяснения ]
Варианты распознавания говорящего [ править ]
Каждая система распознавания говорящих состоит из двух этапов: регистрация и проверка. Во время регистрации голос говорящего записывается и обычно извлекается ряд функций для формирования отпечатка голоса, шаблона или модели. На этапе проверки образец речи или «высказывание» сравнивается с ранее созданным голосовым отпечатком. В системах идентификации высказывание сравнивается с несколькими отпечатками голоса, чтобы определить наилучшее совпадение, в то время как системы проверки сравнивают высказывание с одним отпечатком голоса. Из-за сложного процесса проверка происходит быстрее, чем идентификация.
Системы распознавания говорящего делятся на две категории: текстозависимые и текстонезависимые. [10] Текстозависимое распознавание требует, чтобы текст был одинаковым как для регистрации, так и для проверки. [11] В текстово-зависимой системе подсказки могут быть либо общими для всех говорящих (например, общая фраза-пароль), либо уникальными. можно использовать общие секреты (например, пароли и PIN-коды) или информацию, основанную на знаниях Кроме того, для создания сценария многофакторной аутентификации . И наоборот, текстонезависимые системы не требуют использования конкретного текста. Они чаще всего используются для идентификации говорящего, поскольку требуют очень незначительного сотрудничества со стороны говорящего. В этом случае текст при зачислении и тестировании будет разным. Фактически, регистрация может произойти без ведома пользователя, как и в случае со многими судебно-медицинскими приложениями. Поскольку текстонезависимые технологии не сравнивают то, что было сказано при регистрации и проверке, приложения проверки, как правило, также используют распознавание речи , чтобы определить, что говорит пользователь в момент аутентификации. [ нужна ссылка ] В текстонезависимых системах как акустические , так и речевые методы анализа . используются [12]
Технология [ править ]
Распознавание говорящего — это проблема распознавания образов . Различные технологии, используемые для обработки и хранения отпечатков голоса, включают оценку частоты , скрытые модели Маркова , модели гауссовой смеси , сопоставления с образцом алгоритмы , нейронные сети , матричное представление , векторное квантование и деревья решений . Для сравнения высказываний с отпечатками голоса более простые методы, такие как косинусное сходство, традиционно используются из-за их простоты и эффективности. Некоторые системы также используют «антиговорящие» методы, такие как когортные модели и модели мира. Спектральные характеристики преимущественно используются для представления характеристик динамиков. [13] Линейное прогнозирующее кодирование (LPC) — это метод кодирования речи, используемый для распознавания говорящего и проверки речи . [ нужна ссылка ]
Уровни окружающего шума могут препятствовать сбору как начальных, так и последующих голосовых образцов. Алгоритмы шумоподавления можно использовать для повышения точности, но неправильное применение может иметь противоположный эффект. Ухудшение производительности может быть результатом изменений в поведенческих характеристиках голоса, а также регистрации с использованием одного телефона и проверки на другом телефоне. интеграции с продуктами двухфакторной аутентификации Ожидается расширение . Изменения голоса из-за старения могут со временем повлиять на производительность системы. Некоторые системы адаптируют модели динамиков после каждой успешной проверки, чтобы фиксировать такие долгосрочные изменения в голосе, хотя ведутся споры относительно общего влияния на безопасность, оказываемого автоматической адаптацией. [ нужна ссылка ]
последствия Юридические
В связи с принятием таких законов, как Общий регламент по защите данных в Европейском Союзе и Калифорнийский закон о конфиденциальности потребителей в США, было много дискуссий об использовании распознавания говорящего на рабочем месте. В сентябре 2019 года ирландский разработчик распознавания речи Soapbox Labs предупредил о возможных юридических последствиях. [14]
Приложения [ править ]
Первый международный патент был подан в 1983 году в результате телекоммуникационных исследований в CSELT. [15] (Италия) Микеле Кавацца и Альберто Чиарамеллы в качестве основы как для будущих телекоммуникационных услуг конечным клиентам, так и для улучшения методов снижения шума во всей сети.
В период с 1996 по 1998 год технология распознавания говорящих использовалась на пограничном переходе Скоби-Коронак , чтобы позволить зарегистрированным местным жителям, которым нечего декларировать, пересекать границу Канады и США, когда досмотровые посты были закрыты на ночь. [16] Система была разработана для Службы иммиграции и натурализации США компанией Voice Strategies из Уоррена, штат Мичиган. [ нужна ссылка ]
В 2013 году Barclays Wealth , подразделение частного банковского обслуживания Barclays, стало первой фирмой, оказывающей финансовые услуги, которая внедрила голосовую биометрию в качестве основного средства идентификации клиентов в своих колл-центрах . Система использовала пассивное распознавание говорящего для проверки личности телефонных клиентов в течение 30 секунд после обычного разговора. [17] Он был разработан компанией Nuance , занимающейся распознаванием голоса (которая в 2011 году приобрела компанию Loquendo , дочернюю компанию CSELT по речевым технологиям), компанией, стоящей за Apple Siri технологией . 93% клиентов дали системе оценку «9 из 10» за скорость, простоту использования и безопасность. [18]
Распознавание говорящего также может быть использовано в уголовных расследованиях, например, в расследованиях казней в 2014 году, в частности, Джеймса Фоули и Стивена Сотлоффа . [19]
В феврале 2016 года популярный британский банк HSBC и его розничный интернет-банк First Direct объявили, что предложат 15 миллионам клиентов свое биометрическое банковское программное обеспечение для доступа к онлайн-счетам и телефонным счетам с помощью отпечатков пальцев или голоса. [20]
В 2023 году Vice News и The Guardian по отдельности продемонстрировали, что могут победить стандартные финансовые системы аутентификации говорящих, используя голоса, сгенерированные искусственным интеллектом, сгенерированные примерно из пяти минут образцов голоса цели. [21] [22]
См. также [ править ]
- AI-эффект
- Приложения искусственного интеллекта
- Диаризация спикеров
- Распознавание речи
- Устройство смены голоса
- Списки
Примечания [ править ]
- ^ Поддар, Арнаб; Сахидулла, Мэриленд; Саха, Гутам (27 ноября 2017 г.). «Верификация говорящего короткими высказываниями: обзор проблем, тенденций и возможностей». ИЭПП Биометрия . 7 (2). Институт техники и технологий (ИЭТ): 91–101. дои : 10.1049/iet-bmt.2017.0065 . ISSN 2047-4938 .
- ^ Ласс, Норман Дж. (1974). Экспериментальная фонетика . Информационная корпорация МСС. стр. 251–258. ISBN 978-0-8422-5149-5 .
- ^ Ван Ланкер, Диана; Крейман, Джоди; Эммори, Карен (1985). «Распознавание знакомого голоса: закономерности и параметры. Часть I: Распознавание задом наперед голосов» . Журнал фонетики . 13 (1). Эльзевир Б.В.: 19–38. дои : 10.1016/s0095-4470(19)30723-5 . ISSN 0095-4470 .
- ^ «РАСПОЗНАВАНИЕ ГОЛОСА (существительное) определение и синонимы» . macmillandictionary.com . 23 января 2010 года. Архивировано из оригинала 27 марта 2023 года . Проверено 13 октября 2023 г.
{{cite web}}
: CS1 maint: неподходящий URL ( ссылка ) - ^ «Что такое распознавание голоса? Определение и значение» . businessdictionary.com . 6 октября 2008 г. Архивировано из оригинала 3 декабря 2011 г.
- ^ «Почтовый мешок LG №114» . Linux-вестник . 28 марта 2005 г.
- ^ Роуз, Фил; Осанаи, Такаши; Киносита, Юко (6 августа 2003 г.). «Надежность судебно-медицинских доказательств идентификации говорящего: сегментарная дискриминация на основе формант и кепстра с несколькими говорящими с байесовским отношением правдоподобия в качестве порога». Международный журнал речи, языка и права . 10 (2). Издательство «Равноденствие»: 179–202. дои : 10.1558/sll.2003.10.2.179 . ISSN 1748-8893 .
- ^ Пинола, Мелани (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы пришли к Siri» . ПКМир .
- ^ Розен, Шерил (3 марта 1997 г.). «Распознавание голоса для облегчения бронирования поездок» . Новости делового туризма .
Самыми ранними приложениями программного обеспечения для распознавания речи была диктовка... Четыре месяца назад IBM представила «продукт непрерывной диктовки», предназначенный для... дебюта на выставке Национальной ассоциации деловых путешествий в 1994 году.
- ^ «Проверка говорящего: текстозависимая или текстонезависимая» . Исследования Майкрософт . 19 июня 2017.
Текстозависимый и текстонезависимый динамик.. у обоих одинаковая частота ошибок и обнаружение..
- ^ Эбер, Матье (2008). «Текстозависимое распознавание говорящего». Справочник Springer по обработке речи . Справочники Спрингера. Берлин, Гейдельберг: Springer Berlin Heidelberg. стр. 743–762. дои : 10.1007/978-3-540-49127-9_37 . ISBN 978-3-540-49125-5 . ISSN 2522-8692 .
задача .. проверка или идентификация
- ^ Майерс, Лиза (25 июля 2004 г.). «Исследование голосовой биометрии» . Институт САНС .
- ^ Сахидулла, Мэриленд; Киннунен, Томи (2016). «Функции локальной спектральной изменчивости для проверки динамиков» (PDF) . Цифровая обработка сигналов . 50 . Эльзевир Б.В.: 1–11. дои : 10.1016/j.dsp.2015.10.011 . ISSN 1051-2004 .
- ^ «Эксперт по распознаванию речи выражает обеспокоенность по поводу голосовых технологий на рабочем месте» . Независимый.т.е . 29 сентября 2019 г. . Проверено 30 сентября 2019 г.
- ^ US4752958 A, Мишель Кавацца, Альберто Чиарамелла, «Устройство для проверки говорящего» https://patents.google.com/patent/US4752958/en
- ^ Мейер, Барб (12 июня 1996 г.). «Автоматизированное пересечение границы». Репортаж телевизионных новостей . Телевизионные новости Мейера.
- ^ Международное банковское дело (27 декабря 2013 г.). «Голосовые биометрические технологии в банковском деле | Barclays» . Wealth.barclays.com . Проверено 21 февраля 2016 г.
- ^ Мэтт Уорман (8 мая 2013 г.). «Попрощайтесь с значком: распознавание голоса берет верх в Barclays Wealth» . Проверено 5 июня 2013 г.
- ^ Юэн Макаскилл. «Убил ли «Джихадист Джон» Стивена Сотлоффа? | СМИ» . Хранитель . Проверено 21 февраля 2016 г.
- ^ Юлия Коллеве (19 февраля 2016 г.). «HSBC внедряет систему голосовой и сенсорной идентификации для клиентов банков | Бизнес» . Хранитель . Проверено 21 февраля 2016 г.
- ^ «Как я взломал банковский счет с помощью голоса, сгенерированного искусственным интеллектом» . 23 февраля 2023 г.
- ^ Эвершед, Ник; Тейлор, Джош (16 марта 2023 г.). «ИИ может обмануть распознавание голоса, используемое для проверки личности Centrelink и австралийской налоговой службой» . Хранитель . Проверено 16 июня 2023 г.
Ссылки [ править ]
- Хомайон Бейги (2011 г.), « Основы распознавания говорящих », Springer-Verlag, Берлин, 2011 г., ISBN 978-0-387-77591-3 .
- «Биометрия из кино» – Национальный институт стандартов и технологий.
- Элизабет Зеттерхольм (2003), Имитация голоса. Фонетическое исследование перцептивных иллюзий и акустического успеха , докторская диссертация, Лундский университет .
- Доктор Сахидулла (2015), Повышение эффективности распознавания говорящего с использованием уровня блока, относительной и временной информации об энергиях поддиапазонов , докторская диссертация, Индийский технологический институт Харагпур .
Внешние ссылки [ править ]
- Обход голосовой аутентификации. Архивировано 10 июня 2008 г. в Wayback Machine . В подкасте PLA Radio недавно был представлен простой способ обмануть элементарные системы голосовой аутентификации.
- Распознавание спикера - Scholarpedia
- Преимущества и проблемы распознавания голоса при контроле доступа