Частота ошибок в словах
Коэффициент ошибок в словах ( WER ) — это общий показатель производительности системы распознавания речи или машинного перевода .
Общая сложность измерения производительности заключается в том, что распознанная последовательность слов может иметь длину, отличную от эталонной последовательности слов (предположительно правильной). WER получен из расстояния Левенштейна и работает на уровне слов, а не на уровне фонем . WER — ценный инструмент для сравнения различных систем, а также для оценки улучшений внутри одной системы. Однако этот вид измерения не дает подробностей о природе ошибок перевода, и поэтому требуется дальнейшая работа для выявления основного источника(ов) ошибки и сосредоточения любых исследовательских усилий.
Эта проблема решается путем предварительного выравнивания распознанной последовательности слов с эталонной (произносимой) последовательностью слов с использованием динамического выравнивания строк. Исследование этой проблемы рассматривается с помощью теории, называемой степенным законом, которая утверждает корреляцию между недоумением и частотой ошибок в словах. [1]
Тогда коэффициент ошибок в словах можно рассчитать как:
где
- S – количество замен,
- D – количество делеций,
- I — количество вставок,
- C – количество правильных слов,
- N — количество слов в ссылке (N=S+D+C)
Интуиция, лежащая в основе «удаления» и «вставки», заключается в том, как перейти от ссылки к гипотезе. Итак, если у нас есть ссылка «Это Arc.Ask3.Ru» и гипотеза «Это _ Arc.Ask3.Ru», мы называем это удалением.
При сообщении о производительности системы распознавания речи иногда точность слов (WAcc) вместо этого используется :
Обратите внимание: поскольку N — это количество слов в ссылке, коэффициент ошибок в словах может быть больше 1,0, и, следовательно, точность слова может быть меньше 0,0.
Эксперименты
[ редактировать ]Принято считать, что более низкий уровень ошибок в словах обеспечивает более высокую точность распознавания речи по сравнению с более высоким уровнем ошибок в словах. Однако, по крайней мере, одно исследование показало, что это может быть не так. В эксперименте Microsoft Research было показано, что если бы люди обучались по программе, «которая соответствует цели оптимизации понимания» (Wang, Acero and Chelba, 2003), они продемонстрировали бы более высокую точность понимания языка, чем другие люди, продемонстрировавшие более низкий уровень ошибок в словах, что показывает, что истинное понимание разговорной речи зависит не только от высокой точности распознавания слов . [2]
Другие показатели
[ редактировать ]Однако одна из проблем с использованием общей формулы, такой как приведенная выше, заключается в том, что не принимается во внимание влияние, которое различные типы ошибок могут оказать на вероятность успешного результата, например, некоторые ошибки могут быть более разрушительными, чем другие, а некоторые могут исправить легче, чем другие. Эти факторы, вероятно, будут специфичны для синтаксиса тестируемого . Еще одна проблема заключается в том, что даже при наилучшем выравнивании формула не может отличить ошибку замены от комбинированной ошибки удаления и вставки.
Хант (1990) предложил использовать взвешенную меру точности производительности, где ошибки замены имеют вес, равный единице, а ошибки удаления и вставки имеют вес только 0,5, таким образом:
Однако ведутся споры о том, можно ли правильно использовать формулу Ханта для оценки производительности одной системы, поскольку она была разработана как средство сравнения более справедливо конкурирующих систем-кандидатов. Еще одна сложность добавляется тем, допускает ли данный синтаксис исправление ошибок, и если да, то насколько прост этот процесс для пользователя. Таким образом, аргумент в пользу того, что показатели производительности следует разрабатывать в соответствии с конкретной измеряемой системой, имеет определенные основания.
Однако какой бы показатель ни использовался, одной из основных теоретических проблем при оценке производительности системы является решение о том, было ли слово «неправильно произнесено», т.е. лежит ли вина на пользователе или на распознавателе. Это может быть особенно актуально в системе, предназначенной для работы с людьми, для которых данный язык не является родным, или с сильным региональным акцентом.
Скорость, с которой следует произносить слова во время процесса измерения, также является источником различий между испытуемыми, как и необходимость испытуемых отдохнуть или перевести дух. Все эти факторы, возможно, необходимо каким-то образом контролировать.
Для текстовой диктовки общепринято, что точность производительности ниже 95 % неприемлема, но это опять же может зависеть от синтаксиса и/или предметной области, например, есть ли у пользователей нехватка времени для выполнения задачи, существуют ли альтернативные методы завершения и так далее.
Термин «коэффициент ошибок в одном слове» иногда называют процентом неправильных распознаваний каждого отдельного слова в системном словаре.
Изменить расстояние
[ редактировать ]Коэффициент ошибок в словах также можно назвать нормализованным по длине расстоянием редактирования . [3] Нормализованное расстояние редактирования между X и Y, d (X,Y) определяется как минимум W(P)/L(P), где P — путь редактирования между X и Y, W(P) — сумма веса элементарных операций редактирования P, а L(P) — количество этих операций (длина P). [4]
См. также
[ редактировать ]Ссылки
[ редактировать ]Примечания
[ редактировать ]- ^ Клаков, Дитрих; Йохен Петерс (сентябрь 2002 г.). «Тестирование корреляции частоты ошибок в словах и недоумения». Речевое общение . 38 (1–2): 19–28. дои : 10.1016/S0167-6393(01)00041-3 . ISSN 0167-6393 .
- ^ Ван, Ю.; Асеро, А.; Челба, К. (2003). Является ли процент ошибок в словах хорошим индикатором точности понимания разговорной речи ? Семинар IEEE по автоматическому распознаванию и пониманию речи. Сент-Томас, Виргинские острова США. CiteSeerX 10.1.1.89.424 .
- ^ Ниссен и др. (2000)
- ^ Вычисление нормализованного расстояния редактирования и применение: Андрес Марзал и Энрике Видаль
Другие источники
[ редактировать ]- МакКоуэн и др. 2005: Об использовании мер поиска информации для оценки распознавания речи. Архивировано 24 февраля 2019 г. в Wayback Machine.
- Хант, MJ, 1990: Показатели качества для оценки распознавателей связанных слов (Speech Communication, 9, 1990, стр. 239–336)
- Зехнер К., Вайбель А. Минимизация количества словесных ошибок в текстовых сводках разговорной речи