Коннекционистская временная классификация
Коннекционистская временная классификация ( CTC ) — это тип выходных данных нейронной сети и связанная с ней функция оценки для обучения рекуррентных нейронных сетей (RNN), таких как сети LSTM , для решения проблем последовательности, где время является переменным. Его можно использовать для таких задач, как распознавание рукописного текста в режиме онлайн. [1] или распознавание фонем в речевом аудио. CTC относится к результатам и оценке и не зависит от базовой структуры нейронной сети. Он был представлен в 2006 году. [2]
Входные данные представляют собой последовательность наблюдений, а выходные данные — последовательность меток, которые могут включать пустые выходные данные. Трудность обучения связана с тем, что наблюдений гораздо больше, чем меток. Например, в речевом звуке может быть несколько временных интервалов, соответствующих одной фонеме. Поскольку мы не знаем совпадения наблюдаемой последовательности с целевыми метками, мы прогнозируем распределение вероятностей на каждом временном шаге. [3] Сеть CTC имеет непрерывный выходной сигнал (например, softmax ), который настраивается посредством обучения для моделирования вероятности метки. CTC не пытается изучить границы и время: последовательности меток считаются эквивалентными, если они отличаются только выравниванием, игнорируя пробелы. Эквивалентные последовательности меток могут возникать разными способами, что делает оценку нетривиальной задачей, но для этого существует эффективный алгоритм вперед-назад .
Затем оценки CTC можно использовать с алгоритмом обратного распространения ошибки для обновления весов нейронной сети.
Альтернативные подходы к нейронной сети, оснащенной CTC, включают скрытую марковскую модель (HMM).
Ссылки
[ редактировать ]- ^ Ливицкий, Маркус; Грейвс, Алекс ; Бунке, Хорст; Шмидхубер, Юрген (2007). «Новый подход к онлайн-распознаванию рукописного текста, основанный на двунаправленных сетях долговременной краткосрочной памяти». В материалах 9-й Международной конференции по анализу и распознаванию документов, ICDAR 2007 . CiteSeerX 10.1.1.139.5852 .
- ^ Грейвс, Алекс ; Фернандес, Сантьяго; Гомес, Фаустино; Шмидхубер, Юрген (2006). «Временная классификация коннекционистов: маркировка данных несегментированных последовательностей с помощью рекуррентных нейронных сетей». Материалы Международной конференции по машинному обучению, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
- ^ Ханнун, Авни (27 ноября 2017 г.). «Моделирование последовательностей с помощью CTC». Дистиллировать . 2 (11). arXiv : 1508.01211 . дои : 10.23915/distill.00008 . ISSN 2476-0757 .
Внешние ссылки
[ редактировать ]- Раздел 16.4, «CTC» Джурафского и Мартина в книге «Обработка речи и языка» , 3-е издание