NETtalk (искусственная нейронная сеть)
NETtalk — искусственная нейронная сеть . Это результат исследования, проведенного в середине 1980-х годов Терренсом Сейновски и Чарльзом Розенбергом. Целью NETtalk было создание упрощенных моделей, которые могли бы пролить свет на сложность изучения когнитивных задач человеческого уровня, и их реализацию в качестве коннекционистской модели, которая также могла бы научиться выполнять сопоставимые задачи. Авторы обучали его двумя способами: с помощью машины Больцмана и с помощью обратного распространения ошибки . [1]
NETtalk — это программа, которая учится произносить письменный текст на английском языке, показывая текст в качестве входных данных и сопоставляя фонетические транскрипции для сравнения. [2] [3]
Сеть была обучена на большом количестве английских слов и соответствующих им произношений и способна генерировать произношение невидимых слов с высоким уровнем точности. Успех сети NETtalk вдохновил на дальнейшие исследования в области генерации произношения и синтеза речи и продемонстрировал потенциал нейронных сетей для решения сложных НЛП задач . Результатом работы сети стал поток фонем, который передавался в DECtalk для создания слышимой речи. Он добился популярного успеха, появившись на Today шоу . [4] Процесс разработки был описан в интервью 1993 года. На создание обучающего набора данных ушло три месяца, а на обучение сети — всего несколько дней. [5]
Архитектура
[ редактировать ]Сеть имела три слоя и 18 629 настраиваемых весов, что было большим по меркам 1986 года. Были опасения, что она будет перекрывать набор данных, но она была успешно обучена. Набор данных представлял собой подмножество Коричневого корпуса из 20 000 слов с аннотированными вручную фонемами и ударениями для каждой буквы. [4]
На входе сети 203 единицы, разделенные на 7 групп по 29 единиц в каждой. Каждая группа представляет собой горячую кодировку одного символа. Возможны 29 символов: 26 букв, запятая, точка и граница слова (пробел).
Скрытый слой имеет 80 единиц.
На выходе 26 единиц. 21 единица кодирует артикуляционные особенности (точку артикуляции, звонкость, высоту гласных и т. д.) фонем, а 5 единиц кодируют ударение и границы слогов.
Достижения и ограничения
[ редактировать ]NETtalk был создан для изучения механизмов обучения правильному произношению английского текста. Авторы отмечают, что обучение чтению включает в себя сложный механизм, в котором задействованы многие участки человеческого мозга. NETtalk специально не моделирует этапы обработки изображений и распознавания букв зрительной корой . Скорее, предполагается, что буквы были предварительно классифицированы и распознаны, и эти последовательности букв, состоящие из слов, затем отображаются нейронной сети во время обучения и во время тестирования производительности. Задача NETtalk — изучить правильные ассоциации между правильным произношением и заданной последовательностью букв в зависимости от контекста, в котором эти буквы появляются. Другими словами, NETtalk учится использовать буквы вокруг произнесенной в данный момент фонемы , которые дают подсказки относительно ее предполагаемого фонематического отображения.
Ссылки
[ редактировать ]- ^ Сейновский, Терренс Дж. и Чарльз Р. Розенберг. « Параллельные сети, которые учатся произносить английский текст ». Сложные системы 1.1 (1987): 145-168.
- ^ Тьерри Дютуа (30 ноября 2001 г.). Введение в синтез речи . Springer Science & Business Media. стр. 123–. ISBN 978-1-4020-0369-1 .
- ^ Хинтон, Джеффри (1991). Коннекционистская обработка символов (первое изд.). Массачусетский технологический институт Пресс. стр. 161–163. ISBN 0-262-58106-Х .
- ^ Перейти обратно: а б Сейновски, Терренс Дж. (2018). Революция глубокого обучения . Кембридж, Массачусетс, Лондон, Англия: MIT Press. ISBN 978-0-262-03803-4 .
- ^ Говорящие сети: устная история нейронных сетей . Массачусетский технологический институт Пресс. 28 февраля 2000 г. ISBN 978-0-262-26715-1 .