Конечный преобразователь
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Преобразователь с конечным числом состояний ( FST ) — это конечный автомат с двумя лентами памяти , следуя терминологии машин Тьюринга : входная лента и выходная лента. Это контрастирует с обычным конечным автоматом , имеющим одну ленту. FST — это тип конечного автомата (FSA), который отображает два набора символов. [1] FST является более общим, чем FSA. FSA определяет формальный язык , определяя набор принимаемых строк, а FST определяет отношения между наборами строк.
FST считывает набор строк на входной ленте и генерирует набор отношений на выходной ленте. FST можно рассматривать как переводчик или средство связи между строками в наборе.
При морфологическом анализе примером может быть ввод строки букв в FST, затем FST выводит строку морфем .
Обзор
[ редактировать ]Внешние видео | |
---|---|
Преобразователи конечных состояний // Технологический институт Карлсруэ , видео на YouTube |
распознает автомат Можно сказать, что строку , если мы рассматриваем содержимое его ленты как входные данные. Другими словами, автомат вычисляет функцию, которая отображает строки в набор {0,1}. Альтернативно мы можем сказать, что автомат генерирует строки, что означает просмотр его ленты как выходной ленты. С этой точки зрения автомат генерирует формальный язык , который представляет собой набор строк. Два вида автоматов эквивалентны: функция, которую вычисляет автомат, является в точности индикаторной функцией набора генерируемых им строк. Класс языков, порождённых конечными автоматами, известен как класс регулярных языков .
Две ленты преобразователя обычно рассматриваются как входная и выходная лента. С этой точки зрения говорят, что преобразователь преобразует (т. е. транслирует) содержимое своей входной ленты на выходную ленту, принимая строку на свою входную ленту и генерируя другую строку на выходной ленте. Он может делать это недетерминировано и может выдавать более одного вывода для каждой входной строки. Преобразователь также может не выдавать никаких выходных данных для данной входной строки, и в этом случае говорят, что он отклоняет входные данные. В общем, преобразователь вычисляет отношение между двумя формальными языками.
Каждый преобразователь конечных состояний «строка-строка» связывает входной алфавит Σ с выходным алфавитом Γ. Отношения R на Σ*×Γ*, которые могут быть реализованы как преобразователи конечных состояний, называются рациональными отношениями . Рациональные отношения, которые являются частичными функциями , т. е. которые связывают каждую входную строку из Σ* не более чем с одной Γ*, называются рациональными функциями .
Преобразователи конечных состояний часто используются для фонологического и морфологического анализа в исследованиях и приложениях обработки естественного языка . Пионерами в этой области являются Рональд Каплан , Лаури Карттунен , Мартин Кей и Киммо Коскенниеми . [2] [ нужен неосновной источник ] Распространенным способом использования преобразователей является так называемый «каскад», когда преобразователи для различных операций объединяются в один преобразователь путем многократного применения оператора композиции (определенного ниже).
Формальная конструкция
[ редактировать ]Формально конечный преобразователь T представляет собой 6-кортеж ( Q , Σ , Γ , I , F , δ ) такой, что:
- Q — конечное множество , множество состояний ;
- Σ — конечное множество, называемое входным алфавитом ;
- Γ — конечное множество, называемое выходным алфавитом ;
- I — подмножество Q ; множество начальных состояний ,
- F — подмножество Q , множество конечных состояний ; и
- (где ε — пустая строка ) — отношение перехода .
Мы можем рассматривать ( Q , δ ) как помеченный ориентированный граф , известный как граф переходов T Q : множество вершин равно , и означает, что существует помеченное ребро, идущее из вершины q в вершину r . Мы также говорим, что a — входная метка , а b — выходная метка этого ребра.
ПРИМЕЧАНИЕ. Это определение конечного преобразователя также называется буквенным преобразователем (Roche and Schabes 1997); Возможны альтернативные определения, но все они могут быть преобразованы в преобразователи, соответствующие этому.
Определите расширенное отношение перехода как наименьшее множество такое, что:
- ;
- для всех ; и
- в любое время и затем .
Расширенное отношение перехода — это, по сути, рефлексивное транзитивное замыкание графа переходов, дополненное для учета меток ребер. Элементы известны как пути . Метки ребер пути получаются путем объединения меток ребер составляющих его переходов по порядку.
Поведение ] , преобразователя T представляет собой рациональное отношение [ T определяемое следующим образом: тогда и только тогда, когда существует и такой, что . Это означает, что T преобразует строку в строку если существует путь от начального состояния к конечному состоянию, входная метка которого равна x , а выходная метка — y .
Взвешенные автоматы
[ редактировать ]Преобразователи конечных состояний могут иметь взвешивание, при этом каждый переход помечается весом в дополнение к меткам входа и выхода. Взвешенный преобразователь конечных состояний (WFST) над набором K весов можно определить аналогично невзвешенному преобразователю как 8-кортеж T =( Q , Σ, Γ, I , F , E , λ , ρ ) , где:
- Q , Σ, Γ, I , F определены, как указано выше;
- (где ε — пустая строка ) — конечное множество переходов;
- отображает начальные состояния на веса;
- отображает конечные состояния на веса.
Чтобы четко определить некоторые операции над WFST, удобно потребовать, чтобы набор весов образовывал полукольцо . [3] Двумя типичными полукольцами, используемыми на практике, являются лог-полукольцо и тропическое полукольцо : недетерминированные автоматы можно рассматривать как имеющие веса в булевом полукольце . [4]
Стохастический ТФТ
[ редактировать ]Стохастические FST (также известные как вероятностные FST или статистические FST), предположительно, являются формой взвешенного FST. [ нужна ссылка ]
Операции с конечными преобразователями
[ редактировать ]Следующие операции, определенные на конечных автоматах, также применимы к конечным преобразователям:
- Союз . Для данных преобразователей T и S существует преобразователь такой, что тогда и только тогда, когда или .
- Конкатенация . Для данных преобразователей T и S существует преобразователь такой, что тогда и только тогда, когда существуют с и
- Закрытие Клини . Учитывая преобразователь T , может существовать преобразователь со следующими свойствами: [5]
; | ( к1 ) |
если и , затем ; | ( к2 ) |
- Состав . Для данного преобразователя T на алфавитах Σ и Γ и преобразователя S на алфавитах Γ и Δ существует преобразователь на Σ и Δ такие, что тогда и только тогда, когда существует строка такой, что и . Эта операция распространяется на взвешенный случай. [6]
- В этом определении используются те же обозначения, которые используются в математике для композиции отношений . Однако традиционное прочтение композиции отношений происходит наоборот: учитывая два отношения T и S , когда существуют такие y , что и
- Проекция на автомат. Есть две функции проецирования: сохраняет входную ленту и сохраняет выходную ленту. Первая проекция, определяется следующим образом:
- Для преобразователя T существует конечный автомат такой, что принимает x тогда и только тогда, когда существует строка y , для которой
- Вторая проекция, определяется аналогично.
- Определенность . Учитывая преобразователь T , мы хотим построить эквивалентный преобразователь, который имеет уникальное начальное состояние и такой, чтобы никакие два перехода, выходящие из любого состояния, не имели одну и ту же входную метку. Конструкция силового набора может быть распространена на датчики или даже на взвешенные датчики, но иногда не может остановиться; действительно, некоторые недетерминированные преобразователи не допускают эквивалентных детерминированных преобразователей. [7] характеристики детерминируемых преобразователей. Предложены [8] вместе с эффективными алгоритмами для их тестирования: [9] они основаны на полукольце, используемом в случае взвешивания, а также на общем свойстве конструкции преобразователя ( свойстве двойников ).
- Увеличение веса для утяжеленного корпуса. [10]
- Минимизация для взвешенного случая. [11]
- Удаление эпсилон-переходов .
Дополнительные свойства конечных преобразователей
[ редактировать ]- Можно решить , является ли отношение [ T ] преобразователя T пустым.
- Можно решить, существует ли строка y такая, что x [ T ] y для данной строки x .
- Неизвестно, эквивалентны ли два преобразователя. [12] Однако эквивалентность разрешима в частном случае, когда отношение [ T ] преобразователя T является (частичной) функцией.
- Если определить алфавит меток , преобразователи с конечным состоянием изоморфны NDFA по алфавиту , и поэтому может быть детерминирован (превращен в детерминированные конечные автоматы над алфавитом ) и впоследствии минимизируются так, чтобы они имели минимальное количество состояний. [ нужна ссылка ]
Приложения
[ редактировать ]FST используются лексического анализа на этапе компиляторами для связывания семантического значения с обнаруженными токенами. [13]
Контекстно-зависимые правила переписывания формы a → b / c_d . , , используемые в лингвистике для моделирования фонологических правил и изменения звука вычислительно эквивалентны преобразователям с конечным состоянием, при условии, что приложение нерекурсивно, т. е. правило не разрешено переписывать одну и ту же подстроку дважды. [14]
Взвешенные FST нашли применение в обработке естественного языка , включая машинный перевод , и в машинном обучении . [15] [16] Реализацию тегирования части речи можно найти как один из компонентов OpenGrm. [17] библиотека.
См. также
[ редактировать ]- Мучнистая машина
- Машина Мура
- Морфологический словарь
- foma (software)
- Датчик дерева
- Реляционный преобразователь
Примечания
[ редактировать ]- ^ Юрафский, Дэниел (2009). Речевая и языковая обработка . Пирсон. ISBN 9789332518414 .
- ^ Коскенниеми 1983 г.
- ^ Берстель, Жан; Ройтенауэр, Кристоф (2011). Некоммутативные рациональные ряды с приложениями . Энциклопедия математики и ее приложений. Том. 137. Кембридж: Издательство Кембриджского университета . п. 16. ISBN 978-0-521-19022-0 . Збл 1250.68007 .
- ^ Лотер, М. (2005). Прикладная комбинаторика к словам . Энциклопедия математики и ее приложений. Том. 105. Коллективная работа Жана Берстеля, Доминика Перрена, Максима Крошмора, Эрика Лапорта, Мехрияра Мори, Нади Пизанти, Мари-Франс Саго, Жезины Рейнерт , Софи Шбат , Михаэля Уотермана, Филиппа Жаке, Войцеха Шпанковского , Доминика Пулалона, Жиля Шеффера, Роман Колпаков, Григорий Кучеров, Жан-Поль Аллуш и Валери Берте . Кембридж: Издательство Кембриджского университета . п. 211 . ISBN 0-521-84802-4 . Збл 1133.68067 .
- ^ Буажело, Бернар; Легай, Аксель; Вулпер, Пьер (2003). «Итерационные преобразователи в целом». Компьютерная проверка . Конспекты лекций по информатике. Том. 2725. Шпрингер Берлин Гейдельберг. стр. 223–235. дои : 10.1007/978-3-540-45069-6_24 . eISSN 1611-3349 . ISBN 978-3-540-40524-5 . ISSN 0302-9743 .
- ^ Мори 2004 , с. 3–5
- ^ «Определение преобразователей» .
- ^ Мори 2004 , с. 5–6
- ^ Аллаузен и Мори, 2003 г.
- ^ Мори 2004 , с. 7–9
- ^ Мори 2004 , с. 9–11
- ^ Гриффитс 1968
- ^ Чарльз Н. Фишер; Рон К. Сайтрон; Ричард Дж. ЛеБлан-младший (2010). «Сканирование – теория и практика». Создание компилятора . Аддисон-Уэсли. ISBN 978-0-13-606705-4 .
- ^ «Регулярные модели систем фонологических правил» (PDF) . Архивировано из оригинала (PDF) 11 октября 2010 г. Проверено 25 августа 2012 г.
- ^ Кевин Найт; Джонатан Мэй (2009). «Применение взвешенных автоматов в обработке естественного языка». В Манфреде Дросте; Вернер Куич; Хайко Фоглер (ред.). Справочник по взвешенным автоматам . Springer Science & Business Media. ISBN 978-3-642-01492-5 .
- ^ «Обучение с помощью взвешенных датчиков» (PDF) . Проверено 29 апреля 2017 г.
- ^ ОпенГрм
Ссылки
[ редактировать ]- Аллаузен, Кирилл; Мори, Мехриар (2003). «Эффективные алгоритмы проверки свойства близнецов» (PDF) . Журнал автоматов, языков и комбинаторики . 8 (2): 117–144.
- Коскенниеми, Киммо (1983), Двухуровневая морфология: общая вычислительная модель распознавания и производства словоформ (PDF) , Департамент общей лингвистики, Хельсинкский университет , заархивировано из оригинала (PDF) 21 декабря 2018 г. , получено 10 января 2010 г.
- Мори, Мехриар (2004). «Алгоритмы взвешенных преобразователей конечных состояний. Обзор» (PDF) . Формальные языки и приложения . Исследования нечеткости и мягких вычислений. Том. 148. стр. 551–564. дои : 10.1007/978-3-540-39886-8_29 . ISBN 978-3-642-53554-3 .
- Гриффитс, ТВ (1968). «Неразрешимость проблемы эквивалентности для Λ-свободных недетерминированных обобщенных машин». Журнал АКМ . 15 (3). АКМ: 409–413. дои : 10.1145/321466.321473 .
Внешние ссылки
[ редактировать ]- OpenFst — библиотека с открытым исходным кодом для операций FST.
- Морфология конечных состояний — книга, заархивированная 25 марта 2022 г. в Wayback Machine XFST/LEXC, описание реализации Xerox преобразователей с конечным состоянием, предназначенных для лингвистических приложений.
- Хельсинкская реализация с открытым исходным кодом и расширение Xerox fst.
- FOMA — реализация с открытым исходным кодом большинства возможностей реализации Xerox XFST/LEXC.
- Stuttgart Finite State Transducer Tools , еще один набор инструментов FST с открытым исходным кодом.
- Java FST Framework — Java FST Framework с открытым исходным кодом, способная обрабатывать текстовый формат OpenFst.
- Vcsn. Архивировано 23 июня 2020 г. на Wayback Machine , платформе с открытым исходным кодом (C++ и IPython) для взвешенных автоматов и рациональных выражений.
Дальнейшее чтение
[ редактировать ]- Юрафски, Дэниел ; Джеймс Х. Мартин (2000). Речевая и языковая обработка . Прентис Холл. стр. 71–83 . ISBN 0-13-095069-6 .
- Корнаи, Андраш (1999). Расширенные модели языка с конечным состоянием . Издательство Кембриджского университета. ISBN 0-521-63198-Х .
- Рош, Эммануэль; Ив Шабес (1997). Обработка конечного языка . МТИ Пресс. стр. 1 –65. ISBN 0-262-18182-7 .
- Бисли, Кеннет Р.; Лаури Карттунен (2003). Морфология конечного состояния . Центр изучения языка и информации. ISBN 1-57586-434-7 .
- Рорк, Брайан; Ричард Спроат (2007). Вычислительные подходы к морфологии и синтаксису . Издательство Оксфордского университета. ISBN 978-0-19-927478-9 .
- Берстель, Жан (1979). Трансдукции и контекстно-свободные языки . Тойбнер Верлаг. . Бесплатная PDF-версия