Jump to content

Конечный преобразователь

Преобразователь с конечным числом состояний ( FST ) — это конечный автомат с двумя лентами памяти , следуя терминологии машин Тьюринга : входная лента и выходная лента. Это контрастирует с обычным конечным автоматом , имеющим одну ленту. FST — это тип конечного автомата (FSA), который отображает два набора символов. [1] FST является более общим, чем FSA. FSA определяет формальный язык , определяя набор принимаемых строк, а FST определяет связь между наборами строк.

FST считывает набор строк на входной ленте и генерирует набор отношений на выходной ленте. FST можно рассматривать как переводчик или средство связи между строками в наборе.

При морфологическом анализе примером может быть ввод строки букв в FST, затем FST выводит строку морфем .

Внешние видео
значок видео Преобразователи конечных состояний // Технологический институт Карлсруэ , видео на YouTube

распознает автомат Можно сказать, что строку , если мы рассматриваем содержимое его ленты как входные данные. Другими словами, автомат вычисляет функцию, которая отображает строки в набор {0,1}. Альтернативно мы можем сказать, что автомат генерирует строки, что означает просмотр его ленты как выходной ленты. С этой точки зрения автомат генерирует формальный язык , который представляет собой набор строк. Два вида автоматов эквивалентны: функция, которую вычисляет автомат, является в точности индикаторной функцией набора генерируемых им строк. Класс языков, порождённых конечными автоматами, известен как класс регулярных языков .

Две ленты преобразователя обычно рассматриваются как входная и выходная лента. С этой точки зрения говорят, что преобразователь преобразует (т. е. транслирует) содержимое своей входной ленты на выходную ленту, принимая строку на свою входную ленту и генерируя другую строку на выходной ленте. Он может делать это недетерминировано и может выдавать более одного вывода для каждой входной строки. Преобразователь также может не выдавать никаких выходных данных для данной входной строки, и в этом случае говорят, что он отклоняет входные данные. В общем, преобразователь вычисляет отношение между двумя формальными языками.

Каждый преобразователь конечных состояний «строка-строка» связывает входной алфавит Σ с выходным алфавитом Γ. Отношения R на Σ*×Γ*, которые могут быть реализованы как преобразователи конечных состояний, называются рациональными отношениями . Рациональные отношения, которые являются частичными функциями , т. е. которые связывают каждую входную строку из Σ* не более чем с одной Γ*, называются рациональными функциями .

Преобразователи конечных состояний часто используются для фонологического и морфологического анализа в исследованиях и приложениях обработки естественного языка . Пионерами в этой области являются Рональд Каплан , Лаури Карттунен , Мартин Кей и Киммо Коскенниеми . [2] [ нужен неосновной источник ] Распространенным способом использования преобразователей является так называемый «каскад», когда преобразователи для различных операций объединяются в один преобразователь путем многократного применения оператора композиции (определенного ниже).

Формальная конструкция

[ редактировать ]

Формально конечный преобразователь T представляет собой 6-кортеж ( Q , Σ , Γ , I , F , δ ) такой, что:

  • Q конечное множество , множество состояний ;
  • Σ — конечное множество, называемое входным алфавитом ;
  • Γ — конечное множество, называемое выходным алфавитом ;
  • I подмножество Q ; множество начальных состояний ,
  • F — подмножество Q , множество конечных состояний ; и
  • (где ε — пустая строка ) — отношение перехода .

Мы можем рассматривать ( Q , δ ) как помеченный ориентированный граф , известный как граф переходов T Q : множество вершин равно , и означает, что существует помеченное ребро, идущее из вершины q в вершину r . Мы также говорим, что a входная метка , а b — выходная метка этого ребра.

ПРИМЕЧАНИЕ. Это определение конечного преобразователя также называется буквенным преобразователем (Roche and Schabes 1997); Возможны альтернативные определения, но все они могут быть преобразованы в преобразователи, соответствующие этому.

Определите расширенное отношение перехода как наименьшее множество такое, что:

  • ;
  • для всех ; и
  • в любое время и затем .

Расширенное отношение перехода — это, по сути, рефлексивное транзитивное замыкание графа переходов, дополненное для учета меток ребер. Элементы известны как пути . Метки ребер пути получаются путем объединения меток ребер составляющих его переходов по порядку.

Поведение ] , преобразователя T представляет собой рациональное отношение [ T определяемое следующим образом: тогда и только тогда, когда существует и такой, что . Это означает, что T преобразует строку в строку если существует путь от начального состояния к конечному состоянию, входная метка которого равна x , а выходная метка — y .

Взвешенные автоматы

[ редактировать ]

Преобразователи конечных состояний могут иметь взвешивание, при этом каждый переход помечается весом в дополнение к меткам входа и выхода. Взвешенный преобразователь конечных состояний (WFST) над набором K весов можно определить аналогично невзвешенному преобразователю как 8-кортеж T =( Q , Σ, Γ, I , F , E , λ , ρ ) , где:

  • Q , Σ, Γ, I , F определены, как указано выше;
  • (где ε пустая строка ) — конечное множество переходов;
  • отображает начальные состояния на веса;
  • отображает конечные состояния на веса.

Чтобы четко определить некоторые операции над WFST, удобно потребовать, чтобы набор весов образовывал полукольцо . [3] Двумя типичными полукольцами, используемыми на практике, являются лог-полукольцо и тропическое полукольцо : недетерминированные автоматы можно рассматривать как имеющие веса в булевом полукольце . [4]

Стохастический ТФТ

[ редактировать ]

Стохастические FST (также известные как вероятностные FST или статистические FST), предположительно, являются формой взвешенного FST. [ нужна ссылка ]

Операции с конечными преобразователями

[ редактировать ]

Следующие операции, определенные на конечных автоматах, также применимы к конечным преобразователям:

  • Союз . Для данных преобразователей T и S существует преобразователь такой, что тогда и только тогда, когда или .
  • Конкатенация . Для данных преобразователей T и S существует преобразователь такой, что тогда и только тогда, когда существуют с и
  • Закрытие Клини . Учитывая преобразователь T , может существовать преобразователь со следующими свойствами: [5]
; ( к1 )
если и , затем ; ( к2 )
и не выполняется, если это не предписано ( k1 ) или ( k2 ).
  • Состав . Для данного преобразователя T на алфавитах Σ и Γ и преобразователя S на алфавитах Γ и Δ существует преобразователь на Σ и Δ такие, что тогда и только тогда, когда существует строка такой, что и . Эта операция распространяется на взвешенный случай. [6]
В этом определении используются те же обозначения, которые используются в математике для композиции отношений . Однако традиционное прочтение композиции отношений происходит наоборот: учитывая два отношения T и S , когда существуют такие y , что и
  • Проекция на автомат. Есть две функции проецирования: сохраняет входную ленту и сохраняет выходную ленту. Первая проекция, определяется следующим образом:
Для преобразователя T существует конечный автомат такой, что принимает x тогда и только тогда, когда существует строка y , для которой
Вторая проекция, определяется аналогично.
  • Определенность . Учитывая преобразователь T , мы хотим построить эквивалентный преобразователь, который имеет уникальное начальное состояние и такой, чтобы никакие два перехода, выходящие из любого состояния, не имели одну и ту же входную метку. Конструкция силового набора может быть распространена на датчики или даже на взвешенные датчики, но иногда не может остановиться; действительно, некоторые недетерминированные преобразователи не допускают эквивалентных детерминированных преобразователей. [7] характеристики детерминируемых преобразователей. Предложены [8] вместе с эффективными алгоритмами для их тестирования: [9] они основаны на полукольце, используемом в случае взвешивания, а также на общем свойстве конструкции преобразователя ( свойстве двойников ).
  • Увеличение веса для утяжеленного корпуса. [10]
  • Минимизация для взвешенного случая. [11]
  • Удаление эпсилон-переходов .

Дополнительные свойства конечных преобразователей

[ редактировать ]
  • Можно решить , является ли отношение [ T ] преобразователя T пустым.
  • Можно решить, существует ли строка y такая, что x [ T ] y для данной строки x .
  • Неизвестно, эквивалентны ли два преобразователя. [12] Однако эквивалентность разрешима в частном случае, когда отношение [ T ] преобразователя T является (частичной) функцией.
  • Если определить алфавит меток , преобразователи с конечным состоянием изоморфны NDFA по алфавиту , и поэтому может быть детерминирован (превращен в детерминированные конечные автоматы над алфавитом ) и впоследствии минимизируются так, чтобы они имели минимальное количество состояний. [ нужна ссылка ]

Приложения

[ редактировать ]

FST используются лексического анализа на этапе компиляторами для связывания семантического значения с обнаруженными токенами. [13]

Контекстно-зависимые правила переписывания формы a b / c_d . , , используемые в лингвистике для моделирования фонологических правил и изменения звука вычислительно эквивалентны преобразователям с конечным состоянием, при условии, что приложение нерекурсивно, т. е. правило не разрешено переписывать одну и ту же подстроку дважды. [14]

Взвешенные FST нашли применение в обработке естественного языка , включая машинный перевод , и в машинном обучении . [15] [16] Реализацию тегирования части речи можно найти как один из компонентов OpenGrm. [17] библиотека.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Юрафский, Дэниел (2009). Речевая и языковая обработка . Пирсон. ISBN  9789332518414 .
  2. ^ Коскенниеми 1983 г.
  3. ^ Берстель, Жан; Ройтенауэр, Кристоф (2011). Некоммутативные рациональные ряды с приложениями . Энциклопедия математики и ее приложений. Том. 137. Кембридж: Издательство Кембриджского университета . п. 16. ISBN  978-0-521-19022-0 . Збл   1250.68007 .
  4. ^ Лотер, М. (2005). Прикладная комбинаторика к словам . Энциклопедия математики и ее приложений. Том. 105. Коллективная работа Жана Берстеля, Доминика Перрена, Максима Крошмора, Эрика Лапорта, Мехрияра Мори, Нади Пизанти, Мари-Франс Саго, Жезины Рейнерт , Софи Шбат , Михаэля Уотермана, Филиппа Жаке, Войцеха Шпанковского , Доминика Пулалона, Жиля Шеффера, Роман Колпаков, Григорий Кучеров, Жан-Поль Аллуш и Валери Берте . Кембридж: Издательство Кембриджского университета . п. 211 . ISBN  0-521-84802-4 . Збл   1133.68067 .
  5. ^ Буажело, Бернар; Легай, Аксель; Вулпер, Пьер (2003). «Итерационные преобразователи в целом». Компьютерная проверка . Конспекты лекций по информатике. Том. 2725. Шпрингер Берлин Гейдельберг. стр. 223–235. дои : 10.1007/978-3-540-45069-6_24 . eISSN   1611-3349 . ISBN  978-3-540-40524-5 . ISSN   0302-9743 .
  6. ^ Мори 2004 , с. 3–5
  7. ^ «Определение преобразователей» .
  8. ^ Мори 2004 , с. 5–6
  9. ^ Аллаузен и Мори, 2003 г.
  10. ^ Мори 2004 , с. 7–9
  11. ^ Мори 2004 , с. 9–11
  12. ^ Гриффитс 1968
  13. ^ Чарльз Н. Фишер; Рон К. Сайтрон; Ричард Дж. ЛеБлан-младший (2010). «Сканирование – теория и практика». Создание компилятора . Аддисон-Уэсли. ISBN  978-0-13-606705-4 .
  14. ^ «Регулярные модели систем фонологических правил» (PDF) . Архивировано из оригинала (PDF) 11 октября 2010 г. Проверено 25 августа 2012 г.
  15. ^ Кевин Найт; Джонатан Мэй (2009). «Применение взвешенных автоматов в обработке естественного языка». В Манфреде Дросте; Вернер Куич; Хайко Фоглер (ред.). Справочник по взвешенным автоматам . Springer Science & Business Media. ISBN  978-3-642-01492-5 .
  16. ^ «Обучение с помощью взвешенных датчиков» (PDF) . Проверено 29 апреля 2017 г.
  17. ^ ОпенГрм
[ редактировать ]

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c04eca1ae91057226ccb027413626803__1714544880
URL1:https://arc.ask3.ru/arc/aa/c0/03/c04eca1ae91057226ccb027413626803.html
Заголовок, (Title) документа по адресу, URL1:
Finite-state transducer - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)