Jump to content

Стохастические цепочки с памятью переменной длины

Стохастические цепочки с памятью переменной длины представляют собой семейство стохастических цепочек конечного порядка в конечном алфавите, например, для каждого прохода времени необходим только один конечный суффикс прошлого, называемый контекстом, для предсказания следующего символа. Эти модели были представлены в литературе по теории информации Йормой Риссаненом в 1983 году. [1] как универсальный инструмент для сжатия данных , но в последнее время стал использоваться для моделирования данных в различных областях, таких как биология , [2] лингвистика [3] и музыка . [4]

Определение

[ редактировать ]

Стохастическая цепь с памятью переменной длины — это стохастическая цепь. , принимающий значения в конечном алфавите и характеризуется вероятностным контекстным деревом , так что

  • это группа всех контекстов. Контекст , существование размер контекста - это конечная часть прошлого , что важно для прогнозирования следующего символа ;
  • представляет собой семейство вероятностей перехода, связанных с каждым контекстом.

Класс стохастических цепей с памятью переменной длины был введен Йормой Риссаненом в статье Универсальная система сжатия данных . [1] Такой класс стохастических цепей был популяризирован в статистическом и вероятностном сообществе П. Бюльманом и А. Дж. Винером в 1999 году в статье « Цепи Маркова переменной длины» . Названные Бюльманом и Винером « цепями Маркова переменной длины » (VLMC), эти цепи также известны как « модели Маркова переменного порядка » (VOM), «вероятностные суффиксные деревья ». [2] и « модели контекстного дерева ». [5] Название «стохастические цепи с памятью переменной длины», по-видимому, было введено Гальвесом и Лёхербахом в 2008 году в одноименной статье. [6]

Прерывистый источник света

[ редактировать ]

Рассмотрим систему с лампой, наблюдателем и дверью между ними. Лампа имеет два возможных состояния : включена, обозначается цифрой 1, или выключена, обозначается цифрой 0. Когда лампа включена, наблюдатель может видеть свет через дверь, в зависимости от того, в каком состоянии дверь находится в данный момент: открыта, 1. , или закрыто, 0. такие состояния не зависят от исходного состояния лампы.

Позволять цепь Маркова , которая представляет состояние лампы со значениями в и пусть быть вероятностной матрицей перехода . Кроме того, пусть быть последовательностью независимых случайных величин , которые представляют состояния двери, также принимающие значения в , независимо от цепи и такое, что

где . Определить новую последовательность такой, что

для каждого

Чтобы определить последний момент, когда наблюдатель мог видеть включенную лампу, т. е. определить наименьший момент , с в котором .

Используя дерево контекста, можно представить прошлые состояния последовательности, показывая, какие из них важны для идентификации следующего состояния.

Стохастическая цепочка тогда это цепочка с памятью переменной длины, принимающая значения в и совместимо с вероятностным контекстным деревом , где

Выводы в цепочках переменной длины

[ редактировать ]

Учитывая образец , можно найти соответствующее дерево контекста, используя следующие алгоритмы.

Контекстный алгоритм

[ редактировать ]

В статье Универсальная система сжатия данных , [1] Риссанен представил последовательный алгоритм для оценки вероятностного контекстного дерева, генерирующего данные. Функцию этого алгоритма можно свести к двум этапам:

  1. Учитывая выборку, созданную цепочкой с памятью переменной длины, мы начинаем с максимального дерева, все ветви которого являются кандидатами на контексты выборки;
  2. Затем ветви этого дерева обрезаются до тех пор, пока не будет получено наименьшее дерево, хорошо адаптированное к данным. Решение о том, выполняется ли сокращение контекста, осуществляется с помощью заданной функции усиления, такой как отношение логарифмического правдоподобия.

Быть образец конечного вероятностного дерева . Для любой последовательности с , можно обозначить через количество вхождений последовательности в выборку, т. е.

Риссанен сначала построил кандидата контекстного максимума, заданного формулой , где и — произвольная положительная константа. Интуитивная причина выбора происходит из-за невозможности оценить вероятности последовательности с длиной больше, чем на основе выборки размером .

Далее Риссанен укорачивает максимального кандидата путем последовательного разрезания ветвей в соответствии с последовательностью тестов, основанных на статистическом отношении правдоподобия. В более формальном определении, если bANnxk1b0 определяет оценку вероятности перехода к

где . Если , определять .

К , определять

где и

Обратите внимание, что это отношение логарифмического правдоподобия для проверки согласованности выборки с вероятностным контекстным деревом. против альтернативы, которая соответствует , где и отличаются только набором родственных узлов.

Длина текущего предполагаемого контекста определяется выражением

где — любая положительная константа. Наконец, Риссанен, [1] есть следующий результат. Данный конечного вероятностного контекстного дерева , затем

когда .

Байесовский информационный критерий (BIC)

[ редактировать ]

Оценщик контекстного дерева по BIC со штрафной константой определяется как

Критерий наименьшего максимизатора (SMC)

[ редактировать ]

Наименьший критерий максимизатора [3] рассчитывается путем выбора наименьшего дерева τ из набора деревьев-чемпионов C такого, что

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д Риссанен, Дж (сентябрь 1983 г.). «Универсальная система сжатия данных». Транзакции IEEE по теории информации . 29 (5): 656–664. дои : 10.1109/TIT.1983.1056741 .
  2. ^ Jump up to: а б Беженаро, Дж. (2001). «Вариации вероятностных суффиксных деревьев: статистическое моделирование и прогнозирование семейств белков» . Биоинформатика . 17 (5): 23–43. дои : 10.1093/биоинформатика/17.1.23 . ПМИД   11222260 .
  3. ^ Jump up to: а б Галвес А, Галвес С, Гарсия Дж, Гарсия Н.Л., Леонарди Ф (2012). «Выбор контекстного дерева и извлечение лингвистической ритмики из письменных текстов» . Анналы прикладной статистики . 6 (5): 186–209. arXiv : 0902.3619 . дои : 10.1214/11-AOAS511 .
  4. ^ Дубнов С., Ассаяг Г., Лартильо О., Беженаро Г. (2003). «Использование методов машинного обучения для моделирования музыкальных стилей». Компьютер . 36 (10): 73–80. CiteSeerX   10.1.1.628.4614 . дои : 10.1109/MC.2003.1236474 .
  5. ^ Гальвес А., Гаривье А., Гассиат Э. (2012). «Совместная оценка пересекающихся моделей контекстного дерева». Скандинавский статистический журнал . 40 (2): 344–362. arXiv : 1102.0673 . дои : 10.1111/j.1467-9469.2012.00814.x .
  6. ^ Гальвес А, Лехербах Э (2008). «Стохастические цепочки с памятью переменной длины» . Серия ТИКСП . 38 : 117–133. arXiv : 0804.2050 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ef6778da3c173a818169455800ad91cd__1712000700
URL1:https://arc.ask3.ru/arc/aa/ef/cd/ef6778da3c173a818169455800ad91cd.html
Заголовок, (Title) документа по адресу, URL1:
Stochastic chains with memory of variable length - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)