Стохастические цепочки с памятью переменной длины
Стохастические цепочки с памятью переменной длины представляют собой семейство стохастических цепочек конечного порядка в конечном алфавите, например, для каждого прохода времени необходим только один конечный суффикс прошлого, называемый контекстом, для предсказания следующего символа. Эти модели были представлены в литературе по теории информации Йормой Риссаненом в 1983 году. [1] как универсальный инструмент для сжатия данных , но в последнее время стал использоваться для моделирования данных в различных областях, таких как биология , [2] лингвистика [3] и музыка . [4]
Определение
[ редактировать ]Стохастическая цепь с памятью переменной длины — это стохастическая цепь. , принимающий значения в конечном алфавите и характеризуется вероятностным контекстным деревом , так что
- это группа всех контекстов. Контекст , существование размер контекста - это конечная часть прошлого , что важно для прогнозирования следующего символа ;
- представляет собой семейство вероятностей перехода, связанных с каждым контекстом.
История
[ редактировать ]Класс стохастических цепей с памятью переменной длины был введен Йормой Риссаненом в статье Универсальная система сжатия данных . [1] Такой класс стохастических цепей был популяризирован в статистическом и вероятностном сообществе П. Бюльманом и А. Дж. Винером в 1999 году в статье « Цепи Маркова переменной длины» . Названные Бюльманом и Винером « цепями Маркова переменной длины » (VLMC), эти цепи также известны как « модели Маркова переменного порядка » (VOM), «вероятностные суффиксные деревья ». [2] и « модели контекстного дерева ». [5] Название «стохастические цепи с памятью переменной длины», по-видимому, было введено Гальвесом и Лёхербахом в 2008 году в одноименной статье. [6]
Примеры
[ редактировать ]Прерывистый источник света
[ редактировать ]Рассмотрим систему с лампой, наблюдателем и дверью между ними. Лампа имеет два возможных состояния : включена, обозначается цифрой 1, или выключена, обозначается цифрой 0. Когда лампа включена, наблюдатель может видеть свет через дверь, в зависимости от того, в каком состоянии дверь находится в данный момент: открыта, 1. , или закрыто, 0. такие состояния не зависят от исходного состояния лампы.
Позволять цепь Маркова , которая представляет состояние лампы со значениями в и пусть быть вероятностной матрицей перехода . Кроме того, пусть быть последовательностью независимых случайных величин , которые представляют состояния двери, также принимающие значения в , независимо от цепи и такое, что
где . Определить новую последовательность такой, что
- для каждого
Чтобы определить последний момент, когда наблюдатель мог видеть включенную лампу, т. е. определить наименьший момент , с в котором .
Используя дерево контекста, можно представить прошлые состояния последовательности, показывая, какие из них важны для идентификации следующего состояния.
Стохастическая цепочка тогда это цепочка с памятью переменной длины, принимающая значения в и совместимо с вероятностным контекстным деревом , где
Выводы в цепочках переменной длины
[ редактировать ]Учитывая образец , можно найти соответствующее дерево контекста, используя следующие алгоритмы.
Контекстный алгоритм
[ редактировать ]В статье Универсальная система сжатия данных , [1] Риссанен представил последовательный алгоритм для оценки вероятностного контекстного дерева, генерирующего данные. Функцию этого алгоритма можно свести к двум этапам:
- Учитывая выборку, созданную цепочкой с памятью переменной длины, мы начинаем с максимального дерева, все ветви которого являются кандидатами на контексты выборки;
- Затем ветви этого дерева обрезаются до тех пор, пока не будет получено наименьшее дерево, хорошо адаптированное к данным. Решение о том, выполняется ли сокращение контекста, осуществляется с помощью заданной функции усиления, такой как отношение логарифмического правдоподобия.
Быть образец конечного вероятностного дерева . Для любой последовательности с , можно обозначить через количество вхождений последовательности в выборку, т. е.
Риссанен сначала построил кандидата контекстного максимума, заданного формулой , где и — произвольная положительная константа. Интуитивная причина выбора происходит из-за невозможности оценить вероятности последовательности с длиной больше, чем на основе выборки размером .
Далее Риссанен укорачивает максимального кандидата путем последовательного разрезания ветвей в соответствии с последовательностью тестов, основанных на статистическом отношении правдоподобия. В более формальном определении, если bANnxk1b0 определяет оценку вероятности перехода к
где . Если , определять .
К , определять
где и
Обратите внимание, что это отношение логарифмического правдоподобия для проверки согласованности выборки с вероятностным контекстным деревом. против альтернативы, которая соответствует , где и отличаются только набором родственных узлов.
Длина текущего предполагаемого контекста определяется выражением
где — любая положительная константа. Наконец, Риссанен, [1] есть следующий результат. Данный конечного вероятностного контекстного дерева , затем
когда .
Байесовский информационный критерий (BIC)
[ редактировать ]Оценщик контекстного дерева по BIC со штрафной константой определяется как
Критерий наименьшего максимизатора (SMC)
[ редактировать ]Наименьший критерий максимизатора [3] рассчитывается путем выбора наименьшего дерева τ из набора деревьев-чемпионов C такого, что
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д Риссанен, Дж (сентябрь 1983 г.). «Универсальная система сжатия данных». Транзакции IEEE по теории информации . 29 (5): 656–664. дои : 10.1109/TIT.1983.1056741 .
- ^ Jump up to: а б Беженаро, Дж. (2001). «Вариации вероятностных суффиксных деревьев: статистическое моделирование и прогнозирование семейств белков» . Биоинформатика . 17 (5): 23–43. дои : 10.1093/биоинформатика/17.1.23 . ПМИД 11222260 .
- ^ Jump up to: а б Галвес А, Галвес С, Гарсия Дж, Гарсия Н.Л., Леонарди Ф (2012). «Выбор контекстного дерева и извлечение лингвистической ритмики из письменных текстов» . Анналы прикладной статистики . 6 (5): 186–209. arXiv : 0902.3619 . дои : 10.1214/11-AOAS511 .
- ^ Дубнов С., Ассаяг Г., Лартильо О., Беженаро Г. (2003). «Использование методов машинного обучения для моделирования музыкальных стилей». Компьютер . 36 (10): 73–80. CiteSeerX 10.1.1.628.4614 . дои : 10.1109/MC.2003.1236474 .
- ^ Гальвес А., Гаривье А., Гассиат Э. (2012). «Совместная оценка пересекающихся моделей контекстного дерева». Скандинавский статистический журнал . 40 (2): 344–362. arXiv : 1102.0673 . дои : 10.1111/j.1467-9469.2012.00814.x .
- ^ Гальвес А, Лехербах Э (2008). «Стохастические цепочки с памятью переменной длины» . Серия ТИКСП . 38 : 117–133. arXiv : 0804.2050 .