~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ C7AAF1E18B2CB7CA358D131489756D4E__1714485780 ✰
Заголовок документа оригинал.:
✰ Prediction by partial matching - Wikipedia ✰
Заголовок документа перевод.:
✰ Прогнозирование по частичному совпадению — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Prediction_by_partial_matching ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/c7/4e/c7aaf1e18b2cb7ca358d131489756d4e.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/c7/4e/c7aaf1e18b2cb7ca358d131489756d4e__translat.html ✰
Дата и время сохранения документа:
✰ 18.06.2024 18:02:16 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 30 April 2024, at 17:03 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Прогнозирование по частичному совпадению — Википедия Jump to content

Прогнозирование по частичному совпадению

Из Википедии, бесплатной энциклопедии

Прогнозирование путем частичного сопоставления ( PPM ) — это метод адаптивного статистического сжатия данных , основанный на контекстном моделировании и прогнозировании . Модели PPM используют набор предыдущих символов в несжатом потоке символов для прогнозирования следующего символа в потоке. Алгоритмы PPM также можно использовать для кластеризации данных в прогнозируемые группы при кластерном анализе .

Теория [ править ]

Прогнозы обычно сводятся к ранжированию символов. [ нужны разъяснения ] . Каждый символ (буква, бит или любой другой объем данных) ранжируется перед сжатием, и система ранжирования определяет соответствующее кодовое слово (и, следовательно, степень сжатия). Во многих алгоритмах сжатия ранжирование эквивалентно оценке функции массы вероятности. Учитывая предыдущие буквы (или контекст), каждому символу присваивается вероятность. Например, при арифметическом кодировании символы ранжируются по вероятности появления после предыдущих символов, и вся последовательность сжимается в одну дробь, которая вычисляется в соответствии с этими вероятностями.

Количество предыдущих символов n определяет порядок модели PPM, который обозначается как PPM( n ). Также существуют неограниченные варианты, в которых контекст не имеет ограничений по длине, и они обозначаются как PPM* . Если невозможно сделать прогноз на основе всех n символов контекста, предпринимается попытка прогнозирования с использованием n - 1 символов. Этот процесс повторяется до тех пор, пока не будет найдено совпадение или пока в контексте не останется символов. В этот момент делается фиксированный прогноз.

Большая часть работы по оптимизации модели PPM заключается в обработке входных данных, которые еще не появились во входном потоке. Очевидный способ справиться с ними — создать «невидимый» символ, который запускает escape-последовательность. [ нужны разъяснения ] . Но какую вероятность следует приписать символу, которого никогда не видели? Это называется проблемой нулевой частоты . В одном варианте используется оценщик Лапласа , который присваивает «невидимому» символу фиксированный псевдосчет , равный единице. Вариант под названием PPMd увеличивает псевдосчет «невидимого» символа каждый раз, когда используется «невидимый» символ. (Другими словами, PPMd оценивает вероятность появления нового символа как отношение количества уникальных символов к общему количеству наблюдаемых символов).

Реализация [ править ]

Реализации сжатия PPM сильно различаются в других деталях. Фактический выбор символов обычно записывается с использованием арифметического кодирования , хотя также возможно использовать кодирование Хаффмана или даже какой-либо метод словарного кодирования . Базовая модель, используемая в большинстве алгоритмов PPM, также может быть расширена для прогнозирования нескольких символов. Также возможно использовать немарковское моделирование для замены или дополнения марковского моделирования. Размер символа обычно статический, обычно один байт, что упрощает общую обработку файлов любого формата.

Опубликованные исследования этого семейства алгоритмов можно найти еще в середине 1980-х годов. Программные реализации не пользовались популярностью до начала 1990-х годов, поскольку алгоритмы PPM требуют значительного объема оперативной памяти . Последние реализации PPM являются одними из наиболее эффективных программ сжатия без потерь для на естественном языке текста .

PPMd — это общедоступная реализация PPMII (PPM с наследованием информации) Дмитрия Шкарина, которая претерпела несколько несовместимых изменений. [1] он используется в формате файла RAR По умолчанию . Он также доступен в форматах файлов 7z и zip .

Попытки улучшить алгоритмы PPM привели к созданию PAQ серии алгоритмов сжатия данных .

Алгоритм PPM вместо сжатия используется для повышения эффективности пользовательского ввода в программе альтернативного метода ввода Dasher .

См. также [ править ]

Источники [ править ]

  • Клири, Дж.; Виттен, И. (апрель 1984 г.). «Сжатие данных с использованием адаптивного кодирования и частичного сопоставления строк». IEEE Транс. Коммун. 32 (4): 396–402. CiteSeerX   10.1.1.14.4305 . дои : 10.1109/TCOM.1984.1096090 .
  • Моффат, А. (ноябрь 1990 г.). «Реализация схемы сжатия данных PPM». IEEE Транс. Коммун. 38 (11): 1917–1921. CiteSeerX   10.1.1.120.8728 . дои : 10.1109/26.61469 .
  • Клири, Дж. Г.; Тихан, штат Вашингтон; Виттен, Айленд (1997). «Контексты неограниченной длины для PPM» . Компьютерный журнал . 40 (2_и_3). Оксфорд, Англия: Издательство Оксфордского университета: 67–75. дои : 10.1093/comjnl/40.2_and_3.67 . ISSN   0010-4620 .
  • К. Блум, Решение задач контекстного моделирования .
  • У. Дж. Тихан, Оценка вероятности для PPM , исходный источник с сайта archive.org .
  • Шюрманн, Т.; Грассбергер, П. (сентябрь 1996 г.). «Оценка энтропии последовательностей символов». Хаос . 6 (3): 414–427. arXiv : cond-mat/0203436 . Бибкод : 1996Хаос...6..414S . дои : 10.1063/1.166191 . ПМИД   12780271 . S2CID   10090433 .

Ссылки [ править ]

  1. ^ "BMF, PPMd Всё о сжатии данных, изображений и видео" . compression.ru (in Russian). NOTE: requires manually setting the "Cyrillic (Windows)" encoding in browser.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: C7AAF1E18B2CB7CA358D131489756D4E__1714485780
URL1:https://en.wikipedia.org/wiki/Prediction_by_partial_matching
Заголовок, (Title) документа по адресу, URL1:
Prediction by partial matching - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)