~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ E2A4C48FCD5C9B198A75258A7D5F219E__1711648260 ✰
Заголовок документа оригинал.:
✰ Context mixing - Wikipedia ✰
Заголовок документа перевод.:
✰ Смешение контекстов — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Context_mixing ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/e2/9e/e2a4c48fcd5c9b198a75258a7d5f219e.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/e2/9e/e2a4c48fcd5c9b198a75258a7d5f219e__translat.html ✰
Дата и время сохранения документа:
✰ 18.06.2024 17:59:16 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 28 March 2024, at 20:51 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Смешение контекстов — Википедия Jump to content

Смешение контекстов

Из Википедии, бесплатной энциклопедии

Смешение контекстов — это тип сжатия данных алгоритма , в котором прогнозы следующего символа двух или более статистических моделей объединяются для получения прогноза, который часто является более точным, чем любой из отдельных прогнозов. Например, один простой метод (не обязательно лучший) — усреднить вероятности , назначенные каждой моделью . Случайный лес — это еще один метод: он выдает прогноз, который является режимом вывода прогнозов отдельными моделями. Объединение моделей — активное направление исследований в области машинного обучения . [ нужна цитата ]

использует PAQ Серия программ сжатия данных смешивание контекста для назначения вероятностей отдельным битам входных данных.

данных сжатию Применение к

Предположим, что нам даны две условные вероятности: и , и мы хотим оценить , вероятность события X при обоих условиях и . недостаточно информации, Для теории вероятностей чтобы дать результат. На самом деле можно сконструировать сценарии, в которых результатом может быть что угодно. Но интуитивно мы ожидаем, что результат будет своего рода средним из двух.

Проблема важна для сжатия данных. В этом приложении и являются контекстами, это событие, когда следующий бит или символ данных, подлежащих сжатию, имеет определенное значение, и и — оценки вероятности по двум независимым моделям. Степень сжатия зависит от того, насколько близко оцененная вероятность приближается к истинной, но неизвестной вероятности события. . Часто бывает, что контексты и происходили достаточно часто, чтобы точно оценить и путем подсчета случаев в каждом контексте, но эти два контекста либо не часто встречаются вместе, либо недостаточно вычислительных ресурсов (времени и памяти) для сбора статистики для комбинированного случая.

Например, предположим, что мы сжимаем текстовый файл. Мы хотим предсказать, будет ли следующий символ переводом строки, учитывая, что предыдущий символ был точкой (контекст ) и что последний перевод строки произошел 72 символа назад (контекст ). Предположим, что ранее произошел перевод строки после 1 из последних 5 периодов ( ) и в 5 из последних 10 строк в столбце 72 ( ). Как следует объединить эти прогнозы?

Использовались два общих подхода: линейное и логистическое смешивание. Линейное смешивание использует средневзвешенное значение прогнозов, взвешенных по доказательствам. В этом примере получает больший вес, чем потому что основан на большем количестве тестов. Более старые версии PAQ используют этот подход. [1] В более новых версиях используется логистическое (или нейронное ) смешивание, сначала преобразующее прогнозы в логистическую область, log(p/(1-p)) перед усреднением. [2] Это фактически придает больший вес прогнозам около 0 или 1, в данном случае . В обоих случаях каждой из входных моделей можно присвоить дополнительные веса и адаптировать их в пользу моделей, которые в прошлом давали наиболее точные прогнозы. Все версии PAQ, кроме самых старых, используют адаптивное взвешивание.

Большинство компрессоров контекстного микширования прогнозируют по одному входному биту за раз. Выходная вероятность — это просто вероятность того, что следующий бит будет равен 1.

Линейное микширование

Нам дан набор предсказаний P i (1) = n 1i /n i , где n i = n 0i + n 1i , а n 0i и n 1i — количество битов 0 и 1 соответственно для i-й модели. . Вероятности вычисляются путем взвешенного сложения отсчетов 0 и 1:

  • S 0 знак равно Σ я ш я п 0i
  • S 1 знак равно Σ я ш я п 1i
  • С = С 0 + С 1
  • Р(0) = С0 / С
  • Р(1) = С1 / С

Веса w i изначально равны и всегда в сумме равны 1. При начальных условиях каждая модель взвешивается пропорционально доказательствам. Затем веса корректируются в пользу более точных моделей. Предположим, нам дано, что фактический прогнозируемый бит равен y (0 или 1). Тогда корректировка веса составит:

  • п я = п 0i + п 1i
  • ошибка = y – P(1)
  • w i ← w i (Sn1i - S1ni ) / ] S0S1 ) + [ ( ошибка

Сжатие можно улучшить, ограничив n i , чтобы лучше сбалансировать вес модели. В PAQ6 всякий раз, когда увеличивается один из счетчиков битов, часть другого счетчика, превышающая 2, уменьшается вдвое. Например, после последовательности 000000001 счетчик будет идти от (n 0 , n 1 ) = (8, 0) до (5, 1).

смешивание Логистическое

Пусть P i (1) будет предсказанием i-й модели о том, что следующий бит будет равен 1. Затем вычисляется окончательный прогноз P (1):

  • х я = растяжение (П я (1))
  • P (1) = сквош (Σ я ш я Икс я )

где P(1) — вероятность того, что следующий бит будет равен 1, Pi ( 1) — вероятность, оцененная i-й моделью, и

  • растяжение(х) = ln(х/(1 - х))
  • сквош(х) = 1/(1 + е ) (обратное растяжению).

После каждого прогноза модель обновляется путем корректировки весов, чтобы минимизировать затраты на кодирование.

  • w i ← w i + η x i (y - P(1))

где η — скорость обучения (обычно от 0,002 до 0,01), y — прогнозируемый бит, а (y — P(1)) — ошибка прогнозирования.

Список микширования компрессоров контекстного

Во всех приведенных ниже версиях используется логистическое смешивание, если не указано иное.

  • Все версии PAQ (Мэтт Махони, Серж Оснах, Александр Ратушняк, Пшемыслав Скибиньский, Ян Ондрус и другие) [1] . PAQAR и версии до PAQ7 использовали линейное смешивание. В более поздних версиях использовалось логистическое смешивание.
  • Все версии LPAQ (Мэтт Махони, Александр Ратушняк) [2] .
  • ZPAQ (Мэтт Махони) [3] .
  • WinRK 3.0.3 (Malcolm Taylor) в режиме PWCM максимального сжатия [4] . Версия 3.0.2 была основана на линейном смешивании.
  • NanoZip (Sami Runsas) в режиме максимального сжатия (опция -cc) [5] .
  • xwrt 3.2 (Пшемыслав Скибинский) в режиме максимального сжатия (параметры от -i10 до -i14) [6] в качестве серверной части словарного кодировщика.
  • cmm1–cmm4, M1 и M1X2 (Кристофер Маттерн) используют небольшое количество контекстов для обеспечения высокой скорости. M1 и M1X2 используют генетический алгоритм для выбора контекстов с двумя битовыми масками на отдельном проходе оптимизации.
  • ccm (Кристиан Мартелок).
  • бит (Осман Туран) [7] .
  • pimple, pimple2, tc и px (Илья Муравьев) [8] .
  • enc (Серж Оснак) пробует несколько методов, основанных на PPM и (линейном) смешивании контекстов, и выбирает лучший из них. [9]
  • fpaq2 (Нания Франческо Антонио) использует фиксированное усреднение веса для высокой скорости.
  • cmix (Байрон Нолл) сочетает в себе множество моделей и в настоящее время занимает первое место в тесте сжатия большого текста, [3] а также Силезский корпус [4] и превзошел работу, выигравшую премию Хаттера , хотя она не имеет права участвовать в конкурсе из-за использования слишком большого количества памяти.

Ссылки [ править ]

  1. ^ Махони, М. (2005), «Адаптивное взвешивание контекстных моделей для сжатия данных без потерь», Технологический институт Флориды. Технический отчет CS-2005-16
  2. ^ Махони, М. «Программа сжатия данных PAQ8» .
  3. ^ Мэтт Махони (25 сентября 2015 г.). «Бенчмарк сжатия большого текста» . Проверено 4 ноября 2015 г.
  4. ^ Мэтт Махони (23 сентября 2015 г.). «Силезский тест сжатия с открытым исходным кодом» . Проверено 4 ноября 2015 г.


Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: E2A4C48FCD5C9B198A75258A7D5F219E__1711648260
URL1:https://en.wikipedia.org/wiki/Context_mixing
Заголовок, (Title) документа по адресу, URL1:
Context mixing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)