Jump to content

Калгари корпус

(Перенаправлено из Корпуса Калгари )

Корпус Калгари представляет собой набор текстовых и двоичных файлов данных, обычно используемый для сравнения алгоритмов сжатия данных . Он был создан Яном Виттеном , Тимом Беллом и Джоном Клири из Университета Калгари в 1987 году и широко использовался в 1990-х годах. В 1997 году его заменил Кентерберийский корпус , [1] основываясь на опасениях по поводу репрезентативности корпуса Калгари, [2] но корпус Калгари все еще существует для сравнения и по-прежнему полезен по своему первоначальному назначению.

Содержание

[ редактировать ]

В наиболее часто используемой форме корпус состоит из 14 файлов общим размером 3 141 622 байта, как показано ниже.

Размер (байты) Имя файла Описание
111,261 BIB Текст ASCII в формате UNIX « reference » – 725 библиографических ссылок.
768,771 КНИГА1 неформатированный текст ASCII – Томас Харди: Вдали от обезумевшей толпы.
610,856 КНИГА2 Текст ASCII в формате UNIX « troff » – Виттен: Принципы компьютерной речи.
102,400 ГЕО 32-битные числа в формате IBM с плавающей запятой – сейсмические данные.
377,109 НОВОСТИ Текст ASCII — пакетный файл USENET на различные темы.
21,504 ОБЖ1 Исполняемая программа VAX – компиляция PROGP.
246,814 ОБЖ2 Исполняемая программа для Macintosh – «Система поддержки знаний» Б. Р. Гейнса.
53,161 БУМАГА1 Формат UNIX «troff» - Виттен, Нил, Клири: арифметическое кодирование для сжатия данных.
82,199 БУМАГА2 Формат UNIX «troff» – Виттен: Компьютерная (не)безопасность.
513,216 ПОС 1728 x 2376 Растровое изображение (сначала MSB): текст на французском языке и линейные диаграммы.
39,611 ПРОГК Исходный код на C – UNIX compress v4.0.
71,646 ПРОГЛ Исходный код на Лиспе – системное программное обеспечение.
49,379 ПРОГРАММА Исходный код на Паскале – программа для оценки сжатия PPM.
93,695 ТРАНС ASCII и управляющие символы – расшифровка терминальной сессии.

Существует также менее распространенная версия из 18 файлов, которая включает 4 дополнительных текстовых файла в формате UNIX «troff», от PAPER3 до PAPER6. Сопровождающие веб-сайта корпуса Кентербери отмечают, что «они не повышают оценку». [3]

Корпус Калгари был широко используемым эталоном сжатия данных в 1990-х годах. Результаты чаще всего перечислялись в битах на байт (bpb) для каждого файла, а затем суммировались путем усреднения. В последнее время стало обычным просто добавлять сжатые размеры всех файлов. Это называется средневзвешенным значением , поскольку оно эквивалентно взвешиванию коэффициентов сжатия по исходным размерам файлов. Тест UCLC [4] Йохан де Бок использует этот метод.

Для некоторых компрессоров данных можно сжать корпус меньшего размера, объединив входные данные в несжатый архив (например, tar- файл) перед сжатием из-за взаимной информации между текстовыми файлами. В других случаях сжатие хуже, поскольку компрессор плохо обрабатывает неоднородную статистику. Этот метод использовался в тесте в онлайн-книге «Сжатие данных» . Мэтта Махони [5]

В таблице ниже показаны размеры сжатого 14-файлового корпуса Калгари с использованием обоих методов для некоторых популярных программ сжатия. Параметры, если они используются, позволяют выбрать наилучшее сжатие. Более полный список см. в приведенных выше тестах.

Компрессор Параметры Как 14 отдельных файлов Как tar-файл
Несжатый 3,141,622 3,152,896
компресс 1,272,772 1,319,521
Инфо-ZIP 2.32 -9 1,020,781 1,023,042
gzip 1.3.5 -9 1,017,624 1,022,810
bzip2 1.0.3 -9 828,347 860,097
7-zip 9.12b 848,687 824,573
bzip3 1.1.8 765,939 779,795
ппмд младший1 -m256 -o16 740,737 754,243
ппмонстр Дж 675,485 669,497
ЗПАК v7.15 -метод 5 659,709 659,853

Задача сжатия

[ редактировать ]

«Вызов сжатия корпуса Калгари и взлома SHA-1 » [6] — это конкурс, начатый Леонидом А. Брухисом 21 мая 1996 года по сжатию 14-файловой версии корпуса Калгари. Конкурс предлагает небольшой денежный приз, размер которого со временем менялся. В настоящее время приз составляет 1 доллар США за улучшение предыдущего результата на 111 байт.

По правилам конкурса, работа должна состоять как из сжатых данных, так и из программы распаковки, упакованной в один из нескольких стандартных форматов архива. Ограничения по времени и памяти, форматы архивов и языки распаковки со временем были смягчены. В настоящее время программа должна работать в течение 24 часов на компьютере с производительностью 2000 MIPS под Windows или Linux и использовать менее 800 МБ памяти. SHA -1 Позже был добавлен вызов . Это позволяет программе распаковки выводить файлы, отличные от корпуса Калгари, при условии, что они имеют те же значения хеш-функции, что и исходные файлы. Пока эта часть задачи не решена.

Первая полученная запись размером 759 881 байт была получена в сентябре 1997 года Малкольмом Тейлором, автором RK и WinRK. Самая последняя запись Александра Ратушняка размером 580 170 байт от 2 июля 2010 года. Запись состоит из сжатого файла размером 572 465 байт и программы распаковки, написанной на C++ и сжатой до 7700 байт в виде переменной PPMd. Я архивирую, плюс 5 байт на имя и размер сжатого файла. История такова.

Размер (байты) Месяц/год Автор
759,881 09/1997 Малькольм Тейлор
692,154 08/2001 Максим Смирнов
680,558 09/2001 Максим Смирнов
653,720 11/2002 Serge Voskoboynikov
645,667 01/2004 Мэтт Махони
637,116 04/2004 Alexander Ratushnyak
608,980 12/2004 Alexander Ratushnyak
603,416 04/2005 Пшемыслав Скибинский
596,314 10/2005 Alexander Ratushnyak
593,620 12/2005 Alexander Ratushnyak
589,863 05/2006 Alexander Ratushnyak
580,170 07/2010 Alexander Ratushnyak

См. также

[ редактировать ]
  1. ^ Ян Х. Виттен; Алистер Моффат; Тимоти К. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений . Морган Кауфманн. п. 92. ИСБН  9781558605701 .
  2. ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (Четвертое изд.). Спрингер. п. 12. ISBN  9781846286032 .
  3. ^ «Кентерберийский корпус» . corpus.canterbury.ac.nz .
  4. ^ «Учебный центр UC» . 6 января 2023 г.
  5. ^ «Объяснение сжатия данных» . mattmahoney.net .
  6. ^ «Проблема сжатия/SHA-1» . mailcom.com .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 388f269a305d8db0430a7d2f544a5e90__1687171680
URL1:https://arc.ask3.ru/arc/aa/38/90/388f269a305d8db0430a7d2f544a5e90.html
Заголовок, (Title) документа по адресу, URL1:
Calgary corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)