Калгари корпус
Эта статья нуждается в дополнительных цитатах для проверки . ( ноябрь 2012 г. ) |
Корпус Калгари представляет собой набор текстовых и двоичных файлов данных, обычно используемый для сравнения алгоритмов сжатия данных . Он был создан Яном Виттеном , Тимом Беллом и Джоном Клири из Университета Калгари в 1987 году и широко использовался в 1990-х годах. В 1997 году его заменил Кентерберийский корпус , [1] основываясь на опасениях по поводу репрезентативности корпуса Калгари, [2] но корпус Калгари все еще существует для сравнения и по-прежнему полезен по своему первоначальному назначению.
Содержание
[ редактировать ]В наиболее часто используемой форме корпус состоит из 14 файлов общим размером 3 141 622 байта, как показано ниже.
Размер (байты) | Имя файла | Описание |
---|---|---|
111,261 | BIB | Текст ASCII в формате UNIX « reference » – 725 библиографических ссылок. |
768,771 | КНИГА1 | неформатированный текст ASCII – Томас Харди: Вдали от обезумевшей толпы. |
610,856 | КНИГА2 | Текст ASCII в формате UNIX « troff » – Виттен: Принципы компьютерной речи. |
102,400 | ГЕО | 32-битные числа в формате IBM с плавающей запятой – сейсмические данные. |
377,109 | НОВОСТИ | Текст ASCII — пакетный файл USENET на различные темы. |
21,504 | ОБЖ1 | Исполняемая программа VAX – компиляция PROGP. |
246,814 | ОБЖ2 | Исполняемая программа для Macintosh – «Система поддержки знаний» Б. Р. Гейнса. |
53,161 | БУМАГА1 | Формат UNIX «troff» - Виттен, Нил, Клири: арифметическое кодирование для сжатия данных. |
82,199 | БУМАГА2 | Формат UNIX «troff» – Виттен: Компьютерная (не)безопасность. |
513,216 | ПОС | 1728 x 2376 Растровое изображение (сначала MSB): текст на французском языке и линейные диаграммы. |
39,611 | ПРОГК | Исходный код на C – UNIX compress v4.0. |
71,646 | ПРОГЛ | Исходный код на Лиспе – системное программное обеспечение. |
49,379 | ПРОГРАММА | Исходный код на Паскале – программа для оценки сжатия PPM. |
93,695 | ТРАНС | ASCII и управляющие символы – расшифровка терминальной сессии. |
Существует также менее распространенная версия из 18 файлов, которая включает 4 дополнительных текстовых файла в формате UNIX «troff», от PAPER3 до PAPER6. Сопровождающие веб-сайта корпуса Кентербери отмечают, что «они не повышают оценку». [3]
Тесты
[ редактировать ]Корпус Калгари был широко используемым эталоном сжатия данных в 1990-х годах. Результаты чаще всего перечислялись в битах на байт (bpb) для каждого файла, а затем суммировались путем усреднения. В последнее время стало обычным просто добавлять сжатые размеры всех файлов. Это называется средневзвешенным значением , поскольку оно эквивалентно взвешиванию коэффициентов сжатия по исходным размерам файлов. Тест UCLC [4] Йохан де Бок использует этот метод.
Для некоторых компрессоров данных можно сжать корпус меньшего размера, объединив входные данные в несжатый архив (например, tar- файл) перед сжатием из-за взаимной информации между текстовыми файлами. В других случаях сжатие хуже, поскольку компрессор плохо обрабатывает неоднородную статистику. Этот метод использовался в тесте в онлайн-книге «Сжатие данных» . Мэтта Махони [5]
В таблице ниже показаны размеры сжатого 14-файлового корпуса Калгари с использованием обоих методов для некоторых популярных программ сжатия. Параметры, если они используются, позволяют выбрать наилучшее сжатие. Более полный список см. в приведенных выше тестах.
Компрессор | Параметры | Как 14 отдельных файлов | Как tar-файл |
---|---|---|---|
Несжатый | 3,141,622 | 3,152,896 | |
компресс | 1,272,772 | 1,319,521 | |
Инфо-ZIP 2.32 | -9 | 1,020,781 | 1,023,042 |
gzip 1.3.5 | -9 | 1,017,624 | 1,022,810 |
bzip2 1.0.3 | -9 | 828,347 | 860,097 |
7-zip 9.12b | 848,687 | 824,573 | |
bzip3 1.1.8 | 765,939 | 779,795 | |
ппмд младший1 | -m256 -o16 | 740,737 | 754,243 |
ппмонстр Дж | 675,485 | 669,497 | |
ЗПАК v7.15 | -метод 5 | 659,709 | 659,853 |
Задача сжатия
[ редактировать ]«Вызов сжатия корпуса Калгари и взлома SHA-1 » [6] — это конкурс, начатый Леонидом А. Брухисом 21 мая 1996 года по сжатию 14-файловой версии корпуса Калгари. Конкурс предлагает небольшой денежный приз, размер которого со временем менялся. В настоящее время приз составляет 1 доллар США за улучшение предыдущего результата на 111 байт.
По правилам конкурса, работа должна состоять как из сжатых данных, так и из программы распаковки, упакованной в один из нескольких стандартных форматов архива. Ограничения по времени и памяти, форматы архивов и языки распаковки со временем были смягчены. В настоящее время программа должна работать в течение 24 часов на компьютере с производительностью 2000 MIPS под Windows или Linux и использовать менее 800 МБ памяти. SHA -1 Позже был добавлен вызов . Это позволяет программе распаковки выводить файлы, отличные от корпуса Калгари, при условии, что они имеют те же значения хеш-функции, что и исходные файлы. Пока эта часть задачи не решена.
Первая полученная запись размером 759 881 байт была получена в сентябре 1997 года Малкольмом Тейлором, автором RK и WinRK. Самая последняя запись Александра Ратушняка размером 580 170 байт от 2 июля 2010 года. Запись состоит из сжатого файла размером 572 465 байт и программы распаковки, написанной на C++ и сжатой до 7700 байт в виде переменной PPMd. Я архивирую, плюс 5 байт на имя и размер сжатого файла. История такова.
Размер (байты) | Месяц/год | Автор |
---|---|---|
759,881 | 09/1997 | Малькольм Тейлор |
692,154 | 08/2001 | Максим Смирнов |
680,558 | 09/2001 | Максим Смирнов |
653,720 | 11/2002 | Serge Voskoboynikov |
645,667 | 01/2004 | Мэтт Махони |
637,116 | 04/2004 | Alexander Ratushnyak |
608,980 | 12/2004 | Alexander Ratushnyak |
603,416 | 04/2005 | Пшемыслав Скибинский |
596,314 | 10/2005 | Alexander Ratushnyak |
593,620 | 12/2005 | Alexander Ratushnyak |
589,863 | 05/2006 | Alexander Ratushnyak |
580,170 | 07/2010 | Alexander Ratushnyak |
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Ян Х. Виттен; Алистер Моффат; Тимоти К. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений . Морган Кауфманн. п. 92. ИСБН 9781558605701 .
- ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (Четвертое изд.). Спрингер. п. 12. ISBN 9781846286032 .
- ^ «Кентерберийский корпус» . corpus.canterbury.ac.nz .
- ^ «Учебный центр UC» . 6 января 2023 г.
- ^ «Объяснение сжатия данных» . mattmahoney.net .
- ^ «Проблема сжатия/SHA-1» . mailcom.com .