Кентерберийский корпус
Корпус Canterbury представляет собой набор файлов, предназначенных для использования в качестве эталона для тестирования алгоритмов сжатия данных без потерь . Он был создан в 1997 году в Университете Кентербери , Новая Зеландия , и предназначен для замены корпуса Калгари . Файлы были выбраны на основе их способности обеспечивать репрезентативные результаты производительности. [1]
Содержание
[ редактировать ]В наиболее часто используемой форме корпус состоит из 11 файлов, выбранных как «средние» документы из 11 классов документов. [2] общим объемом 2 810 784 байт следующим образом.
Размер (байты) | Имя файла | Описание |
---|---|---|
152,089 | Алиса 29.txt | английский текст |
125,179 | asyoulik .txt | Шекспир |
24,603 | cp.html | HTML- источник |
11,150 | поля.c | C Исходный код |
3,721 | грамматика.lsp | ЛИСП исходный код |
1,029,744 | Кеннеди.xls | Таблица Excel |
426,754 | lcet10.txt | Техническое письмо |
481,861 | plrabn12.txt | Поэзия ( Потерянный рай ) |
513,216 | птт5 | CCITT испытательный комплект |
38,240 | сумма | SPARC- исполняемый файл |
4,227 | xargs .1 | GNU Страница руководства |
Кентерберийский университет также предлагает следующие корпуса. Могут быть добавлены дополнительные файлы, поэтому результаты следует сообщать только для отдельных файлов. [3]
- Искусственный корпус — набор файлов с «искусственными» данными, предназначенными для того, чтобы вызвать патологическое или наихудшее поведение. Последнее обновление: 2000 г. (временная метка tar).
- Большой корпус — набор больших (мегабайтных) файлов. Содержит геном кишечной палочки , Библию короля Иакова и книгу мировых фактов ЦРУ. Последнее обновление: 1997 г. (временная метка tar).
- Разный корпус. Содержит один миллион цифр числа Пи . Последнее обновление: 2000 г. (временная метка tar).
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Ян Х. Виттен; Алистер Моффат; Тимоти К. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений . Морган Кауфманн. п. 92. ИСБН 9781558605701 .
- ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (Четвертое изд.). Спрингер. п. 12. ISBN 9781846286032 .
- ^ «Кентерберийский корпус: описания» . corpus.canterbury.ac.nz .