DjVu
Расширения имен файлов | .djvu, .djv |
---|---|
Тип интернет-СМИ | изображение/vnd.djvu, изображение/x-djvu |
Магическое число | АТ&Т |
Разработано | Лаборатории AT&T – исследования |
Первоначальный выпуск | 1998 год |
Последний выпуск | Версия 26 [1] апрель 2005 г |
Тип формата | Форматы файлов изображений |
Содержится | Формат файла обмена |
Открытый формат ? | Да |
DjVu ( / ˌ d eɪ ʒ ɑː ˈ v uː / DAY -zhah- VOO , как и французское « дежавю » [2] ) — это компьютерный формат файлов, предназначенный в первую очередь для хранения отсканированных документов , особенно тех, которые содержат комбинацию текста, штриховых рисунков, индексированных цветных изображений и фотографий. Он использует такие технологии, как разделение слоев изображения текста и фона/изображений, прогрессивную загрузку , арифметическое кодирование и сжатие с потерями для битональных ( монохромных ) изображений. Это позволяет хранить высококачественные, читаемые изображения в минимальном пространстве, чтобы их можно было разместить в Интернете .
DjVu рекламируется как обеспечивающий файлы меньшего размера, чем PDF , для большинства отсканированных документов. [3] Разработчики DjVu сообщают, что страницы цветных журналов сжимаются до 40–70 КБ, черно-белые технические статьи сжимаются до 15–40 КБ, а древние рукописи сжимаются примерно до 100 КБ; удовлетворительное изображение JPEG обычно требует 500 КБ. [4] Как и PDF, DjVu может содержать текстовый слой OCR , что упрощает выполнение операций копирования и вставки , а также поиска текста.
Доступны бесплатные создатели, манипуляторы, конвертеры, плагины веб-браузера и программы просмотра для настольных компьютеров. [2] DjVu поддерживается рядом многоформатных программ для просмотра документов и программ для чтения электронных книг в Linux ( Okular , Evince , Zathura ), Windows ( Okular , SumatraPDF ) и Android ( Docular Viewer , [5] FBReader, EBookDroid, PocketBook).
История
[ редактировать ]Технология DjVu была первоначально разработана Яном Лекуном , Леоном Ботту , Патриком Хаффнером , Полом Г. Ховардом , Патрисом Симардом и Йошуа Бенджио в AT&T Labs с 1996 по 2001 год. [4]
До стандартизации PDF в 2008 году [6] [7] DjVu считался лучшим, поскольку в то время это был открытый формат файлов , в отличие от проприетарного формата PDF. Заявленная более высокая степень сжатия (и, следовательно, меньший размер файла) и заявленная простота преобразования больших объемов текста в формат DjVu были другими аргументами в пользу превосходства DjVu над PDF в технологическом ландшафте 2004 года. Независимый технолог Брюстер Кале в выступлении 2004 года на IT Conversations обсудили преимущества облегчения доступа к файлам DjVu. [8] [9]
Библиотека DjVu, распространяемая как часть пакета с открытым исходным кодом DjVuLibre, стала эталонной реализацией формата DjVu. DjVuLibre поддерживается и обновляется первоначальными разработчиками DjVu с 2002 года. [10]
Спецификация формата файла DjVu претерпела ряд изменений, последняя из которых была выпущена в 2005 году.
Версия | Дата выпуска | Примечания | |
---|---|---|---|
нужна ссылка ] | 1–19. [1996–1999 | Разработочные версии лабораторий AT&T, предшествовавшие продаже формата LizardTech . | |
[1] | Версия 20.апрель 1999 г. | DjVu версия 3. Формат DjVu изменен с одностраничного на многостраничный. | |
[1] | Версия 21.сентябрь 1999 г. | Косвенный формат хранения заменен. Был добавлен текстовый слой с возможностью поиска. | |
[1] | Версия 22.апрель 2001 г. | Ориентация страницы, цвет JB2 | |
[1] | Версия 23.июль 2002 г. | CID-кусок | |
[1] | Версия 24.февраль 2003 г. | LAnno чанк | |
[1] | Версия 25.май 2003 г. | Часть NAVM. Добавлена поддержка закладок (контуров) DjVu. Изменения, внесенные в версии 23 и 24, стали устаревшими. | |
[1] | Версия 26.апрель 2005 г. | Текстовые/строчные аннотации | |
Легенда: Старая версия Старая версия, все еще поддерживается Последняя версия Последняя предварительная версия |
Роль в экосистеме программного обеспечения
[ редактировать ]Формат DjVu в основном использовался для электронного распространения документов, качество которых сравнимо с качеством печатных документов. Поскольку эта ниша также является основным применением PDF, было неизбежно, что эти два формата станут конкурентами. Однако следует отметить, что эти два формата по-разному подходят к проблеме доставки документов с высоким разрешением: PDF в первую очередь кодирует графику и текст как векторизованные данные, тогда как DjVu в первую очередь кодирует их как растровые изображения. Это означает, что PDF возлагает бремя рендеринга документа на читателя, тогда как DjVu возлагает это бремя на создателя.
В течение ряда лет, во многом совпадающих с периодом разработки DjVu, не существовало программ просмотра PDF-файлов для бесплатных операционных систем — особым камнем преткновения была рендеринг векторизованных шрифтов, которые необходимы для сочетания небольшого размера файла с высоким разрешением в PDF. Поскольку отображение DjVu было более простой задачей, для решения которой было доступно свободное программное обеспечение, были предложения, что движение за свободное программное обеспечение должно использовать DjVu вместо PDF для распространения документации; рендеринг для создания DjVu в принципе мало чем отличается от рендеринга для драйвера принтера для конкретного устройства, и в крайнем случае DjVu можно сгенерировать из сканированных бумажных носителей. Однако когда FreeType 2.0 в 2000 году начал обеспечивать рендеринг всех основных форматов векторизованных шрифтов, это конкретное преимущество DjVu начало исчезать.
В 2000-х годах, с развитием Всемирной паутины и до широкого распространения широкополосной связи часто использовали DjVu , цифровые библиотеки в качестве предпочтительного формата благодаря его интеграции с таким программным обеспечением, как Greenstone. [11] и Интернет-архив , [12] плагины для браузера, которые обеспечивают расширенные возможности просмотра онлайн, меньший размер файла для сопоставимого качества сканирований книг и других документов с большим количеством изображений. [13] и поддержка встраивания и поиска по полному тексту из OCR . [14] [15] Некоторые функции, такие как предварительный просмотр миниатюр, позже были интегрированы в BookReader Интернет-архива. [16] и просмотр DjVu был признан устаревшим в его пользу, поскольку примерно в 2015 году некоторые основные браузеры перестали поддерживать NPAPI и DjVu. с ними плагины [17]
DjVu.js Viewer пытается заменить отсутствующие плагины.
Технический обзор
[ редактировать ]Структура файла
[ редактировать ]Формат файла DjVu основан на формате файла Interchange и состоит из иерархически организованных фрагментов. Структуре IFF предшествует 4-байтовый AT&T
магическое число . Ниже приводится сингл FORM
чанк со вторичным идентификатором либо DJVU
или DJVM
для одностраничного или многостраничного документа соответственно.
Все фрагменты могут содержаться в одном файле в случае так называемых связанных документов или могут содержаться в нескольких файлах: по одному файлу для каждой страницы плюс несколько файлов с общими фрагментами.
Типы чанков
[ редактировать ]Идентификатор чанка | Содержится | Описание |
---|---|---|
ФОРМА:DJVU | ФОРМА:DJVM | Описывает одну страницу. Может либо находиться в корне документа и быть одностраничным документом, либо ссылаться на него из DIRM кусок. |
ФОРМА:DJVM | — | Описывает многостраничный документ. Корневой фрагмент документа. |
ФОРМА:DJVI | ФОРМА:DJVM | Содержит данные, используемые несколькими страницами. |
ФОРМА:ТУМ | ФОРМА:DJVM | Содержит миниатюры. |
ИНФОРМАЦИЯ | ФОРМА:DJVU | Должно быть, это первый кусок. Описывает ширину, высоту страницы, версию формата, разрешение , гамму и поворот. |
Я | ФОРМА:DJVM | Должно быть, это первый кусок. Ссылки другие FORM куски. Эти фрагменты могут либо следовать за этим фрагментом внутри FORM:DJVM фрагмент или содержаться во внешних файлах. Эти типы документов называются пакетными или косвенными соответственно. |
НАВМ | ФОРМА:DJVM | Если он присутствует, необходимо немедленно следовать DIRM кусок. Содержит структуру документа, сжатую с помощью BZZ. |
АНТ, АНТц | ФОРМА:DJVI или ФОРМА:DJVU | Аннотации. |
ТХТа, ТХТц | ФОРМА:DJVU | Текст Unicode и информация о макете. |
ВКЛЮЧЕНО | ФОРМА:DJVU | Идентификатор включенного FORM::DJVI кусок. |
Сжбз | ФОРМА:DJVU | BZZ сжимает битовые данные JB2, используемые для хранения маски. |
диджей | ФОРМА:DJVI или ФОРМА:DJVU | Общая таблица форм. |
ВРММ | ? | Данные JB2, необходимые для удаления водяного знака. |
ФОРМА:DJVU | Устаревший чанк с неизвестным содержимым. |
Сжатие
[ редактировать ]DjVu делит одно изображение на множество разных изображений, а затем сжимает их по отдельности. Чтобы создать файл DjVu, исходное изображение сначала разделяется на три изображения: фоновое изображение, изображение переднего плана и изображение маски. Изображения фона и переднего плана обычно представляют собой цветные изображения с более низким разрешением (например, 100 точек на дюйм); изображение маски представляет собой двухуровневое изображение высокого разрешения (например, 300 точек на дюйм), и обычно там хранится текст. Затем изображения фона и переднего плана сжимаются с использованием алгоритма сжатия на основе вейвлетов под названием IW44. [4] Изображение маски сжимается с помощью метода JB2 (аналогично JBIG2 ). Метод кодирования JB2 идентифицирует на странице практически идентичные фигуры, например несколько вхождений определенного символа в заданном шрифте, стиле и размере. Он сжимает растровое изображение каждой уникальной фигуры отдельно, а затем кодирует места, где каждая фигура появляется на странице. Таким образом, вместо многократного сжатия буквы «е» в заданном шрифте он сжимает букву «е» один раз (как сжатое битовое изображение), а затем записывает каждое место на странице, где она встречается.
При желании эти фигуры можно сопоставить с кодами UTF-8 (вручную или, возможно, с помощью системы распознавания текста ) и сохранить в файле DjVu. Если такое сопоставление существует, можно выделить и скопировать текст.
Поскольку JB2 (также называемый DjVuBitonal) является разновидностью JBIG2, работающей по тем же принципам, [18] оба метода сжатия имеют одинаковые проблемы при выполнении сжатия с потерями. В 2013 году выяснилось, что копировальные аппараты и сканеры Xerox заменяли похожие по внешнему виду цифры, например, заменяя 6 на 8. [19] Документ DjVu был обнаружен в дикой природе с заменами символов, например, n с кровоточащими засечками, превращающимися в au, и o с пятном внутри, превращающимся в e. [20] Произошло ли сжатие с потерями, в файле не сохраняется. [1] Таким образом, приложение просмотра DjView не может предупредить пользователя о возможной замене глифов ни при открытии файла, сжатого с потерями, ни в диалоговых окнах «Информация» или «Метаданные». [21]
Лицензирование формата
[ редактировать ]DjVu — открытый формат файлов , запатентованный. [3] Опубликована спецификация формата файла, а также исходный код справочной библиотеки. [3] Оригинальные авторы распространяют реализацию с открытым исходным кодом под названием « DjVuLibre » под лицензией GNU General Public License . Права на коммерческую разработку программного обеспечения для кодирования на протяжении многих лет передавались различным компаниям, включая AT&T Corporation , LizardTech , [22] Селартем [23] и Куминас . [24]
Celartem приобрела LizardTech и Extensis. [25] [26] [23] [27] [28]
Поддерживать
[ редактировать ]Выбор загружаемых программ просмотра DjVu в дистрибутивах Linux шире , чем в Windows или Mac OS. Кроме того, этот формат редко поддерживается проприетарным программным обеспечением для сканирования.
В 2002 году формат файла DjVu был выбран Интернет-архивом в качестве формата, в котором его проект «Миллион книг» предоставляет онлайн -сканированные общедоступные книги (наряду с TIFF и PDF). [29] В феврале 2016 года Интернет-архив объявил, что DjVu больше не будет использоваться для новых загрузок, среди других причин, сославшись на сокращение использования формата и сложность поддержки программы Java-апплетов . просмотра этого формата на основе [17]
Wikimedia Commons , медиа-репозиторий, используемый, среди прочего, Википедией , условно разрешает медиафайлы в формате PDF и DjVu. [30]
См. также
[ редактировать ]- Сравнение форматов электронных книг
- Международная структура совместимости изображений (IIIF)
- JPEG 2000 Формат составного файла изображения (JPM)
- Смешанный растровый контент (MRC)
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с д и ж г час я «Справочник Lizardtech DjVu» (PDF) . Cuminas.jp . п. 25 . Проверено 7 декабря 2021 г.
- ^ Перейти обратно: а б «DjVu.org – главное меню ресурсов djvu» . djvu.org . Проверено 2 июля 2017 г.
- ^ Перейти обратно: а б с «Что такое DjVu – DjVu.org» . DjVu.org. Архивировано из оригинала 21 января 2019 г. Проверено 5 марта 2009 г.
- ^ Перейти обратно: а б с Леон Ботту; Патрик Хаффнер; Пол Г. Ховард; Патрис Симар; Йошуа Бенджио; Янн Ле Кун (1998). «Высококачественное сжатие изображений документов с помощью DjVu, 7 (3): 410–425» (PDF) . Журнал электронных изображений .
- ^ Средство просмотра документов , достаточно безопасно, 04 апреля 2022 г. , получено 9 апреля 2022 г.
- ^ «ISO 32000-1:2008 – Управление документами – Переносимый формат документов – Часть 1: PDF 1.7» . Исо.орг . 01 июля 2008 г. Проверено 21 февраля 2010 г.
- ^ Орион, Иган (5 декабря 2007 г.). «PDF 1.7 одобрен как ISO 32000» . Спрашивающий . Острые СМИ . Архивировано из оригинала 13 декабря 2007 года . Проверено 5 декабря 2007 г.
- ^ Брюстер Кале (16 декабря 2004 г.). «Универсальный доступ ко всем знаниям» (Аудио; Выступление в 1:31:20) . Разговорная сеть.
- ^ «LizardTech откроет исходный код средства просмотра Java DjVu» . Подключение ЕСМ . 7 декабря 2004 г. Проверено 18 августа 2017 г.
- ^ «DjVuLibre: библиотека и программа просмотра DjVu с открытым исходным кодом» . djvu.sourceforge.net .
- ^ "nzdl:projects - Гринстоун" . Wiki.greenstone.org . Проверено 7 декабря 2021 г.
- ^ Эрик Рамси (05 сентября 2018 г.). «Google Книги против DjVu в Интернет-архиве» . Блог.libuiowa.edu . Архивировано из оригинала 22 августа 2018 г. Проверено 21 августа 2018 г.
- ^ Эрик Рамси (10 сентября 2018 г.). «Опять DjVu» . Блог.libuiowa.edu .
- ^ Джефф Каплан (9 декабря 2004 г.). "Новая коллекция книг: цветные сканы, djvu, немного pdf" (PDF) . Блог.archive.org .
- ^ Януш С. Бень (12 сентября 2011 г.). «Эффективный поиск по скрытому тексту больших документов DjVu». Передовые языковые технологии для электронных библиотек (PDF) . Конспекты лекций по информатике. Том. 6699. стр. 1–14. дои : 10.1007/978-3-642-23160-5_1 . ISBN 978-3-642-23159-9 . S2CID 3095526 .
- ^ Эрик Рамси (10 сентября 2010 г.). «Просмотр миниатюр BookReader Интернет-архива» . Блог.libuiowa.edu .
- ^ Перейти обратно: а б Брюстер Кале ; Джефф Каплан (26 февраля 2016 г.). «Файлы DjVu для новых загрузок» . Архив.орг .
- ^ Артем Михеев, Люк Винсент, Майк Гаврилич и Леон Ботту: Публикация электронных документов с использованием DjVu
- ^ см . в статье JBIG2 . Более подробную информацию и ссылки
- ^ «Этот документ вызвал у меня изрядное смятение при его расшифровке на сайте... | Hacker News» . News.ycombinator.com . Проверено 7 декабря 2021 г.
- ^ «ДжВуЛибре» . SourceForge.net . Проверено 7 декабря 2021 г.
- ^ Экстенсис. «Компания – О компании – LizardTech» . Lizardtech.com .
- ^ Перейти обратно: а б «Celartem, Inc.: Информация о частной компании – Bloomberg» . Bloomberg.com .
- ^ «会社情報 — корпорация Cuminas» . Cuminas.jp . Архивировано из оригинала 15 января 2018 г. Проверено 14 января 2018 г.
- ^ «Обзор компании – Celartem Technology, Inc» . Celartem.com . Архивировано из оригинала 27 мая 2019 года . Проверено 7 декабря 2021 г.
- ^ «Celartem Technology объявляет о слиянии американских холдингов – Extensis.com» . Архивировано из оригинала 15 января 2018 г. Проверено 14 января 2018 г.
- ^ «Celartem Technology Inc.: Информация о частной компании – Bloomberg» . Bloomberg.com .
- ^ «Celartem продает плагины и расширения Extensis и LizardTech для программного обеспечения onOne – общая картина – широкоформатная печать» . bigpicture.net . 28 июля 2005 г.
- ^ «Форматы файлов изображений – OLPC» . Wiki.laptop.org . Проверено 9 сентября 2008 г.
- ^ Викисклад. Объем проекта: PDF и DjVu .
Внешние ссылки
[ редактировать ]- Коллекция документов DjVu (в основном отдельно)
- Сайт DjVuLibre
- Сайт средства просмотра DjVu.js, который можно использовать с текущими версиями Firefox и Chrome.
- pdf2djvu Инструменты Якуба Вилка
- djvu.org (поддерживается анонимным веб-мастером)
- djvu.com («Вселенная DjVu») (Caminova Corporation)
- Cuminas Corporation – Загрузка программного обеспечения
- Cuminas DjVu SDK Библиотека декодера/кодировщика DjVu
- Фактическая ссылка на документ DjVu (2001 г.), заархивировано 25 декабря 2019 г. на Wayback Machine.