Сканирование книг

Internet Archive Scribe в 2011 году Книжный сканер
Сканер книг Интернет-архива

Сканирование книг или оцифровка книг (также: сканирование журналов или оцифровка журналов ) — это процесс преобразования физических книг и журналов в цифровые носители, такие как изображения , электронный текст или электронные книги (электронные книги), с помощью сканера изображений . [1] Крупномасштабные проекты сканирования книг сделали множество книг доступными в Интернете. [2]

Цифровые книги можно легко распространять, воспроизводить и читать на экране . Распространенными форматами файлов являются DjVu , формат переносимых документов (PDF) и формат файлов изображений тегов (TIFF). Для преобразования необработанных изображений оптическое распознавание символов (OCR) [1] используется для преобразования страниц книги в цифровой текстовый формат, такой как ASCII или другой аналогичный формат, который уменьшает размер файла и позволяет переформатировать, искать или обрабатывать текст другими приложениями. [1]

Сканеры изображений могут быть ручными или автоматизированными. В обычном коммерческом сканере изображений книга помещается на плоскую стеклянную пластину (или валик), а световая и оптическая матрица перемещается по книге под стеклом. В ручных книжных сканерах стеклянная пластина доходит до края сканера, что облегчает выравнивание корешка книги. [1] [2]

Проблема со сканированием переплетенных книг заключается в том, что когда не очень тонкая книга лежит ровно, часть страницы, близкая к корешку (желоб), значительно искривляется, искажая текст в этой части сканирования. Одним из решений является разделение книги на отдельные страницы путем разрезания или развязывания. Неразрушающий метод — держать книгу в V-образной подставке и фотографировать ее, а не класть ровно и сканировать. В этом случае кривизна желоба становится гораздо менее выраженной. [3] Страницы можно переворачивать вручную или с помощью автоматических устройств транспортировки бумаги. Листы прозрачного пластика или стекла обычно прижимаются к странице, чтобы выровнять ее.

После сканирования программное обеспечение корректирует изображения документов, выравнивая их, обрезая, редактируя изображения и преобразуя в текст и окончательную форму электронной книги. Корректоры-люди обычно проверяют вывод на наличие ошибок.

Сканирование с разрешением 118 точек на сантиметр ( 300 точек на дюйм ) достаточно для преобразования в цифровой текстовый вывод, но для архивного воспроизведения редких, тщательно продуманных или иллюстрированных книг используется гораздо более высокое разрешение. [ нужна ссылка ] Высококлассные сканеры, способные обрабатывать тысячи страниц в час, могут стоить тысячи долларов, но ручные книжные сканеры, которые можно сделать своими руками (сделай сам), со скоростью 1200 страниц в час были построены за 300 долларов США. [4]

книжные Коммерческие сканеры

Эскиз V-образного книжного сканера от Atiz
Эскиз типичного ручного книжного сканера

Коммерческие книжные сканеры не похожи на обычные сканеры ; Эти книжные сканеры обычно представляют собой высококачественную цифровую камеру с источниками света по обе стороны от камеры, установленными на какой-то рамке, чтобы обеспечить легкий доступ человеку или машине для перелистывания страниц книги. Некоторые модели оснащены V-образными подставками для книг, которые обеспечивают поддержку корешков книг, а также автоматически центрируют книгу.

Преимущество этого типа сканера в том, что он очень быстрый по сравнению с производительностью верхних сканеров.

Масштабные проекты [ править ]

Такие проекты, как Project Gutenberg (основан в 1971 г.), [5] Million Book Project (оценено примерно в 2001 г.), Google Книги (оценено в 2004 г.) и Open Content Alliance (оценено в 2005 г.) сканируют книги в больших масштабах. [6] [7]

Одной из главных проблем на этом пути является огромный объем книг, которые необходимо сканировать. В 2010 году общее количество произведений, появившихся в виде книг в истории человечества, оценивалось примерно в 130 миллионов. [8] Все это необходимо отсканировать, а затем сделать доступным для поиска в Интернете, чтобы публика могла использовать его в качестве универсальной библиотеки . В настоящее время крупные организации полагаются на три основных способа: аутсорсинг, внутреннее сканирование с использованием коммерческих книжных сканеров и внутреннее сканирование с использованием роботизированных решений для сканирования.

Что касается аутсорсинга, книги часто отправляются для сканирования недорогими поставщиками в Индию или Китай . В качестве альтернативы, из-за удобства, безопасности и совершенствования технологий, многие организации предпочитают сканировать самостоятельно, используя либо верхние сканеры, которые отнимают много времени, либо сканирующие машины на базе цифровой камеры, которые значительно быстрее и этот метод используется Интернет-архивом в качестве альтернативы. ну и Гугл. [7] [9] Традиционные методы включали отрезание корешка книги и сканирование страниц на сканере с возможностью автоматической подачи страниц с последующим переплетом отдельных страниц.

После сканирования страницы данные вводятся либо вручную, либо с помощью оптического распознавания символов, что является еще одной серьезной статьей затрат на проекты сканирования книг. [ по мнению кого? ]

Из-за проблем с авторским правом большинство отсканированных книг не защищены авторскими правами; однако известно, что Google Книги сканируют книги, все еще защищенные авторским правом, если издатель специально не запрещает это. [6] [7] [9] [10]

Совместные проекты [ править ]

В Соединенных Штатах существует множество совместных проектов по оцифровке. Двумя из первых проектов были «Совместный проект оцифровки» в Колорадо и «NC ECHO – Северная Каролина, изучающая культурное наследие в Интернете». [11] базируется в Государственной библиотеке Северной Каролины .

Эти проекты создают и публикуют передовой опыт оцифровки и работают с региональными партнерами над оцифровкой материалов культурного наследия. Дополнительные критерии передовой практики совсем недавно были установлены в Великобритании, Австралии и Европейском Союзе. [12] Висконсинское наследие онлайн [13] — это совместный проект по оцифровке, созданный по образцу Совместного проекта по оцифровке в Колорадо. Висконсин использует вики [14] создавать и распространять совместную документацию. Совместная программа Грузии по оцифровке «Цифровая библиотека Грузии» [15] представляет собой единую виртуальную библиотеку по истории и жизни штата, включающую более сотни цифровых коллекций из 60 учреждений и 100 государственных учреждений. Цифровая библиотека Грузии – это ГАЛИЛЕО. [16] инициатива на базе библиотек Университета Джорджии.

В двадцатом веке Музей Хилла и Библиотека рукописей фотографировали книги в Эфиопии, которые впоследствии были уничтожены в результате политического насилия в 1975 году. С тех пор библиотека фотографирует рукописи в странах Ближнего Востока. [17]

В Южной Азии фонд Нанакшахи оцифровывает рукописи письма Гурмукхи .

и университеты реализовали множество совместных проектов В Австралии Национальная библиотека Австралии по улучшению инфраструктуры хранилища, в которой будет храниться оцифрованная информация. [18] Некоторые из этих проектов включают проект ARROW (Австралийские исследовательские репозитории онлайн для всего мира) и проект APSR (Австралийское партнерство по устойчивому репозиторию).

Деструктивные методы сканирования [ править ]

При сканировании книг с ограниченным бюджетом самый дешевый способ отсканировать книгу или журнал — отрезать переплет. При этом книга или журнал преобразуется в пачку отдельных листов, которую можно загрузить в стандартное устройство автоматической подачи документов (АПД) и отсканировать с использованием недорогой и распространенной технологии сканирования. Метод не подходит для редких или ценных книг. В этом процессе есть две технические трудности: во-первых, с резкой, а во-вторых, со сканированием.

Отмена [ править ]

Более точным и менее разрушительным, чем разрезание страниц, является развязка вручную с использованием подходящих инструментов. Этот метод был успешно применен для десятков тысяч страниц архивных оригиналов, отсканированных для проекта цифрового архива библиотеки Рязанова из газет, журналов и брошюр возрастом от 50 до 100 лет и более и часто состоящих из хрупкой, ломкой бумаги. Хотя денежная ценность для некоторых коллекционеров (и для большинства продавцов такого рода материалов) снижается из-за развязки, во многих случаях это действительно помогает сохранить страницы, делая их более доступными для исследователей. [1] и с меньшей вероятностью будет поврежден при последующем осмотре. Недостатком является то, что несвязанные стопки страниц «взбиваются» и, следовательно, больше подвергаются воздействию кислорода воздуха, что в некоторых случаях может ускорить ухудшение качества. Эту проблему можно решить, утяжеляя страницы после их развязки и сохраняя их в соответствующих контейнерах. [1]

Ручная развязка сохранит текст, который выходит за пределы переплетов, и, что наиболее важно, позволяет более легко и полностью выполнять высококачественное сканирование материалов шириной в две страницы, таких как центральные карикатуры, графические изображения и фотографии в журналах. Цифровой архив « Освободителя 1918–1924 годов» в Интернет-архиве марксистов демонстрирует качество двухстраничных сканов графических произведений, ставших возможными благодаря тщательному ручному развязыванию, а затем сканированию.

Техника развязывания варьируется в зависимости от технологии переплета: от простого удаления нескольких скоб до разгибания и удаления гвоздей, до тщательного стачивания слоев клея на корешке книги точно в нужном месте с последующим трудоемким удалением веревки, на которой держится книга. книгу вместе.

В некоторых газетах (например, Labor Action 1950–1952) в центре разворота есть колонки, пересекающие страницы. Отрезание части корешка переплетенного тома таких статей приведет к потере части текста. Даже перепечатка этой публикации в Гринвуде не смогла сохранить текстовое содержание центральных столбцов, в результате чего там были вырезаны значительные объемы текста. Только когда переплетенные тома оригинальной газеты были тщательно развязаны, а открытые пары центральных страниц были отсканированы как одна страница на планшетном сканере, содержимое центральной колонки стало доступным в цифровом виде. Альтернативно, можно представить две разворотные центральные страницы как три скана: по одному для каждой отдельной страницы и один для области размером со страницу, расположенной над центром двух страниц.

Резка [ править ]

Один из способов разрезать стопку от 500 до 1000 страниц за один проход — использовать гильотинный нож для бумаги — большой стальной стол с тисками для бумаги , которые привинчиваются к стопке и надежно фиксируют ее перед резкой. [2] Большое заостренное стальное лезвие, которое движется прямо вниз, разрезает каждый лист по всей длине за одну операцию. Рычаг на лезвии позволяет приложить к лезвию силу в несколько сотен фунтов для быстрого разреза за один проход.

Чистый разрез толстой стопки бумаги невозможно сделать с помощью традиционного недорогого шарнирного ножа для бумаги серповидной формы . Эти резаки предназначены только для нескольких листов, при этом практический предел резки составляет до десяти листов. Большая стопка бумаги воздействует на шарнир скручивающими силами, оттягивая лезвие от режущей кромки стола. Разрез становится более неточным по мере удаления от шарнира, а сила, необходимая для удержания лезвия у режущей кромки, увеличивается по мере удаления от шарнира.

В процессе гильотинной резки лезвие со временем затупляется, и его приходится перезатачивать. Бумага с покрытием, такая как гладкая журнальная бумага, затупляет лезвие быстрее, чем обычная книжная бумага, из-за покрытия из каолинитовой глины . Кроме того, удаление переплета всей книги в твердом переплете приводит к чрезмерному износу из-за прорезания жесткого материала основы обложки. Вместо этого можно снять внешнюю обложку и обрезать только внутренние страницы.

Альтернативный метод развязывания книг — использование настольной пилы. Хотя этот метод потенциально опасен и не дает такого гладкого края, как метод гильотинной резки бумаги, он более доступен обычному человеку. Идеальный метод — зажать книгу между двумя толстыми досками с помощью толстых крепежных винтов, чтобы обеспечить прижимное усилие. Вся упаковка древесины и книг пропускается через настольную пилу, используя параллельный упор в качестве направляющей. Острый диск с мелкими твердосплавными зубьями идеально подходит для получения приемлемого реза. Качество резки зависит от лезвия, скорости подачи, типа бумаги, покрытия бумаги и переплетного материала.

Сканирование [ править ]

Перелистывание страниц между сканированием

Как только бумага выйдет из корешка, ее можно будет сканировать по одному листу с помощью планшетного сканера или устройства автоматической подачи документов (АПД).

Страницы с декоративным рифленым краем или изогнутым по дуге из-за неплоского переплета могут быть затруднены при сканировании с помощью АПД, так как они предназначены для сканирования страниц одинаковой формы и размера, а страницы разного размера или формы могут привести к неправильному сканированию. сканирование. Рифленые или изогнутые края можно гильотинировать, чтобы сделать внешние края плоскими и гладкими, прежде чем разрезать переплет.

Мелованная бумага журналов и переплетенных учебников может затруднить захват и направление бумаги роликами АПД. АПД, в котором для переворачивания листов используется ряд роликов и каналов, может застревать или срываться при подаче мелованной бумаги. Как правило, проблем меньше, если использовать как можно более прямой тракт прохождения бумаги с небольшим количеством изгибов и изгибов. Глина также может со временем стирать бумагу и покрывать липкие ролики захвата, из-за чего они плохо захватывают бумагу. Ролики АПД могут нуждаться в периодической очистке во избежание проскальзывания.

Журналы могут создавать проблемы при массовом сканировании из-за небольших неоднородных листов бумаги в стопке, таких как карточки подписки на журналы и раскладные страницы. Их необходимо удалить до начала массового сканирования, и они либо сканируются отдельно, если содержат ценный контент, либо просто исключаются из процесса сканирования.

Неразрушающее сканирование [ править ]

Пример неразрушающего книжного сканера/дигитайзера, сделанного своими руками, с дизайном книги вниз, позволяющим гравитации выравнивать страницы.

Машины и роботы с программным управлением были разработаны для сканирования книг без необходимости их развязывания, чтобы сохранить как содержимое документа, так и создать архив цифровых изображений его текущего состояния. Эта недавняя тенденция отчасти объясняется постоянным совершенствованием технологий обработки изображений, которые позволяют получать высококачественные цифровые архивные изображения с минимальным повреждением редкой или хрупкой книги или без него за достаточно короткий период времени.

Первым полностью автоматизированным книжным сканером стал сканер DL (Digitizing Line), производимый компанией 4DigitalBooks в Швейцарии. Первая известная установка была в Стэнфордском университете в 2001 году. [19] [20] Сканер получил награду Dow Jones, занявшую второе место в категории «Бизнес-приложения» в 2001 году. [21]

Неразрушающий книжный сканер с технологией выравнивания кривых
Видео роботизированного книжного сканера DL mini

В 2007 году компания TREVENTUS представила автоматизированный книжный сканер с углом открытия книги для сканирования 60°. Это улучшение в области сохранности книг во время сканирования. Компания была удостоена награды Европейского Союза «Гран-при ИКТ 2007». [22] [23] за разработку ScanRobot. Эта технология также использовалась в проекте массовой оцифровки Баварской государственной библиотеки. [24] где 8900 книг XVI века были оцифрованы за 18 месяцев с помощью трех V-образных сканеров.

Автоматический сканер ScanRobot с углом открытия 60°.

Компания Indus International, Inc., базирующаяся в Вест-Сейлеме, штат Висконсин , производит сканеры, которые были куплены некоторыми американскими организациями для предоставления таких услуг, как межбиблиотечный абонемент . [25]

В большинстве коммерческих роботизированных сканеров высокого класса используются технологии подачи воздуха и всасывания , в то время как в некоторых используются более новые подходы, такие как бионические пальцы для перелистывания страниц. Некоторые сканеры используют ультразвуковые или фотоэлектрические датчики для обнаружения двойных страниц и предотвращения пропуска страниц. [1] [2] Сообщается, что машины способны сканировать до 2900 страниц в час. [26] роботизированные книжные сканеры специально разработаны для крупномасштабных проектов по оцифровке. [1]

В патенте Google 7508978 показана технология инфракрасной камеры, которая позволяет обнаруживать и автоматически корректировать трехмерную форму страницы. [27] [28] У исследователей из Токийского университета есть экспериментальный неразрушающий сканер книг [29] который включает в себя 3D-сканер поверхности, позволяющий выпрямлять изображения изогнутой страницы в программном обеспечении. Таким образом, книгу или журнал можно сканировать так же быстро, как оператор пролистывает страницы, примерно 200 страниц в минуту .

Существуют методы минимизации и исправления искажений в полях страниц. [30]

См. также [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б с д и ж г час «6 факторов, которые следует учитывать при масштабной оцифровке книг» . hurixdigital . 22 июля 2019 года. Архивировано из оригинала 17 января 2022 года . Проверено 17 октября 2022 г.
  2. ^ Jump up to: Перейти обратно: а б с д Харман, Майк (23 марта 2021 г.). «8-шаговое руководство по оцифровке для книгоиздателей» . Китабу . Архивировано из оригинала 22 января 2022 года . Проверено 17 октября 2022 г.
  3. ^ Дж. Томас (апрель 2012 г.). «Сканер для книг с текстом ОЧЕНЬ близко к сточной канаве» . Книжный сканер своими руками .
  4. ^ «Скоростной книжный сканер своими руками из хлама и дешевых фотоаппаратов» . instructables.com . Проверено 19 января 2014 г.
  5. ^ «Библиотеки и архивисты оцифровывают 480 000 книг, изданных в 20 веке, которые тайно находятся в общественном достоянии» . Открытая культура . 27 сентября 2019 года. Архивировано из оригинала 2 октября 2019 года . Проверено 19 октября 2022 г.
  6. ^ Jump up to: Перейти обратно: а б Литару, Калев (2008). «Массовая оцифровка книг: более глубокая история Google Книги и Альянса открытого контента» . Первый понедельник . дои : 10.5210/fm.v13i10.2101 . Проверено 19 октября 2022 г.
  7. ^ Jump up to: Перейти обратно: а б с Кале, Брюстер (13 марта 2017 г.). «Преобразование наших библиотек из аналоговых в цифровые: видение до 2020 года» . Образование . Архивировано из оригинала 15 марта 2017 года . Проверено 19 октября 2022 г.
  8. ^ Тайчер, Леонид (5 августа 2010 г.). «По оценкам Google, на 5 августа 2010 года в мире существует 129 864 880 различных книг» . Googleblog.blogspot.co.at . Проверено 8 августа 2014 г.
  9. ^ Jump up to: Перейти обратно: а б Ховард, Дженнифер (10 августа 2017 г.). «Что случилось с усилиями Google по сканированию миллионов книг университетской библиотеки?» . ЭдСурдж . Архивировано из оригинала 5 января 2022 года . Проверено 17 октября 2022 г.
  10. ^ Сомерс, Джеймс (20 апреля 2017 г.). «Поджог современной Александрийской библиотеки» . Атлантика . Архивировано из оригинала 20 апреля 2017 года . Проверено 19 октября 2022 г.
  11. ^ «ЭХО Северной Каролины: изучение культурного наследия в Интернете» . ncecho.org .
  12. ^ Авре, Крис (30 апреля 2005 г.). «Цифровые библиотеки: принципы и практика в глобальной среде» . Ариадна (43). Архивировано из оригинала 5 апреля 2022 года . Проверено 19 октября 2022 г.
  13. ^ «Воспоминание о Висконсине» . 29 ноября 2006 г.
  14. ^ «Wisconsin Heritage Online [лицензия только для некоммерческого использования] / FrontPage» . pbworks.com .
  15. ^ «Добро пожаловать в Цифровую библиотеку Грузии» . usg.edu .
  16. ^ «ГАЛИЛЕО» . usg.edu .
  17. ^ «Кодексы расшифрованы». Экономист. 18 декабря 2010 г. с. 151.
  18. ^ Библиотеки в двадцать первом веке: определение новых направлений в информационных услугах. Под редакцией Стюарта Фергюсона, 2007 г., стр. 84.
  19. ^ Дэвис, Джон. «4DigitalBooks запускает цифровой книжный сканер» . ПечатьНеделя.
  20. ^ «Роботизированный книжный сканер библиотек Стэнфордского университета (SUL)» . Библиотеки Стэнфордского университета (SUL).
  21. ^ «Награды за технологические инновации: победители 2001 г.» . Доу Джонс. Архивировано из оригинала 23 сентября 2015 г. Проверено 7 августа 2017 г.
  22. ^ "Европейская Комиссия - ПРЕСС-РЕЛИЗЫ - Пресс-релиз - Британские, шведские и австрийские предприниматели получили "Нобелевскую премию" ЕС в области ИКТ" . europa.eu . Проверено 4 июня 2019 г.
  23. ^ «Тревентус ИКТ Гранд прайс 2007» . Тревентус.
  24. ^ «Проект Баварской государственной библиотеки VD16» (PDF) . Тревентус. Архивировано из оригинала (PDF) 8 июля 2016 г. Проверено 4 июня 2019 г.
  25. ^ Колледж Хоуп (06 сентября 2012 г.). «Встречайте новый сканер библиотеки» . Проверено 21 мая 2020 г.
  26. ^ Рэпп, Дэвид. «Обзор продукции: библиотечные сканеры» . Библиотечный журнал . Проверено 11 мая 2014 г.
  27. ^ США 7508978 , Лефевер, Франсуа-Мари и Сарик, Марин, «Обнаружение канавок на сканированных изображениях», выдан 24 марта 2009 г., передан Google.  
  28. Раскрыт секрет устройства сканирования книг Google , Морин Клементс, 30 апреля 2009 г.
  29. ^ Гиззо, Эрико (17 марта 2010 г.). « Сверхбыстрый сканер позволяет оцифровывать книгу, перелистывая страницы», IEEE Spectrum, 17 марта 2010 г.» . Spectrum.ieee.org . Проверено 8 августа 2014 г.
  30. ^ Ланкастер, Дон (декабрь 2009 г.). Некоторые возможные варианты сканирования книг «Математика желоба» (PDF) (отчет). Синергетика.

Внешние ссылки [ править ]