Электронный текст

Электронный текст (от « электронный текст »; иногда пишется как etext ) — общий термин для любого документа , который читается в цифровой форме , и особенно для документа, который в основном представляет собой текст. Например, компьютерная книга по искусству с минимальным количеством текста или набором фотографий или сканирований страниц обычно не называется «электронным текстом». Электронный текст может представлять собой двоичный или простой текстовый файл, просматриваемый с помощью любого открытого или проприетарного программного обеспечения . Электронный текст может иметь разметку или другую информацию о форматировании или не иметь его. Электронный текст может представлять собой электронное издание произведения, первоначально созданного или опубликованного на других носителях, или может быть изначально создано в электронной форме. Этот термин обычно является синонимом электронной книги .

Происхождение электронного текста

Электронные тексты или электронные документы появились задолго до появления Интернета, Интернета и специализированного оборудования для чтения электронных книг. Роберто Буса начал разработку электронного издания Аквинского крупномасштабные платформы электронного редактирования текста, гипертекста и онлайн-чтения, такие как Augment и FRESS в 1940-х годах, а в 1960-х годах появились . Эти ранние системы широко использовали форматирование, разметку , автоматические оглавления, гиперссылки и другую информацию в своих текстах, а также в некоторых случаях (например, FRESS) поддерживали не только текст, но и графику. ^[1]

«Просто текст»

В некоторых сообществах «электронный текст» используется гораздо более узко, для обозначения электронных документов, которые представляют собой, так сказать, «обычный ASCII » . Под этим подразумевается не только то, что документ представляет собой простой текстовый файл, но и то, что он не содержит никакой информации, кроме «самого текста» — никакого выделения жирным шрифтом или курсивом, границ абзацев, страниц, глав или сносок и т. д. Майкл С. Харт, ^[2] например, утверждал, что это «единственный текстовый режим, который удобен как для глаз, так и для компьютера». Харт сделал правильный выбор ^{[ по мнению кого? ]} указать, что проприетарные форматы текстовых процессоров сделали тексты совершенно недоступными; но это не имеет отношения к стандартным форматам открытых данных. Узкий смысл «электронного текста» сейчас встречается редко, поскольку понятие «просто ванильный ASCII» (привлекательное на первый взгляд) столкнулось с серьезными трудностями:

Во-первых, этот узкий тип «электронного текста» ограничен английскими буквами. Даже испанский – или ударные гласные, используемые во многих европейских языках, не могут быть представлены (разве что неловко и двусмысленно как «~n» «a'»). Азиатская, славянская, греческая и другие системы письменности невозможны.

Во-вторых, невозможно разместить диаграммы и картинки, а во многих книгах есть хотя бы некоторый такой материал; часто это важно для книги.

В-третьих, «электронные тексты» в этом узком смысле не имеют надежного способа отличить «текст» от других вещей, которые встречаются в произведении. Например, номера страниц, заголовки страниц и сноски могут быть опущены или могут просто отображаться как дополнительные строки текста, возможно, с пустыми строками до и после (или без них). Вместо этого декоративная разделительная линия может быть представлена линией звездочек (или нет). Заголовки глав и разделов также представляют собой просто дополнительные строки текста: их можно было бы обнаружить по регистру, если бы в оригинале они были заглавными буквами (или нет). Даже выяснение того, какие соглашения (если таковые имеются) были использованы, превращает каждую книгу в новое исследование или проект реверс-инжиниринга.

Вследствие этого такие тексты невозможно надежно переформатировать. Программа не может достоверно определить, где находятся сноски, верхние и нижние колонтитулы или, возможно, даже абзацы, поэтому она не может изменить расположение текста, например, для соответствия более узкому экрану, или прочитать его вслух для слабовидящих. Программы могут применять эвристику , чтобы угадать структуру, но это может легко потерпеть неудачу.

В-четвертых, и, возможно, это удивительно. ^{[ по мнению кого? ]} Важный вопрос: электронный текст в формате «обычного текста» не позволяет представить информацию о произведении. Например, это первое или десятое издание? Кто его подготовил и какие права они оставляют за собой или предоставляют другим? Это необработанная версия, снятая со сканера, или она была проверена и исправлена? Метаданные, относящиеся к тексту, иногда включаются в электронный текст, но по этому определению невозможно сказать, предустановлены ли они и где. В лучшем случае текст титульного листа может быть включен (или нет), возможно, с центрированием, имитируемым отступом.

В-пятых, тексты с более сложной информацией вообще невозможно обрабатывать. Двуязычное издание или критическое издание со сносками, комментариями, критическим аппаратом, перекрестными ссылками или даже простейшими таблицами. Это приводит к бесконечным практическим проблемам: например, если компьютер не может надежно различать сноски, он не может найти фразу, которую прерывает сноска.

Даже необработанные результаты OCR сканера обычно дают больше информации, например, использование жирного шрифта и курсива. Если эта информация не сохраняется, ее восстановление будет дорогостоящим и трудоемким; более сложную информацию, например, какое у вас издание, возможно, вообще невозможно восстановить.

На самом деле даже «обычный текст» использует некоторую «разметку» — обычно управляющие символы , пробелы, табуляции и тому подобное: Пробелы между словами; два возврата и 5 пробелов для абзаца. Основное отличие от более формальной разметки заключается в том, что «простые тексты» используют неявные, обычно недокументированные соглашения, которые поэтому непоследовательны и их трудно распознать. ^[3]

Узкое понимание электронного текста как «простого ASCII-кода» вышло из моды. ^{[ по мнению кого? ]} Тем не менее, многие такие тексты находятся в свободном доступе в Интернете, возможно, как потому, что их легко создавать, так и из-за каких-либо предполагаемых преимуществ переносимости. В течение многих лет Project Gutenberg решительно отдавал предпочтение этой модели текста, но со временем начал разрабатывать и распространять более функциональные формы, такие как HTML .

См. также

Ссылки

^ Чтение и написание электронной книги. Николь Янкелович, Норман Мейровиц и Андрис ван Дам. IEEE Computer 18(10), октябрь 1985 г. http://dl.acm.org/citation.cfm?id=4407.
^ Майкл С. Харт
^ Кумбс, Джеймс Х.; Ренер, Аллен Х.; ДеРоуз, Стивен Дж. (ноябрь 1987 г.). «Системы разметки и будущее научной обработки текста» . Коммуникации АКМ . 30 (11). АКМ : 933–947. дои : 10.1145/32206.32209 . S2CID 59941802 .

Внешние ссылки

Научная электронная издательская библиография

[1] Чтение и написание электронной книги. Николь Янкелович, Норман Мейровиц и Андрис ван Дам. IEEE Computer 18(10), октябрь 1985 г. http://dl.acm.org/citation.cfm?id=4407.

[2] Майкл С. Харт

[3] Кумбс, Джеймс Х.; Ренер, Аллен Х.; ДеРоуз, Стивен Дж. (ноябрь 1987 г.). «Системы разметки и будущее научной обработки текста» . Коммуникации АКМ . 30 (11). АКМ : 933–947. дои : 10.1145/32206.32209 . S2CID 59941802 .

[1]

[2]

[3]