Машиночитаемый носитель и данные
В сфере связи и вычислений ( машиночитаемый носитель или машиночитаемый носитель ) — это носитель, способный хранить данные в формате, легко читаемом цифровым компьютером или датчиком . Он контрастирует с удобочитаемым носителем и данными .
Результат называется машиночитаемыми данными или машиночитаемыми данными , а сами данные можно описать как машиночитаемые .
Данные
[ редактировать ]Машиночитаемые данные должны быть структурированными . [1]
Попытки создания машиночитаемых данных предпринимались еще в 1960-х годах. В то время, когда появлялись плодотворные разработки в области машинного чтения и обработки естественного языка (например, Вайценбаума ELIZA ), люди ожидали успеха машиночитаемых функций и пытались создавать машиночитаемые документы. Одним из таких примеров было создание музыковедом Нэнси Б. Райх машиночитаемого каталога композитора Уильяма Джея Сайдмана произведений в 1966 году.
В Соединенных Штатах Закон об открытых государственных данных от 14 января 2019 года определяет машиночитаемые данные как «данные в формате, который может быть легко обработан компьютером без вмешательства человека, при этом гарантируя, что не будет потеряно семантическое значение». Закон предписывает федеральным агентствам США публиковать общедоступные данные таким образом, [2] обеспечение того, чтобы «любые общедоступные данные агентства были машиночитаемыми». [3]
Машиночитаемые данные можно разделить на две группы: читаемые человеком данные, размеченные так , чтобы их также могли читать машины (например, микроформаты , RDFa , HTML ), и форматы файлов данных , предназначенные главным образом для обработки машинами ( CSV , RDF , XML , JSON ). Эти форматы являются машиночитаемыми только в том случае, если содержащиеся в них данные формально структурированы; экспорт файла CSV из плохо структурированной электронной таблицы не соответствует этому определению.
Машиночитаемость не является синонимом доступности в цифровом формате . Документ, доступный в цифровом формате, может находиться в Интернете, что облегчает доступ людей через компьютеры, но его содержимое гораздо сложнее извлечь, преобразовать и обработать с помощью логики компьютерного программирования, если он не является машиночитаемым. [4]
Расширяемый язык разметки (XML) предназначен для чтения как человеком, так и машиной, а преобразование расширяемого языка таблиц стилей (XSLT) используется для улучшения представления данных для удобства чтения человеком. Например, XSLT можно использовать для автоматического отображения XML в формате переносимого документа ( PDF ). Машиночитаемые данные могут быть автоматически преобразованы для удобочитаемости человеком, но, вообще говоря, обратное неверно.
В целях реализации Закона о модернизации Закона о деятельности и результатах государственного управления (GPRA) Управление управления и бюджета (OMB) определяет «машиночитаемый формат» следующим образом: «Формат на стандартном компьютерном языке (не английском тексте), который может быть автоматически считываются веб-браузером или компьютерной системой (например, XML). Традиционные текстовые документы и файлы переносимого формата документов (PDF) легко читаются людьми, но обычно их трудно интерпретировать машинам. Другие форматы, такие как расширяемый язык разметки ( XML ), ( JSON ) или электронные таблицы со столбцами заголовков, которые можно экспортировать в виде значений, разделенных запятыми (CSV), являются машиночитаемыми форматами. Поскольку HTML является структурным языком разметки, незаметно маркирующим части документа, компьютеры могут собирать компоненты документа. для составления оглавлений, схем, библиографии для поиска литературы и т. д. Можно сделать традиционные текстовые документы и другие форматы машиночитаемыми, но документы должны включать расширенные структурные элементы». [5]
СМИ
[ редактировать ]Примеры машиночитаемых носителей включают магнитные носители, такие как магнитные диски , карты, ленты и барабаны , перфокарты и бумажные ленты , оптические диски , штрих-коды и символы магнитных чернил .
Распространенные машиночитаемые технологии включают магнитную запись, обработку сигналов и штрих-кодов . Оптическое распознавание символов (OCR) можно использовать, чтобы машины могли читать информацию, доступную людям. Любая информация, которую можно получить с помощью любой формы энергии, может быть машиночитаемой.
Примеры включают в себя:
- Акустика
- Химическая
- Электрический
- Полупроводник, используемый в энергозависимой оперативной памяти. микросхемах
- Транзистор с плавающим затвором, используемый в энергонезависимых картах памяти.
- Радиопередача
- Магнитное хранилище
- Механический
- консервные банки и лебеди
- Перфокарта
- Бумажная лента
- музыкальной шкатулки Цилиндр или диск
- Грувы (см. также: Аудиоданные )
- Фонографический цилиндр
- Граммофонная пластинка
- DictaBelt (паз на пластиковом ремне)
- Емкостный электронный диск
- консервные банки и лебеди
- Оптика
- Термодинамический
Приложения
[ редактировать ]Документы
[ редактировать ]Каталоги
[ редактировать ]Словари
[ редактировать ]Машиночитаемый словарь (MRD) — это словарь, который хранится в виде машиночитаемых данных, а не печатается на бумаге. Это электронный словарь и лексическая база данных .
Машиночитаемый словарь — это словарь в электронной форме, который можно загрузить в базу данных и запрашивать с помощью прикладного программного обеспечения. Это может быть толковый словарь для одного языка или многоязычный словарь для поддержки переводов между двумя или более языками или их комбинацией. Программное обеспечение для перевода между несколькими языками обычно использует двунаправленные словари. MRD может представлять собой словарь с собственной структурой, который запрашивается специальным программным обеспечением (например, онлайн через Интернет), или это может быть словарь с открытой структурой, доступный для загрузки в компьютерные базы данных и, таким образом, его можно использовать с помощью различного программного обеспечения. приложения. Обычные словари содержат леммы с различными описаниями. Машиночитаемый словарь может иметь дополнительные возможности, поэтому его иногда называют интеллектуальным словарем. Примером умного словаря является словарь английского языка Gellish с открытым исходным кодом .
Термин словарь также используется для обозначения электронного словаря или словаря , который используется, например, в средствах проверки орфографии . Если словари организованы в иерархию понятий (или терминов) подтипов-супертипов, то это называется таксономией . Если она содержит и другие отношения между понятиями, то она называется онтологией . Поисковые системы могут использовать словарь, таксономию или онтологию для оптимизации результатов поиска. Специализированные электронные словари представляют собой морфологические словари или синтаксические словари.
Паспорта
[ редактировать ]Машиносчитываемый паспорт (MRP) — это машиносчитываемый проездной документ (МСПД), данные на странице удостоверения личности которого закодированы в формате оптического распознавания символов . Многие страны начали выдавать машиносчитываемые проездные документы в 1980-х годах. Большинство загранпаспортов по всему миру являются MRP. Международная организация гражданской авиации (ИКАО) требует, чтобы все государства-члены ИКАО выдавали MRP только с 1 апреля 2010 г., а срок действия всех паспортов, не относящихся к MRP, должен истекать до 24 ноября 2015 г. [7]
Машиночитаемые паспорта стандартизированы Документом ИКАО 9303 (одобренным Международной организацией по стандартизации и Международной электротехнической комиссией как ISO/IEC 7501-1) и имеют специальную машиночитаемую зону ( MRZ ), которая обычно находится внизу. страницы удостоверения личности в начале паспорта. ICAO 9303 описывает три типа документов, соответствующих размерам ISO/IEC 7810 :
- «Тип 3» характерен для паспортных буклетов. МСЗ состоит из 2 строк по 44 символа.
- «Тип 2» встречается относительно редко: 2 строки по 36 символов.
- «Тип 1» имеет размер кредитной карты и состоит из 3 строк по 30 символов.
Фиксированный формат позволяет указать тип документа, имя, номер документа, гражданство, дату рождения, пол и дату истечения срока действия документа. Все эти поля обязательны для заполнения в паспорте. Существует место для дополнительной информации, часто зависящей от страны. Существуют также два размера машиносчитываемых виз, которые определяются аналогичным образом.
Компьютеры с камерой и подходящим программным обеспечением могут напрямую считывать информацию в машиночитаемых паспортах. Это обеспечивает более быструю обработку прибывающих пассажиров сотрудниками иммиграционной службы и большую точность, чем паспорта, считываемые вручную, а также более быстрый ввод данных, больше данных для считывания и лучшее сопоставление данных с иммиграционными базами данных и списками наблюдения.
Помимо оптически считываемой информации, многие паспорта содержат чип RFID , который позволяет компьютерам считывать больший объем информации, например фотографию предъявителя. Эти паспорта называются биометрическими паспортами и также описаны в стандарте ICAO 9303.См. также
[ редактировать ]- Хранение данных на бумажном носителе
- Симметричная фазовая запись
- Открытые данные
- Связанные данные
- Человекочитаемый носитель и данные
- Семантическая сеть
- Машиносчитываемая почтовая маркировка
Ссылки
[ редактировать ]- ^ «Машиночитаемый» . opendatahandbook.org . Проверено 22 июля 2019 г.
- ^ «HR4174» . stratml.us .
- ^ «HR4174» . stratml.us .
- ^ Хендлер, Джим; Пардо, Тереза А. (24 сентября 2012 г.). «Букварь по машиночитаемости онлайн-документов и данных» . Data.gov.ru. Проверено 27 февраля 2015 г.
- ^ Циркуляр OMB A-11, Часть 6. Архивировано 22 апреля 2020 г. в Wayback Machine , Подготовка, представление и исполнение бюджета.
- ^ Гил Франкопуло (под редакцией) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )
- ^ «На прошлой неделе государства должны обеспечить истечение срока действия немашиносчитываемых паспортов» . ИКАО . Монреаль. 17 ноября 2015 года . Проверено 11 марта 2024 г.
В этой статье использованы общедоступные материалы из Федеральный стандарт 1037C . Управление общего обслуживания . Архивировано из оригинала 22 января 2022 г.