Машиночитаемый документ
Машиночитаемый документ — это документ , содержимое которого может быть легко обработано компьютерами . Такие документы отличаются от более общих машиночитаемых данных наличием дополнительной структуры, обеспечивающей необходимый контекст для поддержки бизнес-процессов, для которых они созданы.
Определение
[ редактировать ]Данные без контекста бессмысленны и лишены четырех основных характеристик заслуживающих доверия деловых записей, указанных в ISO 15489 «Информация и документация. Управление записями» : [1]
- Надежность
- Подлинность
- Честность
- Удобство использования
Подавляющий объем информации представляет собой неструктурированные данные , и с точки зрения бизнеса это означает, что она «незрелая», т. е. соответствует уровню 1 (хаотическому) модели зрелости возможностей . Такая незрелость способствует неэффективности, снижает качество и ограничивает эффективность. Неструктурированная информация также плохо подходит для управления записями функций , не дает достаточных доказательств для юридических целей, увеличивает стоимость раскрытия информации в судебных процессах и делает доступ и использование излишне обременительным в рутинных, текущих бизнес-процессах .
Есть как минимум четыре аспекта машиночитаемости:
- Во-первых, слова или фразы должны быть дискретно разграничены (помечены), чтобы компьютерное программное обеспечение и/или аппаратная логика могли быть применены к ним как к отдельным концептуальным элементам.
- Во-вторых, семантика каждого элемента должна быть определена так, чтобы компьютеры могли помочь людям достичь общего понимания их значений и потенциального использования.
- В-третьих, если также определены отношения между отдельными элементами, компьютеры могут автоматически применять к ним выводы, тем самым еще больше освобождая людей от бремени попыток понять их, особенно в целях исследования, открытия и анализа.
- В-четвертых, если также указаны структуры документов, в которых встречаются элементы, человеческое понимание еще больше улучшается, а данные становятся более надежными для юридических и деловых целей.
Еще в 1983 году Счетная палата правительства США (GAO) начала подчеркивать преимущества машиночитаемой информации. [2] Еще раньше, в 1981 году, GAO начало сообщать о проблеме неадекватной практики ведения учета в федеральном правительстве США . [3] Подобные недостатки характерны не только для правительства, а достижения в области информационных технологий означают, что большая часть информации теперь «рождается цифровой» и, следовательно, потенциально гораздо легче управляться с помощью автоматизированных средств. [4] Однако, выступая перед Конгрессом в 2010 году, GAO подчеркнуло проблемы с управлением электронными записями, а совсем недавно, в 2015 году, GAO продолжало сообщать о неадекватности работы агентств исполнительной власти по выполнению требований к управлению записями. [5] [6] Более того, более чем через два десятилетия после того, как крупная и ранее весьма уважаемая аудиторская фирма Arthur Andersen прекратила свое существование из-за скандала с уничтожением документации, практика ведения документации стала центральным вопросом на президентских выборах 2016 года.
4 января 2011 года президент Обама подписал HR 2142, Закон о модернизации правительства от 2010 года (GPRAMA), ставший законом под номером PL 111-352. Раздел 10 GPRAMA требует, чтобы федеральные агентства США публиковали свои стратегические планы и планы эффективности, а также отчеты в машиночитаемом формате с возможностью поиска. [7] Кроме того, в 2013 году он издал указ № 13642 «Сделать открытую и машиночитаемую информацию новым стандартом для правительственной информации в целом». [8] 28 июля 2016 г. Административно-бюджетное управление (OMB) приняло меры, включив в пересмотренный выпуск Циркуляра A-130 указание агентствам использовать открытые машиночитаемые форматы: [9] и публиковать «публичную информацию в Интернете таким образом, чтобы способствовать анализу и повторному использованию для максимально широкого круга целей», [10] это означает, что информация является как общедоступной, так и машиночитаемой. 14 января 2019 года президент Трамп подписал закон HR 4174, [11] Закон об открытых правительственных данных (OGDA), который закрепляет в законе требование к агентствам предоставлять свои общедоступные данные в машиночитаемом формате. 28 июня 2019 года в Циркуляре А-11: [12] OMB выразило намерение начать соблюдать раздел 10 GPRAMA. [13]
В поддержку такого направления политики технологический прогресс позволяет более эффективно и действенно управлять и использовать машиночитаемые электронные записи. Документно-ориентированные базы данных были разработаны для хранения, извлечения и управления документоориентированной информацией, также известной как полуструктурированные данные. Расширяемый язык разметки ( XML Консорциума Всемирной паутины ( W3C ) ) — это рекомендация , устанавливающая правила кодирования документов в формат, который является одновременно читаемым человеком и машиной. множество инструментов редактирования XML Было разработано , и большинство, если не все, основные приложения информационных технологий поддерживают XML в большей или меньшей степени. Тот факт, что XML сам по себе является открытым, стандартным, машиночитаемым форматом, позволяет разработчикам приложений относительно легко это делать.
Сопутствующая рекомендация W3C по XML-схеме ( XSD ) определяет, как формально описывать элементы в XML-документе. Что касается спецификации схем XML, Организация по развитию стандартов структурированной информации (OASIS) является ведущей организацией по разработке стандартов . Однако многие технические разработчики предпочитают работать с JSON и определять структуру данных JSON для проверки, документирования и управления взаимодействием с помощью JSON Schema. [ сломанный якорь ] был разработан Инженерной группой Интернета (IETF).
Формат переносимых документов (PDF) — это формат файлов, используемый для представления документов независимо от прикладного программного обеспечения, оборудования и операционных систем. Каждый PDF-файл содержит полное описание представления документа, включая текст, шрифты, графику и другую информацию, необходимую для его отображения. PDF/A — это стандартизированная по ISO версия PDF, предназначенная для использования при архивировании и долгосрочном хранении электронных документов. PDF/A-3 позволяет встраивать другие форматы файлов, включая XML , в документы, соответствующие PDF/A , тем самым потенциально обеспечивая лучшую читаемость как человеком, так и машиной. W3C XSL-FO (XSL Formatting Objects) Язык разметки обычно используется для создания PDF-файлов.
Метаданные , данные о данных, могут использоваться для организации электронных ресурсов, обеспечения цифровой идентификации и поддержки архивирования и сохранения ресурсов. В хорошо структурированных, машиночитаемых электронных записях контент может быть перепрофилирован как в данные, так и в метаданные. В контексте систем электронного учета термины «управление» и «метаданные» являются практически синонимами. При наличии надлежащих метаданных функции управления записями можно автоматизировать, тем самым снижая риск хищения доказательств и других мошеннических манипуляций с записями. Более того, такие записи можно использовать для автоматизации процесса аудита данных, хранящихся в базах данных , тем самым снижая риск возникновения единых точек отказа, связанных с макиавеллианской концепцией единого источника истины .
Блокчейн (база данных) — это новая технология для поддержания постоянно растущих списков записей, защищенных от несанкционированного доступа и изменения. Ключевой особенностью является то, что каждый узел в децентрализованной системе имеет копию блокчейна, поэтому не существует единой точки отказа, подверженной манипуляциям и мошенничеству .
См. также
[ редактировать ]- Будапештская декларация о машиносчитываемых проездных документах
- Сравнение редакторов XML
- Четыре угла (закон)
- Целостность и, в частности, целостность данных
- Связанные данные
- Машиночитаемый паспорт
- Язык разметки
- Открытые данные
- Надежность (статистика) , Целостность данных , Надежность (компьютерные сети) и Надежность (методы исследования)
- Язык разметки стратегии (StratML)
- Структурированный документ
- Тег (метаданные)
- Универсальный деловой язык (UBL)
- XBRL (расширяемый язык бизнес-отчетности)
Ссылки
[ редактировать ]- ^ «Руководство NARA по управлению веб-записями» . Национальный архив . 15 августа 2016 г.
- ^ «Лучшее использование информационных технологий может снизить нагрузку на федеральную документацию» (PDF) . gao.gov . 11 апреля 1983 г. Проверено 25 июля 2019 г.
- ^ «ФЕДЕРАЛЬНОЕ УПРАВЛЕНИЕ ЗАПИСЬЮ: История пренебрежения» . gao.gov . 24 февраля 1981 г. Проверено 8 сентября 2016 г.
- ^ «Определение понятия «рожденный цифровым»: эссе Рики Эрвея, OCLC Research» (PDF) . oclc.org . 2010-11-30 . Проверено 8 сентября 2016 г.
- ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: Проблемы управления электронными записями, заявление Валери К. Мелвин, директора по управлению информацией и вопросам человеческого капитала» (PDF) . gao.gov . 17 июня 2010 г. Проверено 8 сентября 2016 г.
- ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: необходимы дополнительные действия для удовлетворения требований Директивы об управлении правительственными записями» . gao.gov . 14 мая 2015 г. Проверено 8 сентября 2016 г.
- ^ «ГПРАМА РАЗДЕЛ 10. ФОРМАТ ПЛАНОВ РАБОТЫ И ОТЧЕТОВ» . конгресс.гов . 04.01.2011. Архивировано из оригинала 13 апреля 2016 г. Проверено 8 сентября 2016 г.
- ^ «Приказ 13642 в открытом, стандартном, машиночитаемом формате языка разметки стратегии» . Белый дом . 09.05.2013. Архивировано из оригинала 3 марта 2016 г. Проверено 8 сентября 2016 г.
- ^ «Циркуляр стратегического плана № A-130, Управление информацией как стратегическим ресурсом, цель d.5.a: совместимость, API и машиночитаемость» .
- ^ «Циркуляр стратегического плана № A-130, Управление информацией как стратегическим ресурсом, цель e.2.a: Публикация» .
- ^ Райан, Пол Д. (14 января 2019 г.). «Текст – HR4174 – 115-й Конгресс (2017–2018 гг.): Закон об основах разработки политики, основанной на фактических данных, 2018 г.» . www.congress.gov .
- ^ «ПОДГОТОВКА, ПРЕДСТАВЛЕНИЕ И ИСПОЛНЕНИЕ БЮДЖЕТА» (PDF) . Белый дом . 28 июня 2019 г. Проверено 25 июля 2019 г.
- ^ «Циркуляр стратегического плана № А-130, Управление информацией как стратегическим ресурсом, объективная машиночитаемость» .
Внешние ссылки
[ редактировать ]- OMB M-13-13 , Политика открытых данных: управление информацией как активом, которая требует от агентств использовать открытые, машиночитаемые стандарты формата данных.
- Руководство NARA по управлению веб-записями , январь 2005 г., в котором излагаются характеристики заслуживающих доверия записей.
- Делая ставку на метод управления записями компании Capone Consultancy: передовой опыт исправления не-политической чепухи в отсутствие записей , 9 марта 2015 г.
- Кодекс США, в котором термин «машиночитаемый» встречается более 50 раз по состоянию на 10 сентября 2016 г.