Jump to content

Машиночитаемый документ

Машиночитаемый документ — это документ , содержимое которого может быть легко обработано компьютерами . Такие документы отличаются от более общих машиночитаемых данных наличием дополнительной структуры, обеспечивающей необходимый контекст для поддержки бизнес-процессов, для которых они созданы.

Определение

[ редактировать ]

Данные без контекста бессмысленны и лишены четырех основных характеристик заслуживающих доверия деловых записей, указанных в ISO 15489 «Информация и документация. Управление записями» : [1]

Подавляющий объем информации представляет собой неструктурированные данные , и с точки зрения бизнеса это означает, что она «незрелая», т. е. соответствует уровню 1 (хаотическому) модели зрелости возможностей . Такая незрелость способствует неэффективности, снижает качество и ограничивает эффективность. Неструктурированная информация также плохо подходит для управления записями функций , не дает достаточных доказательств для юридических целей, увеличивает стоимость раскрытия информации в судебных процессах и делает доступ и использование излишне обременительным в рутинных, текущих бизнес-процессах .

Есть как минимум четыре аспекта машиночитаемости:

  • Во-первых, слова или фразы должны быть дискретно разграничены (помечены), чтобы компьютерное программное обеспечение и/или аппаратная логика могли быть применены к ним как к отдельным концептуальным элементам.
  • Во-вторых, семантика каждого элемента должна быть определена так, чтобы компьютеры могли помочь людям достичь общего понимания их значений и потенциального использования.
  • В-третьих, если также определены отношения между отдельными элементами, компьютеры могут автоматически применять к ним выводы, тем самым еще больше освобождая людей от бремени попыток понять их, особенно в целях исследования, открытия и анализа.
  • В-четвертых, если также указаны структуры документов, в которых встречаются элементы, человеческое понимание еще больше улучшается, а данные становятся более надежными для юридических и деловых целей.

Еще в 1983 году Счетная палата правительства США (GAO) начала подчеркивать преимущества машиночитаемой информации. [2] Еще раньше, в 1981 году, GAO начало сообщать о проблеме неадекватной практики ведения учета в федеральном правительстве США . [3] Подобные недостатки характерны не только для правительства, а достижения в области информационных технологий означают, что большая часть информации теперь «рождается цифровой» и, следовательно, потенциально гораздо легче управляться с помощью автоматизированных средств. [4] Однако, выступая перед Конгрессом в 2010 году, GAO подчеркнуло проблемы с управлением электронными записями, а совсем недавно, в 2015 году, GAO продолжало сообщать о неадекватности работы агентств исполнительной власти по выполнению требований к управлению записями. [5] [6] Более того, более чем через два десятилетия после того, как крупная и ранее весьма уважаемая аудиторская фирма Arthur Andersen прекратила свое существование из-за скандала с уничтожением документации, практика ведения документации стала центральным вопросом на президентских выборах 2016 года.

4 января 2011 года президент Обама подписал HR 2142, Закон о модернизации правительства от 2010 года (GPRAMA), ставший законом под номером PL 111-352. Раздел 10 GPRAMA требует, чтобы федеральные агентства США публиковали свои стратегические планы и планы эффективности, а также отчеты в машиночитаемом формате с возможностью поиска. [7] Кроме того, в 2013 году он издал указ № 13642 «Сделать открытую и машиночитаемую информацию новым стандартом для правительственной информации в целом». [8] 28 июля 2016 г. Административно-бюджетное управление (OMB) приняло меры, включив в пересмотренный выпуск Циркуляра A-130 указание агентствам использовать открытые машиночитаемые форматы: [9] и публиковать «публичную информацию в Интернете таким образом, чтобы способствовать анализу и повторному использованию для максимально широкого круга целей», [10] это означает, что информация является как общедоступной, так и машиночитаемой. 14 января 2019 года президент Трамп подписал закон HR 4174, [11] Закон об открытых правительственных данных (OGDA), который закрепляет в законе требование к агентствам предоставлять свои общедоступные данные в машиночитаемом формате. 28 июня 2019 года в Циркуляре А-11: [12] OMB выразило намерение начать соблюдать раздел 10 GPRAMA. [13]

В поддержку такого направления политики технологический прогресс позволяет более эффективно и действенно управлять и использовать машиночитаемые электронные записи. Документно-ориентированные базы данных были разработаны для хранения, извлечения и управления документоориентированной информацией, также известной как полуструктурированные данные. Расширяемый язык разметки ( XML Консорциума Всемирной паутины ( W3C ) ) — это рекомендация , устанавливающая правила кодирования документов в формат, который является одновременно читаемым человеком и машиной. множество инструментов редактирования XML Было разработано , и большинство, если не все, основные приложения информационных технологий поддерживают XML в большей или меньшей степени. Тот факт, что XML сам по себе является открытым, стандартным, машиночитаемым форматом, позволяет разработчикам приложений относительно легко это делать.

Сопутствующая рекомендация W3C по XML-схеме ( XSD ) определяет, как формально описывать элементы в XML-документе. Что касается спецификации схем XML, Организация по развитию стандартов структурированной информации (OASIS) является ведущей организацией по разработке стандартов . Однако многие технические разработчики предпочитают работать с JSON и определять структуру данных JSON для проверки, документирования и управления взаимодействием с помощью JSON Schema. [ сломанный якорь ] был разработан Инженерной группой Интернета (IETF).

Формат переносимых документов (PDF) — это формат файлов, используемый для представления документов независимо от прикладного программного обеспечения, оборудования и операционных систем. Каждый PDF-файл содержит полное описание представления документа, включая текст, шрифты, графику и другую информацию, необходимую для его отображения. PDF/A — это стандартизированная по ISO версия PDF, предназначенная для использования при архивировании и долгосрочном хранении электронных документов. PDF/A-3 позволяет встраивать другие форматы файлов, включая XML , в документы, соответствующие PDF/A , тем самым потенциально обеспечивая лучшую читаемость как человеком, так и машиной. W3C XSL-FO (XSL Formatting Objects) Язык разметки обычно используется для создания PDF-файлов.

Метаданные , данные о данных, могут использоваться для организации электронных ресурсов, обеспечения цифровой идентификации и поддержки архивирования и сохранения ресурсов. В хорошо структурированных, машиночитаемых электронных записях контент может быть перепрофилирован как в данные, так и в метаданные. В контексте систем электронного учета термины «управление» и «метаданные» являются практически синонимами. При наличии надлежащих метаданных функции управления записями можно автоматизировать, тем самым снижая риск хищения доказательств и других мошеннических манипуляций с записями. Более того, такие записи можно использовать для автоматизации процесса аудита данных, хранящихся в базах данных , тем самым снижая риск возникновения единых точек отказа, связанных с макиавеллианской концепцией единого источника истины .

Блокчейн (база данных) — это новая технология для поддержания постоянно растущих списков записей, защищенных от несанкционированного доступа и изменения. Ключевой особенностью является то, что каждый узел в децентрализованной системе имеет копию блокчейна, поэтому не существует единой точки отказа, подверженной манипуляциям и мошенничеству .

См. также

[ редактировать ]
  1. ^ «Руководство NARA по управлению веб-записями» . Национальный архив . 15 августа 2016 г.
  2. ^ «Лучшее использование информационных технологий может снизить нагрузку на федеральную документацию» (PDF) . gao.gov . 11 апреля 1983 г. Проверено 25 июля 2019 г.
  3. ^ «ФЕДЕРАЛЬНОЕ УПРАВЛЕНИЕ ЗАПИСЬЮ: История пренебрежения» . gao.gov . 24 февраля 1981 г. Проверено 8 сентября 2016 г.
  4. ^ «Определение понятия «рожденный цифровым»: эссе Рики Эрвея, OCLC Research» (PDF) . oclc.org . 2010-11-30 . Проверено 8 сентября 2016 г.
  5. ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: Проблемы управления электронными записями, заявление Валери К. Мелвин, директора по управлению информацией и вопросам человеческого капитала» (PDF) . gao.gov . 17 июня 2010 г. Проверено 8 сентября 2016 г.
  6. ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: необходимы дополнительные действия для удовлетворения требований Директивы об управлении правительственными записями» . gao.gov . 14 мая 2015 г. Проверено 8 сентября 2016 г.
  7. ^ «ГПРАМА РАЗДЕЛ 10. ФОРМАТ ПЛАНОВ РАБОТЫ И ОТЧЕТОВ» . конгресс.гов . 04.01.2011. Архивировано из оригинала 13 апреля 2016 г. Проверено 8 сентября 2016 г.
  8. ^ «Приказ 13642 в открытом, стандартном, машиночитаемом формате языка разметки стратегии» . Белый дом . 09.05.2013. Архивировано из оригинала 3 марта 2016 г. Проверено 8 сентября 2016 г.
  9. ^ «Циркуляр стратегического плана № A-130, Управление информацией как стратегическим ресурсом, цель d.5.a: совместимость, API и машиночитаемость» .
  10. ^ «Циркуляр стратегического плана № A-130, Управление информацией как стратегическим ресурсом, цель e.2.a: Публикация» .
  11. ^ Райан, Пол Д. (14 января 2019 г.). «Текст – HR4174 – 115-й Конгресс (2017–2018 гг.): Закон об основах разработки политики, основанной на фактических данных, 2018 г.» . www.congress.gov .
  12. ^ «ПОДГОТОВКА, ПРЕДСТАВЛЕНИЕ И ИСПОЛНЕНИЕ БЮДЖЕТА» (PDF) . Белый дом . 28 июня 2019 г. Проверено 25 июля 2019 г.
  13. ^ «Циркуляр стратегического плана № А-130, Управление информацией как стратегическим ресурсом, объективная машиночитаемость» .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7c24bbe99cf1598600cfdde20c9b27a4__1717357020
URL1:https://arc.ask3.ru/arc/aa/7c/a4/7c24bbe99cf1598600cfdde20c9b27a4.html
Заголовок, (Title) документа по адресу, URL1:
Machine-readable document - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)