Сохранение базы данных
Сохранение базы данных обычно предполагает преобразование информации, хранящейся в базе данных , в форму, которая может быть доступна в долгосрочной перспективе по мере изменения технологий , без потери исходных характеристик (контекста, содержания, структуры, внешнего вида и поведения) данных. [1]
Учитывая широкое распространение баз данных, были разработаны различные методы, помогающие сохранить базы данных и их содержимое. Эти методы различаются в зависимости от характеристик базы данных и потребностей в сохранении. [2]
Существует три основных метода сохранения базы данных: миграция, XML и эмуляция. [1] Существуют также определенные инструменты, программное обеспечение и проекты, которые были созданы для помощи в сохранении баз данных, включая SIARD, Digital Preservation Toolkit, CHRONOS и RODA.
Характеристики базы данных [ править ]
Характеристики самой базы данных принимаются во внимание при попытке ее сохранения. Реляционные базы данных состоят из таблиц, которые содержат данные в записях, и эти таблицы затем соединяются друг с другом через общие точки данных, которые хранятся в их записях. [3] Однако с появлением больших данных в игру вступает и новая база данных NoSQL. [4] Базы данных характеризуются как открытые или закрытые, статические или динамические. Когда база данных считается открытой, это означает, что она открыта для добавления дополнительных данных, однако когда база данных считается закрытой, это означает обратное — что она закрыта для новых данных из-за ее завершенного характера. База данных считается статической, если она содержит записи, которые не редактируются и не изменяются после их первоначального включения, однако база данных считается динамической, если она содержит записи, которые могут быть отредактированы в будущем. То, является ли база данных открытой и статической, открытой и динамической, закрытой и статической или закрытой и динамической, влияет на методы, используемые для сохранения. Динамическую базу данных сохранить труднее, чем статическую, поскольку данные постоянно изменяются, а открытую базу данных сохранить труднее, чем закрытую, поскольку данные постоянно добавляются. Чем чаще база данных изменяется, либо внутри записи, либо путем добавления записи, тем чаще необходимо предпринимать шаги для фиксации этих изменений для сохранения. [2]
Методы сохранения базы данных [ править ]
три основных метода цифровой сохранности К сохранению баз данных также можно применить . Эти методы включают миграцию , XML и эмуляцию . [1]
Миграция [ править ]
Метод миграции (также известный как неактивное архивирование) [3] включает в себя перенос данных из устаревшей программы базы данных в новый формат. Существует три метода миграции : обратная совместимость, совместимость и преобразование в стандарты. Обратная совместимость предполагает использование более новых версий программного обеспечения или оборудования для открытия, доступа и чтения документа, созданного с использованием более старой версии. Функциональная совместимость предполагает снижение вероятности устаревания за счет обеспечения доступа к конкретному файлу с помощью более чем одной комбинации программного и аппаратного обеспечения. Переход к стандартам предполагает перевод хранилища данных из собственного формата в открытый, более доступный и широко используемый формат. [1]
XML [ править ]
Метод XML (также известный как нормализация XML) [3] включает преобразование исходной информации базы данных в стандартный формат XML . XML как формат не требует определенного аппаратного или программного обеспечения (кроме текстового редактора или текстового процессора) и является читаемым как человеком, так и машиной, что делает его устойчивым форматом для сохранения и хранения. [1] Однако при преобразовании данных в формат XML теряются некоторые интерактивные функции базы данных, такие как возможность выполнения запросов. [3]
Эмуляция [ править ]
предполагает Метод эмуляции воссоздание старой вычислительной среды с использованием новых технологий и программного обеспечения. Это позволяет устаревшему программному обеспечению, оборудованию или форматам файлов оставаться доступными в новых системах. Таким образом, устаревшую базу данных можно запустить на эмуляторе , имитирующем среду, в которой база данных была изначально создана. [1]
Инструменты консервации [ править ]
СИАРД [ править ]
Версия 1.0 формата программного независимого архивирования реляционных баз данных (SIARD) была разработана Федеральными архивами Швейцарии в 2007 году. Она была разработана для архивирования реляционных баз данных в независимой от поставщика форме. Архив SIARD — это пакет файлов в формате ZIP, основанный на XML и SQL:1999. Файл SIARD включает в себя как содержимое базы данных, так и машинно обрабатываемые структурные метаданные, которые записывают структуру таблиц базы данных и их связи. ZIP-файл содержит XML-файл, описывающий структуру базы данных (metadata.xml), а также набор XML-файлов, по одному на каждую таблицу, фиксирующих содержимое таблицы. Архив SIARD также может содержать текстовые файлы и двоичные файлы, представляющие большие объекты базы данных (BLOB и CLOB). SIARD обеспечивает прямой доступ к отдельным таблицам путем просмотра с помощью инструментов ZIP. Архив SIARD не является рабочей базой данных, но поддерживает реинтеграцию архивной базы данных в другую систему управления реляционными базами данных (СУБД), поддерживающую SQL:1999. Кроме того, SIARD поддерживает добавление описательных и контекстных метаданных, не записываемых в саму базу данных, а также встраивание файлов документации в архив. [5] SIARD версии 1.0 был омологизирован как стандарт eCH-0165 в 2013 году. [6]
Версия 2.0 формата сохранения SIARD была спроектирована и разработана Швейцарским федеральным архивом под эгидой проекта E-ARK. [7] Версия 2.0 основана на версии 1.0 и определяет формат, обратно совместимый с версией 1.0. Новые функции версии 2.0 включают в себя:
- Обновление поддержки SQL:1999 до поддержки SQL:2008.
- Поддержка всех типов SQL:2008, в частности пользовательских типов данных (UDT).
- Более явные правила проверки определений типов данных с использованием регулярных выражений.
- Поддержка хранения больших объектов за пределами файла SIARD с использованием URI «file:».
- Поддержка «выкачивания» как механизма сжатия.
DBML (язык разметки баз данных) [ править ]
Схема XML была создана исследователем Хосе Карлосом Рамальо из Университета Минью для сбора информации о таблицах и данных из реляционной базы данных. Он был опубликован в 2007 году. [8]
ХРОНОС [ править ]
CHRONOS — это программный продукт, который служит инструментом сохранения баз данных. [4] CSP Chronos Archiving представляет собой патентованное решение для сохранения баз данных. CHRONOS разрабатывался с 2004 по 2006 год компанией CSP в сотрудничестве с Университета прикладных наук Ландсхута . факультетом компьютерных наук [4] [9] CHRONOS извлекает данные из системы управления базами данных и сохраняет их в архиве CHRONOS в виде текстовых файлов или файлов XML. Таким образом, все данные могут быть доступны и прочитаны без системы управления базами данных (СУБД) или самого CHRONOS, поскольку они представлены в текстовом формате. Это устраняет необходимость поддерживать СУБД исключительно для чтения сохраненных статических баз данных, а также необходимость (потенциально рискованная) миграции файлов базы данных в новые форматы баз данных. [9] Хотя CHRONOS хранит данные в текстовом формате, его возможности выполнения запросов считаются сопоставимыми с возможностями реляционной базы данных. [4]
инструментов для сохранения Набор базы данных
Ряд шагов, созданных проектом RODA для приема и сохранения реляционных баз данных в нормализованном формате, представляют собой набор инструментов для сохранения баз данных или dbtoolkit: инструмент, предназначенный для сохранения и доступа к архивным базам данных. Используя Database Preservation Toolkit, чтобы добиться нормализации реляционных баз данных, данные преобразуются в DBML ( язык разметки базы данных ) или SIARD, поскольку оба используют XML, стандартный формат, который не требует специального или проприетарного программного или аппаратного обеспечения — идеально подходит для формата сохранения. . [10]
Набор инструментов для сохранения баз данных (DBPTK) позволяет преобразовывать форматы баз данных, включая подключение к работающим системам, в целях сохранения баз данных в цифровом виде. Набор инструментов позволяет преобразовывать действующие или резервные базы данных в форматы сохранения, такие как SIARD, формат на основе XML, созданный с целью сохранения баз данных. В этом процессе преобразования инструментарий извлекает уникальную информацию о СУБД, используя коннекторы, специфичные для СУБД. Эти соединители соединяются с конкретной СУБД, извлекают из нее данные и представляют их в форме XML, что затем приводит к представлению в DBML и SIARD. Также могут быть созданы новые соединители для приема новых СУБД. [10] Инструментарий также позволяет конвертировать форматы сохранения обратно в действующие системы, чтобы обеспечить полную функциональность баз данных. Например, он поддерживает специализированный экспорт в MySQL, оптимизированный для PhpMyAdmin, поэтому с базой данных можно полностью экспериментировать с помощью веб-интерфейса.
Этот набор инструментов изначально был частью проекта RODA. [11] а затем выпущен самостоятельно. Он получил дальнейшее развитие в проекте E-ARK вместе с новой версией формата сохранения SIARD.
В наборе инструментов используются модули ввода и вывода. Каждый модуль поддерживает чтение и/или запись в определенный формат базы данных или работающую систему. Новые модули можно легко добавить путем реализации нового интерфейса и добавления новых драйверов. [12]
сохранения Проекты данных баз
Исследовательские проекты в этом отношении включают:
- Программно -независимое архивирование реляционных баз данных (SIARD) [13]
- Программный набор инструментов для сохранения баз данных (с открытым исходным кодом, поддерживает SIARD 2.0) [12]
- Репозиторий аутентичных цифровых объектов (RODA) [14]
- цифровой сохранности Стенд для испытаний [15]
- Проект «Множество копий сохраняет вещи в безопасности» (LOCKSS) возглавляли библиотеки Стэнфордского университета . [16]
Репозиторий аутентичных цифровых объектов (RODA) [ править ]
RODA, или Хранилище аутентичных цифровых объектов, — это проект, запущенный в Португалии в 2006 году Национальным архивом Португалии с целью сохранения цифровых объектов, созданных государственными учреждениями Португалии. Целью проекта было объединение нескольких типов цифровых объектов в один репозиторий, включая реляционные базы данных. Будучи единым хранилищем множества различных типов цифровых объектов, RODA стремится нормализовать все загруженные объекты, то есть свести к минимуму типы форматов, используемых для хранения документов, и сохранить подобные документы в одинаковых форматах. [10]
В проекте RODA особое внимание уделялось созданию стандартизированного метода сохранения баз данных в виде цифровых объектов. Сохранение базы данных представляет собой уникальную проблему, поскольку процесс сохранения разделен на три уровня: данные, структура (логика) и семантика (интерфейс). [17] То есть было определено, что данные баз данных, а также их структура и семантика должны быть сохранены. Чтобы сохранить все три элемента, проект RODA разработал набор инструментов для сохранения баз данных. [10]
См. также [ править ]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с д и ж Стенд для испытаний цифровой сохранности. (2003). От цифровой нестабильности к цифровому постоянству: сохранение баз данных. Фонд ИКТУ. https://web.archive.org/web/20130531200744/http://en.nationaalarchief.nl/sites/default/files/docs/kennisbank/volatility-permanence-databases-en.pdf
- ↑ Перейти обратно: Перейти обратно: а б Эшли, К. (2004). Сохранение баз данных. ВИНА, 34 (2), 66-70. https://doi.org/10.1108/03055720410551075
- ↑ Перейти обратно: Перейти обратно: а б с д Броган М. и Браун Дж. (й). Проблемы сохранности цифровых данных: Реляционные базы данных . Школа компьютерных и информационных наук Университета Эдит Коуэн. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.89.886&rep=rep1&type=pdf
- ↑ Перейти обратно: Перейти обратно: а б с д Линдли, А. (3–5 сентября 2013 г.). Отчет об оценке сохранности базы данных - SIARD против CHRONOS: Сохранение сложных структур в виде баз данных с помощью подхода, ориентированного на записи? [Докладная презентация]. iPRES 2013 - 10-я Международная конференция по сохранению цифровых объектов, Лиссабон, Португалия. https://doi.org/10.13140/2.1.3272.8005
- ^ «SIARD (Программное независимое архивирование реляционных баз данных) Версия 1.0» . 30 мая 2015 г.
- ^ Брюггиссер Х., Бюхлер Г., Дюбуа А., Кайзер М., Канси Л., Лишер М., Ротлисбергер-Журдан Дж., Томас Х. и Восс А. (2015). ). eCH-0165 Спецификация формата SIARD 2.0 (проект) . eCH E Государственные стандарты. https://www.eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/STAN_e_FINAL_2015-07-04_eCH-0165_V2%200_SIARD-Format.pdf
- ^ «Проект Е-АРК» .
- ^ Хосе Карлос Рамальо; Мигель Феррейра; Луис Фариа; Руй Кастро (7 августа 2007 г.). «Сохранение реляционных баз данных посредством моделирования XML» (PDF) . Экстремальные языки разметки . Проверено 16 апреля 2017 г.
- ↑ Перейти обратно: Перейти обратно: а б Брандл С. и Келлер-Марксер П. (23 марта 2007 г.). Долгосрочное архивирование реляционных баз данных с помощью Chronos [докладная презентация]. Первый международный семинар по сохранению баз данных (PresDB'07), Эдинбург, Шотландия. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.459.5158&rep=rep1&type=pdf
- ↑ Перейти обратно: Перейти обратно: а б с д Рамальо Дж. К., Фариа Л., Хелдер С. и Коутада М. (31 декабря 2013 г.). Набор инструментов для сохранения баз данных: гибкий инструмент для нормализации баз данных и предоставления доступа к ним . Университет Минхо. https://core.ac.uk/display/55635702?source=1&algorithmId=15&similarToDoc=55614406&similarToDocKey=CORE&recSetID=f3ffea4d-1504-45e9-bfd6-a0495f5c8f9c&position=2&recommendation_type=same_repo&otherRe cs=55614407,55635702,55607961,55613627,2255664
- ^ «Сообщество RODA — хранилище аутентичных цифровых объектов» .
- ↑ Перейти обратно: Перейти обратно: а б "db-preservation-toolkit от Keeps" .
- ^ Хойшер, Стефан; Йерманн, Стефан; Келлер-Марксер, Питер; Мёле, Франк (2004). «Обеспечение подлинного долгосрочного архивного доступа к сложным реляционным данным». Труды PV-2004: Обеспечение долговременной сохранности и повышения ценности научно-технических данных, 5-7 октября 2004 г. стр. 241–261. arXiv : cs/0408054 . Бибкод : 2004cs........8054H .
- ^ «RODA и Crib: сервис-ориентированный цифровой репозиторий» (PDF) .
- ^ «Устойчивое управление цифровыми архивными материалами - Национальный архив» (PDF) . 26 апреля 2024 г.
- ^ «LOCKSS — большое количество копий сохраняет данные в безопасности» . Стэнфордский университет . Проверено 16 апреля 2017 г.
- ^ Рибейро, К., и Дэвид, Г. (11 марта 2009 г.). Сохранение базы данных . Цифровое сохранение Европы. https://digitalpreservationeurope.eu/publications/briefs/database_preservation_ribiero_david.pdf