Курирование данных
Курирование данных — это организация и интеграция данных , собранных из различных источников. Он включает в себя аннотирование, публикацию и представление данных таким образом, чтобы ценность данных сохранялась с течением времени, а данные оставались доступными для повторного использования и сохранения. Курирование данных включает в себя «все процессы, необходимые для принципиального и данными контролируемого создания, обслуживания и управления , а также возможность повысить ценность данных». [1] В науке курирование данных может означать процесс извлечения важной информации из научных текстов, таких как исследовательские статьи экспертов, для преобразования в электронный формат, например, запись в биологической базе данных . [2]
В современную эпоху больших данных обработка данных стала более заметной, особенно для программного обеспечения, обрабатывающего большие объемы и сложные системы данных. [3] Этот термин также используется в гуманитарных науках. [4] где увеличение культурных и научных данных в результате цифровых гуманитарных проектов требует опыта и аналитических практик обработки данных. [5] В широком смысле курирование означает ряд действий и процессов, выполняемых для создания, управления, поддержки проверки компонента и . [6] В частности, курирование данных — это попытка определить, какую информацию стоит сохранить и как долго. [7]
История и практика [ править ]
Пользователь поддерживает , а не сама база данных, обычно инициирует обработку данных и метаданные . [8] По данным Высшей школы библиотечного дела и информатики Университета Иллинойса , «курирование данных — это активное и постоянное управление данными на протяжении всего их жизненного цикла, представляющее интерес и полезность для науки, науки и образования; курирование данных позволяет обнаруживать и извлекать данные. , поддерживать качество, повышать ценность и обеспечивать возможность повторного использования с течением времени». [9] Рабочий процесс курирования данных отличается от управления качеством данных , защиты данных , управления жизненным циклом и перемещения данных . [8]
Данные переписи населения доступны в табличной форме на перфокартах с начала 20-го века и в электронном виде с 1960-х годов. [10] 1962 На веб-сайте Межуниверситетского консорциума политических и социальных исследований (ICPSR) год отмечается как дата создания первого архива данных опросов. [11]
Подробная информация о библиотеках данных появилась в выпуске журнала Library Trends в Иллинойсе за 1982 год. [12] Историческую справку о движении архивов данных см. в разделе «Потребности в социально-научной информации для числовых данных: эволюция международной инфраструктуры архивов данных». [13] Точный процесс курирования, проводимый в любой организации, зависит от объема данных, количества шума, содержащегося в данных, и того, как ожидаемое будущее использование данных означает их распространение. [3]
Кризис космических данных привел к созданию в 1999 году модели Открытой архивной информационной системы (OAIS) . [14] под руководством Консультативного комитета по системам космических данных (CCSDS) , который был сформирован в 1982 году. [15]
Термин «курирование данных» иногда используется в контексте биологических баз данных , где конкретная биологическая информация сначала получается из ряда исследовательских статей, а затем сохраняется в базе данных определенной категории. Например, информацию об антидепрессантах можно получить из различных источников, и после проверки того, доступны ли они в базе данных или нет, они сохраняются в категории антидепрессивных препаратов базы данных. Предприятия также используют курирование данных в своих операционных и стратегических процессах для обеспечения качества и точности данных. [16] [17]
Проекты и исследования [ править ]
Проект «Пакеты распространения информации» (DIPS) для повторного использования информации (DIPIR) изучает исследовательские данные, полученные и используемые социологами, археологами и зоологами. Целевая аудитория — исследователи, использующие вторичные данные, а также цифровые кураторы, менеджеры цифровых репозиториев, сотрудники центров обработки данных и другие лица, которые собирают, управляют и хранят цифровую информацию. [18]
Банк данных о белках был создан в 1971 году в Брукхейвенской национальной лаборатории и превратился в глобальный проект. [19] База данных трехмерных структурных данных белков и других крупных биологических молекул. PDB содержит более 120 000 структур, все стандартизированы, проверены на основе экспериментальных данных и аннотированы.
FlyBase , основное хранилище генетических и молекулярных данных по семейству насекомых Drosophilaidae , было создано в 1992 году. FlyBase аннотирует весь геном Drosophila melanogaster . [20]
Консорциум лингвистических данных — это хранилище лингвистических данных, созданное в 1992 году. [21]
Sloan Digital Sky Survey начал исследовать ночное небо в 2000 году. [22] Ученый-компьютерщик Джим Грей , работая над архитектурой данных SDSS, отстаивал идею курирования данных в науке. [23]
DataNet — это исследовательская программа Управления киберинфраструктуры Национального научного фонда США, финансирующая проекты по управлению данными в науке. [24] DataONE (Сеть наблюдения за данными для Земли) — это один из проектов, финансируемых через DataNet , который помогает сообществу ученых-экологов сохранять данные и обмениваться ими. [25]
См. также [ править ]
- Биокуратор
- Археология данных
- Деградация данных
- Управление форматом данных
- Сохранение данных
- Управление данными
- Обсуждение данных
- Цифровое курирование – курирование опубликованных документов, а не необработанных данных. [7]
- Цифровое сохранение
- Информационист - человек с обширным опытом в области обработки данных.
Ссылки [ править ]
- ^ Рене Дж. Миллер , «Курирование больших данных» на 20-й Международной конференции по управлению данными (COMAD) 2014 г., Хайдарабад, Индия, 17–19 декабря 2014 г.
- ^ Биокреативный глоссарий . Проверено 3 октября 2016 г.
- ^ Jump up to: Перейти обратно: а б Фурт, Борко; Армандо Эскаланте (2011). Справочник по вычислениям с интенсивным использованием данных . Springer Science & Business Media. п. 32. ISBN 9781461414155 . Проверено 2 октября 2016 г.
- ^ Сабхарвал, Арджун (2015). Цифровое курирование в цифровых гуманитарных науках: сохранение и продвижение архивных и специальных коллекций . Издательство Чандос. п. 60. ИСБН 9780081001783 . Проверено 2 октября 2016 г.
- ^ «Введение в курирование гуманитарных данных», Джулия Фландерс и Тревор Муньос http://guide.dhcuration.org/intro/ . Больше недоступно: archive.org
- ^ Глоссарий Пилина . Больше недоступно: archive.org
- ^ Jump up to: Перейти обратно: а б Боргман, К. (2015). Большие данные, мало данных, нет данных: стипендия в сетевом мире . Кембридж, Массачусетс: MIT Press. стр. 13 . ISBN 978-0-262-02856-1 .
- ^ Jump up to: Перейти обратно: а б Чесселл, Мэнди; Найджел Л. Джонс; Джей Лимберн; Дэвид Рэдли; Кевин Шэнк (2015). Проектирование и эксплуатация резервуара данных . Красные книги IBM. стр. 111–113. ISBN 9780837440668 . Проверено 2 октября 2016 г.
- ^ Крейгин, Мелисса; Хейдорн, П. Брайан; Палмер, Кэрол Л.; Смит, Линда К. (2007). «Образовательная программа по курированию данных» . Конференция секции науки и технологий ALA . Проверено 7 октября 2013 г.
- ^ «Отчет о сохранении цифровой информации (PDI)» (PDF) . 1996 год . Проверено 13 марта 2018 г.
- ^ «ИКСПС: История» . www.icpsr.umich.edu . Проверено 15 марта 2018 г.
- ^ Хайм, Кэтлин М. (29 ноября 1982 г.). «Тенденции в библиотеках 30 (3) зима 1982 г.: Библиотеки данных для социальных наук» . Тенденции в библиотеках – через www.ideals.illinois.edu.
- ^ Кэтлин М. Хайм, «Потребности в социально-научной информации для числовых данных: эволюция международной инфраструктуры архивов данных». в Collection Management 9 (весна 1987 г.): 1-53.
- ^ «Эталонная модель OAIS» . 09.12.2015 . Проверено 15 марта 2018 г.
- ^ «CCSDS.org — Консультативный комитет по системам космических данных (CCSDS)» . public.ccsds.org . Проверено 14 марта 2018 г.
- ^ Э. Карри, А. Фрейтас и С. О'Риайн, «Роль управления данными для предприятий, управляемого сообществом», Архивировано 23 января 2012 г. в Wayback Machine в Linking Enterprise Data, Д. Вуд, под ред. Бостон, Массачусетс: Springer US, 2010, стр. 25–47. ISBN 978-1-4419-7664-2
- ^ А. Фрейтас, Э. Карри, «Курирование больших данных», Архивировано 13 сентября 2016 г. в Wayback Machine в «Новых горизонтах для экономики, основанной на данных», Springer (открытый доступ), 2015.
- ^ Проект распространения информационных пакетов для повторного использования информации (DIPIR) http://www.oclc.org/research/themes/user-studies/dipir.html
- ^ «RCSB PDB: Об архиве PDB и RCSB PDB» . Об Архиве PDB и PDB RCSB . Проверено 15 марта 2018 г.
- ^ Граматы, Л.С.; Мэриголд, SJ; дос Сантос, Дж; Урбано, Дж. М.; Антонаццо, Дж; Мэтьюз, BB; Рей, Эй Джей; Табоне, CJ; Кросби, Массачусетс; Эммерт, Д.Б.; Фолс, К; Гудман, Дж.Л.; Ху, Ю; Понтинг, Л; Шредер, AJ; Стрелец В.Б.; Термонд, Дж; Чжоу, П; Консорциум FlyBase (2017). «lyBase в 25 лет: взгляд в будущее» . Нуклеиновые кислоты Рез . 45 (Д1): Д663–Д671. дои : 10.1093/нар/gkw1016 . ПМК 5210523 . ПМИД 27799470 .
- ^ «О ЛРС» . Консорциум лингвистических данных . Проверено 15 марта 2018 г.
- ^ «Слоановский цифровой обзор неба» . СДСС . Проверено 15 марта 2018 г.
- ^ Палмер, Кэрол Л.; Вебер, Николас М.; Муньос, Тревор; Ренер, Аллен Х. (июнь 2013 г.). «Основы курирования данных: педагогика и практика «целенаправленной работы» с исследовательскими данными». Архив журнала . 3 . hdl : 2142/78099 .
- ^ «Резюме программы партнеров по устойчивому сохранению цифровых данных и доступу к сети (DataNet)» . Национальный научный фонд. 28 сентября 2007 года . Проверено 15 марта 2018 г.
- ^ «Что такое DataONE?» . Что такое DataONE? . Архивировано из оригинала 26 апреля 2019 года . Проверено 15 марта 2018 г.
Внешние ссылки [ править ]
- Курирование экологических и экологических данных: DataONE
- Инструменты и услуги управления данными, охватывающие несколько научных дисциплин: DataConservancy