Jump to content

Архивирование исследовательских данных

Архивирование исследовательских данных — это долгосрочное хранение научных исследований данных , включая естественные науки, социальные науки и науки о жизни. Различные академические журналы имеют разную политику относительно того, какой объем данных и методов исследователи должны хранить в публичном архиве, а то, что на самом деле архивируется, сильно различается в зависимости от разных дисциплин. Аналогичным образом, основные учреждения, предоставляющие гранты, по-разному относятся к публичному архивированию данных. В целом, в научной традиции публикации содержат достаточно информации, позволяющей коллегам-исследователям воспроизвести и, следовательно, проверить результаты исследования. В последние годы этот подход становится все более трудным, поскольку исследования в некоторых областях зависят от больших наборов данных, которые нелегко воспроизвести независимо.

Архивирование данных в некоторых областях более важно, чем в других. В некоторых областях все данные, необходимые для воспроизведения работы, уже доступны в журнальной статье. При разработке лекарств генерируется большой объем данных, которые необходимо архивировать, чтобы исследователи могли убедиться, что отчеты, публикуемые фармацевтическими компаниями, точно отражают данные.

Требование архивирования данных является недавним явлением в истории науки . Это стало возможным благодаря достижениям в области информационных технологий , позволяющим хранить большие объемы данных и получать к ним доступ из центральных мест. Например, Американский геофизический союз (AGU) принял свою первую политику архивирования данных в 1993 году, примерно через три года после начала WWW . [1] Эта политика требует, чтобы наборы данных, цитируемые в документах AGU, архивировались признанным центром обработки данных; он позволяет создавать «документы данных»; и он определяет роль AGU в поддержании архивов данных. Но он не требует от авторов статей архивировать свои данные.

Прежде чем организовать архивирование данных, исследователи, желающие оценить или воспроизвести статью, должны будут запросить у автора информацию о данных и методах. Академическое сообщество ожидает, что авторы поделятся дополнительными данными . Этот процесс был признан бесполезной тратой времени и энергии и дал неоднозначные результаты. Информация может быть потеряна или повреждена с течением времени. В некоторых случаях авторы просто отказываются предоставлять информацию.

Потребность в архивировании данных и комплексной проверке значительно возрастает, когда исследования касаются вопросов здравоохранения или формирования государственной политики. [2] [3]

Избранные политики по журналам

[ редактировать ]

Биотропика

[ редактировать ]

В качестве условия публикации Biotropica требует, чтобы данные, подтверждающие результаты в статье, и метаданные, описывающие их, были заархивированы в соответствующем общедоступном архиве, таком как Dryad , Figshare , GenBank , TreeBASE или NCBI . Авторы могут сделать данные общедоступными сразу после публикации статьи или, если позволяет технология архива, запретить доступ к данным в течение трех лет после публикации статьи. Заявление о доступности данных будет включено в рукопись, как описано в инструкциях для авторов. Исключения из обязательного архивирования данных могут быть предоставлены по усмотрению главного редактора для исследований, которые включают конфиденциальную информацию (например, местонахождение исчезающих видов). Нашу редакционную статью, объясняющую мотивацию этой политики, можно найти здесь . Более полный список хранилищ данных доступен здесь . Содействие культуре сотрудничества с исследователями, которые собирают и архивируют данные: данные, собираемые тропическими биологами, часто требуют долгосрочного, сложного и дорогостоящего сбора. Редакционный совет Biotropica настоятельно рекомендует авторам, повторно использующим архивные наборы данных, включать в качестве полноправных соавторов ученых, которые первоначально их собрали. Мы считаем, что это значительно повысит качество и влияние итогового исследования, опираясь на глубокое понимание сборщиком данных естественной истории исследовательской системы, снижая риск ошибок в новых анализах и стимулируя междисциплинарное и межкультурное сотрудничество. сотрудничество и обучение, благодаря которым ATBC и Biotropica получили широкое признание.

Примечание: Biotropica — один из двух журналов, который платит авторам гонорары за размещение данных в Dryad.

Американский натуралист

[ редактировать ]

Журнал «Американский натуралист» требует, чтобы авторы помещали данные, связанные с принятыми статьями, в публичный архив. Для данных о последовательностях генов и филогенетических деревьев размещение в GenBank или TreeBASE требуется соответственно. Существует множество возможных архивов, которые могут соответствовать определенному набору данных, включая хранилище Dryad для данных по экологической и эволюционной биологии. Все учетные номера GenBank, TreeBASE и Dryad должны быть включены в принятые рукописи, прежде чем они пойдут в производство. Если данные хранятся где-то еще, дайте ссылку. Если данные взяты из опубликованной литературы, поместите сопоставленные данные в Dryad для удобства ваших читателей. Любые препятствия для обмена данными должны быть доведены до сведения редакторов во время подачи, чтобы можно было разработать соответствующие меры. [4]

Журнал наследственности

[ редактировать ]

Первичные данные, лежащие в основе выводов статьи, имеют решающее значение для проверяемости и прозрачности научного предприятия и должны сохраняться в пригодной для использования форме на десятилетия в будущем. По этой причине журнал «Наследственность» требует, чтобы вновь сообщенные нуклеотидные или аминокислотные последовательности и структурные координаты были представлены в соответствующие общедоступные базы данных (например, GenBank; база данных нуклеотидных последовательностей EMBL ; база данных ДНК Японии; банк данных белков ; и швейцарский банк данных). -Прот ). Инвентарные номера должны быть включены в окончательную версию рукописи. Что касается других форм данных (например, микросателлитных генотипов, карт связей, изображений), журнал поддерживает принципы Объединенной политики архивирования данных (JDAP), поощряя всех авторов архивировать первичные наборы данных в соответствующих общедоступных архивах, таких как Dryad, TreeBASE. или Сеть знаний по биосложности. Авторам рекомендуется сделать данные общедоступными во время публикации или, если позволяет технология архива, запретить доступ к данным на период до года после публикации.Американская генетическая ассоциация также признает огромные инвестиции отдельных исследователей в создание и обработку больших наборов данных. Следовательно, мы рекомендуем уважать эти инвестиции во вторичном анализе или метаанализе в духе доброжелательного сотрудничества.

—  oxfordjournals.org [5]

Молекулярная экология

[ редактировать ]

Молекулярная экология ожидает, что данные, подтверждающие результаты статьи, должны быть заархивированы в соответствующем общедоступном архиве, таком как GenBank, Gene Expression Omnibus , TreeBASE, Dryad, Сеть знаний по биосложности , ваш собственный институциональный или спонсорский репозиторий, или в качестве вспомогательной информации по веб-сайт молекулярной экологии. Данные являются важным продуктом научной деятельности, и их следует сохранять и использовать в течение десятилетий. Авторы могут сделать данные общедоступными на момент публикации или, если позволяет технология архива, могут запретить доступ к данным на период до года после публикации. Исключения могут быть сделаны по усмотрению редактора, особенно в отношении конфиденциальной информации, такой как данные о людях или местонахождении видов, находящихся под угрозой исчезновения.

Уайли [6]

Такие материалы должны быть размещены на аккредитованном независимом сайте (URL-адрес и инвентарные номера должны быть предоставлены автором) или отправлены в журнал Nature при подаче, либо загружены через онлайн-службу журнала, либо, если файлы слишком велики или неподходящий для этого формат, на CD/DVD (пять копий). Такие материалы не могут размещаться исключительно на личном или институциональном веб-сайте автора. [7] Nature требует от рецензента определить, все ли дополнительные данные и методы заархивированы. Политика рекомендует рецензентам рассмотреть несколько вопросов, в том числе: «Следует ли просить авторов предоставить дополнительные методы или данные для сопровождения статьи в Интернете? (Такие данные могут включать исходный код для исследований по моделированию, подробные экспериментальные протоколы или математические выводы.)

Наука поддерживает усилия баз данных, объединяющих опубликованные данные для использования научным сообществом. Поэтому перед публикацией большие наборы данных (включая данные микрочипов, последовательности белков или ДНК, а также координаты атомов или карты электронной микроскопии макромолекулярных структур) должны быть депонированы в утвержденную базу данных, а инвентарный номер должен быть указан для включения в опубликованную статью. [9] «Материалы и методы». Наука теперь требует, чтобы авторы, как правило, размещали большую часть своих описаний материалов и методов в Интернете в качестве вспомогательного материала, предоставляя в печатной рукописи только столько описаний методов, сколько необходимо для следования логике текста. . (Очевидно, что это ограничение не будет применяться, если статья представляет собой фундаментальное исследование нового метода или техники.)

Королевское общество

[ редактировать ]

Чтобы другие могли проверить и развить работу, опубликованную в журналах Королевского общества , условием публикации является то, что авторы предоставляют данные, коды и исследовательские материалы, подтверждающие результаты статьи.

Наборы данных и код должны храниться в соответствующем общедоступном репозитории. Если репозитория для конкретных данных не существует, авторы должны поместить свои наборы данных в общий репозиторий, такой как Dryad (репозиторий) или Figshare .

Журнал археологической науки

[ редактировать ]

В журнале Archaeological Science действует политика раскрытия данных, по крайней мере, с 2013 года. Их политика гласит, что «все данные, относящиеся к статье, должны быть доступны в дополнительных файлах или размещены во внешних репозиториях и связаны с ними внутри статьи». Политика рекомендует хранить данные в таких хранилищах, как Служба археологических данных , Цифровая археологическая запись или PANGEA . Исследование 2018 года показало, что уровень доступности данных составляет 53%, что отражает либо слабое соблюдение этой политики, либо неполное понимание редакторами, рецензентами и авторами того, как интерпретировать и реализовывать эту политику. [12]

Политика финансирующих агентств

[ редактировать ]

В США Национальный научный фонд (NSF) ужесточил требования к архивированию данных. Исследователи, претендующие на финансирование от NSF, теперь обязаны подать план управления данными в качестве двухстраничного приложения к заявке на грант. [13]

Инициатива NSF Datanet привела к финансированию проекта Сети наблюдения за данными на Земле ( DataONE ), который обеспечит архивирование научных данных для экологических и экологических данных, полученных учеными со всего мира. Заявленная цель DataONE — сохранить и предоставить доступ к многомасштабным, междисциплинарным и многонациональным данным. Сообщество пользователей DataONE включает ученых, менеджеров экосистем, политиков, студентов, преподавателей и общественность.

Немецкий DFG требует, чтобы данные исследования хранились в собственном учреждении исследователя или в соответствующей общенациональной инфраструктуре в течение как минимум 10 лет. [14]

Британский цифровой кураторский центр предоставляет обзор политики спонсоров в отношении данных. [15]

Библиотека данных

[ редактировать ]
Репозиторий данных и хранилище архивов

Данные исследований архивируются в библиотеках данных или архивах данных . Библиотека данных , архив данных или хранилище данных — это набор наборов числовых и/или геопространственных данных для вторичного использования в исследованиях. Библиотека данных обычно является частью более крупного учреждения (академического, корпоративного, научного, медицинского, государственного и т. д.). создан для архивирования исследовательских данных и обслуживания пользователей данных этой организации. Библиотека данных обычно содержит локальные коллекции данных и обеспечивает доступ к ним различными способами ( CD- / DVD -ROM или центральный сервер для загрузки). Библиотека данных также может поддерживать подписку на лицензированные ресурсы данных, чтобы ее пользователи могли получить доступ к информации. Будет ли библиотека данных также считаться архивом данных, может зависеть от размера уникальных фондов в коллекции, предлагаются ли услуги долгосрочного хранения и служит ли она более широкому сообществу (как это делают национальные архивы данных). Большинство публичных библиотек данных внесены в Реестр хранилищ исследовательских данных. .

Важность и услуги

[ редактировать ]

В августе 2001 года Ассоциация исследовательских библиотек (ARL) опубликовала отчет. [16] представление результатов опроса учреждений-членов ARL, занимающихся сбором и предоставлением услуг для ресурсов числовых данных.

Библиотечная служба, обеспечивающая поддержку на институциональном уровне использования числовых и других типов наборов данных в исследованиях. Среди обычно доступных видов поддержки:

  • Справочная помощь — поиск наборов числовых или геопространственных данных, содержащих измеримые переменные по определенной теме или группе тем, в ответ на запрос пользователя.
  • Инструкция для пользователя — практическое обучение групп пользователей поиску ресурсов данных по определенным темам, тому, как загружать данные и считывать их в пакеты электронных таблиц, статистических данных, баз данных или ГИС, как интерпретировать кодовые книги и другую документацию.
  • Техническая помощь - включая упрощение процедур регистрации, устранение проблем с набором данных, таких как ошибки в документации, переформатирование данных во что-то, с чем может работать пользователь, и помощь со статистической методологией.
  • Разработка и управление коллекцией — приобретение, поддержание и управление коллекцией файлов данных, используемых для вторичного анализа местным сообществом пользователей; приобретать институциональные подписки на данные; выступать в качестве представителя для поставщиков данных и национальных архивов данных учреждения.
  • Службы сохранения и обмена данными — действуют в соответствии со стратегией сохранения наборов данных в коллекции, например, обновление мультимедиа и миграция формата файлов; загружать и вести учет обновленных версий из центрального репозитория. Кроме того, помогите пользователям подготовить исходные данные для вторичного использования другими; либо для хранения в центральном или институциональном хранилище, либо для менее формальных способов обмена данными. Это также может включать разметку данных в соответствующем стандарте XML, таком как Инициатива по документированию данных, или добавление других метаданных для облегчения онлайн-обнаружения.

Примеры библиотек данных

[ редактировать ]

Естественные науки

[ редактировать ]

Следующий список относится к архивам научных данных.

Социальные науки

[ редактировать ]

В социальных науках библиотеки данных называются архивами данных. [17] Архивы данных — это профессиональные учреждения по сбору, подготовке, сохранению и распространению социальных и поведенческих данных. Архивы данных в социальных науках возникли в 1950-х годах и были восприняты как международное движение:

К 1964 году Международный совет социальных наук (ISSC) спонсировал вторую конференцию по архивам данных социальных наук и имел постоянный комитет по данным социальных наук, что стимулировало движение архивов данных. К началу двадцать первого века большинство развитых стран и некоторые развивающиеся страны организовали формальные и хорошо функционирующие национальные архивы данных. Кроме того, в кампусах колледжей и университетов часто имеются «библиотеки данных», которые предоставляют данные преподавателям, сотрудникам и студентам; большинство из них несут минимальную ответственность за архивирование, полагаясь на национальное учреждение (Rockwell, 2001, стр. 3227). [18]

См. также

[ редактировать ]
  1. ^ «Политика ссылки на данные и архивирования данных для публикаций AGU» [1]
  2. ^ «Аргументы в пользу комплексной проверки при использовании эмпирических исследований при формировании политики» Брюса Маккалоу и Росс МакКитрик. [2]
  3. ^ «Обмен данными и репликация», веб-сайт Гэри Кинга. Архивировано 28 марта 2007 г. в Wayback Machine.
  4. ^ Подтверждающие данные и материалы
  5. ^ Политика архивирования данных
  6. ^ Политика архивирования данных
  7. ^ «Доступность данных и материалов: политика журнала Nature».
  8. ^ «Руководство по издательской политике журналов о природе» (PDF) . 14 марта 2007 г.
  9. ^ "Общая политика журнала Science"
  10. ^ «Подготовка вспомогательных онлайн-материалов»
  11. ^ «Обмен данными и майнинг»
  12. ^ Марвик, Бен; Берч, Сюзанна Э. Пилаар (5 апреля 2018 г.). «Стандарт научного цитирования археологических данных как стимул к обмену данными» . Достижения археологической практики . 6 (2): 125–143. дои : 10.1017/aap.2018.3 .
  13. ^ «NSF запросит у каждого соискателя гранта план управления данными»
  14. ^ «Руководство DFG по обработке исследовательских данных»
  15. ^ «Обзор политики использования данных спонсоров | Центр цифрового курирования»
  16. ^ SPEC Kit 263: Продукты и услуги для числовых данных
  17. ^ Уайт, Ховард Д. (1977). Машиночитаемые данные социальных наук. Ежеквартальный журнал библиотеки Дрекселя, 13 (январь 1977 г.): 1-110.
  18. ^ Роквелл, RC (2001). Архивы данных: Международный. IN: Смелзер, Нью-Джерси и Балтес, П.Б. (ред.) Международная энциклопедия социальных и поведенческих наук (том 5, стр. 3225–3230). Амстердам: Эльзевир

Примечания

[ редактировать ]

Дальнейшее чтение

[ редактировать ]
  • Клубб Дж., Остин Э. и Геда К. «Обмен данными исследований в области социальных наук». В книге « Обмен данными исследований » , С. Файнберг, М. Мартин и М. Страф, ред. Издательство Национальной академии, Вашингтон, округ Колумбия, 1985, 39–88.
  • Джерачи Д., Хамфри К. и Джейкобс Дж. Основы данных . Канадская библиотечная ассоциация, Оттава, Онтарио, 2005 г.
  • Хайм, Кэтлин М. «Потребности в социальной научной информации для числовых данных: эволюция международной инфраструктуры архивов данных». Управление коллекциями 9 (весна 1987 г.): 1-53.
  • Мартинес, Луис и Макдональд, Стюарт, «Поддержка местных пользователей данных в академическом сообществе Великобритании» . Ариадна , выпуск 44, июль 2005 года.
  • См. Библиографию избранных произведений IASSIST, заархивированную 3 марта 2016 г. на Wayback Machine , где можно найти статьи, прослеживающие историю библиотек данных и их связь с профессией архивариуса, начиная с 1960-х и 70-х годов до 1996 года.
  • См. Ежеквартальные статьи IASSIST с 1993 года по настоящее время, посвященные библиотекам данных, архивам данных, поддержке данных и информационным технологиям для социальных наук.
[ редактировать ]

Ассоциации

[ редактировать ]
  • IASSIST (Международная ассоциация социальных наук, информационных и сервисных технологий)
  • DISC-UK (Комитет специалистов по информации о данных — Великобритания)
  • APDU (Ассоциация пользователей общедоступных данных – США)
  • CAPDU (Канадская ассоциация пользователей общедоступных данных)
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f49705e643adcdd6d8701d6ad2f9d323__1716310140
URL1:https://arc.ask3.ru/arc/aa/f4/23/f49705e643adcdd6d8701d6ad2f9d323.html
Заголовок, (Title) документа по адресу, URL1:
Research data archiving - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)