Публикация данных
Публикация данных (также публикация данных ) — это публикация исследовательских данных в опубликованной форме для использования другими. Это практика, заключающаяся в подготовке определенных данных или наборов данных для публичного использования, чтобы каждый мог использовать их по своему усмотрению. Эта практика является неотъемлемой частью движения открытой науки . Существует широкий и междисциплинарный консенсус относительно преимуществ этой практики. [1] [2] [3]
Основная цель состоит в том, чтобы превратить данные в первоклассные результаты исследований. [4] Существует ряд инициатив, находящихся в стадии реализации, а также точки соприкосновения и спорные вопросы. [5]
Существует несколько различных способов сделать данные исследований доступными, в том числе:
- публикация данных в качестве дополнительного материала, связанного с исследовательской статьей , обычно с файлами данных, размещенными на сервере издателя статьи.
- размещение данных на общедоступном веб-сайте с файлами, доступными для скачивания
- размещение данных в репозитории, разработанном для поддержки публикации данных, например figshare , Dryad , Dataverse , Zenodo . Существует большое количество хранилищ общих и специализированных (например, по темам исследований) хранилищ данных. [6] Например, Служба данных Великобритании позволяет пользователям депонировать коллекции данных и повторно делиться ими в исследовательских целях.
- публикация документа с данными о наборе данных, который может быть опубликован в виде препринта, в обычном журнале или в журнале данных, посвященном поддержке документов с данными. Данные могут храниться в журнале или отдельно в хранилище данных.
Публикация данных позволяет исследователям сделать свои данные доступными для использования другими, а также позволяет цитировать наборы данных аналогично другим типам исследовательских публикаций (например, статьям или книгам), тем самым позволяя производителям наборов данных получить академическое признание за свою работу.
Мотивами для публикации данных могут быть желание сделать исследования более доступными, обеспечить цитируемость наборов данных или требования спонсоров исследований или издателей, которые требуют публикации открытых данных. Служба данных Великобритании — одна из ключевых организаций, работающих вместе с другими над повышением важности правильного цитирования данных. [7] и помогаем исследователям сделать это.
Были предложены решения по сохранению конфиденциальности при публикации данных, включая алгоритмы защиты конфиденциальности, методы «маскировки» данных и алгоритм расчета регионального уровня конфиденциальности. [8]
Методы публикации данных
[ редактировать ]Этот раздел нуждается в дополнительных цитатах для проверки . ( Апрель 2022 г. ) |
Файлы данных как дополнительный материал
[ редактировать ]Большое количество журналов и издателей поддерживают прикрепление дополнительных материалов к исследовательским статьям, включая наборы данных. Хотя исторически такие материалы могли распространяться в библиотеках только по запросу или на микроформах , сегодня журналы обычно размещают такие материалы в Интернете. Дополнительные материалы доступны подписчикам журнала или, если статья или журнал находятся в открытом доступе, всем желающим.
Репозитории данных
[ редактировать ]Существует большое количество хранилищ данных как по общим, так и по специализированным темам. Многие репозитории являются дисциплинарными , ориентированными на определенную исследовательскую дисциплину, например Служба данных Великобритании , которая является надежным цифровым хранилищем социальных, экономических и гуманитарных данных. Репозитории могут быть бесплатными для исследователей для загрузки своих данных или могут взимать единовременную или постоянную плату за размещение данных. Эти репозитории предлагают общедоступный веб-интерфейс для поиска и просмотра размещенных наборов данных и могут включать дополнительные функции, такие как идентификатор цифрового объекта для постоянного цитирования данных и ссылки на соответствующие опубликованные статьи и код.
Документы с данными
[ редактировать ]Документы с данными или статьи с данными представляют собой «научную публикацию документа метаданных с возможностью поиска, описывающего конкретный набор данных, доступный в режиме онлайн, или группу наборов данных, опубликованных в соответствии со стандартной академической практикой». [9] Их конечная цель — предоставить «информацию о том, что, где, почему, как и кто использует данные». [4] Целью документа с данными является предоставление описательной информации о соответствующем наборе(ах) данных с упором на сбор данных, отличительные особенности, доступ и потенциальное повторное использование, а не на обработку и анализ данных. [10] Поскольку статьи с данными считаются академическими публикациями, ничем не отличающимися от других типов статей, они позволяют ученым, обменивающимся данными, получать кредит в валюте, распознаваемой в академической системе, тем самым «делая обмен данными важным». [11] Это обеспечивает не только дополнительный стимул для обмена данными, но и посредством процесса экспертной оценки повышает качество метаданных и, следовательно, возможность повторного использования общих данных.
Таким образом, документы с данными представляют собой научный коммуникационный подход к обмену данными . Несмотря на свой потенциал, документы с данными не являются окончательным и полным решением всех проблем совместного использования и повторного использования данных, и в некоторых случаях считается, что они вызывают ложные ожидания в исследовательском сообществе. [12]
Журналы данных
[ редактировать ]Статьи с данными поддерживаются богатым набором журналов данных , некоторые из которых являются «чистыми», т. е. предназначены только для публикации статей с данными, в то время как другие (большинство) «смешанные», т. е. они публикуют несколько типов статей, включая документы с данными.
Доступен комплексный обзор журналов данных. [13] Неисчерпывающий список журналов данных был составлен сотрудниками Эдинбургского университета. [14]
Примерами «чистых» журналов данных являются: Earth System Science Data , Journal of Open Archeology Data , Open Health Data , Polar Data Journal и Scientific Data .
Примерами «смешанных» журналов, публикующих статьи с данными, являются: Biodiversity Data Journal , F1000Research , GigaScience , GigaByte , PLOS ONE и SpringerPlus .
Цитирование данных
[ редактировать ]Цитирование данных — это предоставление точных, последовательных и стандартизированных ссылок на наборы данных точно так же, как библиографические ссылки предоставляются для других опубликованных источников, таких как исследовательские статьи или монографии . Обычно хорошо зарекомендовавший себя подход с использованием цифровых идентификаторов объектов (DOI) используется, когда DOI перенаправляет пользователей на веб-сайт , содержащий метаданные в наборе данных и сам набор данных. [15] [16]
История развития
[ редактировать ]В статье 2011 года сообщалось о невозможности определить, как часто происходит цитирование данных в социальных науках. [17]
В документах 2012–2013 годов сообщалось, что цитирование данных становится все более распространенным, но практика этого не является стандартной. [18] [19] [20]
В 2014 году FORCE 11 опубликовала Совместную декларацию принципов цитирования данных, в которой описываются цели, функции и атрибуты цитирования данных. [21]
В октябре 2018 года CrossRef выразил поддержку каталогизации наборов данных и рекомендовал их цитирование. [22]
В апреле 2019 года популярный журнал, ориентированный на данные, сообщил, что теперь будет использовать цитирование данных. [23]
В документе, опубликованном в июне 2019 года, говорится, что увеличение цитирования данных сделает эту практику более ценной для всех, поощряя обмен данными, а также повышая престиж людей, которые ими делятся. [24]
Цитирование данных — это новая тема в информатике , которая определяется как вычислительная проблема. [25] Действительно, цитирование данных создает серьезные проблемы для ученых-компьютерщиков, и основные проблемы, которые необходимо решить, связаны с: [26]
- использование разнородных моделей и форматов данных – например, реляционных баз данных, значений, разделенных запятыми (CSV), расширяемого языка разметки (XML), [27] [28] Структура описания ресурсов (RDF); [29]
- мимолетность данных;
- необходимость цитирования данных на разных уровнях грубости – т.е. глубоких цитирований; [30]
- необходимость автоматического создания ссылок на данные с переменной степенью детализации.
См. также
[ редактировать ]- Архивирование данных
- Дисциплинарный репозиторий
- Открытые научные данные
- Реестр хранилищ исследовательских данных
Ссылки
[ редактировать ]- ^ Костелло М.Дж. (2009). «Мотивация онлайн-публикации данных». Бионаука . 59 (5): 418–427. дои : 10.1525/bio.2009.59.5.9 . hdl : 2292/7173 . S2CID 55591360 .
- ^ Смит В.С. (2009). «Публикация данных: к базе данных всего» . Исследовательские заметки BMC . 2 (113): 113. дои : 10.1186/1756-0500-2-113 . ПМК 2702265 . ПМИД 19552813 .
- ^ Лоуренс, Б; Джонс, К.; Мэтьюз, Б.; Пеплер, С.; Каллаган, С. (2011). «Цитирование и экспертная оценка данных: переход к официальной публикации данных» . Международный журнал цифрового курирования . 6 (2): 4–37. дои : 10.2218/ijdc.v6i2.205 .
- ^ Jump up to: а б Каллаган С, Донеган С, Пеплер С, Торли М, Каннингем Н, Кирш П, Олт Л, Белл П, Боуи Р, Лидбеттер А, Лоури Р, Монкуффе Г, Харрисон К, Смит-Хеддон Б, Уэзерби А, Райт Д ( 2012). «Превращение данных в первоклассный научный результат: цитирование и публикация данных центрами экологических данных NERC» . Международный журнал цифрового курирования . 7 (1): 107–113. дои : 10.2218/ijdc.v7i1.218 .
- ^ Крац Дж., Штрассер С. (2014). «Консенсус и разногласия по публикации данных» . F1000Исследования . 3 (94): 94. doi : 10.12688/f1000research.4518 . ПМК 4097345 . ПМИД 25075301 .
- ^ Ассанте, М.; Кандела, Л.; Кастелли, Д.; Тани, А. (2016). «Справятся ли хранилища научных данных с публикацией исследовательских данных?» . Журнал науки о данных . 15 . дои : 10.5334/dsj-2016-006 .
- ^ Сервис, данные Великобритании. «Новое в использовании данных» . Служба данных Великобритании .
- ^ Чжан, Лунбин; Ван, Юйсян; Сюй, Сяолян (август 2017 г.). «Гауссова выборка на основе логического разделения для онлайн-агрегации» . 2017 Пятая Международная конференция по передовым облакам и большим данным (CBD) . IEEE. стр. 182–187. дои : 10.1109/cbd.2017.39 . ISBN 978-1-5386-1072-5 . S2CID 40025084 .
- ^ Чаван В. и Пенев Л. (2011). «Информационный документ: механизм стимулирования публикации данных в области науки о биоразнообразии» . БМК Биоинформатика . 12 (15): С2. дои : 10.1186/1471-2105-12-S15-S2 . ПМЦ 3287445 . ПМИД 22373175 .
- ^ Ньюман Пол; Корке Питер (2009). «Документы с данными — рецензируемая публикация высококачественных наборов данных» . Международный журнал исследований робототехники . 28 (5): 587. дои : 10.1177/0278364909104283 . S2CID 209308576 .
- ^ Горголевски К.Дж., Маргулис Д.С., Милхэм, член парламента (2013). «Обмен данными важен: решение на основе публикаций» . Границы в неврологии . 7 :9. дои : 10.3389/fnins.2013.00009 . ПМЦ 3565154 . ПМИД 23390412 .
- ^ Парсонс, Массачусетс; Фокс, Пенсильвания (2013). «Является ли публикация данных правильной метафорой?» . Журнал науки о данных . 12 : WDS31–WDS46. doi : 10.2481/dsj.WDS-042 .
- ^ Кандела Л., Кастелли Д., Манги П., Тани А. (2015). «Журналы данных: опрос» . Журнал Ассоциации информационных наук и технологий . 66 (1): 1747–1762. дои : 10.1002/asi.23358 . S2CID 31358007 .
- ^ «Источники экспертной оценки наборов данных — datashare — Wiki Service» .
- ^ Австралийская национальная служба данных: Информация о цитировании данных. Архивировано 7 марта 2012 г. на Wayback Machine (по состоянию на 20 марта 2012 г.).
- ^ Болл, А., Дюк, М. (2011). «Цитирование и связывание данных». Информационные материалы DCC. Эдинбург: Центр цифрового курирования. Доступно в Интернете: http://www.dcc.ac.uk/resources/briefing-papers/.
- ^ МУНИ, Хейли (апрель 2011 г.). «Цитирование источников данных в социальных науках: делают ли это авторы?» . Изучал издательское дело . 24 (2): 99–108. дои : 10.1087/20110204 . S2CID 34513423 .
- ^ Эдмундс, Скотт С.; Поллард, Том Дж.; Хоул, Брайан; Басфорд, Александра Т. (2 июля 2012 г.). «Приключения в цитировании данных: данные о геноме сорго служат примером нового золотого стандарта» . Исследовательские заметки BMC . 5 (1): 223. doi : 10.1186/1756-0500-5-223 . ISSN 1756-0500 . ПМЦ 3392744 . ПМИД 22571506 .
- ^ «Из цитирования, из головы: современное состояние практики, политики и технологий цитирования данных» . Журнал науки о данных . 12 : CIDCR1–CIDCR75. 2013. doi : 10.2481/dsj.OSOM13-043 .
- ^ Муни, Хейли; Ньютон, Марк П. (2012). «Анатомия цитирования данных: обнаружение, повторное использование и кредит». Академическое сообщество . 1 (1). Колумбийский университет: eP1035. дои : 10.7916/D8MW2STM .
- ^ Группа синтеза цитирования данных (2014). Мартоне, М. (ред.). «Совместная декларация принципов цитирования данных» . Сан-Диего: Институт научной коммуникации Force11 . дои : 10.25490/a97f-egyk .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Лин, Дженнифер (4 октября 2018 г.). «Цитирование данных: давайте сделаем это» . Перекрестная ссылка .
- ^ «Требуется ссылка на данные» . Научные данные . 6 (1): 27. 10 апреля 2019 г. Бибкод : 2019NatSD...6...27. . дои : 10.1038/s41597-019-0026-5 . ПМК 6472333 . ПМИД 30971699 .
- ^ Пирс, Хизер Х.; Дев, Анурупа; Стэтхэм, Эмили; Бирер, Барбара Э. (4 июня 2019 г.). «Генератор кредитных данных для повторного использования данных» . Природа . 570 (7759): 30–32. Бибкод : 2019Natur.570...30P . дои : 10.1038/d41586-019-01715-4 . ПМИД 31164773 . S2CID 174809246 .
- ^ Бунеман, Питер; Дэвидсон, Сьюзен; Фрю, Джеймс (сентябрь 2016 г.). «Почему цитирование данных является вычислительной проблемой» . Коммуникации АКМ . 59 (9): 50–57. дои : 10.1145/2893181 . ISSN 0001-0782 . ПМК 5687090 . ПМИД 29151602 .
- ^ Сильвелло, Г. (2018). «Теория и практика цитирования данных». Журнал Ассоциации информационных наук и технологий (JASIST) (AIS Review), vol. 69 выпуск 1, стр. 6–20, 2018 г. Доступно онлайн (открытый доступ): https://onlinelibrary.wiley.com/doi/full/10.1002/asi.23917
- ^ Бунеман П. и Сильвелло Г. (2010). «Система цитирования на основе правил для структурированных и развивающихся наборов данных». Бюллетень IEEE Технического комитета по инженерии данных, Vol. 3, № 3. IEEE Computer Society, стр. 33–41, сентябрь 2010 г. Доступно в Интернете: http://sites.computer.org/debull/A10sept/buneman.pdf.
- ^ Сильвелло, Г. (2017). «Учимся цитировать структуру: как автоматически создавать цитирования для иерархических данных». Журнал Ассоциации информационных наук и технологий (JASIST), том 68, выпуск 6, стр. 1505–1524, июнь 2017 г. Доступно в Интернете: http://www.dei.unipd.it/~silvello/papers/2016-DataCitation . -JASIST-Сильвелло.pdf
- ^ Сильвелло, Г. (2015). «Методология цитирования связанных подмножеств открытых данных». Журнал D-Lib 21 (1/2), 2015 г. Доступно в Интернете: http://www.dlib.org/dlib/january15/silvello/01silvello.html.
- ^ Бунеман, П. (2006). «Как цитировать курируемые базы данных и как сделать их цитируемыми». В Proc. 18-й Международной конференции по управлению научными и статистическими базами данных, SSDBM 2006, страницы 195–203, 2006 г.