Открытые научные данные

Открытые научные данные или открытые исследовательские данные — это тип открытых данных, ориентированных на публикацию наблюдений и результатов научной деятельности, доступных каждому для анализа и повторного использования. Основная цель борьбы за открытые данные — обеспечить возможность проверки научных утверждений, позволяя другим оценить воспроизводимость результатов. [1] и позволить интегрировать данные из многих источников для получения новых знаний. [2]

Современная концепция научных данных возникла во второй половине 20-го века с развитием крупной инфраструктуры знаний для вычисления научной информации и наблюдений. Совместное использование и распространение данных было определено как важная задача, но этому препятствовали технические ограничения инфраструктуры и отсутствие общих стандартов передачи данных. Всемирная паутина сразу же была задумана как универсальный протокол для обмена научными данными, особенно из области физики высоких энергий.

Определение [ править ]

Научные данные [ править ]

Концепция открытых научных данных развивалась параллельно с концепцией научных данных .

Научные данные не имели формального определения до конца 20 века. До обобщения компьютерного анализа данные были в основном неформальными терминами, часто используемыми как синонимы знаний или информации. [3] Институциональные и эпистемологические дискурсы отдавали предпочтение альтернативным концепциям и взглядам на научную деятельность: «Даже в комментариях по истории науки и эпистемологии данные упоминаются лишь вскользь. Другие основополагающие работы по созданию смысла в науке обсуждают факты, представления, надписи и публикации с небольшим внимание к данным как таковым». [4]

Первое влиятельное политическое определение научных данных появилось еще в 1999 году, когда Национальные академии наук описали данные как «факты, буквы, числа или символы, которые описывают объект, состояние, ситуацию или другие факторы». [5] Терминология продолжала развиваться: в 2011 году Национальные академии обновили определение, включив в него большое количество объектов с данными, таких как «спектрографические данные, данные геномного секвенирования и данные электронной микроскопии; данные наблюдений, такие как дистанционное зондирование, геопространственные и социально-экономические данные; и другие формы данных, созданных или собранных людьми или машинами», а также «цифровое представление литературы». [5]

Хотя формы и формы данных остаются обширными и неопределенными, стандартные определения и политика в последнее время имеют тенденцию ограничивать научные данные вычислительными или цифровыми данными. [6] Пилотный проект открытых данных Horizon 2020 был добровольно ограничен цифровыми исследованиями: «Данные цифровых исследований — это информация в цифровой форме (в частности, факты или цифры), собранная для изучения и использования в качестве основы для рассуждений, обсуждений или расчетов; сюда входят статистика, результаты экспериментов, измерений, наблюдения, полученные в результате полевых работ, результаты опросов, записи интервью и изображения». [7]

В целом, статус научных данных остается гибкой темой для обсуждения между отдельными исследователями, сообществами и политиками: «В более широком смысле, любые «данные», представляющие интерес для исследователей, должны рассматриваться как «исследовательские данные»» [6] В важных политических докладах, таких как коллективный синтез Национальных академий наук по цитированию данных в 2012 году, намеренно принято относительное и номиналистическое определение данных: «мы будем уделять мало времени вопросам определений (например, что такое данные?), за исключением признать, что данные часто существуют в глазах смотрящего». [8] Для Кристин Боргман главная проблема заключается не в том, чтобы дать определение научным данным («что такое данные»), а в том, чтобы контекстуализировать тот момент, когда данные стали центром обсуждения в рамках дисциплины, учреждения или национальной исследовательской программы («когда данные»). ). [9] В 2010-х годах расширение доступных источников данных и совершенствование методов анализа данных расширили круг дисциплин, в первую очередь затрагиваемых проблемами управления данными, до « вычислительных социальных наук , цифровых гуманитарных наук , данных социальных сетей , исследовательских проектов в области гражданской науки и политологии». ." [10]

Открытые научные данные [ править ]

Открытие и совместное использование были не только основной темой дискуссий в отношении управления научными данными, но и мотивацией к тому, чтобы данные стали актуальной проблемой в рамках учреждения, дисциплины или политической структуры.

По мнению Пола Эдвардса, вопрос о том, следует ли делиться данными или нет, в какой степени ими следует делиться и с кем были основные причины разногласий в отношении данных , выявил скрытые в противном случае инфраструктуры науки: «Метафора разногласий в отношении данных, предложенная Эдвардсом, описывает то, что происходит в интерфейсы между «поверхностями» данных: точки, в которых данные перемещаются между людьми, субстратами, организациями или машинами (...) Каждое перемещение данных через интерфейс требует определенных затрат времени, энергии и человеческого внимания. группы и организации, а также между машинами, представляют собой точку сопротивления, где данные могут быть искажены, неправильно истолкованы или потеряны. В социальных системах трение данных потребляет энергию и порождает турбулентность и накал, то есть конфликты, разногласия и неточные данные. неуправляемые процессы». [11] Открытие научных данных само по себе является проблемой, связанной с данными, и способом коллективного управления этими противоречиями путем ослабления сложных вопросов владения данными. Научная или эпистемическая культура была признана основным фактором принятия политики открытых данных: «ожидается, что практика обмена данными будет привязана к сообществу и во многом будет определяться эпистемической культурой». [12]

В 2010-х годах ученые и политики представили новые концепции, позволяющие более точно определить, какие открытые научные данные. С момента своего появления в 2016 году данные FAIR стали основным направлением политики открытых исследований. Эта аббревиатура описывает идеальный тип данных , доступных для поиска, доступных, совместимых и повторно используемых . Открытые научные данные были отнесены к категории всеобщего достояния или общественного блага , которое в первую очередь поддерживается, обогащается и сохраняется коллективными, а не индивидуальными действиями: «Что делает коллективные действия полезными для понимания обмена научными данными, так это их сосредоточенность на том, как присвоение индивидуальных выгод определяется путем корректировки затрат и выгод, получаемых за счет взносов в общий ресурс» [13]

История [ править ]

инфраструктуры знаний ( Развитие 1945-1960 )

Хранилище перфокарт в Национальном центре метеоданных США в Эшвилле (начало 1960-х годов). Хранение данных расширилось настолько, что прихожую пришлось использовать как хранилище.

Появление научных данных связано с семантическим сдвигом в общепринятом понимании основных научных понятий, таких как данные , информация и знания . [14] С развитием компьютерных технологий данные и информацию все чаще называют «вещами»: [15] «Как и вычисления, данные всегда имеют материальный аспект. Данные — это вещи. Это не просто числа, но и цифры, обладающие размерностью, весом и текстурой». [16]

После Второй мировой войны крупные научные проекты все чаще полагались на инфраструктуру знаний для сбора, обработки и анализа важного объема данных. Система перфокарт впервые была использована экспериментально для обработки климатических данных в 1920-х годах и широко применялась в следующем десятилетии: «В рамках одного из первых правительственных проектов времен Великой депрессии работники Управления строительных работ пробили около 2 миллионов кораблей. журнал наблюдений за период 1880–1933 гг.». [17] К 1960 году коллекция метеорологических данных Национального центра метеорологических данных США расширилась до 400 миллионов карточек и приобрела глобальный охват. К тому времени физический аспект научных данных стал полностью очевиден и угрожал устойчивости целых зданий: «К 1966 году карты занимали так много места, что Центр начал заполнять свой главный вестибюль шкафами для хранения карт (рис. 5.4). Должностные лица были серьезно обеспокоены что здание может рухнуть под их тяжестью». [18]

К концу 1960-х годов инфраструктура знаний была встроена в различные дисциплины и сообщества. Первой инициативой по созданию базы данных электронной библиографии данных открытого доступа стал Информационный центр образовательных ресурсов (ERIC) в 1966 году. В том же году была создана MEDLINE – онлайн-база данных со свободным доступом, управляемая Национальной медицинской библиотекой и Национальной медицинской библиотекой. Института здравоохранения (США) с библиографическими цитатами из журналов биомедицинской области, который позже будет называться PubMed , в настоящее время насчитывает более 14 миллионов полных статей. [19] Инфраструктуры знаний также были созданы в космической технике (с NASA/RECON), библиотечном поиске (с OCLC Worldcat) или социальных науках: «В 1960-х и 1970-х годах было создано более десятка служб и профессиональных ассоциаций для координации сбора количественных данных». . [20]

данными: первые попытки (1960-1990 гг Открытие и обмен . )

Первые дискурсы и политические рамки в отношении открытых научных данных возникли сразу после создания первой крупной инфраструктуры знаний. Система Мирового центра данных (ныне Мировая система данных ) была призвана сделать данные наблюдений более доступными в рамках подготовки к Международному геофизическому году 1957–1958 годов. [21] Международный совет научных союзов (ныне Международный совет по науке ) учредил несколько мировых центров данных, чтобы минимизировать риск потери данных и максимизировать доступность данных, а также рекомендовал в 1955 году предоставлять данные в машиночитаемой форме. [22] В 1966 году Международный совет по науке создал CODATA — инициативу, направленную на «содействие сотрудничеству в управлении и использовании данных». [23]

Эти ранние формы открытых научных данных не получили дальнейшего развития. Было слишком много разногласий в отношении данных и технического сопротивления интеграции внешних данных для создания устойчивой экосистемы обмена данными. Инфраструктуры данных были по большей части невидимы для исследователей, поскольку большая часть исследований проводилась профессиональными библиотекарями. Поисковые операционные системы были не только сложны в использовании, но и поиск приходилось выполнять очень эффективно, учитывая непомерно высокую стоимость междугородной связи. [24] Хотя их создатели изначально предполагали прямое использование исследователями, на самом деле это не могло произойти из-за технических и экономических препятствий:

Разработчики первых онлайн-систем предполагали, что поиск будут осуществлять конечные пользователи; это предположение лежало в основе проектирования системы. MEDLINE предназначалась для медицинских исследователей и врачей, NASA/RECON была разработана для аэрокосмических инженеров и ученых. Однако по многим причинам большинство пользователей в семидесятые годы были библиотекарями и обученными посредниками, работавшими от имени конечных пользователей. Фактически, некоторые профессиональные поисковики беспокоились, что даже позволить нетерпеливым конечным пользователям получить доступ к терминалам — плохая идея. [25]

Кристин Боргман не помнит каких-либо серьезных политических дебатов по поводу значения, производства и распространения научных данных, за исключением нескольких конкретных областей (например, климатологии) после 1966 года. [23] Изолированные научные инфраструктуры вряд ли можно было соединить до появления Интернета. [26] Проекты и сообщества полагались на свои собственные несвязанные сети на национальном или институциональном уровне: «Интернет был почти невидим в Европе, потому что люди там использовали отдельный набор сетевых протоколов». [27] Связь между научными инфраструктурами была сложной задачей не только в пространстве, но и во времени. Всякий раз, когда протокол связи переставал поддерживаться, данные и знания, которые он распространял, также, вероятно, исчезали: «на отношения между историческими исследованиями и вычислениями серьезно повлияли прерванные проекты, потеря данных и невосстановимые форматы». [28]

Обмен научными данными в сети (1990-1995 гг . )

Всемирная паутина изначально задумывалась как инфраструктура для открытых научных данных. Обмен данными и документацией данных был основным направлением первоначальной коммуникации во Всемирной паутине, когда проект был впервые представлен в августе 1991 года: «Проект WWW был начат, чтобы позволить физикам высоких энергий обмениваться данными, новостями и документацией. Мы очень заинтересованы в распространении Интернета на другие области и наличии серверов-шлюзов для других данных». [29]

Проект возник на основе тесной инфраструктуры знаний INQUIRE . Это было программное обеспечение для управления информацией, заказанное Бернерсом-Ли ЦЕРН Тимом для конкретных нужд физики высоких энергий. Структура INQUIRE была ближе к внутренней сети данных: она соединяла «узлы», которые «могли относиться к человеку, программному модулю и т. д. и могли быть связаны с различными отношениями, такими как «сделано», «включено», «описано» и т. д. ". [30] Хотя это «облегчило некоторую случайную связь между информацией», Inquire не смог «способствовать сотрудничеству, которого желали в международном исследовательском сообществе в области физики высоких энергий». [31] Как и любая значительная вычислительная научная инфраструктура до 1990-х годов, развитию INQUIRE в конечном итоге препятствовало отсутствие функциональной совместимости и сложность управления сетевыми коммуникациями: «хотя Inquire обеспечивал способ связать документы и базы данных, а гипертекст обеспечивал общий формат, в котором чтобы их отобразить, все еще существовала проблема взаимодействия разных компьютеров с разными операционными системами друг с другом». [27]

Сеть быстро вытеснила ранее существовавшую закрытую инфраструктуру для научных данных, даже когда она включала более продвинутые вычислительные функции. С 1991 по 1994 годы пользователи Worm Community System , крупной биологической базы данных о червях, переключились на Интернет и Gopher. Хотя Интернет не включал в себя множество расширенных функций для поиска данных и совместной работы, он был легко доступен. И наоборот, систему сообщества Worm можно было просматривать только на определенных терминалах, совместно используемых научными учреждениями: «Взять на вооружение специально разработанную, мощную WCS (с ее удобным интерфейсом) — значит терпеть неудобства на стыке рабочих привычек, использования компьютера, и лабораторные ресурсы (…) С другой стороны, доступ к Всемирной паутине возможен с самых разных терминалов и соединений, а компьютерная поддержка через Интернет легко доступна в большинстве академических учреждений и через относительно недорогие коммерческие услуги». [32]

Публикация в сети полностью изменила экономику публикации данных. Хотя в печатном виде «стоимость воспроизведения больших наборов данных непомерно высока», затраты на хранение большинства наборов данных невелики. [33] В этой новой редакционной среде основными ограничивающими факторами для обмена данными становятся уже не технические или экономические, а социальные и культурные факторы.

открытых научных данных (1995-2010 гг Определение . )

Развитие и распространение Всемирной паутины устранило многочисленные технические барьеры и разногласия, ограничивавшие свободное обращение данных. изложенное Тимом Бернерсом-Ли Тем не менее, научные данные еще не были определены, и необходимо было реализовать новую исследовательскую политику, чтобы реализовать первоначальное видение сети данных, . На данный момент научные данные в значительной степени определяются посредством процесса открытия научных данных, поскольку реализация открытой политики создала новые стимулы для разработки действенных руководств, принципов и терминологии.

Климатические исследования стали новаторской областью концептуального определения открытых научных данных, как и при создании первой крупной инфраструктуры знаний в 1950-х и 1960-х годах. В 1995 году GCDIS сформулировала четкое обязательство по полному и открытому обмену научными данными : «Международные программы исследований глобальных изменений и мониторинга окружающей среды в решающей степени зависят от принципа полного и открытого обмена данными (т.е. данные и информация предоставляются без ограничений). на недискриминационной основе, не превышая стоимости воспроизводства и распространения). [34] Расширение масштабов и управление инфраструктурой знаний также создали стимулы для обмена данными, поскольку «распределение владения данными» между большим количеством индивидуальных и институциональных заинтересованных сторон становится все более сложным. [35] Открытые данные создают упрощенную структуру, гарантирующую, что все участники и пользователи данных имеют к ним доступ. [35]

Открытые данные были быстро определены как ключевая цель зарождающегося движения за открытую науку. Первоначально международные инициативы в пользу открытого доступа были сосредоточены на публикациях и научных статьях, но распространились на все основные научные произведения. [36] В 2003 году Берлинская декларация поддержала распространение «оригинальных результатов научных исследований, необработанных данных и метаданных, исходных материалов и цифровых представлений изобразительных, графических и научных мультимедийных материалов».

После 2000 года международные организации, такие как ОЭСР (Организация экономического сотрудничества и развития), сыграли важную роль в разработке общих и трансдисциплинарных определений научных данных, поскольку политика открытых данных должна осуществляться за пределами конкретного масштаба дисциплины. страны. [5] Одно из первых влиятельных определений научных данных было предложено в 1999 году. [5] в отчете Национальной академии наук: «Данные — это факты, цифры, буквы и символы, которые описывают объект, идею, состояние, ситуацию или другие факторы». [37] В 2004 году министры науки всех стран ОЭСР подписали декларацию, в которой, по сути, говорится, что все финансируемые государством архивные данные должны быть общедоступными. [38] В 2007 году ОЭСР «кодифицировала принципы доступа к данным исследований, финансируемых за счет государственного финансирования». [39] через « Принципы и рекомендации по доступу к исследовательским данным, финансируемым из государственного бюджета» , в которых научные данные определяются как «фактические записи (цифровые оценки, текстовые записи, изображения и звуки), используемые в качестве основных источников для научных исследований и которые обычно принимаются в научном сообществе как необходимо для подтверждения результатов исследования». [40] Принципы и подтверждали, что «доступ к исследовательским данным увеличивает отдачу от государственных инвестиций действовали как рекомендация мягкого права в этой области; усиливает открытые научные исследования; поощряет разнообразие исследований и мнений; продвигает новые области работы и позволяет исследовать темы, предполагалось первоначальными исследователями». [41]

Реализация политики (2010-…) [ править ]

После 2010 года национальные и наднациональные институты заняли более интервенционистскую позицию. Новая политика была реализована не только для обеспечения и стимулирования открытия научных данных, обычно в продолжение существующей программы открытых данных. В Европе «комиссар Европейского Союза по исследованиям, науке и инновациям Карлос Моэдас сделал открытые исследовательские данные одним из приоритетов ЕС в 2015 году». [10]

были впервые опубликованы в 2016 году. Руководящие принципы FAIR [2] стали влиятельной основой для открытия научных данных. [10] Эти принципы были первоначально разработаны двумя годами ранее во время исследовательского семинара по рекламе в Лоренце « Совместное проектирование Data FAIRport» . [42] В ходе обсуждений на семинаре «возникло мнение, что посредством определения и широкой поддержки минимального набора согласованных сообществом руководящих принципов и практик» [43]

Принципы не пытаются дать определение научным данным, которые остаются относительно пластичным понятием, а стремятся описать, «что представляет собой «хорошее управление данными»». [44] Они охватывают четыре основополагающих принципа, «которые служат руководством для производителей данных»: находимость, доступность, совместимость и возможность повторного использования. [44] а также стремиться сделать шаг к возможности использования машин путем описания базовой семантики данных. [43] Поскольку принципы полностью признают сложность управления данными, принципы не претендуют на введение набора жестких рекомендаций, а скорее на «степень СПРАВЕДЛИВОСТИ», которую можно корректировать в зависимости от организационных затрат, а также внешних ограничений в отношении авторских прав или конфиденциальности. [45]

Принципы FAIR были немедленно приняты крупной международной организацией: «FAIR быстро развивалась, получив признание со стороны Европейского Союза, G7, G20 и американской организации «Большие данные к знаниям» (BD2K)». [46] В августе 2016 года Европейская комиссия создала экспертную группу, чтобы превратить «FAIR Data в реальность». [47] По состоянию на 2020 год принципы FAIR остаются «самыми передовыми техническими стандартами открытых научных данных на сегодняшний день». [48]

В 2022 году French Open Science Monitor начал публиковать экспериментальный обзор публикаций исследовательских данных из инструментов интеллектуального анализа текста. Ретроспективный анализ показал, что количество публикаций, в которых упоминается совместное использование сопутствующего, за 10 лет увеличилось почти вдвое: с 13% (в 2013 году) до 22% (в 2021 году). [49]

К концу 2010-х годов политика открытых данных получила хорошую поддержку со стороны научных сообществ. Два крупных исследования, проведенных по заказу Европейской комиссии в 2016 и 2018 годах, выявили общепризнанную пользу: «74% исследователей говорят, что доступ к другим данным принесет им пользу» [50] Тем не менее, более качественные наблюдения, собранные в ходе того же исследования, также показали, что «то, что учёные провозглашают в идеале, по сравнению с тем, что они на самом деле практикуют, раскрывает более двусмысленную ситуацию». [50]

научных Распространение данных

Публикация и издание [ править ]

До 2010-х годов публикация научных данных в основном относилась к «выпуску наборов данных, связанных с отдельной журнальной статьей». [51] Этот выпуск документирован Заявлением о доступности данных или DAS. Было предложено несколько типологий или заявлений о доступности данных. [52] [53] В 2021 году Колавизза и др. выделил три категории или уровня доступа:

  • DAS 1: «Данные доступны по запросу или аналогично» [54]
  • DAS 2: «Данные, имеющиеся в документе и дополнительных файлах» [54]
  • DAS 3: «Данные доступны в репозитории» [54]

Дополнительные файлы данных появились на раннем этапе перехода к научным цифровым публикациям. Хотя формат публикаций в основном сохранил ограничения печатного формата, дополнительные материалы могут быть включены в «дополнительную информацию». [33] Как публикация, файлы дополнительных данных имеют неоднозначный статус. Теоретически они должны быть необработанными документами, дающими доступ к предыстории исследований. На практике опубликованные наборы данных часто приходится специально готовить для публикации. Обычно они сосредотачиваются на первичных источниках данных, а не на всем диапазоне наблюдений или измерений, проведенных для целей исследования: «Определение того, что представляют собой «данные», связанные с любой отдельной статьей, докладом на конференции, книгой или другой публикацией, часто сложно, [поскольку] следователи постоянно собирают данные». [55] На выбор данных также влияет издатель. Редакционная политика журнала во многом определяет, «что будет в основном тексте, а что в дополнительной информации», и редакторы особенно устали от включения больших наборов данных, которые может быть трудно поддерживать в долгосрочной перспективе. [55]

Наборы научных данных все чаще признаются как автономные научные публикации. Усвоение данных в академических статьях было направлено на повышение престижа и признания опубликованных наборов данных: «в этом аргументе подразумевается, что знакомство будет способствовать публикации данных». [51] Этот подход был одобрен несколькими издателями и репозиториями, поскольку он позволил легко интегрировать данные в существующую издательскую инфраструктуру и широко использовать редакционные концепции, изначально созданные вокруг статей. [51] Документы с данными были явно представлены как «механизм стимулирования публикации данных в области науки о биоразнообразии». [56]

Цитирование и индексация [ править ]

Первые цифровые базы данных 1950-х и 1960-х годов сразу же подняли вопросы цитируемости и библиографических описаний. [57] Изменчивость компьютерной памяти была особенно сложной: в отличие от печатных публикаций, нельзя было ожидать, что цифровые данные останутся стабильными в долгосрочной перспективе. В 1965 году Ральф Биско подчеркнул, что эта неопределенность затронула все сопутствующие документы, такие как кодовые записные книжки, которые могут все больше устаревать. Управление данными должно найти золотую середину между непрерывными улучшениями и некоторой формой общей стабильности: «концепция гибкого, изменяемого, постоянно улучшающегося архива данных означает, что очистка исследований и другая обработка должны доводиться до такой степени, чтобы изменения не были значительными». повлиять на предыдущие анализы» [58]

Структурированные библиографические метаданные для баз данных являются обсуждаемой темой с 1960-х годов. [57] В 1977 году Американский стандарт библиографических ссылок принял определение «файла данных», в котором особое внимание уделялось материальности и изменчивости набора данных: ни даты, ни авторы не были указаны, но необходимо было указать носитель или «Метод упаковки». [59] Два года спустя Сью Додд представила альтернативное соглашение, которое приблизило цитирование данных к стандарту ссылок других научных публикаций: [57] Рекомендация Додда включала использование названий, автора, издания и даты, а также альтернативные упоминания для дополнительных документов, таких как блокнот кода. [60]

Индексация наборов данных радикально изменилась с развитием Интернета, поскольку барьеры для обмена данными были существенно уменьшены. [57] В этом процессе архивирование данных, их устойчивость и постоянство стали критически важными вопросами. Постоянные идентификаторы цифровых объектов (или DOI) были введены для научных статей, чтобы избежать неработающих ссылок, поскольку структуры веб-сайтов постоянно развиваются. В начале 2000-х годов пилотные программы также начали присваивать DOI наборам данных. [61] Хотя он решает конкретные проблемы устойчивости ссылок, создание DOI данных и норм цитирования данных также является частью процесса легитимации, который ассимилирует набор данных со стандартными научными публикациями и может опираться на аналогичные источники мотивации (например, библиометрические индексы). [62]

Доступные и легко находимые наборы данных дают значительное преимущество в цитировании. Исследование 531 889 статей, опубликованных PLOS в 2021 году, показало, что журнальная статья со «ссылкой на архивные данные в общедоступном репозитории» имеет «относительный прирост цитирования на 25,36% в целом». [63] Распространение данных в качестве дополнительных материалов не дает значительного преимущества в цитировании, что позволяет предположить, что «преимущество цитирования DAS [Заявление о доступности данных] связано не столько с их простым присутствием, сколько с их содержанием». [64]

По состоянию на 2022 год признание открытых научных данных все еще является продолжающимся процессом. Ведущее справочное программное обеспечение Zotero пока не имеет конкретного элемента для набора данных.

и экономический эффект Повторное использование

В рамках академических исследований хранение и избыточность оказались значительным преимуществом открытых научных данных. Напротив, закрытые научные данные плохо сохраняются и могут быть «получены лишь приложив значительные усилия со стороны авторов», если не полностью утеряны. [65]

Анализ использования открытых научных данных сталкивается с теми же проблемами, что и любой открытый контент: хотя свободный, универсальный и неизбирательный доступ явно расширил объем, диапазон и интенсивность приема, он также усложнил его отслеживание из-за отсутствие процесса транзакции.

Эти проблемы еще больше усложняются новизной данных как научной публикации: «На практике может быть сложно отслеживать повторное использование данных, главным образом потому, что исследователи редко ссылаются на репозиторий» [66]

В 2018 году в отчете Еврокомиссии оценена стоимость неоткрытия научных данных в соответствии с принципами FAIR: она составила 10,2 миллиарда ежегодно при прямом влиянии и 16 миллиардов при косвенном влиянии на всю инновационную экономику. [67] Внедрение открытых научных данных в глобальном масштабе «окажет значительное влияние на время, которое мы тратим на манипулирование данными, и на то, как мы их храним». [67]

и Практика культура данных

Обмен научными данными коренится в научных культурах или сообществах практиков . По мере распространения цифровых инструментов инфраструктуры, практики и общие представления исследовательских сообществ все больше полагаются на общие значения того, что такое данные и что можно с ними делать. [12]

Существующие ранее эпистемологические механизмы могут быть более или менее предрасположены к обмену данными. Важными факторами могут быть общие ценности (индивидуальные или коллективные), распределение прав собственности на данные и частое сотрудничество с внешними субъектами, которые могут неохотно делиться данными. [68]

культуры открытых Появление данных

Развитие научных открытых данных не ограничивается научными исследованиями. В нем участвует широкий круг заинтересованных сторон: «Аргументы в пользу обмена данными исходят из многих источников: финансирующие агентства — как государственные, так и частные — политические органы, такие как национальные академии и советы по финансированию, издатели журналов, преподаватели, общественность в целом и сами исследователи. ." [69] Таким образом, движение за научные открытые данные во многом пересекается с более глобальными движениями за открытые данные. [70] Определение стандартов открытых данных, используемых широким кругом государственных и частных субъектов, было частично разработано исследователями вокруг конкретных научных проблем. [71] Концепция прозрачности особенно способствовала сближению открытой науки, открытых данных и открытого правительства. В 2015 году ОЭСР описала прозрачность как общее «обоснование открытой науки и открытых данных». [72]

Кристин Боргман выделила четыре основных обоснования обмена данными, которые обычно используются в ходе всех нормативных и общественных дебатов по поводу научных открытых данных: [69]

  • Воспроизводимость исследований: отсутствие воспроизводимости часто объясняется недостатками прозрачности исследований и процесса анализа данных. Следовательно, как «обоснование обмена исследовательскими данными, [воспроизводимость исследований] является мощным, но проблематичным». [73] Воспроизводимость применима только к «определенным видам исследований», в основном к экспериментальным наукам. [73]
  • Доступность для общественности: обоснование того, что «продукты государственного финансирования должны быть доступны общественности» «находится в аргументах в пользу открытого правительства». [74] Хотя они напрямую вдохновлены аналогичными аргументами в пользу открытого доступа к публикациям, их диапазон более ограничен, поскольку научные открытые данные «приносят прямую выгоду гораздо меньшему количеству людей, и эти выгоды различаются в зависимости от заинтересованной стороны». [75]
  • Повышение ценности исследований: открытые научные данные могут принести значительную пользу частному сектору. Этот аргумент особенно используется для поддержки «необходимости в большем количестве хранилищ, которые могут принимать и хранить исследовательские данные, в более совершенных инструментах и ​​услугах для использования данных, а также в других инвестициях в инфраструктуру знаний». [75]
  • Расширение исследований и инноваций: открытые научные данные могут значительно повысить качество частных и государственных исследований. Этот аргумент направлен на «инвестирование в инфраструктуру знаний для поддержки исследовательских данных, соответствующих высоким стандартам профессиональной практики». [75]

Однако сотрудничество между различными участниками и заинтересованными сторонами жизненного цикла данных носит частичный характер. Даже внутри академических учреждений сотрудничество остается ограниченным: «большинство исследователей осуществляют [поиск, связанный с данными], не консультируясь с менеджером по данным или библиотекарем». [76]

Глобальное движение за открытые данные частично утратило свою сплоченность и самобытность в 2010-е годы, поскольку дебаты по поводу доступности и лицензирования данных уступили место проблемам, специфичным для предметной области: В ходе работы четко выявляются расходящиеся цели тех, кто сформировал первоначальное движение за открытые данные, и управление возникающей напряженностью может оказаться сложной задачей». [77] Очень общий объем определения открытых данных, целью которого является охват очень широкого набора ранее существовавших культур данных , не учитывает более высокий порог доступности и контекстуализации, необходимый для научных исследований: «открытые данные в том смысле, что они свободны для повторного использования, необходимое, но недостаточное условие для исследовательских целей». [78]

Идеал и реализация: парадокс совместного использования данных

Начиная с 2000-х годов опросы научных сообществ подчеркивают постоянное несоответствие между идеалами совместного использования данных и их реализацией на практике: «Когда современных исследователей спрашивают, готовы ли они поделиться своими данными, большинство отвечает: да, они готовы Сделайте это, когда тех же исследователей спрашивают, публикуют ли они свои данные, они обычно признают, что не делали этого». [79] Культура открытых данных не возникает в вакууме и должна довольствоваться уже существующей культурой научных данных и рядом системных факторов, которые могут препятствовать обмену данными: «В некоторых областях ученым активно не рекомендуется повторно использовать данные. (…) Карьеры делаются. нанося на карту территорию, которая ранее была неизведанной». [80]

В 2011 году 67% из 1329 ученых согласились, что отсутствие обмена данными является «серьезным препятствием на пути прогресса в науке». [81] и тем не менее «только около трети (36%) респондентов согласны с тем, что другие могут легко получить доступ к их данным» [82] В 2016 году опрос исследователей в области науки об окружающей среде обнаружил подавляющую поддержку легкодоступных открытых данных (99% как хотя бы в некоторой степени важных) и институциональных мандатов на открытые данные (88%). [83] Тем не менее, «даже при наличии готовности делиться данными существуют расхождения с общепринятой практикой, например, готовностью тратить время и ресурсы на подготовку и загрузку данных». [83] Исследование 1792 заявлений об обмене данными от BioMed Central, проведенное в 2022 году, показало, что менее 7% авторов (123) фактически предоставили данные по запросам. [84]

Распространенность доступных и доступных данных еще ниже: «Несмотря на несколько десятилетий политики, направленной на открытый доступ к данным, немногочисленные доступные статистические данные отражают низкие темпы публикации или хранения данных». [85] По данным опроса Science , проведенного в 2011 году , только 7,6% исследователей поделились своими данными в репозиториях сообщества, причем предпочтение отдавалось местным веб-сайтам, размещенным в университетах или лабораториях. [86] Следовательно, «многие жаловались на отсутствие общих метаданных и архивов как на главное препятствие для использования и хранения данных». [86]

По словам Боргманна, парадокс обмена данными отчасти обусловлен ограничениями политики открытых данных, которая имеет тенденцию сосредотачиваться на том, чтобы «обязывать или поощрять следователей публиковать свои данные» без удовлетворения «ожидаемого спроса на данные или инфраструктуру, необходимую для поддержки раскрытия и распространения данных». повторное использование" [87]

и барьеры для научных Стимулы данных открытых

В 2022 году Пухоль Приего, Уэрхэм и Ромасанта подчеркнули, что стимулы для обмена научными данными носят в первую очередь коллективный характер и включают воспроизводимость, научную эффективность, научное качество, а также более индивидуальное вознаграждение, такое как личная заслуга. [88] Индивидуальные преимущества включают повышенную прозрачность: открытые наборы данных дают значительное преимущество в цитировании, но только в том случае, если они опубликованы в открытом репозитории. [63]

К важным препятствиям относятся необходимость сначала публиковать информацию, правовые ограничения и опасения по поводу потери признания. [89] Для отдельных исследователей наборы данных могут стать основным активом для обмена на «новые рабочие места или новое сотрудничество». [33] и их публикацию может быть трудно оправдать, если они «не получат взамен что-то ценное». [33]

Недостаток знаний об обмене данными, а не прямой отказ от принципов открытой науки, также в конечном итоге является главным препятствием. Несколько опросов, проведенных в начале 2010-х годов, показали, что исследователи «редко запрашивают данные у других исследователей и (…) их редко просят предоставить их собственные данные». [80] Это создает петлю отрицательной обратной связи, поскольку исследователи прилагают мало усилий для обеспечения обмена данными, что, в свою очередь, препятствует эффективному использованию, тогда как «наибольшая потребность в повторном использовании данных существует в областях с высокой взаимной зависимостью». [80] Реальность повторного использования данных также может быть недооценена, поскольку данные не считаются престижной публикацией данных, а первоначальные источники не цитируются. [90]

Согласно эмпирическому исследованию 531 889 статей, опубликованному PLOS в 2021 году, показано, что мягкие стимулы и поощрения оказывают ограниченное влияние на обмен данными: «политика журналов, которая поощряет, а не требует или предписывает DAS [Заявление о доступности данных], имеет лишь небольшой эффект». [91]

Юридический статус [ править ]

Открытие научных данных подняло множество юридических вопросов, касающихся прав собственности, авторских прав, конфиденциальности и этики. Хотя обычно считается, что исследователи «владеют данными, которые они собирают в ходе своих исследований», эта «точка зрения неверна»: [92] создание набора данных потенциально затрагивает права многочисленных дополнительных субъектов, таких как учреждения (исследовательские агентства, спонсоры, государственные органы), связанные производители данных, персональные данные частных лиц. [92] В результате правовая ситуация с цифровыми данными была описана как «набор прав» в связи с тем, что «правовая категория «собственности» (...) не является подходящей моделью для решения сложных проблем управления данными» [93]

Авторское право [ править ]

До 2010-х годов авторское право было в центре внимания юридической литературы, посвященной открытым научным данным. Законность обмена данными была сразу же выявлена ​​как важнейшая проблема. В отличие от обмена научными публикациями, главным препятствием было не авторское право, а неопределенность: «концепция «данных» [была] новой концепцией, созданной в компьютерную эпоху, тогда как закон об авторском праве появился во времена печатных публикаций». [94] Теоретически положения об авторском праве и правах авторов не применяются к простым собраниям фактов и цифр. На практике понятие данных гораздо более широкое и может включать защищенный контент или творческое оформление контента, не защищенного авторским правом.

Статус данных в международных конвенциях по интеллектуальной собственности неоднозначен. Согласно статье 2 Бернской конвенции «любое произведение в литературной, научной и художественной сфере» охраняется. [95] Тем не менее, исследовательские данные часто не являются оригинальным творением, полностью созданным одним или несколькими авторами, а скорее «сборником фактов, обычно сопоставляемых с использованием автоматических или полуавтоматических инструментов или научного оборудования». [95] Следовательно, не существует универсальной конвенции об авторском праве на данные, и дебаты о «степени применения авторского права» по-прежнему широко распространены, с разными результатами в зависимости от юрисдикции или особенностей набора данных. [95] Такое отсутствие гармонизации логически вытекает из новизны «исследовательских данных» как ключевого понятия научных исследований: «понятие «данные» — это новое понятие, созданное в компьютерную эпоху, тогда как закон об авторском праве возник во времена печатных публикаций. ." [95]

В Соединенных Штатах, Европейском Союзе и ряде других юрисдикций законы об авторском праве признают различие между самими данными (которые могут быть незащищенным «фактом») и компиляцией данных (которая может быть творческой аранжировкой). [95] Этот принцип во многом предшествовал современным политическим дебатам по поводу научных данных, поскольку самые ранние судебные дела, вынесенные в пользу права на компиляцию, относятся к 19 веку.

В Соединенных Штатах права на компиляцию были определены в Законе об авторском праве 1976 года с явным упоминанием наборов данных: «произведение, созданное путем сбора и компоновки ранее существовавших материалов или данных» (пар. 101). [96] В своем решении 1991 года по делу Feist Publications, Inc. против Rural Telephone Service Co. , Верховный суд разъяснил степень и ограничения авторских прав на базы данных, поскольку «сборка» должна быть явно оригинальной, а «необработанные факты», содержащиеся в компиляция все еще незащищена. [96]

Даже в юрисдикции, где применение авторских прав на выходные данные остается нерешенным и частично теоретическим, оно, тем не менее, создало значительную правовую неопределенность. Граница между набором сырых фактов и оригинальной компиляцией четко не очерчена. [97] Хотя научные организации обычно хорошо осведомлены о законах об авторском праве, сложность прав на данные создает беспрецедентные проблемы. [98] После 2010 года национальная и наднациональная юрисдикция частично изменила свою позицию в отношении защиты авторских прав на исследовательские данные. Поскольку обмен информацией поощряется, научные данные также были признаны неформальным общественным благом: «Политики, спонсоры и академические учреждения работают над повышением осведомленности о том, что, хотя публикации и знания, полученные на основе данных исследований, принадлежат авторам, данные исследований должны считаться общественным благом, чтобы можно было реализовать его потенциальную социальную и научную ценность». [12]

Права на базу данных [ править ]

Европейский Союз обеспечивает одну из самых мощных рамок интеллектуальной собственности на данные с двойным уровнем прав: авторские права на оригинальные компиляции (аналогично США) и sui Generis на базы данных. права [97] Критерии оригинальности компиляций были гармонизированы во всех государствах-членах Директивой о базах данных 1996 года и несколькими основными прецедентными законами, рассмотренными Европейским судом, такими как Infopaq International A/S против Danske Dagblades Forening c или Football Dataco Ltd и др. . в Yahoo! ООО "ЮК " В целом было признано, что значительные усилия по созданию набора данных недостаточны для того, чтобы претендовать на права компиляции, поскольку структура должна «оригинально выражать свои творческие способности». [99] Директива о базах данных также ввела оригинальную структуру защиты наборов данных, права sui Generis , которые предоставляются любому набору данных, требующему «существенных инвестиций». [100] Хотя права sui Generis действуют 15 лет, они могут стать постоянными, поскольку их можно продлевать при каждом обновлении набора данных.

Из-за большого охвата по продолжительности и защите права sui Generis изначально не были в значительной степени признаны европейской судебной практикой, которая подняла высокую планку их соблюдения. Этот осторожный подход был отменен в 2010-х годах, когда решение 2013 года Innoweb BV против Wegener ICT Media BV и Wegener Mediaventions укрепило позиции владельцев баз данных и осудило повторное использование незащищенных данных в поисковых системах Интернета. [101] Консолидация и расширение прав на базы данных остаются спорной темой в европейских правилах, поскольку это частично противоречит приверженности Европейского Союза развитию экономики, основанной на данных, и открытой науки. [101] Хотя существует несколько исключений для научного и педагогического использования, они ограничены по объему (нет прав на дальнейшее повторное использование) и не активированы во всех государствах-членах. [101]

Право собственности [ править ]

Проблемы авторского права на наборы научных данных еще больше осложняются неопределенностью относительно права собственности. Исследования в значительной степени представляют собой совместную деятельность, включающую широкий спектр вкладов. Такие инициативы, как CRediT (Таксономия ролей участников), определили 14 различных ролей, из которых 4 явно связаны с управлением данными (формальный анализ, расследование, обработка данных и визуализация). [102]

В Соединенных Штатах право собственности на данные исследования обычно «определяется работодателем исследователя», при этом главный исследователь выступает в роли хранителя данных, а не владельца. [103] До появления открытых данных исследований учреждения США обычно с большей неохотой отказывались от авторских прав на данные, чем на публикации, поскольку они считаются стратегическими активами. [104] В Европейском Союзе не существует в целом согласованной структуры владения данными. [105]

Также поднимался вопрос о дополнительных правах внешних заинтересованных сторон, особенно в контексте медицинских исследований. С 1970-х годов пациенты заявляли о той или иной форме владения данными, полученными в контексте клинических испытаний, особенно в связи с важными разногласиями относительно того, «владеют ли субъекты исследования и пациенты на самом деле своей собственной тканью или ДНК». [104]

Конфиденциальность [ править ]

Многочисленные научные проекты основаны на сборе данных о людях, особенно в медицинских исследованиях и социальных науках. В таких случаях любая политика обмена данными должна быть обязательно сбалансирована с сохранением и защитой персональных данных. [106]

В ряде юрисдикций исследователи и, в частности, ведущие исследователи были обязаны соблюдать конфиденциальность. [106] С конца 20-го века данные здравоохранения стали все более регулироваться либо законом, либо отраслевыми соглашениями. В 2014 году Европейское агентство по лекарственным средствам внесло важные изменения в обмен данными клинических испытаний, чтобы предотвратить разглашение всех личных данных и всей коммерчески значимой информации. Такая эволюция европейского регулирования «вероятно, повлияет на глобальную практику обмена данными клинических испытаний в качестве открытых данных». [107]

Планы и практика управления исследованиями должны быть открытыми, прозрачными и конфиденциальными по своей сути.

Бесплатные лицензии [ править ]

Открытые лицензии были предпочтительной правовой основой для устранения ограничений и двусмысленностей в юридическом определении научных данных. В 2003 году Берлинская декларация призвала к всеобщему отказу от прав на повторное использование научных материалов, которые явно включали «необработанные данные и метаданные». [108]

В отличие от разработки открытых лицензий на публикации, которая происходила в короткие сроки, создание лицензий на открытые научные данные оказалось сложным процессом. Конкретные права, такие как права на базу данных sui Generis в Европейском Союзе, или конкретные правовые принципы, такие как различие между простыми фактами и оригинальной компиляцией, изначально не предполагались. До 2010-х годов свободные лицензии могли парадоксальным образом добавлять больше ограничений на повторное использование наборов данных, особенно в отношении указания авторства (что не требуется для объектов, не защищенных авторским правом, таких как необработанные факты ): «в таких случаях, когда к исследовательским данным не закреплены никакие права , то нет оснований для лицензирования данных" [109]

Чтобы обойти эту проблему, несколько учреждений, таких как Центр обработки данных Гарвардского технологического института, начали публиковать данные в открытом доступе . [110] Такой подход гарантирует, что никакие права не применяются к объектам, не защищенным авторским правом. Тем не менее, общественное достояние и некоторые связанные с ним инструменты, такие как Знак общественного достояния, не являются должным образом определенным юридическим договором и значительно различаются от одной юрисдикции к другой. [110] (или CC0) , впервые представленная в 2009 году, Лицензия Creative Commons Zero сразу же стала рассматриваться для лицензирования данных. [111] С тех пор он стал «рекомендуемым инструментом для публикации данных исследований в открытом доступе». [112] В соответствии с принципами Берлинской декларации это не лицензия, а отказ, поскольку производитель данных «открыто, полностью, навсегда, безотзывно и безоговорочно отказывается, отказывается и отказывается от всех авторских и смежных прав Утверждающего».

Альтернативные подходы включали разработку новой свободной лицензии, чтобы распутать систему атрибуции, специфичную для прав на базу данных. В 2009 году Фонд открытых знаний опубликовал лицензию открытой базы данных , которая была принята крупными онлайн-проектами, такими как OpenStreetMap . С 2015 года все различные лицензии Creative Commons были обновлены, чтобы стать полностью эффективными для наборов данных, поскольку права на базу данных были явно предусмотрены в версии 4.0. [109]

данными открытыми Управление научными

Управление данными в последнее время стало основным направлением политических и исследовательских дебатов по открытым научным данным. Влиятельные принципы FAIR добровольно сосредоточены на ключевых особенностях «хорошего управления данными» в научном контексте. [44] В контексте исследований управление данными часто связано с жизненными циклами данных . Различные модели жизненных циклов на разных стадиях были теоретизированы учреждениями, инфраструктурами и научными сообществами, хотя «такие жизненные циклы представляют собой упрощение реальной жизни, которая на практике гораздо менее линейна и более итеративна». [113]

Интеграция в рабочий процесс исследования [ править ]

В отличие от широких призывов к обмену данными, включенных в первоначальную политику в пользу открытых научных данных, сложность, основные затраты и требования управления научными данными все чаще признаются: «Обмен данными трудно осуществить, и его трудно оправдать отдачей. по инвестициям». [114] Открытые данные — это не просто дополнительная задача, их следует учитывать на протяжении всего исследовательского процесса, поскольку они «требуют изменений в методах и практиках исследования». [114]

Открытие данных исследований создает новое соотношение затрат и выгод. Публичный обмен данными создает новую среду общения, которая во многом контрастирует с частным обменом данными с исследовательскими сотрудниками или партнерами. Сбор, цель и ограничения данных должны быть четко определены, поскольку невозможно полагаться на ранее существовавшие неформальные знания: «документация и представления являются единственными средствами общения между создателем данных и пользователем». [115] Отсутствие надлежащей документации означает, что бремя реконтекстуализации ложится на потенциальных пользователей и может сделать набор данных в конечном итоге бесполезным. [116]

Публикация требует дополнительной проверки в отношении права собственности на данные и потенциальной юридической ответственности в случае потенциального неправомерного использования данных. Этот этап уточнения становится еще более сложным в международных исследовательских проектах, которые могут пересекаться с несколькими юрисдикциями. [117] Обмен данными и применение принципов открытой науки также приносят значительные долгосрочные преимущества, которые могут быть не сразу заметны. Документирование набора данных помогает прояснить цепочку их происхождения и гарантировать, что исходные данные не были существенно изменены или, если это так, что все дальнейшие обработки полностью задокументированы. [118] Публикация по свободной лицензии также позволяет делегировать некоторые задачи, такие как долгосрочное сохранение, внешним субъектам.

К концу 2010-х годов появилась новая специализированная литература по управлению данными для исследований, которая систематизировала существующие практики и принципы регулирования. [119] [120] [121]

Хранение и консервация [ править ]

Доступность закрытых научных данных быстро снижается: в 2014 году ретроспективное исследование наборов биологических данных показало, что «вероятность того, что набор данных будет сообщен как существующий, падала на 17% в год» [122] Следовательно, «доля все еще существовавших наборов данных упала со 100% в 2011 году до 33% в 1991 году». [65] Потеря данных также была отмечена как серьезная проблема в таких крупных журналах, как Nature или Science. [123]

Обзоры исследовательской практики неизменно показывают, что нормы хранения, инфраструктуры и рабочие процессы остаются неудовлетворительными в большинстве дисциплин. Хранение и сохранение научных данных с самого начала были определены как важнейшие проблемы, особенно в отношении данных наблюдений , сохранение которых считается необходимым, поскольку их труднее всего воспроизвести. [35] Опрос 1372 исследователей, с которыми связались через Американский геофизический союз в 2017–2018 годах , показывает, что только «четверть и пятая часть респондентов» сообщают о хороших методах хранения данных. [124] Краткосрочное и неустойчивое хранение по-прежнему широко распространено: 61% респондентов хранят большую часть или все свои данные на персональных компьютерах. [124] Из-за простоты использования в индивидуальном масштабе неустойчивые решения для хранения рассматриваются в большинстве дисциплин положительно: «Это несоответствие между передовой практикой и удовлетворенностью может показывать, что хранение данных для них менее важно, чем сбор и анализ данных». [124]

В эталонной модели Открытой архивной информационной системы , впервые опубликованной в 2012 году, говорится, что научная инфраструктура должна стремиться к долгосрочному сохранению, то есть «достаточно долгому, чтобы учитывать влияние меняющихся технологий, включая поддержку новых носителей и форматов данных, или с меняющееся сообщество пользователей». [125] Следовательно, передовая практика управления данными подразумевает как хранение (для материального сохранения данных), так и, что еще более важно, курирование, «сохранение знаний о данных для облегчения повторного использования». [126]

Обмен данными в общедоступном хранилище способствовал снижению рисков сохранности из-за долгосрочного использования инфраструктур данных и потенциальной избыточности открытых данных. Исследование 50 000 заявлений о доступности данных, опубликованное в PLOS One в 2021 году, показало, что 80% наборов данных можно получить автоматически, а 98% наборов данных с DOI данных можно получить либо автоматически, либо вручную. Более того, доступность старых публикаций существенно не ухудшилась: «URL-адреса и DOI повышают вероятность того, что данные и код, связанные с статьями, будут доступны с течением времени». [127] Значительных преимуществ не было обнаружено, когда открытые данные не были должным образом связаны или задокументированы: «Простое требование о том, чтобы данные распространялись в той или иной форме, может не иметь желаемого эффекта в виде СПРАВЕДЛИВОСТИ научных данных, поскольку исследования неоднократно демонстрировали, что многие наборы данных, которые якобы являются общий доступ на самом деле может быть недоступен». [128]

и управление План

Управление исследовательскими данными может быть предусмотрено в плане управления данными или DMP .

Планы управления данными были приняты в 1966 году для конкретных нужд авиационных и инженерных исследований, которые уже сталкивались со все более сложными проблемами с данными. [129] Эти первые примеры были сосредоточены на существенных проблемах, связанных с доступом, передачей и хранением данных: «До начала 2000-х годов DMP использовались таким образом: в ограниченных областях, для проектов большой технической сложности и для ограниченных исследований в середине исследования. цели сбора и обработки данных» [130]

После 2000 года создание крупной исследовательской инфраструктуры и развитие открытой науки изменили масштабы и цели планов управления данными. Политики, а не ученые, сыграли важную роль в этом развитии: «Первые публикации, в которых содержались общие советы и рекомендации исследователям по созданию DMP, были опубликованы в 2009 году после публикаций JISC и ОЭСР (…) об использовании DMP, мы предполагаем, было навязано исследовательскому сообществу внешними силами». [131]

Эмпирические исследования методов работы с данными в исследованиях «подчеркнули необходимость того, чтобы организации предлагали ученым более формальное обучение и помощь в управлении данными» [132] В международном опросе 1372 ученых, проведенном в 2017-2018 годах, большинство запросов о помощи и формализации были связаны с планом управления данными: «создание планов управления данными (33,3%); обучение лучшим практикам управления данными (31,3%); помощь в создании метаданных». для описания данных или наборов данных (27,6%)» [132] Расширение процессов сбора и анализа данных все больше затрудняет широкий спектр неформальных и некодифицированных методов работы с данными.

Участие внешних акционеров в исследовательских проектах создает значительную потенциальную напряженность в отношении принципов обмена открытыми данными. Вклад коммерческих субъектов может особенно зависеть от той или иной формы эксклюзивности и присвоения окончательных результатов исследований. В 2022 году Пужоль Приего, Уэрхэм и Ромасанта разработали несколько стратегий адаптации для преодоления этих проблем, таких как модульность данных (при этом обмен ограничивается некоторой частью данных) и временная задержка (с годичным эмбарго до окончательного выпуска данных). . [133]

научная Открытая инфраструктура

В рекомендации ЮНЕСКО по открытой науке, одобренной в ноябре 2021 года , инфраструктура открытой науки определяется как «совместная исследовательская инфраструктура, необходимая для поддержки открытой науки и удовлетворения потребностей различных сообществ». [134] Было признано, что открытая научная инфраструктура играет важную роль в реализации и развитии политики обмена данными. [135]

Ведущие формы инфраструктур открытых научных данных включают репозитории данных , платформу анализа данных, индексы, оцифрованную библиотеку или оцифрованные архивы. [136] [137] Инфраструктуры гарантируют, что затраты на публикацию, обслуживание и индексацию наборов данных не будут полностью покрываться отдельными исследователями и учреждениями. Они также являются ключевыми заинтересованными сторонами в определении и принятии стандартов открытых данных, особенно в отношении лицензирования или документации.

К концу 1990-х годов создание общественной научной вычислительной инфраструктуры стало важным вопросом политики: [138] «Отсутствие инфраструктуры для поддержки выпуска и повторного использования было признано в некоторых из самых ранних политических отчетов по обмену данными». [135] Первая волна сетевых научных проектов в 1990-х и начале 2000-х годов выявила критические проблемы устойчивого развития. Поскольку финансирование было выделено на определенный период времени, критически важные базы данных, онлайн-инструменты или издательские платформы вряд ли могли поддерживаться. [28] а менеджеры проектов столкнулись с « долиной смерти » «между грантовым финансированием и текущим оперативным финансированием». [139] После 2010 года консолидация и расширение коммерческой научной инфраструктуры, такое как приобретение открытых репозиториев Digital Commons и SSRN, еще больше повлекло за собой призывы к обеспечению «инфраструктуры, контролируемой сообществом». Elsevie [140] В 2015 году Кэмерон Нейлон, Джеффри Билдер и Дженифер Лин определили влиятельную серию принципов открытой научной инфраструктуры. [141] это было одобрено ведущими инфраструктурами, такими как Crossref, [142] OpenCitations [143] или Информационная Дриада [144] К 2021 году государственные услуги и исследовательская инфраструктура в значительной степени поддержат открытую науку как неотъемлемую часть своей деятельности и идентичности: «открытая наука станет доминирующим дискурсом, к которому относятся новые онлайн-сервисы для исследований». [145] Согласно «Дорожной карте» Европейского стратегического форума по исследовательским инфраструктурам (ESFRI) на 2021 год, основные устаревшие инфраструктуры в Европе используют принципы открытой науки. «Большинство исследовательских инфраструктур, включенных в дорожную карту ESFRI, находятся в авангарде движения открытой науки и вносят важный вклад в цифровую трансформацию, преобразуя весь исследовательский процесс в соответствии с парадигмой открытой науки». [146]

Инфраструктура открытой науки представляет собой более высокий уровень приверженности обмену данными. Они полагаются на значительные и регулярные инвестиции, чтобы обеспечить эффективное обслуживание и документирование данных, а также «повысить ценность данных за счет метаданных, происхождения, классификации, стандартов структур данных и миграции». [147] Кроме того, инфраструктуры должны быть интегрированы с нормами и ожидаемыми видами использования научных сообществ, которым они призваны служить: «Наиболее успешными становятся справочные коллекции, которые привлекают долгосрочное финансирование и могут устанавливать стандарты для своих сообществ». [137] Поддержание открытых стандартов является одной из основных задач, выявленных ведущими европейскими открытыми инфраструктурами, поскольку в некоторых случаях это предполагает выбор среди конкурирующих стандартов, а также обеспечение того, чтобы стандарты правильно обновлялись и были доступны через API или другие конечные точки. [148]

На концептуальное определение открытой научной инфраструктуры во многом повлиял анализ Элинор Остром , посвященный общему достоянию и, более конкретно, общему знанию . По мнению Острома, Кэмерон Нейлон недооценивает, что открытые инфраструктуры характеризуются не только управлением пулом общих ресурсов, но также разработкой общего управления и норм. [149] Распространение открытых научных данных также поднимает серьезные проблемы управления. Что касается определения права собственности на данные, принятия свободной лицензии и соблюдения правил в отношении конфиденциальности, «необходимы постоянные переговоры» с участием широкого круга заинтересованных сторон. [150]

Помимо интеграции в конкретные научные сообщества, инфраструктура открытой науки имеет прочные связи с движением за открытый исходный код и открытыми данными. 82% европейских инфраструктур, опрошенных SPARC, заявляют, что частично создали программное обеспечение с открытым исходным кодом, а 53% имеют всю свою технологическую инфраструктуру с открытым исходным кодом. [151] Инфраструктуры открытой науки предпочтительно интегрируют стандарты других инфраструктур открытой науки. Среди европейских инфраструктур: «Наиболее часто упоминаемыми системами – и, следовательно, важной инфраструктурой для многих – являются ORCID , Crossref , DOAJ , BASE , OpenAIRE , Altmetric и Datacite , большинство из которых являются некоммерческими». [152] Инфраструктура открытой науки становится тогда частью формирующегося «по-настоящему совместимого достояния открытой науки», которое исходит из предпосылки «ориентированных на исследователей, недорогих, инновационных и совместимых инструментов для исследований, превосходящих нынешнюю, в значительной степени закрытую систему». [153]

См. также [ править ]

Ссылки [ править ]

  1. ^ Шпигельхальтер, Д. Открытые данные и доверие к литературе. Научная кухня. Проверено 7 сентября 2018 г.
  2. Перейти обратно: Перейти обратно: а б Уилкинсон и др. 2016 .
  3. ^ Липтон 2020 , с. 19.
  4. ^ Боргман 2015 , с. 18.
  5. Перейти обратно: Перейти обратно: а б с д Липтон 2020 , с. 59.
  6. Перейти обратно: Перейти обратно: а б Липтон 2020 , с. 61.
  7. ^ СТАТЬЯ 29 — РАСПРОСТРАНЕНИЕ РЕЗУЛЬТАТОВ — ОТКРЫТЫЙ ДОСТУП — ВИДИМОСТЬ ФИНАНСИРОВАНИЯ ЕС. Архивировано 13 сентября 2022 г. на Wayback Machine , проект Типового грантового соглашения H2020.
  8. ^ Национальные академии 2012 , с. 1.
  9. ^ Боргман 2015 , стр. 4–5.
  10. Перейти обратно: Перейти обратно: а б с Пухоль Приего, Wareham & Romasanta 2022 , с. 220.
  11. ^ Эдвардс и др. 2011 , с. 669.
  12. Перейти обратно: Перейти обратно: а б с Пухоль Приего, Wareham & Romasanta 2022 , с. 224.
  13. ^ Пужоль Приего, Wareham & Romasanta 2022 , стр. 225.
  14. ^ Розенберг 2018 , стр. 557–558.
  15. ^ Бакленд 1991
  16. ^ Эдвардс 2010 , с. 84
  17. ^ Эдвардс 2010 , с. 99
  18. ^ Эдвардс 2010 , с. 102
  19. ^ Мачадо, Хорхе. «Открытые данные и открытая наука». В Альбагли, Масиэле, Абдо. «Открытая наука, открытые вопросы», 2015 г. [ мертвая ссылка ]
  20. ^ Шанкар, Эшенфельдер и Дауни, 2016 , с. 63
  21. ^ Комитет по научным достижениям наблюдений Земли из космоса, Национальный исследовательский совет (2008 г.). Наблюдения Земли из космоса: первые 50 лет научных достижений . Пресса национальных академий. п. 6. ISBN  978-0-309-11095-2 . Проверено 24 ноября 2010 г.
  22. ^ Система мировых центров данных (18 сентября 2009 г.). «О системе Мировых Центров Данных» . NOAA, Национальный центр геофизических данных . Проверено 24 ноября 2010 г.
  23. Перейти обратно: Перейти обратно: а б Боргман 2015 , с. 7
  24. ^ Регацци 2015 , с. 128
  25. ^ Борн и Хан 2003 , с. 397.
  26. ^ Кэмпбелл-Келли и Гарсия-Шварц 2013 .
  27. Перейти обратно: Перейти обратно: а б Бернерс-Ли и Фишетти 2008 , с. 17.
  28. Перейти обратно: Перейти обратно: а б Дефаент 2013 .
  29. ^ Тим Бернерс-Ли, « Определители гипертекстовых ссылок », письмо отправлено 6 августа 1991 г. на alt.hypertext.
  30. ^ Хоган 2014 , с. 20
  31. ^ Bygrave & Bing 2009 , с. 30.
  32. ^ Стар и Руледер 1996 , с. 131.
  33. Перейти обратно: Перейти обратно: а б с д Боргман 2015 , с. 217.
  34. ^ Национальный исследовательский совет (1995). О полном и открытом обмене научными данными . Вашингтон, округ Колумбия: Издательство национальных академий. дои : 10.17226/18769 . ISBN  978-0-309-30427-6 .
  35. Перейти обратно: Перейти обратно: а б с Пухоль Приего, Wareham & Romasanta 2022 , с. 223.
  36. ^ Липтон 2020 , с. 16.
  37. ^ Национальный исследовательский совет 1999 , с. 16.
  38. ^ Декларация ОЭСР об открытом доступе к данным, финансируемым государством. Архивировано 20 апреля 2010 г. на Wayback Machine.
  39. ^ Липтон 2020 , с. 17.
  40. ^ ОЭСР 2007 , с. 13.
  41. ^ ОЭСР 2007 , с. 4.
  42. ^ Уилкинсон и др. 2016 , с. 8.
  43. Перейти обратно: Перейти обратно: а б Уилкинсон и др. 2016 , с. 3.
  44. Перейти обратно: Перейти обратно: а б с Уилкинсон и др. 2016 , с. 1.
  45. ^ Уилкинсон и др. 2016 , с. 4.
  46. ^ ван Рейзен и др. 2020 .
  47. ^ Экспертная группа Комиссии Horizon 2020 по превращению данных FAIR в реальность (E03464)
  48. ^ Липтон 2020 , с. 66.
  49. The French Open Science Monitor , последнее обновление: 1 декабря 2022 г.
  50. Перейти обратно: Перейти обратно: а б Пухоль Приего, Wareham & Romasanta 2022 , с. 241.
  51. Перейти обратно: Перейти обратно: а б с Боргман 2015 , с. 48.
  52. ^ Федерер и др. 2018 .
  53. ^ Колавизза и др. 2020 .
  54. Перейти обратно: Перейти обратно: а б с Колавизза и др. 2020 , с. 5.
  55. Перейти обратно: Перейти обратно: а б Боргман 2015 , с. 216.
  56. ^ Чаван и Пенев 2011 .
  57. Перейти обратно: Перейти обратно: а б с д Кресты 2014 , с. 63.
  58. ^ Биско 1965 , с. 148.
  59. ^ Додд 1979 , с. 78.
  60. ^ Додд 1979 .
  61. ^ Перемешать 2004 .
  62. ^ Боргман 2015 , с. 47.
  63. Перейти обратно: Перейти обратно: а б Колавицца и др. 2020 , с. 12.
  64. ^ Колавизза и др. 2020 , с. 10.
  65. Перейти обратно: Перейти обратно: а б Вайнс и др. 2014 , с. 96.
  66. ^ Липтон 2020 , с. 65.
  67. Перейти обратно: Перейти обратно: а б Европейская комиссия 2018 , с. 31.
  68. ^ Пужоль Приего, Wareham & Romasanta 2022 , стр. 224-225.
  69. Перейти обратно: Перейти обратно: а б Боргман 2015 , с. 208.
  70. ^ Дэвис и др. 2019 , с. 1.
  71. ^ Боргман 2015 , с. 44.
  72. ^ Лион, Дженг и Маттерн, 2017 , с. 47.
  73. Перейти обратно: Перейти обратно: а б Боргман 2015 , с. 209.
  74. ^ Боргман 2015 , с. 211.
  75. Перейти обратно: Перейти обратно: а б с Боргман 2015 , с. 212.
  76. ^ Тенопир и др. 2020 , с. 12.
  77. ^ Дэвис и др. 2019 , с. 6.
  78. ^ Боргман 2015 , с. 283.
  79. ^ Боргман 2015 , с. 205.
  80. Перейти обратно: Перейти обратно: а б с Боргман 2015 , с. 213.
  81. ^ Тенопир и др. 2011 , с. 7.
  82. ^ Тенопир и др. 2011 , с. 9.
  83. Перейти обратно: Перейти обратно: а б Шмидт, Коммонхольцер и Трелоар, 2016 .
  84. ^ Габелица, Бойчич и Пуляк 2022 .
  85. ^ Боргман 2015 , с. 206.
  86. Перейти обратно: Перейти обратно: а б Наука 2011 .
  87. ^ Боргман 2015 , с. 207.
  88. ^ Пужоль Приего, Wareham & Romasanta 2022 , стр. 226.
  89. ^ Тенопир и др. 2020 , с. 5.
  90. ^ Боргман 2015 , с. 223.
  91. ^ Колавизза и др. 2020 , с. 13.
  92. Перейти обратно: Перейти обратно: а б Липтон 2020 , с. 127.
  93. ^ Кербер 2021 , с. 1.
  94. ^ Липтон 2020 , с. 119
  95. Перейти обратно: Перейти обратно: а б с д и Липтон 2020 , с. 119.
  96. Перейти обратно: Перейти обратно: а б Липтон 2020 , с. 122.
  97. Перейти обратно: Перейти обратно: а б Липтон 2020 , с. 123.
  98. ^ Липтон 2020 , с. 126.
  99. ^ Статья 6, Директива 2006/116/EC.
  100. ^ Липтон 2020 , с. 124.
  101. Перейти обратно: Перейти обратно: а б с Липтон 2020 , с. 125.
  102. ^ Аллен, О'Коннелл и Кирмер, 2019 , с. 73.
  103. ^ Липтон 2020 , с. 129.
  104. Перейти обратно: Перейти обратно: а б Липтон 2020 , с. 130.
  105. ^ Липтон 2020 , с. 131.
  106. Перейти обратно: Перейти обратно: а б Липтон 2020 , с. 138.
  107. ^ Липтон 2020 , с. 139.
  108. ^ Берлинская декларация об открытом доступе к знаниям в области естественных и гуманитарных наук.
  109. Перейти обратно: Перейти обратно: а б Липтон 2020 , с. 133.
  110. Перейти обратно: Перейти обратно: а б Липтон 2020 , с. 134.
  111. ^ Шофилд и др. 2009 .
  112. ^ Липтон 2020 , с. 132.
  113. ^ Кокс и Вербаан 2018 , с. 26-27.
  114. Перейти обратно: Перейти обратно: а б Боргман 2015 , с. 214.
  115. ^ Боргман 2015 , с. 220.
  116. ^ Боргман 2015 , с. 222.
  117. ^ Боргман 2015 , с. 218.
  118. ^ Боргман 2015 , с. 221.
  119. ^ Брайни 2015 .
  120. ^ Кокс и Вербаан 2018 .
  121. ^ Тибор 2021 .
  122. ^ Вайнс и др. 2014 .
  123. ^ Тедерсоо и др. 2021 .
  124. Перейти обратно: Перейти обратно: а б с Тенопир и др. 2020 , с. 11.
  125. ^ CCSDS 2012 , с. 1.
  126. ^ Липтон 2020 , с. 73.
  127. ^ Федерер 2022 , с. 9.
  128. ^ Федерер 2022 , с. 11.
  129. ^ Смейл и др. 2020 , с. 3.
  130. ^ Смейл и др. 2020 , с. 4.
  131. ^ Смейл и др. 2020 , с. 9.
  132. Перейти обратно: Перейти обратно: а б Тенопир и др. 2020 , с. 13.
  133. ^ Пужоль Приего, Wareham & Romasanta 2022 , стр. 239-240.
  134. ^ Рекомендация ЮНЕСКО об открытой науке, 2021 г., CL/4363.
  135. Перейти обратно: Перейти обратно: а б Боргман 2015 , с. 224.
  136. ^ Фикарра и др. 2020 , с. 16.
  137. Перейти обратно: Перейти обратно: а б Боргман 2015 , с. 225.
  138. ^ Боргман 2007 , с. 21.
  139. ^ Скиннер 2019 , с. 6.
  140. ^ Джозеф 2018 , с. 1.
  141. ^ Нейлон и др. 2015 .
  142. ^ Совет Crossref голосует за принятие Принципов открытой научной инфраструктуры.
  143. ^ Соответствие OpenCitations принципам открытой научной инфраструктуры.
  144. ^ Приверженность Дриады принципам открытой научной инфраструктуры
  145. ^ Фехер и др. 2021 , с. 505
  146. ^ Дорожная карта ESFRI на 2021 год , стр. 159.
  147. ^ Боргман 2015 , с. 226.
  148. ^ Фикарра и др. 2020 , с. 23.
  149. ^ Нейлон 2017 , с. 7.
  150. ^ Боргман 2015 , с. 229.
  151. ^ Фикарра и др. 2020 , с. 29.
  152. ^ Фикарра и др. 2020 , с. 50
  153. ^ Росс-Хеллауэр и др. 2020 , с. 13.

Библиография [ править ]

Отчеты [ править ]

Журнальные статьи [ править ]

Книги и диссертации [ править ]

  • Борн, Чарльз П.; Хан, Труди Беллардо (1 августа 2003 г.). История информационных онлайн-сервисов, 1963–1976 гг . МТИ Пресс. ISBN  978-0-262-26175-3 .
  • Боргман, Кристин Л. (12 октября 2007 г.). Стипендия в эпоху цифровых технологий: информация, инфраструктура и Интернет . Кембридж, Массачусетс, США: MIT Press. ISBN  978-0-262-02619-2 .
  • Бернерс-Ли, Тим; Фишетти, Марк (2008). Плетение Интернета: оригинальный замысел и окончательная судьба Всемирной паутины ее изобретателя . Отпечатки лап. ISBN  978-1-4395-0036-1 .
  • Бигрейв, Ли А.; Бинг, Джон (22 января 2009 г.). Управление Интернетом: инфраструктура и институты . ОУП Оксфорд. ISBN  978-0-19-956113-1 .
  • Эдвардс, Пол Н. (12 марта 2010 г.). Огромная машина: компьютерные модели, климатические данные и политика глобального потепления . Инфраструктуры. Кембридж, Массачусетс, США: MIT Press. ISBN  978-0-262-01392-5 .
  • Национальный исследовательский совет (2012 г.). Улир, Пол Э. (ред.). Для атрибуции: Разработка практик и стандартов атрибуции и цитирования данных: Резюме международного семинара . Вашингтон, округ Колумбия: Издательство национальных академий. ISBN  978-0-309-26728-1 . Проверено 22 марта 2022 г.
  • Гайяр, Реми (2014). От открытых данных к открытым исследовательским данным: какая политика(ы) в отношении исследовательских данных? (Диссертация). ЭНССИБ.
  • Хоган, А. (9 апреля 2014 г.). Методы рассуждения в сети данных . ИОС Пресс. ISBN  978-1-61499-383-4 .
  • Боргман, Кристин Л. (2 января 2015 г.). Большие данные, мало данных, отсутствие данных: стипендия в сетевом мире . Кембридж, Массачусетс, США: MIT Press. ISBN  978-0-262-02856-1 .
  • Брайни, Кристин (01 сентября 2015 г.). Управление данными для исследователей: систематизируйте, храните и делитесь своими данными для достижения успеха в исследованиях . Pelagic Publishing Ltd. ISBN  978-1-78427-013-1 .
  • Регацци, Джон Дж. (12 февраля 2015 г.). Научные коммуникации: история от контента как короля к контенту как создателю королей . Роуман и Литтлфилд. ISBN  978-0-8108-9088-6 .
  • Кокс, Эндрю; Вербаан, Эдди (11 мая 2018 г.). Изучение управления исследовательскими данными . Издательство Фасет. ISBN  978-1-78330-280-2 .
  • Дэвис, Тим; Уокер, Стивен Б.; Рубинштейн, М.; Перини, Ф. (2019). Дэвис, Тим; Уокер, Стивен Б.; Рубинштейн, Мор; Перини, Фернандо (ред.). Состояние открытых данных: история и горизонты . Африканские умы. дои : 10.5281/zenodo.2668475 . S2CID   202295750 . Проверено 11 сентября 2022 г.
  • Липтон, Вера (22 января 2020 г.). Открытые научные данные: почему так важен выбор и повторное использование ПРАВИЛЬНЫХ ДАННЫХ . Совет директоров – Книги по запросу. ISBN  978-1-83880-984-3 . [ ненадежный источник? ]
  • Тибор, Колтай (31 октября 2021 г.). Управление исследовательскими данными и грамотность в области данных . Издательство Чандос. ISBN  978-0-323-86002-4 .

Другие источники [ править ]

Внешние ссылки [ править ]