Связанные данные
В вычислениях семантических связанные данные — это структурированные данные, которые взаимосвязаны с другими данными, поэтому они становятся более полезными посредством запросов . Он основан на стандартных веб- технологиях, таких как HTTP , RDF и URI , но вместо того, чтобы использовать их для обслуживания веб-страниц только для читателей-людей, он расширяет их возможности для обмена информацией таким образом, чтобы ее могли автоматически читать компьютеры. Частью концепции связанных данных является превращение Интернета в глобальную базу данных . [ 1 ]
Тим Бернерс-Ли , директор Консорциума Всемирной паутины (W3C), ввёл этот термин в заметку о дизайне проекта Semantic Web в 2006 году . [ 2 ]
Связанные данные также могут быть открытыми данными , и в этом случае их обычно называют связанными открытыми данными. [ 3 ]
Принципы
[ редактировать ]В своей заметке «Связанные данные» 2006 года Тим Бернерс-Ли изложил четыре принципа связанных данных, перефразировав их следующим образом: [ 2 ]
- Единые идентификаторы ресурсов (URI) следует использовать для именования и идентификации отдельных объектов.
- HTTP URI должны использоваться для того, чтобы эти вещи можно было искать, интерпретировать и впоследствии «разыменовывать».
- Полезная информация о том, что идентифицирует имя, должна предоставляться через открытые стандарты, такие как RDF , SPARQL и т. д.
- При публикации данных в Интернете следует ссылаться на другие объекты, используя их имена на основе HTTP URI.
Тим Бернерс-Ли позже подтвердил эти принципы на конференции TED 2009 года , снова перефразировав их следующим образом: [ 4 ]
- Все концептуальные вещи должны иметь имя, начинающееся с HTTP .
- Поиск по имени HTTP должен возвращать полезные данные о рассматриваемом объекте в стандартном формате.
- Все остальное, с чем эта же вещь связана через свои данные, также должно иметь имя, начинающееся с HTTP.
Компоненты
[ редактировать ]Таким образом, мы можем определить следующие компоненты как важные для глобальной системы связанных данных, как это предполагалось, и для любого фактического подмножества связанных данных в ней:
- URI
- HTTP
- Структурированные данные с использованием контролируемого словаря терминов Resource Description Framework, и определений наборов данных, выраженных в форматах сериализации таких как RDFa , RDF/XML , N3 , Turtle или JSON-LD.
- Связанная платформа данных
Связанные открытые данные
[ редактировать ]Связанные открытые данные — это связанные данные, которые являются открытыми данными . [ 5 ] [ 6 ] [ 7 ] Тим Бернерс-Ли дает самое четкое определение связанных открытых данных в отличие от связанных данных.
Связанные открытые данные (LOD) — это связанные данные, которые выпускаются по открытой лицензии, что не препятствует их бесплатному повторному использованию.
Большие связанные наборы открытых данных включают DBpedia , Wikibase , Wikidata и Open ICEcat .
5-звездочные связанные открытые данные
[ редактировать ]В 2010 году Тим Бернерс-Ли предложил пятизвездочную схему оценки качества открытых данных в сети, по которой наивысший рейтинг имеет «Связанные открытые данные»: [ 10 ]
- 1 звезда: данные в каком-то формате находятся в открытом доступе.
- 2 звезды: данные доступны в структурированном формате, например в формате файла Microsoft Excel (.xls).
- 3 звезды: данные доступны в непатентованном структурированном формате, например значениях, разделенных запятыми (.csv).
- 4 звезды: данные соответствуют стандартам W3C , например, с использованием RDF и URI .
- 5 звезд: все остальные, а также ссылки на другие источники связанных открытых данных.
История
[ редактировать ]Термин «связанные открытые данные» используется по крайней мере с февраля 2007 года, когда в списке рассылки «Связывание открытых данных» [ 11 ] был создан. [ 12 ] Список рассылки изначально был организован проектом . SIMILE [ 13 ] в Массачусетском технологическом институте .
Связывание проекта сообщества открытых данных
[ редактировать ]Целью проекта сообщества Linking Open Data группы W3C Semantic Web Education and Outreach является расширение Интернета за счет общего доступа к данным путем публикации различных открытых наборов данных в формате RDF в Интернете и установки RDF связей между элементами данных из разных источников данных. В октябре 2007 года наборы данных состояли из более чем двух миллиардов троек RDF , которые были связаны между собой более чем двумя миллионами ссылок RDF. [ 15 ] [ 16 ] К сентябрю 2011 года это число выросло до 31 миллиарда троек RDF, связанных между собой примерно 504 миллионами ссылок RDF. Подробная статистическая разбивка была опубликована в 2014 году. [ 17 ]
Проекты Европейского Союза
[ редактировать ]Существует ряд проектов Европейского Союза, в которых используются связанные данные. К ним относятся проект связанной круглосуточной работы с открытыми данными (LATC), [ 18 ] проект AKN4EU для машиночитаемых законодательных данных, [ 19 ] проект PlanetData, [ 20 ] проект DaPaaS (данные и платформа как услуга), [ 21 ] и проект Linked Open Data 2 (LOD2). [ 22 ] [ 23 ] [ 24 ] Объединение данных является одной из основных целей Портала открытых данных ЕС , который предоставляет каждому возможность повторно использовать и связывать тысячи наборов данных.
Онтологии
[ редактировать ]Онтологии — это формальные описания структур данных. Некоторые из наиболее известных онтологий:
- FOAF – онтология, описывающая людей, их свойства и отношения.
- UMBEL — облегченная справочная структура из 20 000 классов предметных концепций и их отношений, полученных из OpenCyc , которые могут выступать в качестве классов привязки к внешним данным; также имеет ссылки на 1,5 миллиона именованных объектов из DBpedia и YAGO.
Наборы данных
[ редактировать ]- DBpedia – набор данных, содержащий извлеченные данные из Википедии; он содержит около 3,4 миллиона понятий, описанных 1 миллиардом троек , включая рефераты на 11 разных языках.
- GeoNames – предоставляет RDF-описания более чем 7 500 000 географических объектов по всему миру.
- Викиданные — совместно созданный связанный набор данных, который действует как центральное хранилище для структурированных данных Фонда Викимедиа. родственных проектов
- Глобальная база данных идентификаторов исследований ( GRID ) — международная база данных 89 506 учреждений, занимающихся академическими исследованиями, с 14 401 взаимосвязью. GRID моделирует два типа отношений: отношения родитель-потомок, которые определяют подчиненную ассоциацию, и связанные отношения, которые описывают другие ассоциации. [ 25 ] [ 26 ]
- ЗнатьГдеГрафик [ 27 ] – интегрированный граф знаний с 12 миллиардами троек и 30 уровнями данных на стыке людей и окружающей их среды с использованием технологий семантической сети и связанных данных. [ 28 ]
- Откройте ICEcat — многоязычный продуктов открытый каталог, содержащий технические описания , соответствующие цифровые активы использования и статистику .
Экземпляр набора данных и отношения классов
[ редактировать ]Доступны кликабельные диаграммы, показывающие отдельные наборы данных и их взаимосвязи в облаке LOD, созданном DBpedia (как показано на рисунках справа). [ 29 ] [ 30 ]
См. также
[ редактировать ]- American Art Collaborative - консорциум художественных музеев США, стремящийся создать критическую массу связанных открытых данных об американском искусстве.
- Авторитетный контроль – о контролируемых рубриках в библиотечных каталогах
- Анализ цитирования – для цитирования между научными статьями.
- Гиперданные
- Сетевая модель – более старый тип системы управления базами данных.
- Открытые данные
- Schema.org
- VoID – словарь взаимосвязанных наборов данных
- Язык веб-онтологии
- Список наборов данных для исследований в области машинного обучения
Ссылки
[ редактировать ]- ^ «Связанные данные в формате JSON» . Связанные данные в формате JSON . Проверено 4 декабря 2020 г.
- ^ Перейти обратно: а б с Тим Бернерс-Ли (27 июля 2006 г.). «Связанные данные» . Проблемы дизайна . W3C . Проверено 18 декабря 2010 г.
- ^ «Что такое связанные данные и связанные открытые данные?» . Онтотекст . Проверено 8 мая 2019 г.
- ^ «Тим Бернерс-Ли в следующей сети» . Архивировано из оригинала 10 апреля 2011 г. Проверено 15 марта 2009 г.
- ^ «Часто задаваемые вопросы (FAQ) — Связанные данные — Подключение распределенных данных через Интернет» . Архивировано из оригинала 18 ноября 2015 г. Проверено 29 декабря 2014 г.
- ^ «COAR »7 вещей, которые вам следует знать о… связанных данных» . Архивировано из оригинала 18 ноября 2015 г. Проверено 29 декабря 2015 г.
- ^ «Основы связанных данных для технических специалистов» . Архивировано из оригинала 5 мая 2021 г. Проверено 29 декабря 2015 г.
- ^ «5 звезд открытых данных» .
- ^ «5-звездочные открытые данные» . 5stardata.info . Проверено 7 марта 2021 г.
- ^ «Что такое 5-звездочные связанные данные? | Группа сообщества Webize Everything» . www.w3.org . Проверено 7 марта 2021 г.
- ^ « [электронная почта защищена] Почтовые архивы» .
- ^ «SweoIG/TaskForces/CommunityProjects/LinkingOpenData/NewsArchive» .
- ^ «Проект SIMILE — Списки рассылки» .
- ^ Связывание диаграммы облака открытых данных 2014 года, авторы Макс Шмахтенберг, Кристиан Бизер, Аня Йенч и Ричард Циганиак. http://lod-cloud.net/
- ^ «SweoIG/TaskForces/CommunityProjects/LinkingOpenData — W3C Wiki» . esw.w3.org . Проверено 22 марта 2018 г.
- ^ Фензель, Дитер; Факка, Федерико Микеле; Симперл, Елена; Иоан, Том (2011). Семантические веб-службы . Спрингер. п. 99. ИСБН 978-3642191923 .
- ^ Макс. «Состояние LOD-облака» . linkeddatacatalog.dws.informatik.uni-mannheim.de . Проверено 22 марта 2018 г.
- ^ «Связанные открытые данные круглосуточно (LATC)» . latc-project.eu . Архивировано из оригинала 19 сентября 2018 года . Проверено 22 марта 2018 г.
- ^ Флэтт, Амели; Лангнер, Арне; Лепс, Олоф (2022), «Разработка профилей приложений AKN на основе моделей: предыстория и требования» , Разработка профилей приложений Akoma Ntoso на основе моделей , Cham: Springer International Publishing, стр. 5–12, doi : 10.1007/978- 3-031-14132-4_2 , ISBN 978-3-031-14131-7 , получено 7 января 2023 г.
- ^ «Добро пожаловать в PlanetData! — PlanetData» . Planet-data.eu . Архивировано из оригинала 21 апреля 2021 года . Проверено 22 марта 2018 г.
- ^ «ДаПааС» . project.dapaas.eu . Архивировано из оригинала 18 декабря 2020 года . Проверено 22 марта 2018 г.
- ^ Связывание открытых данных 2 (LOD2)
- ^ «Проекты ИКТ CORDIS FP7 – LOD2» . Европейская комиссия. 20 апреля 2010 г.
- ^ «Информационный бюллетень о проекте LOD2 – Краткое описание проекта» (PDF) . 01 сентября 2010 г. Архивировано из оригинала (PDF) 20 июля 2011 г. Проверено 18 декабря 2010 г.
- ^ «ГРИД-статистика» . Grid.ac/stats . Проверено 26 октября 2018 г.
- ^ «ГРИД-политика» . сетка.ac . Проверено 26 октября 2018 г.
- ^ «ЗнайГдеГраф» . Knowwheregraph.org . Проверено 16 мая 2022 г.
- ^ Кшиштоф Янович; Паскаль Хитцлер ; Венвен Ли; Дин Ребергер; Марк Шильдхауэр; Руй Чжу; Коган Симидзу; Колби К. Фишер; Лин Цай; Генгчен Май; Джозеф Залевски; Лу Чжоу; Ширли Стивен; Сейла Гонсалес Эстреча; Брайс Д. Мекам; Анна Лопес-Карр; Эндрю Шредер; Дэйв Смит; Дон Дж. Райт; Сыже Ван; Юаньюань Тянь; Цзилун Лю; Мэйлин Ши; Энтони Д'Онофрио; Жинин Г; Китти Карриер (2022). «Знать, знать где, знать, где граф: плотно связанный междоменный граф знаний и стек сервисов географического обогащения для приложений в области экологической разведки» . Журнал ИИ . 43 (1): 30–39. дои : 10.1609/aimag.v43i1.19120 . hdl : 1983/be176aba-9dec-456c-9615-01a0e8556b7b .
- ^ «Отношения экземпляров между наборами данных» . fu-berlin.de . Архивировано из оригинала 17 октября 2012 г. Проверено 22 марта 2018 г.
- ^ «Классовые отношения между наборами данных» . Архивировано из оригинала 28 августа 2011 года . Проверено 22 марта 2018 г.
Дальнейшее чтение
[ редактировать ]- Ахмет Сойлу, Феликс Мёдришер и Патрик Де Каусмекер. 2012. «Повсеместная веб-навигация посредством сбора встроенных семантических данных: мобильный сценарий». Архивировано 19 сентября 2018 г. в Wayback Machine Integrated Computer Aided Engineering 19 (1): 93–109.
- Связанные данные: превращение Интернета в глобальное пространство данных (2011), Том Хит и Кристиан Бизер, Обобщающие лекции по семантической сети: теория и технологии, Morgan & Claypool
- Как публиковать связанные данные в Интернете. Архивировано 19 апреля 2021 г. в Wayback Machine , Крис Бизер, Ричард Сиганиак и Том Хит, Учебное пособие по связанным данным в Свободном университете Берлина, Германия, 27 июля 2007 г.
- Интернету исполняется 20 лет: связанные данные дают людям власть , часть 1 из 4, Марк Фишетти, Scientific American , 2010 г., 23 октября
- Связанные данные — это просто больше данных — Пратик Джайн, Паскаль Хитцлер , Питер З. Йе, Кунал Верма и Амит П. Шет. В: Дэн Брикли, Виней К. Чаудри, Гарри Хэлпин и Дебора МакГиннесс: Связанные данные встречаются с искусственным интеллектом . Технический отчет SS-10-07, AAAI Press, Менло-Парк, Калифорния, 2010 г., стр. 82–86.
- Выход за рамки того же, что и с PLATO: обнаружение партономии для связанных данных – Пратик Джайн, Паскаль Хитцлер , Кунал Верма, Питер З. Йе, Амит Шет. В: Материалы 23-й конференции ACM по гипертексту и социальным сетям (HT 2012), Милуоки, Висконсин, США, 25–28 июня 2012 г.
- Фрейтас, Андре, Эдвард Карри, Жоау Габриэль Оливейра и Шон О'Риайн. 2012. «Запрос к разнородным наборам данных в сети связанных данных: проблемы, подходы и тенденции». IEEE Вычисления в Интернете 16(1):24–33.
- Взаимосвязь открытых данных в Интернете – Крис Бизер, Том Хит, Дэнни Эйерс, Ив Раймонд. Плакат In Proceedings, ESWC2007, Инсбрук, Австрия
- Согласование онтологий для связанных открытых данных – Пратик Джайн, Паскаль Хитцлер , Амит Шет, Кунал Верма, Питер З. Йе. В материалах 9-й Международной конференции по семантической сети ISWC 2010, Шанхай, Китай.
- Связанные открытые данные о лекарствах для фармацевтических исследований и разработок - J Cheminform. 2011 г.; 3: 19. Самвальд, Йенч, Бутон, Каллесе, Виллигаген, Хаягош, Маршалл, Прюдоммо, Хассензаде, Пихлер и Стивенс (май 2011 г.)
- Интервью Сёрена Ауэра, руководителя проекта LOD2, о продолжении LOD2 в 2011 году , июнь 2011 г.
- Связанные открытые данные: главное - Флориан Бауэр и Мартин Кальтенбёк (январь 2012 г.)
- Взмах крыла бабочки - semanticweb.com Ричард Уоллис (февраль 2012 г.)