ДБпедия
![]() | |
Разработчик(и) | |
---|---|
Первоначальный выпуск | 10 января 2007 г. |
Стабильная версия | ДБпедия 2016-10
/ 4 июля 2017 г. |
Репозиторий | |
Написано в | |
Тип | |
Лицензия | Стандартная общественная лицензия GNU |
Веб-сайт | дбпедия |
DBpedia (от «DB» — « база данных ») — это проект, целью которого является извлечение структурированного контента из информации, созданной в проекте Википедии . Эта структурированная информация доступна во Всемирной паутине с помощью OpenLink Virtuoso . [1] [2] DBpedia позволяет пользователям семантически запрашивать связи и свойства ресурсов Википедии, включая ссылки на другие связанные наборы данных . [3]
Этот проект был назван «одним из наиболее известных примеров» проекта децентрализованных данных связанных Тима Бернерса-Ли , одного из пионеров Интернета . [4] По состоянию на июнь 2021 года в DBPedia содержалось более 850 миллионов троек.
Предыстория [ править ]
Проект был начат людьми из Свободного университета Берлина и Лейпцигского университета. [5] в сотрудничестве с OpenLink Software и в настоящее время поддерживается людьми из Университета Мангейма и Лейпцига. [6] [7] Первый общедоступный набор данных был опубликован в 2007 году. [5] Данные предоставляются по бесплатным лицензиям ( CC BY-SA ), что позволяет другим повторно использовать набор данных; поэтому он, однако, не использует лицензию на открытые данные для отказа от прав sui Generis на базу данных .
Статьи Википедии состоят в основном из свободного текста, но также включают структурированную информацию, встроенную в статьи, например, таблицы « информационных полей » (выдвижные панели, которые появляются в правом верхнем углу представления по умолчанию многих статей Википедии или в начале мобильные версии ), информацию о категоризации, изображения, географические координаты и ссылки на внешние веб-страницы . Эта структурированная информация извлекается и помещается в единый набор данных, к которому можно запрашивать.
Набор данных [ править ]
В наборе данных DBpedia за 2016–2004 годы описывается 6,0 миллионов объектов, из которых 5,2 миллиона классифицируются в единой онтологии , включая 1,5 миллиона человек, 810 000 мест, 135 000 музыкальных альбомов, 106 000 фильмов, 20 000 видеоигр, 275 000 организаций, 301 000 виды и 5000 болезней. [8] DBpedia использует структуру описания ресурсов (RDF) для представления извлеченной информации и состоит из 9,5 миллиардов троек RDF , из которых 1,3 миллиарда были извлечены из английской версии Википедии и 5,0 миллиардов из других языковых изданий. [8]
Из этого набора данных можно извлечь информацию, распределенную по нескольким страницам. Например, авторство книги можно составить из страниц о произведении или авторе. [ нужны дальнейшие объяснения ]
Одна из проблем при извлечении информации из Википедии заключается в том, что одни и те же концепции могут быть выражены с использованием разных параметров в информационном поле и других шаблонах, таких как |birthplace=
и |placeofbirth=
. Из-за этого запросы о том, где родились люди, должны будут искать оба этих свойства, чтобы получить более полные результаты. В результате был разработан язык отображения DBpedia, который помогает отображать эти свойства в онтологию, одновременно сокращая количество синонимов. Из-за большого разнообразия информационных блоков и свойств, используемых в Википедии, процесс разработки и улучшения этих сопоставлений открыт для участия общественности. [9]
Версия 2014 была выпущена в сентябре 2014 года. [10] Основным изменением по сравнению с предыдущими версиями стал способ извлечения абстрактных текстов. В частности, запуск локального зеркала Википедии и получение из него рефератов сделало извлеченные тексты значительно чище. Кроме того, был представлен новый набор данных, извлеченный из Wikimedia Commons .
По состоянию на июнь 2021 года DBPedia содержит более 850 миллионов троек. [11]
Примеры [ править ]
DBpedia извлекает фактическую информацию со страниц Википедии, позволяя пользователям находить ответы на вопросы, когда информация распространяется по нескольким статьям Википедии. Доступ к данным осуществляется с помощью SQL -подобного языка запросов для RDF , называемого SPARQL .
Например, если кто-то интересовался японской сёдзё -манги серией Tokyo Mew Mew и хотел найти жанры других произведений, написанных ее иллюстратором Миа Икуми. DBpedia объединяет информацию из записей Википедии о Tokyo Mew Mew , Mia Ikumi и о таких работах этого автора, как Super Doll Licca-chan и Koi Cupid . Поскольку DBpedia нормализует информацию в единой базе данных, следующий запрос можно задать без необходимости точно знать, какая запись содержит каждый фрагмент информации, и будет перечислены связанные жанры:
PREFIX dbprop: <http://dbpedia.org/ontology/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE {
db:Tokyo_Mew_Mew dbprop:author ?who .
?WORK dbprop:author ?who .
OPTIONAL { ?WORK dbprop:genre ?genre } .
}
Варианты использования [ править ]
DBpedia имеет широкий спектр объектов, охватывающих различные области человеческого знания . Это делает его естественным узлом для соединения наборов данных, где внешние наборы данных могут ссылаться на его концепции. [12] Набор данных DBpedia связан на уровне RDF с различными другими наборами данных открытых данных в Интернете. Это позволяет приложениям дополнять данные DBpedia данными из этих наборов данных. По состоянию на сентябрь 2013 г. [update]существует более 45 миллионов взаимосвязей между DBpedia и внешними наборами данных, включая: Freebase , OpenCyc , UMBEL , GeoNames , MusicBrainz , Всемирную книгу фактов ЦРУ , DBLP , Project Gutenberg , DBtune Jamendo , Eurostat , UniProt , Bio2RDF и переписи населения США . данные [13] [14] Thomson Reuters Инициатива OpenCalais , проект Linked Open Data The New York Times , API Zemanta [15] и DBpedia Spotlight также содержат ссылки на DBpedia. [16] [17] [18] BBC использует DBpedia для организации своего контента. [19] [20] Фавики использует DBpedia для семантической разметки. [21] Samsung также включает DBpedia в свою «Платформу обмена знаниями» .
Такой богатый источник структурированных междоменных знаний является благодатной почвой для искусственного интеллекта систем . DBpedia использовалась в качестве одного из источников знаний в IBM Watson 's Jeopardy! выигрышная система [22]
Amazon DBpedia предоставляет общедоступный набор данных , который можно интегрировать в приложения Amazon Web Services . [23]
Данные о создателях из DBpedia можно использовать для улучшения наблюдения за продажами произведений искусства. [24]
Краудсорсинговая компания - разработчик программного обеспечения Ushahidi создала прототип своего программного обеспечения, которое использовало DBpedia для выполнения семантических аннотаций к отчетам, созданным гражданами. Прототип включал сервис YODIE (Еще одна система извлечения информации из открытых данных). [25] разработан Университетом Шеффилда , который использует DBpedia для выполнения аннотаций. Целью Ушахиди было повышение скорости и удобства проверки входящих отчетов. [26]
В центре внимания DBpedia [ править ]
DBpedia Spotlight — это инструмент для аннотирования упоминаний ресурсов DBpedia в тексте. Это позволяет связать источники неструктурированной информации с облаком связанных открытых данных через DBpedia. DBpedia Spotlight выполняет извлечение именованных объектов , включая обнаружение объектов и разрешение имен (другими словами, устранение неоднозначности). Его также можно использовать для распознавания именованных объектов и других извлечения информации задач . DBpedia Spotlight стремится быть настраиваемым для многих случаев использования. Вместо того, чтобы сосредотачиваться на нескольких типах сущностей, проект стремится поддерживать аннотации всех 3,5 миллионов сущностей и концепций из более чем 320 классов в DBpedia. Проект стартовал в июне 2010 года в группе веб-систем Свободного университета Берлина.
DBpedia Spotlight общедоступен в виде веб-сервиса для тестирования и Java / Scala API , лицензируемого по лицензии Apache . В дистрибутив DBpedia Spotlight входит плагин jQuery , который позволяет разработчикам аннотировать страницы в любом месте Интернета, добавляя на свою страницу одну строку. [27] Клиенты также доступны на Java или PHP . [28] Инструмент поддерживает различные языки на своей демонстрационной странице. [29] и веб-сервисы. Интернационализация поддерживается для любого языка, на котором есть версия Википедии. [30]
База данных онтологии Archivo [ править ]
С 2020 года проект DBpedia предоставляет регулярно обновляемую базу данных онтологий, доступных через Интернет, написанных на языке онтологий OWL . [31] Archivo также предоставляет четырехзвездочную схему оценки онтологий, которые он очищает, на основе доступности, качества и соответствующих критериев пригодности для использования. Например, при необходимости оценивается соответствие SHACL для графических данных. Онтологии также должны содержать метаданные об их характеристиках и указывать общедоступную лицензию, описывающую условия их использования. [32] [33] По состоянию на июнь 2021 г. [update] База данных Архива содержит 1368 записей.
История [ править ]
DBpedia была инициирована в 2007 году Сёреном Ауером, Кристианом Бизером, Георгием Кобиларовым, Йенсом Леманном , Ричардом Циганьяком и Закари Айвзом. [5]
См. также [ править ]
Ссылки [ править ]
- ^ Бизер, Кристиан; Леманн, Йенс; Кобиларов, Георгий; Ауэр, Сорен; Беккер, Кристиан; Циганиак, Ричард; Хеллманн, Себастьян (сентябрь 2009 г.). «DBpedia — точка кристаллизации Интернета данных» (PDF) . Веб-семантика: наука, сервисы и агенты во Всемирной паутине . 7 (3): 154–165. CiteSeerX 10.1.1.150.4898 . дои : 10.1016/j.websem.2009.07.002 . ISSN 1570-8268 . Архивировано из оригинала (PDF) 10 августа 2017 года . Проверено 11 декабря 2015 г.
- ^ «О ДБпедии» . ДБпедия . Проверено 14 января 2024 г.
- ^ «Komplett verlinkt — Связанные данные» (на немецком языке). 3сб . 19 июня 2009 года. Архивировано из оригинала 6 января 2013 года . Проверено 10 ноября 2009 г.
- ^ «Сэр Тим Бернерс-Ли беседует с Талис о семантической сети» . Талис. 7 февраля 2008 г. Архивировано из оригинала 10 мая 2013 г.
- ^ Jump up to: Перейти обратно: а б с DBpedia: Ядро сети открытых данных , доступно по адресу [1] , [2] или [3].
- ^ «Кредиты» . ДБпедия. Архивировано из оригинала 21 сентября 2014 года . Проверено 9 сентября 2014 г.
- ^ "Дом" . Март 2024.
- ^ Jump up to: Перейти обратно: а б «ДА! Мы сделали это снова ;) – Новый выпуск DBpedia 2016-04» . ДБпедия. 19 октября 2016 г. Проверено 9 января 2019 г.
- ^ «Сопоставления DBpedia» . Maps.dbpedia.org . Проверено 3 апреля 2010 г.
- ^ «Журнал изменений» . ДБпедия. Сентябрь 2014 года . Проверено 9 сентября 2014 г.
- ^ Хольце, Юлия (23 июля 2021 г.). «Объявление: выпуск моментального снимка DBpedia 2021-06» . Ассоциация DBpedia . Проверено 28 июля 2021 г.
- ^ Э. Карри, А. Фрейтас и С. О'Риайн, «Роль управления данными для предприятий, управляемого сообществом» , Архивировано 23 января 2012 г. в Wayback Machine в связывании корпоративных данных, Д. Вуд, изд. Бостон, Массачусетс: Springer US, 2010, стр. 25–47.
- ^ «Статистика связей между наборами данных» , Проект сообщества SWEO: Связывание открытых данных в семантической сети , W3C , получено 24 ноября 2009 г.
- ^ «Статистика наборов данных» , Проект сообщества SWEO: связывание открытых данных в семантической сети , W3C , получено 24 ноября 2009 г.
- ^ «Земанта API» . dev.zemanta.com . Проверено 26 июля 2021 г.
- ^ Сандхаус, Эван; Ларсон, Роб (29 октября 2009 г.). «Первые 5000 тегов выпущены в облако связанных данных» . Блоги «Нью-Йорк Таймс» . Проверено 10 ноября 2009 г.
- ^
«Жизнь в облаке связанных данных» . opencalais.com. Архивировано из оригинала 24 ноября 2009 года . Проверено 10 ноября 2009 г.
У Википедии есть двойник Linked Data под названием DBpedia. DBpedia имеет ту же структурированную информацию, что и Arc.Ask3.Ru, но переведена в машиночитаемый формат.
- ^
«Земанта обсуждает связанные данные с SDK и коммерческим API» . ЗДНет. Архивировано из оригинала 28 февраля 2010 года . Проверено 10 ноября 2009 г.
Земанта полностью поддерживает инициативу Linking Open Data. Это первый API, который возвращает объекты с неоднозначными значениями, связанные с dbPedia, Freebase, MusicBrainz и Semantic Crunchbase.
- ^ «Европейская конференция по семантической сети 2009 г. - Георгий Кобиларов, Том Скотт, Ив Раймонд, Сильвер Оливер, Крис Сайзмор, Майкл Сметерст, Кристиан Бизер и Роберт Ли. СМИ встречаются с семантической сетью - как BBC использует DBpedia и связанные данные для установления связей» . eswc2009.org. Архивировано из оригинала 8 июня 2009 года . Проверено 10 ноября 2009 г.
- ^
«BBC Learning — Открытая лаборатория — Справочник» . Би-би-си. Архивировано из оригинала 25 августа 2009 года . Проверено 10 ноября 2009 г.
Dbpedia — это версия Википедии, основанная на базе данных. Он используется во многих проектах по самым разным причинам. В BBC мы используем его для маркировки контента.
- ^ «Семантическая разметка с помощью Фавики» . readwriteweb.com. Архивировано из оригинала 29 января 2010 года.
- ^ Дэвид Ферруччи, Эрик Браун, Дженнифер Чу-Кэрролл, Джеймс Фан, Дэвид Гондек, Адитья А. Калянпур, Адам Лалли, Дж. Уильям Мердок, Эрик Найберг, Джон Прагер, Нико Шлаефер и Крис Велти «Building Watson: Обзор проект DeepQA». Архивировано 6 ноября 2020 года в Wayback Machine в журнале AI Magazine осенью 2010 года. Ассоциация по развитию искусственного интеллекта (AAAI).
- ^ «Сообщество разработчиков веб-сервисов Amazon: DBpedia» . Developer.amazonwebservices.com. Архивировано из оригинала 13 февраля 2010 года . Проверено 10 ноября 2009 г.
- ^ Филипьяк, Доминик; Филиповская, Агата (2 декабря 2015 г.). «DBpedia на арт-рынке». Семинары по бизнес-информационным системам . Конспекты лекций по обработке деловой информации. Том. 228. стр. 321–331. дои : 10.1007/978-3-319-26762-3_28 . ISBN 978-3-319-26761-6 .
- ^ «GATE.ac.uk — apps/yodie.html» . Gate.ac.uk. Проверено 11 мая 2020 г.
- ^ "ушахиди/товарищи-платформеры" . Гитхаб . 30 июня 2019 года . Проверено 9 марта 2020 г.
- ^ Мендес, Пабло. «Плагин jQuery DBpedia Spotlight» . Плагины jQuery . Архивировано из оригинала 3 апреля 2011 года . Проверено 15 сентября 2011 г.
- ^ ДиЧуччио, Роб (25 сентября 2016 г.). «PHP-клиент для DBpedia Spotlight» . Гитхаб .
- ^ «Демо-версия DBpedia Spotlight» . Проверено 8 сентября 2013 г.
- ^ «Интернационализация DBpedia Spotlight» . Гитхаб . Проверено 8 сентября 2013 г.
- ^ «Архив DBpedia» . Проверено 8 июля 2021 г.
- ^
Фрей, Йоханнес; Стрейтматтер, Денис; Гетц, Фабиан; Хеллманн, Себастьян; Арндт, Натанаэль (27 октября 2020 г.). «DBpedia Archivo: веб-интерфейс для архивирования онтологий с учетом аспектов, ориентированных на потребителя». В Сур-Веттере, Йорк; Сак, Харальд; Кудре-Мору, Филипп; Малешкова, Мария; Пеллегрини, Тассило; Акоста, Марибель (ред.). Семантические системы: сила ИИ и графы знаний . Чам, Швейцария: Springer. дои : 10.1007/978-3-030-59833-4_2 . ISBN 978-3-030-59832-7 . S2CID 219939266 . Загрузите в формате PDF или ePUB.
- ^ Фрей, Джон; Стрейтматтер, Денис; Гетц, Фабиан; Хеллманн, Себастьян; Арндт, Натанаэль (10 сентября 2020 г.). DBpedia Archivo: веб-интерфейс для архивирования онтологий с учетом потребностей потребителя . Лейпциг, Германия: Институт прикладной информатики (InfAI) . Проверено 8 июля 2021 г. Видео на YouTube 00:10:38.
Внешние ссылки [ править ]
