Jump to content

ДБпедия

ДБпедия
Разработчик(и)
Первоначальный выпуск 10 января 2007 г. (17 лет назад) ( 10 января 2007 г. )
Стабильная версия
ДБпедия 2016-10 / 4 июля 2017 г.
Репозиторий
Написано в
Тип
Лицензия Стандартная общественная лицензия GNU
Веб-сайт дбпедия .org

DBpedia (от «DB» — « база данных ») — это проект, целью которого является извлечение структурированного контента из информации, созданной в проекте Википедии . Эта структурированная информация доступна во Всемирной паутине с помощью OpenLink Virtuoso . [1] [2] DBpedia позволяет пользователям семантически запрашивать связи и свойства ресурсов Википедии, включая ссылки на другие связанные наборы данных . [3]

Этот проект был назван «одним из наиболее известных примеров» проекта децентрализованных данных связанных Тима Бернерса-Ли , одного из пионеров Интернета . [4] По состоянию на июнь 2021 года в DBPedia содержалось более 850 миллионов троек.

Предыстория [ править ]

Проект был начат людьми из Свободного университета Берлина и Лейпцигского университета. [5] в сотрудничестве с OpenLink Software и в настоящее время поддерживается людьми из Университета Мангейма и Лейпцига. [6] [7] Первый общедоступный набор данных был опубликован в 2007 году. [5] Данные предоставляются по бесплатным лицензиям ( CC BY-SA ), что позволяет другим повторно использовать набор данных; поэтому он, однако, не использует лицензию на открытые данные для отказа от прав sui Generis на базу данных .

Статьи Википедии состоят в основном из свободного текста, но также включают структурированную информацию, встроенную в статьи, например, таблицы « информационных полей » (выдвижные панели, которые появляются в правом верхнем углу представления по умолчанию многих статей Википедии или в начале мобильные версии ), информацию о категоризации, изображения, географические координаты и ссылки на внешние веб-страницы . Эта структурированная информация извлекается и помещается в единый набор данных, к которому можно запрашивать.

Набор данных [ править ]

В наборе данных DBpedia за 2016–2004 годы описывается 6,0 миллионов объектов, из которых 5,2 миллиона классифицируются в единой онтологии , включая 1,5 миллиона человек, 810 000 мест, 135 000 музыкальных альбомов, 106 000 фильмов, 20 000 видеоигр, 275 000 организаций, 301 000 виды и 5000 болезней. [8] DBpedia использует структуру описания ресурсов (RDF) для представления извлеченной информации и состоит из 9,5 миллиардов троек RDF , из которых 1,3 миллиарда были извлечены из английской версии Википедии и 5,0 миллиардов из других языковых изданий. [8]

Из этого набора данных можно извлечь информацию, распределенную по нескольким страницам. Например, авторство книги можно составить из страниц о произведении или авторе. [ нужны дальнейшие объяснения ]

Одна из проблем при извлечении информации из Википедии заключается в том, что одни и те же концепции могут быть выражены с использованием разных параметров в информационном поле и других шаблонах, таких как |birthplace= и |placeofbirth=. Из-за этого запросы о том, где родились люди, должны будут искать оба этих свойства, чтобы получить более полные результаты. В результате был разработан язык отображения DBpedia, который помогает отображать эти свойства в онтологию, одновременно сокращая количество синонимов. Из-за большого разнообразия информационных блоков и свойств, используемых в Википедии, процесс разработки и улучшения этих сопоставлений открыт для участия общественности. [9]

Версия 2014 была выпущена в сентябре 2014 года. [10] Основным изменением по сравнению с предыдущими версиями стал способ извлечения абстрактных текстов. В частности, запуск локального зеркала Википедии и получение из него рефератов сделало извлеченные тексты значительно чище. Кроме того, был представлен новый набор данных, извлеченный из Wikimedia Commons .

По состоянию на июнь 2021 года DBPedia содержит более 850 миллионов троек. [11]

Примеры [ править ]

DBpedia извлекает фактическую информацию со страниц Википедии, позволяя пользователям находить ответы на вопросы, когда информация распространяется по нескольким статьям Википедии. Доступ к данным осуществляется с помощью SQL -подобного языка запросов для RDF , называемого SPARQL .

Например, если кто-то интересовался японской сёдзё -манги серией Tokyo Mew Mew и хотел найти жанры других произведений, написанных ее иллюстратором Миа Икуми. DBpedia объединяет информацию из записей Википедии о Tokyo Mew Mew , Mia Ikumi и о таких работах этого автора, как Super Doll Licca-chan и Koi Cupid . Поскольку DBpedia нормализует информацию в единой базе данных, следующий запрос можно задать без необходимости точно знать, какая запись содержит каждый фрагмент информации, и будет перечислены связанные жанры:

PREFIX dbprop: <http://dbpedia.org/ontology/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE {
 db:Tokyo_Mew_Mew dbprop:author ?who .
 ?WORK  dbprop:author ?who .
 OPTIONAL { ?WORK dbprop:genre ?genre } .
}

Варианты использования [ править ]

DBpedia имеет широкий спектр объектов, охватывающих различные области человеческого знания . Это делает его естественным узлом для соединения наборов данных, где внешние наборы данных могут ссылаться на его концепции. [12] Набор данных DBpedia связан на уровне RDF с различными другими наборами данных открытых данных в Интернете. Это позволяет приложениям дополнять данные DBpedia данными из этих наборов данных. По состоянию на сентябрь 2013 г. существует более 45 миллионов взаимосвязей между DBpedia и внешними наборами данных, включая: Freebase , OpenCyc , UMBEL , GeoNames , MusicBrainz , Всемирную книгу фактов ЦРУ , DBLP , Project Gutenberg , DBtune Jamendo , Eurostat , UniProt , Bio2RDF и переписи населения США . данные [13] [14] Thomson Reuters Инициатива OpenCalais , проект Linked Open Data The New York Times , API Zemanta [15] и DBpedia Spotlight также содержат ссылки на DBpedia. [16] [17] [18] BBC использует DBpedia для организации своего контента. [19] [20] Фавики использует DBpedia для семантической разметки. [21] Samsung также включает DBpedia в свою «Платформу обмена знаниями» .

Такой богатый источник структурированных междоменных знаний является благодатной почвой для искусственного интеллекта систем . DBpedia использовалась в качестве одного из источников знаний в IBM Watson 's Jeopardy! выигрышная система [22]

Amazon DBpedia предоставляет общедоступный набор данных , который можно интегрировать в приложения Amazon Web Services . [23]

Данные о создателях из DBpedia можно использовать для улучшения наблюдения за продажами произведений искусства. [24]

Краудсорсинговая компания - разработчик программного обеспечения Ushahidi создала прототип своего программного обеспечения, которое использовало DBpedia для выполнения семантических аннотаций к отчетам, созданным гражданами. Прототип включал сервис YODIE (Еще одна система извлечения информации из открытых данных). [25] разработан Университетом Шеффилда , который использует DBpedia для выполнения аннотаций. Целью Ушахиди было повышение скорости и удобства проверки входящих отчетов. [26]

В центре внимания DBpedia [ править ]

DBpedia Spotlight — это инструмент для аннотирования упоминаний ресурсов DBpedia в тексте. Это позволяет связать источники неструктурированной информации с облаком связанных открытых данных через DBpedia. DBpedia Spotlight выполняет извлечение именованных объектов , включая обнаружение объектов и разрешение имен (другими словами, устранение неоднозначности). Его также можно использовать для распознавания именованных объектов и других извлечения информации задач . DBpedia Spotlight стремится быть настраиваемым для многих случаев использования. Вместо того, чтобы сосредотачиваться на нескольких типах сущностей, проект стремится поддерживать аннотации всех 3,5   миллионов сущностей и концепций из более чем 320 классов в DBpedia. Проект стартовал в июне 2010 года в группе веб-систем Свободного университета Берлина.

DBpedia Spotlight общедоступен в виде веб-сервиса для тестирования и Java / Scala API , лицензируемого по лицензии Apache . В дистрибутив DBpedia Spotlight входит плагин jQuery , который позволяет разработчикам аннотировать страницы в любом месте Интернета, добавляя на свою страницу одну строку. [27] Клиенты также доступны на Java или PHP . [28] Инструмент поддерживает различные языки на своей демонстрационной странице. [29] и веб-сервисы. Интернационализация поддерживается для любого языка, на котором есть версия Википедии. [30]

База данных онтологии Archivo [ править ]

С 2020 года проект DBpedia предоставляет регулярно обновляемую базу данных онтологий, доступных через Интернет, написанных на языке онтологий OWL . [31] Archivo также предоставляет четырехзвездочную схему оценки онтологий, которые он очищает, на основе доступности, качества и соответствующих критериев пригодности для использования. Например, при необходимости оценивается соответствие SHACL для графических данных. Онтологии также должны содержать метаданные об их характеристиках и указывать общедоступную лицензию, описывающую условия их использования. [32] [33] По состоянию на июнь 2021 г. База данных Архива содержит 1368 записей.

История [ править ]

DBpedia была инициирована в 2007 году Сёреном Ауером, Кристианом Бизером, Георгием Кобиларовым, Йенсом Леманном , Ричардом Циганьяком и Закари Айвзом. [5]

См. также [ править ]

Ссылки [ править ]

  1. ^ Бизер, Кристиан; Леманн, Йенс; Кобиларов, Георгий; Ауэр, Сорен; Беккер, Кристиан; Циганиак, Ричард; Хеллманн, Себастьян (сентябрь 2009 г.). «DBpedia — точка кристаллизации Интернета данных» (PDF) . Веб-семантика: наука, сервисы и агенты во Всемирной паутине . 7 (3): 154–165. CiteSeerX   10.1.1.150.4898 . дои : 10.1016/j.websem.2009.07.002 . ISSN   1570-8268 . Архивировано из оригинала (PDF) 10 августа 2017 года . Проверено 11 декабря 2015 г.
  2. ^ «О ДБпедии» . ДБпедия . Проверено 14 января 2024 г.
  3. ^ «Komplett verlinkt — Связанные данные» (на немецком языке). 3сб . 19 июня 2009 года. Архивировано из оригинала 6 января 2013 года . Проверено 10 ноября 2009 г.
  4. ^ «Сэр Тим Бернерс-Ли беседует с Талис о семантической сети» . Талис. 7 февраля 2008 г. Архивировано из оригинала 10 мая 2013 г.
  5. ^ Jump up to: Перейти обратно: а б с DBpedia: Ядро сети открытых данных , доступно по адресу [1] , [2] или [3].
  6. ^ «Кредиты» . ДБпедия. Архивировано из оригинала 21 сентября 2014 года . Проверено 9 сентября 2014 г.
  7. ^ "Дом" . Март 2024.
  8. ^ Jump up to: Перейти обратно: а б «ДА! Мы сделали это снова ;) – Новый выпуск DBpedia 2016-04» . ДБпедия. 19 октября 2016 г. Проверено 9 января 2019 г.
  9. ^ «Сопоставления DBpedia» . Maps.dbpedia.org . Проверено 3 апреля 2010 г.
  10. ^ «Журнал изменений» . ДБпедия. Сентябрь 2014 года . Проверено 9 сентября 2014 г.
  11. ^ Хольце, Юлия (23 июля 2021 г.). «Объявление: выпуск моментального снимка DBpedia 2021-06» . Ассоциация DBpedia . Проверено 28 июля 2021 г.
  12. ^ Э. Карри, А. Фрейтас и С. О'Риайн, «Роль управления данными для предприятий, управляемого сообществом» , Архивировано 23 января 2012 г. в Wayback Machine в связывании корпоративных данных, Д. Вуд, изд. Бостон, Массачусетс: Springer US, 2010, стр. 25–47.
  13. ^ «Статистика связей между наборами данных» , Проект сообщества SWEO: Связывание открытых данных в семантической сети , W3C , получено 24 ноября 2009 г.
  14. ^ «Статистика наборов данных» , Проект сообщества SWEO: связывание открытых данных в семантической сети , W3C , получено 24 ноября 2009 г.
  15. ^ «Земанта API» . dev.zemanta.com . Проверено 26 июля 2021 г.
  16. ^ Сандхаус, Эван; Ларсон, Роб (29 октября 2009 г.). «Первые 5000 тегов выпущены в облако связанных данных» . Блоги «Нью-Йорк Таймс» . Проверено 10 ноября 2009 г.
  17. ^ «Жизнь в облаке связанных данных» . opencalais.com. Архивировано из оригинала 24 ноября 2009 года . Проверено 10 ноября 2009 г. У Википедии есть двойник Linked Data под названием DBpedia. DBpedia имеет ту же структурированную информацию, что и Arc.Ask3.Ru, но переведена в машиночитаемый формат.
  18. ^ «Земанта обсуждает связанные данные с SDK и коммерческим API» . ЗДНет. Архивировано из оригинала 28 февраля 2010 года . Проверено 10 ноября 2009 г. Земанта полностью поддерживает инициативу Linking Open Data. Это первый API, который возвращает объекты с неоднозначными значениями, связанные с dbPedia, Freebase, MusicBrainz и Semantic Crunchbase.
  19. ^ «Европейская конференция по семантической сети 2009 г. - Георгий Кобиларов, Том Скотт, Ив Раймонд, Сильвер Оливер, Крис Сайзмор, Майкл Сметерст, Кристиан Бизер и Роберт Ли. СМИ встречаются с семантической сетью - как BBC использует DBpedia и связанные данные для установления связей» . eswc2009.org. Архивировано из оригинала 8 июня 2009 года . Проверено 10 ноября 2009 г.
  20. ^ «BBC Learning — Открытая лаборатория — Справочник» . Би-би-си. Архивировано из оригинала 25 августа 2009 года . Проверено 10 ноября 2009 г. Dbpedia — это версия Википедии, основанная на базе данных. Он используется во многих проектах по самым разным причинам. В BBC мы используем его для маркировки контента.
  21. ^ «Семантическая разметка с помощью Фавики» . readwriteweb.com. Архивировано из оригинала 29 января 2010 года.
  22. ^ Дэвид Ферруччи, Эрик Браун, Дженнифер Чу-Кэрролл, Джеймс Фан, Дэвид Гондек, Адитья А. Калянпур, Адам Лалли, Дж. Уильям Мердок, Эрик Найберг, Джон Прагер, Нико Шлаефер и Крис Велти «Building Watson: Обзор проект DeepQA». Архивировано 6 ноября 2020 года в Wayback Machine в журнале AI Magazine осенью 2010 года. Ассоциация по развитию искусственного интеллекта (AAAI).
  23. ^ «Сообщество разработчиков веб-сервисов Amazon: DBpedia» . Developer.amazonwebservices.com. Архивировано из оригинала 13 февраля 2010 года . Проверено 10 ноября 2009 г.
  24. ^ Филипьяк, Доминик; Филиповская, Агата (2 декабря 2015 г.). «DBpedia на арт-рынке». Семинары по бизнес-информационным системам . Конспекты лекций по обработке деловой информации. Том. 228. стр. 321–331. дои : 10.1007/978-3-319-26762-3_28 . ISBN  978-3-319-26761-6 .
  25. ^ «GATE.ac.uk — apps/yodie.html» . Gate.ac.uk. ​Проверено 11 мая 2020 г.
  26. ^ "ушахиди/товарищи-платформеры" . Гитхаб . 30 июня 2019 года . Проверено 9 марта 2020 г.
  27. ^ Мендес, Пабло. «Плагин jQuery DBpedia Spotlight» . Плагины jQuery . Архивировано из оригинала 3 апреля 2011 года . Проверено 15 сентября 2011 г.
  28. ^ ДиЧуччио, Роб (25 сентября 2016 г.). «PHP-клиент для DBpedia Spotlight» . Гитхаб .
  29. ^ «Демо-версия DBpedia Spotlight» . Проверено 8 сентября 2013 г.
  30. ^ «Интернационализация DBpedia Spotlight» . Гитхаб . Проверено 8 сентября 2013 г.
  31. ^ «Архив DBpedia» . Проверено 8 июля 2021 г.
  32. ^ Фрей, Йоханнес; Стрейтматтер, Денис; Гетц, Фабиан; Хеллманн, Себастьян; Арндт, Натанаэль (27 октября 2020 г.). «DBpedia Archivo: веб-интерфейс для архивирования онтологий с учетом аспектов, ориентированных на потребителя». В Сур-Веттере, Йорк; Сак, Харальд; Кудре-Мору, Филипп; Малешкова, Мария; Пеллегрини, Тассило; Акоста, Марибель (ред.). Семантические системы: сила ИИ и графы знаний . Чам, Швейцария: Springer. дои : 10.1007/978-3-030-59833-4_2 . ISBN  978-3-030-59832-7 . S2CID   219939266 . Загрузите в формате PDF или ePUB. Значок открытого доступа
  33. ^ Фрей, Джон; Стрейтматтер, Денис; Гетц, Фабиан; Хеллманн, Себастьян; Арндт, Натанаэль (10 сентября 2020 г.). DBpedia Archivo: веб-интерфейс для архивирования онтологий с учетом потребностей потребителя . Лейпциг, Германия: Институт прикладной информатики (InfAI) . Проверено 8 июля 2021 г. Видео на YouTube   00:10:38.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b0e3dcc876ae79a213b224cca8f04f2b__1713142860
URL1:https://arc.ask3.ru/arc/aa/b0/2b/b0e3dcc876ae79a213b224cca8f04f2b.html
Заголовок, (Title) документа по адресу, URL1:
DBpedia - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)