Datacommons.org
Datacommons.org — это открытый граф знаний, размещенный в Google , который обеспечивает единое представление нескольких общедоступных наборов данных, объединяя экономические, научные и другие открытые наборы данных в интегрированный граф данных. [1] Сайт Datacommons.org был запущен в мае 2018 года с первоначальным набором данных, состоящим из данных проверки фактов , опубликованных в формате Schema.org «ClaimReview» несколькими фактчекерами из Международной сети фактчекинга . [2] [3] Google сотрудничал с партнерами, включая Службу переписи населения США , Всемирный банк и Бюро статистики труда США, для заполнения хранилища. [4] где также размещены данные из Википедии , Национального управления океанических и атмосферных исследований и Федерального бюро расследований . [5] В 2019 году сервис расширился и теперь включает в себя в стиле RDF, график знаний составленный из ряда в основном статистических открытых наборов данных. В 2019 году сервис был анонсирован для более широкой аудитории. [6] В 2020 году служба улучшила охват наборов данных за пределами США, а также расширила охват биоинформатики и коронавируса . [7]
Особенности [ править ]
Datacommons.org уделяет больше внимания статистическим данным, чем обычно для инициатив по связанным данным и графам знаний . Он включает в себя географические, демографические данные, данные о погоде и недвижимости, а также другие категории. [1] описание штатов, округов Конгресса и городов в Соединенных Штатах, а также биологических образцов, электростанций и элементов человеческого генома в рамках проекта Энциклопедии элементов ДНК (ENCODE) . [5] Он представляет данные в виде семантических троек, каждая из которых может иметь свое собственное происхождение. [1] Он сосредоточен на объектно-ориентированной интеграции статистических наблюдений из различных общедоступных наборов данных. Хотя он поддерживает подмножество языка запросов W3C SPARQL , [8] его API [9] также включает инструменты, такие как интерфейс фрейма данных Pandas , ориентированные на науку о данных, статистику и визуализацию данных.
Datacommons.org является интегративным, то есть вместо того, чтобы предоставлять платформу для размещения различных наборов данных, он пытается консолидировать большую часть информации, предоставляемой наборами данных, в единый граф данных.
Технология [ править ]
Datacommons.org построен на графовой модели данных . Доступ к графику можно получить через интерфейс браузера и несколько API. [1] [5] и расширяется за счет загрузки данных (обычно шаблонов на основе CSV и MCF ). [10] Доступ к графику можно получить с помощью запросов на естественном языке в Поиске Google . [11] Словарь данных, используемый для определения графа datacommons.org, основан на Schema.org . [1] В частности, термины Schema.org StatisticalPopulation. [12] и наблюдение [13] были предложены Schema.org для поддержки вариантов использования, подобных datacommons. [14]
Программное обеспечение из проекта доступно на GitHub под лицензией Apache 2 . [15]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с д и Фензель, Дитер ; Шимшек, Умуткан; Анжеле, Кевин; Хуаман, Элвин; Кярле, Элиас; Панасюк, Александра; Тома, Иоан; Умбрих, Юрген; Валер, Александр (2020), «Введение: что такое граф знаний?» , Графики знаний , Cham: Springer International Publishing, стр. 1–10, doi : 10.1007/978-3-030-37439-6_1 , ISBN 978-3-030-37438-9 , S2CID 213620389 , получено 16 октября 2020 г.
- ^ «Проверка фактов» . datacommons.org . 29 марта 2019 года . Проверено 14 октября 2020 г.
- ^ Цзян, Шан; Баумгартнер, Саймон; Иттихерия, Абэ; Ю, Конг (20 апреля 2020 г.). «Факторинг фактчекинга: извлечение структурированной информации из статей по фактчекингу» . Материалы веб-конференции 2020 . WWW '20. Тайбэй, Тайвань: ACM. стр. 1592–1603. дои : 10.1145/3366423.3380231 . ISBN 978-1-4503-7023-3 . S2CID 215882520 .
- ^ Рагхаван, Прабхакар (15 октября 2020 г.). «Как ИИ делает Google более полезным» . Google . Проверено 16 октября 2020 г.
- ↑ Перейти обратно: Перейти обратно: а б с Шет, Амит; Падхи, Свати; Жирар, Амели; Шет, Амит (01 июля 2019 г.). «Графики знаний и сети знаний: краткая история» . IEEE Интернет-вычисления . 23 (4): 67–75. arXiv : 2003.03623 . дои : 10.1109/MIC.2019.2928449 . ISSN 1089-7801 . S2CID 204820800 .
- ^ Луонг, Дафна; Чоу, Чарина (5 марта 2019 г.). «Выполняем свою часть ответственного обмена открытыми данными» . Ключевое слово . Проверено 14 октября 2020 г.
- ^ Рамасубраманиан, Совмья (21 сентября 2020 г.). «Данные Google из открытых источников для изучения воздействия COVID-19» . Индус . Проверено 14 октября 2020 г.
- ^ «Запрос к диаграмме знаний Data Commons с помощью SPARQL» . datacommons.org . Проверено 14 октября 2020 г.
- ^ «Обзор» . datacommons.org . Проверено 14 октября 2020 г.
- ^ «Вклад в Data Commons — Добавление наборов данных» . datacommons.org . Общие данные.
- ^ Гуха, Раманатан В. (15 октября 2020 г.). «Data Commons, теперь доступно в поиске Google» . docs.datacommons.org . Проверено 16 октября 2020 г.
- ^ «Тип StatisticalPopulation на Schema.org» . Schema.org . Проверено 14 октября 2020 г.
- ^ «Тип наблюдения на Schema.org» . Schema.org . Проверено 14 октября 2020 г.
- ^ «Предложение по представлению совокупных статистических данных» . GitHub — репозиторий Schema.org . 25 июня 2019 г. Проверено 14 октября 2020 г.
- ^ «datacommons.org GitHub» . Гитхаб .