График знаний

В представлении знаний и рассуждениях граф знаний — это база знаний , которая использует графовую или модель данных топологию для и работы с представления данных ними . Графы знаний часто используются для хранения взаимосвязанных описаний сущностей или отношений в свободной форме, — объектов, событий, ситуаций или абстрактных концепций — а также для кодирования семантики лежащих в основе этих сущностей. [1] [2]
С момента развития семантической сети графы знаний часто ассоциировались со связанными проектами открытых данных , уделяя особое внимание связям между концепциями и сущностями. [3] [4] Они также исторически связаны и используются такими поисковыми системами , как Google , Bing , Yext и Yahoo ; системы знаний и службы ответов на вопросы, такие как WolframAlpha от Apple , Siri и Amazon Alexa ; и социальные сети, такие как LinkedIn и Facebook .
Недавние разработки в области науки о данных и машинного обучения, особенно в области графовых нейронных сетей и обучения представлению, расширили сферу применения графов знаний за пределы их традиционного использования в поисковых системах и рекомендательных системах. Они все чаще используются в научных исследованиях, находя заметные применения в таких областях, как геномика, протеомика и системная биология. [5]
История [ править ]
Этот термин был придуман еще в 1972 году австрийским лингвистом Эдгаром В. Шнайдером при обсуждении того, как создавать модульные системы обучения для курсов. [6] В конце 1980-х годов Университет Гронингена и Университет Твенте совместно начали проект под названием «График знаний», сосредоточив внимание на разработке семантических сетей с ребрами, ограниченными ограниченным набором отношений, для облегчения работы алгебры на графе . В последующие десятилетия грань между семантическими сетями и графами знаний была размыта.
Некоторые ранние графики знаний были посвящены конкретной теме. В 1985 году был основан Wordnet , фиксирующий семантические отношения между словами и значениями – применение этой идеи к самому языку. В 2005 году Марк Вирк основал Geonames , чтобы фиксировать связи между различными географическими названиями и регионами и связанными с ними объектами. В 1998 году Эндрю Эдмондс из Science in Finance Ltd в Великобритании создал систему под названием ThinkBase, которая предлагала рассуждения на основе нечеткой логики в графическом контексте. [7]
В 2007 году DBpedia и Freebase на основе графов были основаны как хранилища знаний общего назначения . DBpedia сосредоточилась исключительно на данных, извлеченных из Википедии, в то время как Freebase также включала ряд общедоступных наборов данных. Ни один из них не назвал себя «графом знаний», но разработал и описал связанные концепции.
В 2012 году Google представила свою схему знаний . [8] опираясь на DBpedia и Freebase, среди других источников. Позже они включили RDFa , Microdata , JSON-LD контент , извлеченный из проиндексированных веб-страниц, включая Всемирную книгу фактов ЦРУ , Wikidata и Wikipedia . [8] [9] Типы сущностей и отношений, связанные с этим графом знаний, были дополнительно организованы с использованием терминов из сайта Schema.org. [10] словарный запас. Google Knowledge Graph стал успешным дополнением к строковому поиску в Google, а его популярность в Интернете привела к более широкому использованию этого термина. [10]
С тех пор несколько крупных транснациональных корпораций рекламировали использование графов знаний, что еще больше популяризировало этот термин. К ним относятся Facebook, LinkedIn, Airbnb , Microsoft , Amazon , Uber и eBay . [11]
В 2019 году IEEE объединил свои ежегодные международные конференции «Большие знания» и «Интеллектуальный анализ данных и интеллектуальные вычисления» в Международную конференцию по графику знаний. [12]
Определения [ править ]
Не существует единого общепринятого определения графа знаний. Большинство определений рассматривают тему через призму семантической сети и включают следующие функции: [13]
- Гибкие отношения между знаниями в тематических областях : граф знаний (i) определяет абстрактные классы и отношения сущностей в схеме, (ii) в основном описывает объекты реального мира и их взаимосвязи, организованные в графе, (iii) допускает потенциально взаимосвязь произвольных сущности друг с другом, и (iv) охватывает различные тематические области. [14]
- Общая структура : сеть сущностей, их семантические типы, свойства и отношения. [15] [16] Для представления свойств часто используются категориальные или числовые значения.
- Поддержка рассуждений по выведенным онтологиям : граф знаний собирает и интегрирует информацию в онтологию и применяет рассуждение для получения новых знаний. [3]
Однако существует множество представлений графа знаний, для которых некоторые из этих функций неактуальны. Для этих графов знаний это более простое определение может быть более полезным:
- Цифровая структура, представляющая знания в виде концепций и связей между ними (фактов). Граф знаний может включать в себя онтологию, которая позволяет как людям, так и машинам понимать и рассуждать о его содержании. [17] [18]
Реализации [ править ]
В дополнение к приведенным выше примерам этот термин использовался для описания проектов открытых знаний, таких как YAGO и Wikidata; федерации, такие как облако связанных открытых данных; [19] ряд коммерческих поисковых инструментов, включая помощника семантического поиска Spark от Yahoo, Knowledge Graph от Google и Satori от Microsoft; и графики сущностей LinkedIn и Facebook. [3]
Этот термин также используется в контексте программных приложений для ведения заметок , которые позволяют пользователю построить график личных знаний . [20]
Популяризация графов знаний и сопутствующих им методов привела к разработке баз данных графов, таких как Neo4j. [21] и ГрафБД. [22] Эти графовые базы данных позволяют пользователям легко хранить данные в виде сущностей и их взаимосвязей, а также облегчают такие операции, как анализ данных, внедрение узлов и разработку онтологий в базах знаний.
Использование графика знаний для анализа данных [ править ]
Граф знаний формально представляет семантику, описывая сущности и их отношения. [23] Графы знаний могут использовать онтологии в качестве уровня схемы. Делая это, они позволяют делать логические выводы для получения неявных знаний , а не только разрешать запросы, запрашивающие явные знания. [24]
Чтобы обеспечить возможность использования графов знаний в различных задачах машинного обучения, было разработано несколько методов получения скрытых представлений функций сущностей и отношений. Эти встраивания графов знаний позволяют подключать их к методам машинного обучения, для которых требуются векторы признаков, такие как встраивания слов . Это может дополнять другие оценки концептуального сходства. [25] [26]
Модели для создания полезных вложений графа знаний обычно являются областью применения нейронных сетей на графах (GNN). [27] GNN — это архитектуры глубокого обучения, состоящие из ребер и узлов, которые хорошо соответствуют объектам и связям графов знаний. Топология и структуры данных, предоставляемые GNNS, обеспечивают удобную область для полуконтролируемого обучения, в которой сеть обучена прогнозировать значение встраивания узла (при условии группы соседних узлов и их ребер) или ребра (при условии пары узлов ). Эти задачи служат фундаментальными абстракциями для более сложных задач, таких как рассуждение и выравнивание графа знаний. [28]
Выравнивание объектов [ править ]

Поскольку новые графы знаний создаются в различных областях и контекстах, один и тот же объект неизбежно будет представлен в нескольких графах. Однако, поскольку не существует единого стандарта построения или представления графа знаний, определение того, какие объекты из разных графов соответствуют одному и тому же субъекту реального мира, является нетривиальной задачей. Эта задача известна как выравнивание объектов графа знаний и является активной областью исследований. [29]
Стратегии выравнивания сущностей обычно направлены на идентификацию схожих подструктур, семантических отношений, общих атрибутов или комбинаций всех трех между двумя отдельными графами знаний. Методы выравнивания сущностей используют эти структурные сходства между обычно неизоморфными графами, чтобы предсказать, какие узлы соответствуют одному и тому же объекту. [30]
Недавние успехи больших языковых моделей (LLM), в частности их эффективность при создании синтаксически значимых вложений, стимулировали использование LLM в задаче выравнивания сущностей. [31]
По мере роста объема данных, хранящихся в графах знаний, разработка надежных методов выравнивания объектов графа знаний становится все более важным шагом в интеграции и связности данных графа знаний.
См. также [ править ]
- Карта понятий - диаграмма, показывающая взаимосвязи между понятиями.
- Формальная семантика (естественный язык) - Изучение значения естественных языков.
- База данных графиков - база данных, которая использует математические графики для хранения и поиска данных.
- Встраивание графа знаний — уменьшение размерности объектов семантических данных на основе графа [задача машинного обучения]
- Логический график — тип схематического или визуального обозначения логических выражений.
- Семантическая интеграция – взаимосвязь информации из разных источников.
- Семантическая технология – технология, помогающая машинам понимать данные.
- Карта тем – Система организации знаний
- Vadalog — тип системы управления графами знаний
- ЯГО (база данных) - хранилище информации с открытым исходным кодом.
Ссылки [ править ]
- ^ «Что такое граф знаний?» . 2018.
- ^ «Что определяет граф знаний?» . 2020.
- ↑ Перейти обратно: Перейти обратно: а б с Эрлингер, Лиза; Вёсс, Вольфрам (2016). К определению графов знаний (PDF) . СЕМАНТИКА2016. Лейпциг: Совместные материалы плакатов и демонстраций 12-й Международной конференции по семантическим системам - SEMANTiCS2016 и 1-го международного семинара по семантическим изменениям и развивающейся семантике (SuCCESS16). стр. 13–16.
- ^ Сойлу, Ахмет (2020). «Улучшение государственных закупок в Европейском Союзе посредством построения и использования интегрированной диаграммы знаний» . Семантическая сеть – ISWC 2020 . Конспекты лекций по информатике. Том. 12507. стр. 430–446. дои : 10.1007/978-3-030-62466-8_27 . ISBN 978-3-030-62465-1 . S2CID 226229398 .
- ^ Мохамед, Самех К.; Нуну, Аая; Новачек, Вит (2021). «Биологические приложения моделей встраивания графов знаний» . Брифинги по биоинформатике . 22 (2): 1679–1693. дои : 10.1093/нагрудник/bbaa012 . hdl : 1983/919db5c6-6e10-4277-9ff9-f86bbcedcee8 . PMID 32065227 – через Oxford Academic.
- ^ Эдвард В. Шнайдер. 1973. Примененная модуляризация курса: система интерфейса и ее значение для управления последовательностями и анализа данных. В Ассоциации по развитию учебных систем (ADIS), Чикаго, Иллинойс, апрель 1972 г.
- ^ «Торговая марка США № 75589756» .
- ↑ Перейти обратно: Перейти обратно: а б Сингхал, Амит (16 мая 2012 г.). «Представляем график знаний: вещи, а не строки» . Официальный блог Google . Проверено 21 марта 2017 г.
- ^ Шварц, Барри (17 декабря 2014 г.). «Freebase Google закроется после перехода на Викиданные: влияние на график знаний?» . Круглый стол по поисковым системам . Проверено 10 декабря 2017 г.
- ↑ Перейти обратно: Перейти обратно: а б Маккаскер, Джеймс П.; МакГиннесс, Дебора Л. «Что такое граф знаний?» . www.authorea.com . Проверено 21 марта 2017 г.
- ^ «Предприятия графа знаний» . 2020.
- ^ «Международная конференция IEEE по графу знаний (ICKG) * 2021» . КМеду Хаб . 09.07.2017 . Проверено 22 марта 2021 г.
- ^ Хоган, Эйдан; Бломквист, Ева; Кочез, Майкл; д'Амато, Клаудия; де Мело, Жерар; Гутьеррес, Клаудио; Лабра Гайо, Хосе Эмилио; Кирран, Сабрина; Ноймайер, Себастьян; Поллерес, Аксель; Навильи, Роберто; Нгонга Нгомо, Аксель-Сирил; Рашид, Саббир М.; Рула, Аниса; Шмельцайзен, Лукас; Секеда, Джон; Стааб, Штеффен; Циммерманн, Антуан (24 января 2021 г.). «График знаний». Обзоры вычислительной техники ACM . 54 (4): 1–37. arXiv : 2003.02320 . дои : 10.1145/3447772 . ISSN 0360-0300 . S2CID 235716181 .
- ^ Паульхейм, Хейко (2017). «Уточнение графика знаний: обзор подходов и методов оценки» (PDF) . Семантическая сеть : 489–508 . Проверено 21 марта 2017 г.
- ^ Креч, Маркус; Вейкум, Герхард (март 2016 г.). «Редакция специального выпуска о графах знаний» . Журнал веб-семантики . 37–38: 53–54. дои : 10.1016/j.websem.2016.04.002 . Проверено 10 февраля 2021 г.
- ^ «Что такое граф знаний?|Онтотекст» . Онтотекст . Проверено 1 июля 2020 г.
- ^ Пэн, Циюань; Фэн, Ся; Насерипарса, Мехди; Осборн, Франческо (2023). «Графы знаний: возможности и вызовы» . Обзор искусственного интеллекта . 56 (11): 13071–13102. arXiv : 2303.13948 . дои : 10.1007/s10462-023-10465-9 . ISSN 1573-7462 . ПМЦ 10068207 . ПМИД 37362886 .
- ^ «График знаний о графах знаний» . 2020.
- ^ «Связанное облако открытых данных» . lod-cloud.net . Проверено 30 июня 2020 г.
- ^ Пайн, Иветт; Стюарт, Стюарт (март 2022 г.). «Метаработа: то, как мы исследуем, так же важно, как и то, что мы исследуем» . Британский журнал общей практики . 72 (716): 130–131. дои : 10.3399/bjgp22X718757 . ПМЦ 8884432 . ПМИД 35210247 .
- ^ «Графовая база данных и аналитика Neo4j | Система управления графовой базой данных» . Нео4дж . Проверено 8 ноября 2023 г.
- ^ «Онтотекст GraphDB» . Онтотекст . Проверено 8 ноября 2023 г.
- ^ «Как работают графики знаний?» . Звездный пес . 05.04.2022 . Проверено 5 апреля 2022 г.
- ^ «Раскрытие возможностей панели знаний Google: как получить и заявить свои права в 2023 году – Р. Х. Разу» . rhrazu.com . 01.09.2023 . Проверено 5 сентября 2023 г.
- ^ Хунвэй Ван (октябрь 2018 г.). «RippleNet: распространение пользовательских настроек в графе знаний для рекомендательных систем». Материалы 27-й Международной конференции ACM по управлению информацией и знаниями . стр. 417–426. arXiv : 1803.03467 . дои : 10.1145/3269206.3271739 . ISBN 9781450360142 . S2CID 3766110 .
- ^ Ристоски, Петар; Полхейм, Хейко (2016), «RDF2Vec: встраивание графов RDF для интеллектуального анализа данных» (PDF) , Семантическая сеть - ISWC 2016 , Конспекты лекций по информатике, том. 9981, стр. 498–514, номер документа : 10.1007/978-3-319-46523-4_30 , ISBN. 978-3-319-46522-7
- ^ Чжоу, Цзе; и др. (2020). «Графовые нейронные сети: обзор методов и приложений» . ИИ Открыть . 1 (1): 57–81. arXiv : 1812.08434 . дои : 10.1016/j.aiopen.2021.01.001 . S2CID 56517517 – через Elsevier Science Direct.
- ^ Да, Зи; Кумар, Йоган Джая; Спой, Го Онг; Сун, Фэнъянь; Ван, Джунсонг (2022). «Комплексный обзор графовых нейронных сетей для графов знаний» . Доступ IEEE . 10 : 75729–7574. Бибкод : 2022IEEEA..1075729Y . дои : 10.1109/ACCESS.2022.3191784 . S2CID 250654689 – через IEEE Xplore.
- ^ Беррендорф, Макс; Фаерман, Евгений; Мельничук Валентин; Тресп, Волкер; Зайдль, Томас (14–17 апреля 2020 г.). Согласование сущностей графа знаний со сверточными сетями графов: извлеченные уроки . Достижения в области информационного поиска: 42-я Европейская конференция по IR-исследованиям, ECIR 2020, Лиссабон, Португалия. Конспекты лекций по информатике. Том. Слушания, Часть II. стр. 3–11. arXiv : 1911.08342 . дои : 10.1007/978-3-030-45442-5_1 . ISBN 978-3-030-45441-8 . S2CID 208158314 – через Springer International Publishing.
- ^ Чаурасия, Дипак; Сурисетти, Анил; Кумар, Нитиш; Сингх, Алок; Дей, Викрант; Малхотра, Аакарш; Дхама, Гаурав; Арора, Анкур (2022). «Выравнивание сущностей для графов знаний: прогресс, проблемы и эмпирические исследования». arXiv : 2205.08777 [ cs.AI ].
- ^ Хоган, Эйдан; Липполис, Анна София; Клирономос, Антонис; Милон-Флорес, Даниэла Ф.; Чжэн, Хэн; Жуглар, Алексан; Норузи, Ибрагим (2023). «Улучшение согласования сущностей между Викиданными и ArtGraph с помощью LLM» (PDF) . Материалы международного семинара по семантической сети и проектированию онтологий для культурного наследия – через Международный семинар по семантической сети и проектированию онтологий для культурного наследия (SWODCH), Афины, Греция.
Внешние ссылки [ править ]
- Уилл Дуглас Хэвен (4 сентября 2020 г.). «Этот всезнающий ИИ учится, безостановочно читая всю сеть» . Обзор технологий Массачусетского технологического института . Проверено 5 сентября 2020 г.
Diffbot строит самый большой в истории граф знаний, применяя распознавание изображений и обработку естественного языка к миллиардам веб-страниц.