Семантическое сходство
Семантическое сходство — это показатель, определенный для набора документов или терминов, где идея расстояния между элементами основана на сходстве их значения или семантического содержания. [ нужна ссылка ] в отличие от лексикографического сходства. Это математические инструменты, используемые для оценки силы семантической связи между единицами языка, понятиями или экземплярами посредством числового описания, полученного в результате сравнения информации, подтверждающей их значение или описывающей их природу. [1] [2] Термин семантическое сходство часто путают со семантическим родством. Семантическая связанность включает в себя любые отношения между двумя терминами, тогда как семантическое сходство включает только отношения «является» . [3] Например, слово «автомобиль» похоже на слово «автобус», но также связано с «дорогой» и «вождением».
В вычислительном отношении семантическое сходство можно оценить путем определения топологического сходства, используя онтологии для определения расстояния между терминами/понятиями. Например, наивная метрика для сравнения понятий, упорядоченных в частично упорядоченном наборе и представленных как узлы направленного ациклического графа (например, таксономии ), будет кратчайшим путем, связывающим два узла понятий. На основе анализа текста семантическая связь между единицами языка (например, словами, предложениями) также может быть оценена с использованием статистических средств, таких как модель векторного пространства, для корреляции слов и текстовых контекстов из подходящего текстового корпуса . Оценка предлагаемых мер семантического сходства/родства осуществляется двумя основными способами. Первый основан на использовании наборов данных, разработанных экспертами и состоящих из пар слов с оценкой степени семантического сходства/родства. Второй путь основан на интеграции мер внутри конкретных приложений, таких как поиск информации, рекомендательные системы, обработка естественного языка и т. д.
Терминология [ править ]
Понятие семантического сходства более конкретно, чем семантическое родство , поскольку последнее включает в себя такие понятия, как антонимия и меронимия , а сходство — нет. [4] Однако в большей части литературы эти термины используются как взаимозаменяемые, наряду с такими терминами, как семантическая дистанция. По сути, семантическое сходство, семантическая дистанция и семантическая родственность означают: «Насколько термин А связан с термином Б?» Ответом на этот вопрос обычно является число от -1 до 1 или от 0 до 1, где 1 означает чрезвычайно высокое сходство.
Визуализация [ править ]
Интуитивный способ визуализации семантического сходства терминов заключается в группировке тесно связанных между собой терминов и увеличении расстояния между отдаленно связанными терминами. Это также часто встречается на практике для интеллект-карт и концептуальных карт .
Более прямой способ визуализации семантического сходства двух лингвистических элементов можно увидеть с помощью подхода семантического сворачивания . В этом подходе лингвистический элемент, такой как термин или текст, может быть представлен путем создания пикселя для каждого из его активных семантических признаков, например, в сетке 128x128. Это позволяет напрямую визуально сравнивать семантику двух элементов путем сравнения изображений их соответствующих наборов функций.
Приложения [ править ]
В биомедицинской информатике [ править ]
Меры семантического сходства применялись и развивались в биомедицинских онтологиях. [5] [6] В основном они используются для сравнения генов и белков на основе сходства их функций. [7] а не на сходстве их последовательностей ,но они также распространяются на другие биологические объекты, такие как болезни. [8]
Эти сравнения можно выполнить с помощью инструментов, свободно доступных в Интернете:
- ProteInOn можно использовать для поиска взаимодействующих белков, поиска назначенных терминов GO и расчета функционального семантического сходства белков UniProt , а также для получения информационного содержания и расчета функционального семантического сходства терминов GO. [9]
- CMPSim обеспечивает меру функционального сходства между химическими соединениями и метаболическими путями с использованием мер семантического сходства на основе ChEBI . [10]
- CESSM предоставляет инструмент для автоматической оценки мер семантического сходства на основе GO. [11]
В геоинформатике [ править ]
Сходство также применяется в геоинформатике для поиска схожих географических объектов или типов объектов: [12]
- Сервер сходства SIM-DL [13] может использоваться для вычисления сходства между понятиями, хранящимися в онтологиях типов географических объектов.
- Калькулятор сходства можно использовать для расчета того, насколько хорошо связаны два географических понятия в онтологии Geo-Net-PT. [14] [15]
- ОСМ [16] Семантическая сеть может использоваться для вычисления семантического сходства тегов в OpenStreetMap . [17]
В компьютерной лингвистике [ править ]
Некоторые метрики используют WordNet — созданную вручную лексическую базу данных английских слов. Несмотря на преимущества человеческого контроля при создании базы данных, поскольку слова не изучаются автоматически, база данных не может измерить связь между терминами, состоящими из нескольких слов, и неинкрементальным словарем. [4] [18]
При обработке естественного языка [ править ]
Обработка естественного языка (НЛП) — это область информатики и лингвистики. Анализ тональности, понимание естественного языка и машинный перевод (автоматический перевод текста с одного человеческого языка на другой) — вот некоторые из основных областей, в которых он используется. Например, зная один информационный ресурс в Интернете, часто возникает непосредственный интерес найти похожие ресурсы. Семантическая сеть предоставляет семантические расширения для поиска схожих данных по содержанию, а не только по произвольным дескрипторам. [19] [20] [21] [22] [23] [24] [25] [26] [27] Методы глубокого обучения стали точным способом оценки семантического сходства между двумя отрывками текста, при котором каждый отрывок сначала встраивается в непрерывное векторное представление. [28] [29] [30]
В сопоставлении онтологий [ править ]
Семантическое сходство играет решающую роль в выравнивании онтологий , целью которого является установление соответствий между сущностями из разных онтологий. Он включает количественную оценку степени сходства между понятиями или терминами с использованием информации, присутствующей в онтологии для каждого объекта, такой как метки, описания и иерархические отношения с другими объектами. Традиционные метрики, используемые при сопоставлении онтологий, основаны на лексическом сходстве между функциями объектов, например, на использовании расстояния Левенштейна для измерения расстояния редактирования между метками объектов. [31] Однако с помощью этих показателей сложно уловить семантическое сходство между объектами. Например, при сравнении двух онтологий, описывающих конференции, сущности «Вклад» и «Бумага» могут иметь высокое семантическое сходство, поскольку они имеют одно и то же значение. Тем не менее, из-за их лексических различий, одно только лексикографическое сходство не может установить это соответствие. Чтобы уловить эти семантические сходства, вложения . при сопоставлении онтологий используются [32] Кодируя семантические отношения и контекстную информацию, встраивания позволяют рассчитывать оценки сходства между объектами на основе близости их векторных представлений в пространстве встраивания. Этот подход позволяет эффективно и точно сопоставлять онтологии, поскольку встраивания могут моделировать семантические различия в именовании объектов, например омонимию, путем присвоения разных вложений одному и тому же слову на основе разных контекстов. [32]
Меры [ править ]
сходство Топологическое
По существу существует два типа подходов, которые вычисляют топологическое сходство между онтологическими концепциями:
- На основе ребер: в качестве источника данных используются ребра и их типы;
- Узловой: в котором основными источниками данных являются узлы и их свойства.
Другие меры вычисляют сходство между онтологическими экземплярами:
- Попарно: измеряйте функциональное сходство между двумя экземплярами путем объединения семантического сходства концепций, которые они представляют.
- Групповое: вычисляйте сходство напрямую, не объединяя семантические сходства концептов, которые они представляют.
Несколько примеров:
На основе Edge [ править ]
- Пекар и др. [33]
- Ченг и Клайн [34]
- Ву и др. [35]
- Дель Позо и др. [36]
- IntelliGO: Бенабдеррахман и др. [6]
На основе узлов [ править ]
- Настоящий мужчина [37]
- основано на понятии информационного содержания . Информативность понятия (термина или слова) представляет собой логарифм вероятности найти понятие в данном корпусе.
- учитывается только информационное содержание наименьшего общего подпотребителя (lcs). Наименьшим распространенным субсумером является понятие в лексической таксономии (например, WordNet), которое находится на кратчайшем расстоянии от двух сравниваемых понятий. Например, и животное, и млекопитающее являются субсумматорами кошки и собаки, но для них млекопитающие являются более низкими субсуммами, чем животные.
- Лин [38]
- на основе сходства Резника.
- учитывает информационное содержание наименьшего общего подгруппы (lcs) и двух сравниваемых концепций.
- Магитман, Менцер , Ройнестад и Веспиньяни [39]
- Обобщает сходство Лина с произвольными онтологиями (графами).
- Цзян и Конрат [40]
- на основе сходства Резника.
- учитывает информационное содержание наименьшего общего подгруппы (lcs) и двух сравниваемых понятий для расчета расстояния между двумя понятиями. Расстояние позже используется при вычислении меры сходства.
- Выравнивание, устранение неоднозначности и прогулка : случайные блуждания по семантическим сетям [41]
На основе содержания узлов и отношений [ править ]
- применимо к онтологии
- учитывать свойства (содержание) узлов
- рассмотреть виды (содержание) отношений
- на основе eTVSM [42]
- на основе сходства Резника [43]
Попарно [ править ]
- максимум попарного сходства
- составное среднее, в котором учитываются только наиболее совпадающие пары (среднее наилучшее совпадение)
Групповой [ править ]
Статистическое сходство [ править ]
Подходы статистического сходства могут быть изучены на основе данных или определены заранее. Обучение по сходству часто может превосходить заранее определенные меры сходства. В общих чертах, эти подходы строят статистическую модель документов и используют ее для оценки сходства.
- LSA ( скрытый семантический анализ ): [44] [45] (+) векторный, добавляет векторы для измерения терминов, состоящих из нескольких слов; (-) неинкрементный словарь, длительное время предварительной обработки
- PMI ( точечная взаимная информация ): (+) большой словарный запас, поскольку использует любую поисковую систему (например, Google); (-) не может измерить связь между целыми предложениями или документами
- SOC-PMI ( точечная взаимная информация второго порядка ): (+) сортировка списков важных соседних слов из большого корпуса; (-) не может измерить связь между целыми предложениями или документами
- GLSA (обобщенный скрытый семантический анализ): (+) векторный, добавляет векторы для измерения терминов, состоящих из нескольких слов; (-) неинкрементный словарь, длительное время предварительной обработки
- ICAN (поэтапное построение ассоциативной сети): (+) поэтапная сетевая мера, хорошая для распространения активации, учитывает родство второго порядка; (-) не может измерить связь между терминами, состоящими из нескольких слов, длительное время предварительной обработки
- NGD ( нормализованное расстояние Google ): (+) большой словарный запас, поскольку использует любую поисковую систему (например, Google); (-) может измерить связанность между целыми предложениями или документами, но чем крупнее предложение или документ, тем больше изобретательности требуется (Cilibrasi & VitaNY, 2007). [46]
- TSS (семантическое сходство Twitter): [47] большой словарный запас, потому что для вычисления сходства используются онлайн-твиты из Твиттера. Он имеет высокое временное разрешение, что позволяет фиксировать высокочастотные события. Открытый исходный код
- NCD ( нормализованное расстояние сжатия )
- ESA ( явный семантический анализ ) на основе Википедии и ODP.
- SSA (существенный семантический анализ) [48] который индексирует термины, используя существенные понятия, найденные в их непосредственном контексте.
- № Википедии (сейчас), [49] вдохновленный игрой Six Degrees of Wikipedia, [50] — это метрика расстояния, основанная на иерархической структуре Википедии. Сначала строится ориентированный ациклический граф, а затем используется алгоритм кратчайшего пути Дейкстры для определения значения noW между двумя терминами как геодезического расстояния между соответствующими темами (т.е. узлами) в графе.
- VGEM (векторная генерация явно заданного многомерного семантического пространства): [51] (+) увеличение словарного запаса, возможность сравнения терминов, состоящих из нескольких слов (-) производительность зависит от выбора конкретных параметров
- СимРанк
- РАССКАЗЧИК: [52] Разреженные векторные представления, построенные путем применения гипергеометрического распределения по корпусу Википедии в сочетании с таксономией BabelNet. Межъязыковое сходство в настоящее время также возможно благодаря многоязычному и унифицированному расширению. [53]
Сходство на основе семантики [ править ]
- Передача маркера: сочетание лексической декомпозиции для автоматического создания онтологий и передачи маркеров, подход Fähndrich et al. вводит новый тип меры семантического сходства. [54] Здесь маркеры передаются от двух целевых концепций, несущих определенную степень активации. Эта активация может увеличиваться или уменьшаться в зависимости от веса отношений, с которыми связаны понятия. Это сочетает в себе подходы, основанные на грани и узлах, и включает в себя коннекционистские рассуждения с символической информацией.
- Хорошая мера семантического сходства на основе общего субсумматора (GCS) [55]
Сети семантического сходства [ править ]
- Сеть семантического сходства (SSN) — это особая форма семантической сети . предназначен для представления понятий и их смыслового сходства. Его основной вклад — снижение сложности расчета семантических расстояний. Бендек (2004, 2008) представил концепцию сетей семантического сходства (SSN) как специализацию семантической сети для измерения семантического сходства на основе онтологических представлений. [56] Реализации включают обработку генетической информации.
Золотые стандарты [ править ]
Исследователи собрали наборы данных с суждениями о сходстве пар слов, которые используются для оценки когнитивной правдоподобности вычислительных показателей. Золотым стандартом до сих пор является старый список из 65 слов, по которому люди оценивали сходство слов. [57] [58]
См. также [ править ]
- Аналогия
- Компонентный анализ
- Согласованность (лингвистика)
- Расстояние Левенштейна
- Семантический дифференциал
- Сеть семантического сходства
- Извлечение терминологии
- Word2vec
- tf-idf — оценка важности слова в документе.
Ссылки [ править ]
- ^ Ариспе С.; Ранвез С.; Джанаки С.; Монтмейн Дж. (2015). «Семантическое сходство на основе анализа естественного языка и онтологии». Обобщающие лекции по технологиям человеческого языка . 8 (1): 1–254. arXiv : 1704.05295 . дои : 10.2200/S00639ED1V01Y201504HLT027 . S2CID 17428739 .
- ^ Фэн Ю.; Багери Э.; Энсан Ф.; Йованович Дж. (2017). «Состояние семантической связанности: основа для сравнения». Обзор инженерии знаний . 32 : 1–30. дои : 10.1017/S0269888917000029 . S2CID 52172371 .
- ^ А. Баллаторе; М. Бертолотто; Округ Колумбия Уилсон (2014). «Оценочный базовый уровень геосемантической связанности и сходства». ГеоИнформатика . 18 (4): 747–767. arXiv : 1402.3371 . Бибкод : 2014arXiv1402.3371B . дои : 10.1007/s10707-013-0197-8 . S2CID 17474023 .
- ^ Jump up to: Перейти обратно: а б Буданицкий, Александр; Херст, Грэм (2001). «Семантическое расстояние в WordNet: экспериментальная, прикладная оценка пяти показателей» (PDF) . Семинар по WordNet и другим лексическим ресурсам, Второе заседание Североамериканского отделения Ассоциации компьютерной лингвистики . Питтсбург.
- ^ Гуцци, Пьетро Хирам; Мина, Марко; Каннатаро, Марио; Герра, Кончеттина (2012). «Анализ семантического сходства данных о белках: оценка с учетом биологических особенностей и проблем» . Брифинги по биоинформатике . 13 (5): 569–585. дои : 10.1093/нагрудник/bbr066 . ПМИД 22138322 .
- ^ Jump up to: Перейти обратно: а б Бенабдеррахман, Сидахмед; Смаил Таббон, Малика; Поч, Оливье; Наполи, Амедео; Девинь, Мари-Домоник. (2010). «IntelliGO: новая векторная мера семантического сходства, включая происхождение аннотаций» . БМК Биоинформатика . 11 : 588. дои : 10.1186/1471-2105-11-588 . ПМК 3098105 . ПМИД 21122125 .
- ^ Чикко, Д; Массероли, М (2015). «Программный пакет для прогнозирования аннотаций генов и белков и поиска сходства» . Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 12 (4): 837–843. дои : 10.1109/TCBB.2014.2382127 . hdl : 11311/959408 . ПМИД 26357324 . S2CID 14714823 .
- ^ Келер, С; Шульц, Миннесота; Кравиц, П; Бауэр, С; Долкен, С; Отт, CE; Мундлос, К; Хорн, Д; и др. (2009). «Клиническая диагностика в генетике человека с поиском семантического сходства в онтологиях» . Американский журнал генетики человека . 85 (4): 457–64. дои : 10.1016/j.ajhg.2009.09.003 . ПМЦ 2756558 . ПМИД 19800049 .
- ^ «ПротеИнОн» .
- ^ «ЦМПСим» .
- ^ «ЦЕССМ» .
- ^ Янович, К.; Раубаль, М.; Кун, В. (2011). «Семантика сходства в поиске географической информации» . Журнал пространственной информатики . 2 (2): 29–57. дои : 10.5311/josis.2011.2.3 .
- ^ Алгоритм, реализация и применение сервера подобия SIM-DL . Вторая международная конференция по геопространственной семантике (GEOS 2007). Конспекты лекций по информатике. 2007. стр. 128–145. CiteSeerX 10.1.1.172.5544 .
- ^ «Калькулятор подобия Geo-Net-PT» .
- ^ «Гео-Нет-ПТ» .
- ^ "Семантическая сеть OSM" . ОСМ вики.
- ^ А. Баллаторе; округ Колумбия Уилсон; М. Бертолотто. «Извлечение географических знаний и семантическое сходство в OpenStreetMap» (PDF) . Знания и информационные системы : 61–81.
- ^ Каур И. и Хорноф А.Дж. (2005). «Сравнение LSA, wordNet и PMI-IR для прогнозирования поведения пользователей по кликам». Материалы конференции SIGCHI по человеческому фактору в вычислительных системах . стр. 51–60. дои : 10.1145/1054972.1054980 . ISBN 978-1-58113-998-3 . S2CID 14347026 .
- ^ Методы обучения на основе сходства для семантической сети (К. д'Амато, докторская диссертация)
- ^ Грасия Дж. и Мена Э. (2008). «Интернет-мера семантической связанности» (PDF) . Материалы 9-й Международной конференции по разработке веб-информационных систем (WISE '08) : 136–150.
- ^ Равендранатан, П. (2005). Определение наборов родственных слов из Всемирной паутины . Магистерская диссертация, Университет Миннесоты в Дулуте.
- ^ Вуббен, С. (2008). Использование структуры свободных ссылок для расчета семантической связанности . В серии технических отчетов ILK Research Group, №. 08-01, 2008.
- ^ Ювина И., ван Остендорп Х., Карбор П. и Пау Б. (2005). К моделированию контекстной информации в веб-навигации . В Б.Г. Бара, Л. Барсалу и М. Буччарелли (ред.), 27-е ежегодное собрание Общества когнитивных наук, CogSci2005 (стр. 1078–1083). Остин, Техас: Общество когнитивных наук, Inc.
- ^ Навильи Р., Лапата М. (2007). Меры связности графов для неконтролируемого устранения смысловой неоднозначности , Учеб. 20-й Международной совместной конференции по искусственному интеллекту (IJCAI 2007), Хайдарабад, Индия, 6–12 января 2007 г., стр. 1683–1688.
- ^ Пиролли, П. (2005). «Рациональный анализ поиска информации в Интернете» . Когнитивная наука . 29 (3): 343–373. дои : 10.1207/s15516709cog0000_20 . ПМИД 21702778 .
- ^ Пиролли П. и Фу В.-Т. (2003). «SNIF-ACT: модель поиска информации во Всемирной паутине». Конспекты лекций по информатике . Том. 2702. стр. 45–54. CiteSeerX 10.1.1.6.1506 . дои : 10.1007/3-540-44963-9_8 . ISBN 978-3-540-40381-4 .
- ^ Терни, П. (2001). Поиск в Интернете синонимов: PMI и LSA на экзамене TOEFL . В Л. Де Рэдте и П. Флахе (ред.), Материалы Двенадцатой Европейской конференции по машинному обучению (ECML-2001) (стр. 491–502). Фрайбург, Германия.
- ^ Реймерс, Нильс; Гуревич, Ирина (ноябрь 2019 г.). «Предложение-BERT: встраивание предложений с использованием сиамских BERT-сетей» . Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP) . Гонконг, Китай: Ассоциация компьютерной лингвистики. стр. 3982–3992. arXiv : 1908.10084 . дои : 10.18653/v1/D19-1410 .
- ^ Мюллер, Йонас; Тьягараджан, Адитья (5 марта 2016 г.). «Сиамские рекуррентные архитектуры для изучения сходства предложений» . Тридцатая конференция AAAI по искусственному интеллекту . 30 . дои : 10.1609/aaai.v30i1.10350 . S2CID 16657628 .
- ^ Кирос, Райан; Чжу, Юкон; Салахутдинов, Расс Р.; Поттер, Ричард; Уртасун, Рэйчел; Торральба, Энтони; Фидлер, Саня (2015), Суды, К.; Лоуренс, Северная Дакота; Ли, Д.Д.; Сугияма, М. (ред.), «Векторы пропуска мысли» (PDF) , Достижения в области нейронных систем обработки информации 28 , Curran Associates, Inc., стр. 107–111. 3294–3302 , получено 1 марта 2020 г.
- ^ Читэм, Мишель; Хитцлер, Паскаль (2013). «Метрики сходства строк для выравнивания онтологий». В Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пол; Биманн, Крис; Паррейра, Жозиан Ксавье; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). Инженерия передовых информационных систем . Семантическая сеть – ISWC 2013. Конспекты лекций по информатике. Том. 7908. Берлин, Гейдельберг: Springer. стр. 294–309. дои : 10.1007/978-3-642-41338-4_19 . ISBN 978-3-642-41338-4 . S2CID 18372966 .
- ^ Jump up to: Перейти обратно: а б Соуза Г., Лима Р. и Троян К. (2022). Взгляд на изучение представлений при сопоставлении онтологий. ОМ@ISWC .
- ^ Пекар, Виктор; Стааб, Штеффен (2002). Изучение таксономии . Материалы 19-й международной конференции по компьютерной лингвистике. Том. 1. С. 1–7. дои : 10.3115/1072228.1072318 .
- ^ Ченг, Дж; Клайн, М; Мартин, Дж; Финкельштейн, Д; Авад, Т; Кулп, Д; Сиани-Роуз, Массачусетс (2004). «Алгоритм кластеризации, основанный на знаниях, основанный на Gene Ontology». Журнал биофармацевтической статистики . 14 (3): 687–700. дои : 10.1081/BIP-200025659 . ПМИД 15468759 . S2CID 25224811 .
- ^ Ву, Х; Су, З; Мао, Ф; Олман, В; Сюй, Ю (2005). «Прогнозирование функциональных модулей на основе сравнительного геномного анализа и применения Gene Ontology» . Исследования нуклеиновых кислот . 33 (9): 2822–37. дои : 10.1093/nar/gki573 . ПМК 1130488 . ПМИД 15901854 .
- ^ Дель Посо, Анджела; Пасос, Флоренсио; Валенсия, Альфонсо (2008). «Определение функциональных расстояний в онтологии генов» . БМК Биоинформатика . 9:50 . дои : 10.1186/1471-2105-9-50 . ПМК 2375122 . ПМИД 18221506 .
- ^ Филип Резник (1995). Крис С. Меллиш (ред.). «Использование информационного контента для оценки семантического сходства в таксономии». Материалы 14-й Международной совместной конференции по искусственному интеллекту (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg/9511007 . Бибкод : 1995cmp.lg...11007R . CiteSeerX 10.1.1.41.6956 .
- ^ Декан Лин. 1998. Теоретико-информационное определение сходства . В материалах пятнадцатой Международной конференции по машинному обучению (ICML '98), Джуд В. Шавлик (ред.). Morgan Kaufmann Publishers Inc., Сан-Франциско, Калифорния, США, 296–304.
- ^ Ана Габриэла Магуитман, Филиппо Менцер, Хизер Ройнестад, Алессандро Веспиньяни: Алгоритмическое обнаружение семантического сходства . WWW 2005: 107–116.
- ^ Джей Джей Цзян и Д. В. Конрат. Семантическое сходство на основе корпусной статистики и лексической таксономии . На Международной конференции по исследованиям по компьютерной лингвистике (ROCLING X), страницы 9008+, сентябрь 1997 г.
- ^ М.Т. Пилевар, Д. Юргенс и Р. Навильи. Выравнивание, устранение неоднозначности и обход: унифицированный подход к измерению семантического сходства. . Учеб. 51-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2013), София, Болгария, 4–9 августа 2013 г., стр. 1341–1351.
- ^ Донг, Хай (2009). «Модель меры сходства гибридных концепций для среды онтологий». На пути к значимым интернет-системам: семинары OTM 2009 . Конспекты лекций по информатике. Том. 5872. стр. 848–857. Бибкод : 2009LNCS.5872..848D . дои : 10.1007/978-3-642-05290-3_103 . ISBN 978-3-642-05289-7 .
- ^ Донг, Хай (2011). «Контекстно-зависимая модель семантического сходства для онтологических сред» . Параллелизм и вычисления: практика и опыт . 23 (2): 505–524. дои : 10.1002/cpe.1652 . S2CID 412845 .
- ^ Ландауэр, ТК; Дюмэ, ST (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» (PDF) . Психологический обзор . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . дои : 10.1037/0033-295x.104.2.211 . S2CID 1144461 .
- ^ Ландауэр, ТК; Фольц, П.В. и Лахам, Д. (1998). «Введение в латентно-семантический анализ» (PDF) . Дискурсивные процессы . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . дои : 10.1080/01638539809545028 . S2CID 16625196 .
- ^ «Расстояние сходства Google» .
- ^ Каррильо, Ф.; Чекки, Джорджия; Сигман, М.; Слезак, Д.Ф. (2015). «Быстрая распределенная динамика семантических сетей через социальные сети» (PDF) . Вычислительный интеллект и нейронаука . 2015 : 712835. doi : 10.1155/2015/712835 . ПМЦ 4449913 . ПМИД 26074953 .
- ^ «Самер Хасан» (PDF) . [ мертвая ссылка ]
- ^ Уилсон Вонг; Вэй Лю; Мохаммед Беннамун (ноябрь 2006 г.). Невыразительные сходства для кластеризации терминов с использованием муравьев, перемещающихся по деревьям . PCAR '06: Материалы международного симпозиума 2006 г. по практическим когнитивным агентам и роботам. стр. 177–191. дои : 10.1145/1232425.1232448 .
- ^ «6 градусов Википедии» . Хроника высшего образования . Проводной кампус. 28 мая 2008 г. Архивировано из оригинала 30 мая 2008 г.
- ^ В.Д. Векслер; Райан З. Говостес (2008). «Определение размеров семантического пространства человека» (PDF) .
- ^ Х. Камачо-Колладос; МТ Пилевар; Р. Навильи (2015). NASARI: новый подход к семантически обоснованному представлению элементов (PDF) . Труды Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL 2015). Денвер, США. стр. 567–577.
- ^ Х. Камачо-Колладос; МТ Пилевар; Р. Навильи (27–29 июля 2015 г.). Единое многоязычное семантическое представление концепций (PDF) . Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2015). Пекин, Китай. стр. 741–751.
- ^ Фендрих Й.; Вебер С.; Арндт С. (2016). «Разработка и использование меры семантического сходства для взаимодействия агентов». В Клюш М.; Унланд Р.; Шехоры О.; Покар А.; Арндт С. (ред.). Мультиагентные системные технологии . MATES 2016. Конспекты лекций по информатике. Том. 9872. Спрингер. Доступна в авторской версии
- ^ К. д'Амато; С. Стааб; Н. Фаницци (2008). «О влиянии онтологий логики описания на концептуальное сходство». Инженерия знаний: практика и закономерности . стр. 48–63. дои : 10.1007/978-3-540-87696-0_7 .
- ^ Бендек, Ф. (2008). Платформа семантического сопоставления рабочих процессов WSM-P, докторская диссертация, Трирский университет, Германия . Верлаг Доктор Хат. АСИН 3899638549 .
- ^ Рубинштейн, Герберт и Джон Б. Гуденаф. Контекстуальные корреляты синонимии . Сообщения ACM, 8 (10): 627–633, 1965.
- ^ Список наборов данных и обзор современного состояния см. на https://www.aclweb.org/ .
- ^ Рубинштейн, Герберт; Гуденаф, Джон Б. (1 октября 1965 г.). «Контекстуальные корреляты синонимии» . Коммуникации АКМ . 8 (10): 627–633. дои : 10.1145/365628.365657 . S2CID 18309234 .
- ^ Миллер, Джордж А.; Чарльз, Уолтер Г. (1 января 1991 г.). «Контекстуальные корреляты семантического сходства». Язык и когнитивные процессы . 6 (1): 1–28. дои : 10.1080/01690969108406936 . ISSN 0169-0965 .
- ^ «Размещение поиска в контексте». Транзакции ACM в информационных системах . 20 : 116–131. 01.01.2002. CiteSeerX 10.1.1.29.1912 . дои : 10.1145/503104.503110 . S2CID 12956853 .
Источники [ править ]
- Чикко, Д; Массероли, М (2015). «Программный пакет для прогнозирования аннотаций генов и белков и поиска сходства» . Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 12 (4): 837–843. дои : 10.1109/TCBB.2014.2382127 . hdl : 11311/959408 . ПМИД 26357324 . S2CID 14714823 .
- Чилибрази, Р.Л. и Витаньи, ПМБ (2007). «Расстояние сходства Google». IEEE Транс. Знания и инженерия данных . 19 (3): 370–383. arXiv : cs/0412098 . дои : 10.1109/TKDE.2007.48 . S2CID 59777 .
- Дюмэ, С. (2003). «Подходы к доступу к информации, основанные на данных» . Когнитивная наука . 27 (3): 491–524. дои : 10.1207/s15516709cog2703_7 .
- Габрилович Э. и Маркович С. (2007). Вычисление семантической связанности с использованием явного семантического анализа на основе Википедии , Материалы 20-й Международной совместной конференции по искусственному интеллекту (IJCAI), Хайдарабад, Индия, январь 2007 г.
- Ли, доктор медицинских наук, Пинкомб, Б., и Уэлш, М. (2005). Эмпирическая оценка моделей сходства текстовых документов . В Б.Г. Бара, Л. Барсалу и М. Буччарелли (ред.), 27-е ежегодное собрание Общества когнитивных наук, CogSci2005 (стр. 1254–1259). Остин, Техас: Общество когнитивных наук, Inc.
- Лемэр Б. и Деньер Г. (2004). Инкрементное построение ассоциативной сети из корпуса . В К.Д. Форбусе, Д. Гентнере и Т. Регьере (ред.), 26-м ежегодном собрании Общества когнитивных наук, CogSci, 2004. Хиллсдейл, Нью-Джерси: Издательство Лоуренса Эрлбаума.
- Линдси, Р.; Векслер, В.Д.; Гринцвайг, А.; Грей, WD (2007). «Влияние выбора корпуса на измерение семантической связанности» (PDF) . Материалы 8-й Международной конференции по когнитивному моделированию, Анн-Арбор, Мичиган .
- Навильи Р., Лапата М. (2010). «Экспериментальное исследование связности графов для неконтролируемого устранения неоднозначности смысла слов» . Транзакции IEEE по анализу шаблонов и машинному интеллекту (TPAMI), 32 (4), IEEE Press, 2010, стр. 678–692.
- Векслер, В.Д. и Грей, В.Д. (2006). «Выбор тестового примера для оценки мер семантической дистанции» (PDF) . Материалы 28-го ежегодного собрания Общества когнитивных наук, CogSci2006 .
- Вонг В., Лю В. и Беннамун М. (2008) Кластеризация безликих данных. В: М. Сун и Ю. Ву; Справочник по исследованиям технологий интеллектуального анализа текста и веб-страниц; IGI Global. ISBN 978-1-59904-990-8 (использование NGD и noW для кластеризации терминов и URI)
Внешние ссылки [ править ]
Обзорные статьи [ править ]
- Статья конференции : К. д'Амато, С. Стааб, Н. Фаницци. 2008. О влиянии онтологий логики описания на концептуальное сходство . В материалах 16-й международной конференции по инженерии знаний: практика и закономерности, страницы 48–63. Ачитрецца, Италия, Springer-Verlag.
- Журнальная статья на более общую тему родства, включая сходство: З. Чжан, А. Джентиле, Ф. Чиравенья. 2013. Последние достижения в методах лексико-семантической связи – опрос . Инженерия естественного языка 19 (4), 411–479, Издательство Кембриджского университета
- Книга : С. Арисп, С. Ранвез, С. Джанаки, Ж. Монмэн. 2015. Семантическое сходство на основе анализа естественного языка и онтологии , Morgan & Claypool Publishers.