Семантическая лексика
— Семантический словарь это цифровой словарь слов, помеченных семантическими классами , позволяющий устанавливать ассоциации между словами, которые ранее не встречались. [1] Семантические лексиконы построены на семантических сетях , которые представляют семантические отношения между словами. Отличие семантического словаря от семантической сети состоит в том, что семантический словарь имеет определения для каждого слова, или «глоссу». [2]
Структура
[ редактировать ]Семантические словари состоят из лексических статей. Эти записи не орфографические, а семантические, что исключает проблемы омонимии и многозначности. Эти лексические статьи связаны между собой семантическими отношениями , такими как гиперонимия, гипонимия, меронимия или тропонимия. Синонимические записи сгруппированы в то, что Princeton WordNet называет « синсетами ». [2] Большинство семантических лексиконов состоят из четырех различных «подсетей»: [2] существительные, глаголы, прилагательные и наречия, хотя некоторые исследователи предприняли шаги по добавлению «искусственного узла», соединяющего подсети. [3]
Существительные
[ редактировать ]Существительные упорядочены в таксономию , структурированную в иерархию, где самое широкое и всеобъемлющее существительное расположено наверху, например «вещь», причем существительные становятся все более конкретными по мере удаления от вершины. Самое верхнее существительное в семантическом лексиконе называется уникальным новичком . [4] Наиболее специфические существительные (те, которые не имеют подчиненных), являются терминальными узлами . [3]
Семантические лексиконы также различают типы, когда тип чего-то имеет характеристики вещи, например, родезийский риджбек является типом собаки, и случаи, когда что-то является примером указанной вещи, например, Дэйв Грол является примером музыканта. . Экземпляры всегда являются терминальными узлами, поскольку они одиноки и не имеют других слов или онтологических категорий . принадлежащих им [2]
Семантические лексиконы также касаются меронимии . [5] это отношение «часть-целое», например, ключи являются частью ноутбука. Необходимые атрибуты, определяющие конкретную запись, также обязательно присутствуют в гипониме этой записи . Итак, если у компьютера есть ключи , а ноутбук — это разновидность компьютера , то и у ноутбука должны быть ключи . Однако во многих случаях это различие может стать расплывчатым. Хорошим примером этого является предмет « стул» . Большинство определило бы, что стул имеет ножки и сиденье (как в той части, на которой человек сидит). Однако есть художественные или современные стулья, у которых вообще нет ножек. У погремушек тоже нет ножек, но мало кто станет утверждать, что это не стулья. Подобные вопросы являются основными вопросами, которые стимулируют исследования и работу в области таксономии и онтологии .
Глаголы
[ редактировать ]Синсеты глаголов устроены так же, как и их аналоги существительные: более общие и всеобъемлющие глаголы находятся на вершине иерархии, а тропонимы (глаголы, которые описывают более конкретный способ сделать что-то) сгруппированы ниже. Специфика глагола движется по вектору , причем глаголы становятся все более конкретными по отношению к определенному качеству. [2] Например. Набор «ходьба/бег/спринт» становится более конкретным с точки зрения скорости, а набор «не нравится/ненавижу/ненавижу» становится более конкретным с точки зрения интенсивности эмоции.
Онтологические группировки и разделения глаголов гораздо более спорны, чем их существительные. Широко распространено мнение, что собака — это тип животного , а табурет — это тип стула , но можно утверждать, что отвращение находится на том же эмоциональном плане, что и ненависть (что они являются синонимами, а не супер/подчиненными). Можно также утверждать, что любовь и обожание являются синонимами или что одно более конкретно, чем другое. Таким образом, отношения между глаголами не так согласованы, как между существительными.
Еще одним свойством отношений синсетов глаголов является то, что они также упорядочены по парам глаголов. В этих парах один глагол обязательно влечет за собой другой, так же, как резня влечет за собой убийство , а знать влечет за собой веру . [2] Этими парами глаголов могут быть тропонимы и их суперординаты, как в первом примере, или же они могут находиться в совершенно разных онтологических категориях, как в случае во втором примере.
Прилагательные
[ редактировать ]Отношения синсета прилагательного очень похожи на отношения синсета глагола. Они не так четко иерархичны, как отношения синсета существительных, и у них меньше уровней и больше конечных узлов. Однако в отношениях синсета прилагательных обычно меньше конечных узлов на онтологическую категорию, чем в глаголах. Прилагательные в семантических словарях также организованы в пары слов, с той разницей, что их пары слов являются антонимами , а не следствиями . Более общие полярные прилагательные, такие как горячий и холодный или счастливый и грустный, объединены в пары. Затем к каждому из этих слов присоединяются другие прилагательные, близкие по смыслу. Горячее связано с теплым , нагретым , шипящим и изнуряющим , тогда как холодное связано с прохладным , холодным , замерзающим и прохладным . Эти семантически близкие прилагательные считаются косвенными антонимами. [2] к противоположному полярному прилагательному (т.е. nippy является косвенным антонимом hot ). Прилагательные, образованные от глагола или существительного, также напрямую связаны с указанным глаголом или существительным в подсетях. Например, приятное связано с семантически близкими прилагательными приятное и приятное , а также с глаголом его происхождения наслаждаться .
Наречия
[ редактировать ]В семантических словарях учтено очень мало наречий. Это связано с тем, что большинство наречий взято непосредственно из своих прилагательных, как по значению, так и по форме, и изменено только морфологически (т. е. «счастливо» происходит от «счастливый» , а «к счастью» — от «счастливый» , которое происходит от «удачи» ). Специально учитываются только наречия, не имеющие этих связей, например , действительно , в основном и вряд ли . [2]
Проблемы, с которыми сталкиваются семантические лексиконы
[ редактировать ]Влияние проекта WordNet в Принстоне выходит далеко за рамки английского языка, хотя большинство исследований в этой области вращается вокруг английского языка. Создание семантического словаря для других языков оказалось очень полезным для приложений обработки естественного языка . Одним из основных направлений исследований семантических лексиконов является объединение лексиконов разных языков для помощи в машинном переводе . Наиболее распространенный подход — попытаться создать общую онтологию, которая служит своего рода «посредником» между семантическими словарями двух разных языков. [6] Это чрезвычайно сложная и пока нерешенная проблема в области машинного перевода. Одна из проблем возникает из-за того, что никакие два языка не являются дословным переводом друг друга. То есть каждый язык имеет какое-то структурное или синтаксическое отличие от другого. Кроме того, в языках часто есть слова, которые нелегко перевести на другие языки и уж точно не имеют точного дословного соответствия. Были сделаны предложения по созданию комплексной структуры для сетей Wordnet. Исследования показали, что в каждом известном человеческом языке есть своего рода понятия, напоминающие синонимию , гипонимию , меронимию и антонимию . Однако каждая предложенная до сих пор идея встречалась с критикой за использование шаблона, который лучше всего работает для английского языка и меньше для других языков. [6]
Еще одним препятствием в этой области является отсутствие четких рекомендаций по структуре и содержанию семантической лексики. Каждый проект лексики на каждом языке имел немного (или не очень) разный подход к своей сети слов. Не существует даже общепринятого определения того, что такое «слово». Орфографически они определяются как строка букв с пробелами по обе стороны, но семантически это становится очень дискуссионной темой. Например, хотя нетрудно определить «собака» или «жезл» слова , а как насчет сторожевой собаки или громоотвода ? Последние два примера можно было бы считать орфографически отдельными словами, хотя семантически они составляют одно понятие: один — тип собаки, другой — тип стержня. В дополнение к этим путаницам, словесные сети также имеют свою особенность , поскольку в них нет последовательной маркировки элементов. Они избыточны, поскольку каждому значению часто присваивается несколько слов (синсеты). Они также являются открытыми, поскольку часто фокусируются на терминологии и расширяют ее. и предметно-специфическая лексика. [6]
Другие имена
[ редактировать ]- Wordnet
- вычислительный лексикон
Список семантических лексиконов
[ редактировать ]См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Тэн, Инь-Лэн (2009). Справочник по исследованиям цифровых библиотек: проектирование, разработка и влияние . Мичиганский университет: Справочник по информатике. ISBN 9781599048796 .
- ^ Перейти обратно: а б с д и ж г час «О WordNet» .
- ^ Перейти обратно: а б Лемницер, Л. «Обогащение GermaNet: пример лексического усвоения». Семинар по Sprachwissenschaft, Университет Тюбингена .
- ^ Бойд-Грабер, Дж. (2006). «Добавление плотных, взвешенных соединений в WordNet». Материалы Третьей Международной конференции Wordnet .
- ^ Хинрикс, Э. (декабрь 2012 г.). «Использование отношений часть-целое для автоматического вывода сложных международных отношений в GermaNet». Международный журнал по семантической сети и информационным системам . 3 .
- ^ Перейти обратно: а б с Феллбаум, К. (май 2012 г.). «Проблемы многоязычной сети Wordnet». Языковые ресурсы и оценка . 46 (2): 313–326. дои : 10.1007/s10579-012-9186-z . S2CID 254379442 .