PlWordNet
plWordNet — лексико-семантическая база данных польского языка . Он включает в себя наборы синонимичных лексических единиц ( синсеты ), за которыми следуют краткие определения. plWordNet служит тезаурусом-словарем, где понятия (синсеты) и отдельные значения слов ( лексические единицы ) определяются по их расположению в сети взаимоотношений, отражающей лексико-семантическую систему польского языка. [1] plWordNet также используется в качестве одного из основных ресурсов для создания инструментов обработки естественного языка для польского языка. [1]
История
[ редактировать ]plWordNet разрабатывается во Вроцлавском политехническом университете как часть CLARIN . Работы выполняются The WrocUT Language Technology Group G4.19 с 2005 года. [2] финансируется Министерством науки и высшего образования и ЕС.Тезаурус . был создан «с нуля» лексикографами и инженерами естественного языка [3] Первая версия plWordNet была опубликована в 2009 году — она содержала 20 223 леммы, 26 990 лексических единиц и 17 695 синсетов. [4] Версия 4.0 была выпущена в 2018 году. Самая последняя версия — plWordNet 4.2 .
Содержание
[ редактировать ]На данный момент plWordNet содержит 195 тысяч лемм , 295 тысяч лексических единиц и 228 тысяч синсетов. [5] он уже перерос Princeton WordNet По количеству лексических единиц . plWordNet состоит из существительных (135 тыс.), глаголов (21 тыс.), прилагательных (29 тыс.) и наречий (8 тыс.). [5] Каждое значение данного слова представляет собой отдельную лексическую единицу. Единицы, обозначающие одно и то же понятие и существенно не различающиеся по стилистическому регистру, были объединены в синсеты – наборы синонимов.Каждую лексическую единицу относят к одному из доменов (смысловых категорий) с указанием ее общего значения. Домены plWordNet соответствуют файлам лексикографов Princeton WordNet .
Семантические категории в plWordNet
[ редактировать ]Существительные домены [6] | Глагольные домены [7] | Прилагательные домены [8] |
---|---|---|
|
|
|
Описание лексической единицы
[ редактировать ]Некоторые лексические единицы снабжены информацией о стилистическом регистре, кратким определением, примерами употребления и ссылкой на соответствующую статью в Википедии.
существительное | город | город, город | ||
---|---|---|---|---|
домен | место и расположение | место и расположение | ||
определение | большая, плотно застроенная и населенная территория с отдельной администрацией; место жизни людей, работающих в промышленности или сфере услуг | большой, плотно застроенный и населенный район с отдельной администрацией; место проживания людей, работающих в промышленности или сфере услуг | ||
пример | В городе у человека больше шансов сделать карьеру и заработать деньги, хотя впасть в нищету там легче, чем в деревне. | В городе гораздо легче сделать карьеру, чем в деревне, но и впасть в нищету гораздо легче. |
Важнейшим элементом, определяющим значения слов, являются лексико-семантические и словообразовательные отношения , которые существуют между синсетами и между лексическими единицами. Один синсет группирует такие лексические единицы, которые имеют один и тот же набор отношений. [9] На основе отношений, присвоенных синсетам и единицам, инструменты обработки естественного языка могут сделать вывод о значении леммы, что важно, например, для устранения неоднозначности смысла слова .
Отношения выбранных существительных [9]
[ редактировать ]Связь | Тест | Пример |
---|---|---|
синонимия |
| {кот2; домашняя кошка1}, 'кошка, домашняя кошка' |
межрегистровая синонимия |
| {boy1}, {shit1}, 'мальчик, ~брат, сквирт' |
гипо-/гиперонимы |
| {бук1} разновидность ». лиственного — это « дерева |
меро-/холонимия |
| {airbag1} является частью {car1} , « подушка безопасности» является частью « car». |
Польские синсеты связаны с соответствующими синсетами Princeton WordNet набором межъязыковых лексико-семантических отношений (таких как, например, синонимия, частичная синонимия, гипонимия ). На данный момент сопоставлено 91 578 синсетов (что составляет около 2/3 синсетов plWordNet, среди которых в основном существительные). [10] Сопоставление позволяет применять plWordNet в машинном переводе , например, в онлайн-сервисе Google Translate . Картирование может сыграть важную роль в использовании инструментов текстового анализа с английского на польский язык. [11]
Приложения
[ редактировать ]plWordNet доступен по открытого доступа лицензии , позволяющей свободный просмотр. Он доступен пользователям в виде онлайн-словаря , мобильного приложения и веб-сервисов. Некоторые приложения plWordNet:
- конструирование и разработка инструментов для автоматической обработки языка ,
- устранение смысловой неоднозначности (WSD) ,
- автоматическая классификация текстов,
- машинный перевод ,
- афазии , лечение
- Польско-английский и англо-польский словарь,
- Семантический словарь польского языка,
- словарь синонимов и тезаурус ,
- словарь антонимов .
Ссылки
[ редактировать ]- ^ Jump up to: а б «Словосец» .
- ^ Мазиарж М., Пясецкий М., Шпакович С., Приближаясь к plWordNet 2.0, http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
- ^ «PlWordNet 3.1» .
- ^ Пясецкий М., Шпакович С., Брода Б., Wordnet с нуля, Вроцлав, 2009 г., стр. 170, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up . .pdf
- ^ Jump up to: а б Подробную сравнительную статистику plWN и PWN можно найти на веб-странице plWN: http://plwordnet.pwr.wroc.pl/wordnet/stats [доступ: 30.06.2014]
- ^ Рабежа-Вишневска Ю., Мазиарж М., Пясецкий М., Шпакович С., Описание лексико-семантических отношений в Słowasieci 2.0. существительное, стр. 4.
- ^ Хойка Б., Мазиарж М., Пясецкий М., Рабега-Вишневска Ю., Шпакович С., Описание лексико-семантических отношений в Słowasieci 2.0. Глагол, стр. 15-16.
- ^ Мазиарж М., Шпакович С., Пясецкий М., Семантические отношения между прилагательными в польском WordNet 2.0: новый набор отношений, обсуждение и оценка, Когнитивные исследования / Études Cognitives, t. 12, с. 149–179, 2012.
- ^ Jump up to: а б Мазиарж М., Пясецкий М., Шпакович С., Рабежа-Вишневска Й., Семантические отношения между существительными в польской сети слов, основанные на лексикографической и семантической традиции, Когнитивные исследования/Etudes Cognitives, т, 11, с. 161-181, 2011.
- ^ http://plwordnet.pwr.wroc.pl/wordnet/stats [доступ: 30.05.2014]
- ^ Климчак, Кароль М. (2020). «Текстовый анализ в финансах: проблемы эффективного применения». Инновации в сфере финансовых услуг: баланс государственных и частных интересов . Рутледж. п. 199-216. дои : 10.4324/9781003051664-15 . ISBN 9781003051664 .