Jump to content

PlWordNet

plWordNet — лексико-семантическая база данных польского языка . Он включает в себя наборы синонимичных лексических единиц ( синсеты ), за которыми следуют краткие определения. plWordNet служит тезаурусом-словарем, где понятия (синсеты) и отдельные значения слов ( лексические единицы ) определяются по их расположению в сети взаимоотношений, отражающей лексико-семантическую систему польского языка. [1] plWordNet также используется в качестве одного из основных ресурсов для создания инструментов обработки естественного языка для польского языка. [1]

plWordNet разрабатывается во Вроцлавском политехническом университете как часть CLARIN . Работы выполняются The WrocUT Language Technology Group G4.19 с 2005 года. [2] финансируется Министерством науки и высшего образования и ЕС.Тезаурус . был создан «с нуля» лексикографами и инженерами естественного языка [3] Первая версия plWordNet была опубликована в 2009 году — она содержала 20 223 леммы, 26 990 лексических единиц и 17 695 синсетов. [4] Версия 4.0 была выпущена в 2018 году. Самая последняя версия — plWordNet 4.2 .

Содержание

[ редактировать ]
Данные получены 30 мая 2014 г.

На данный момент plWordNet содержит 195 тысяч лемм , 295 тысяч лексических единиц и 228 тысяч синсетов. [5] он уже перерос Princeton WordNet По количеству лексических единиц . plWordNet состоит из существительных (135 тыс.), глаголов (21 тыс.), прилагательных (29 тыс.) и наречий (8 тыс.). [5] Каждое значение данного слова представляет собой отдельную лексическую единицу. Единицы, обозначающие одно и то же понятие и существенно не различающиеся по стилистическому регистру, были объединены в синсеты – наборы синонимов.Каждую лексическую единицу относят к одному из доменов (смысловых категорий) с указанием ее общего значения. Домены plWordNet соответствуют файлам лексикографов Princeton WordNet .

Семантические категории в plWordNet

[ редактировать ]
Существительные домены [6] Глагольные домены [7] Прилагательные домены [8]
  • самый высокий в иерархии (л.с.)
  • атрибут (чешский)
  • причины (что)
  • время
  • очки (ЧЧ)
  • эмоция (чувство)
  • действовать (ли)
  • группа (грп)
  • количество (то)
  • еда
  • форма
  • местоположение (мск)
  • человек(а)
  • общение (пор)
  • владение (поз.)
  • процесс (прк)
  • завод (RSL)
  • природный объект (рз)
  • вещество
  • штат (ст)
  • классификация (система)
  • cognition (umy)
  • артефакт (восемь)
  • событие (здарз)
  • природное явление (зж)
  • животное (zw)
  • эмоция (cczuj)
  • потребление (чедз)
  • общение (cpor)
  • владение (cpos)
  • состояние (cst)
  • познание (куми)
  • создание (квит)
  • контакт (дтк)
  • тело (высокое)
  • погода (пог)
  • восприятие (пст)
  • движение (запах)
  • социальный (исп)
  • соревнование (вал)
  • изменить(змн)
  • дедъективный (град)
  • качество (как)
  • девербальный (с чешского)
  • отношение (отн.)

Описание лексической единицы

[ редактировать ]

Некоторые лексические единицы снабжены информацией о стилистическом регистре, кратким определением, примерами употребления и ссылкой на соответствующую статью в Википедии.

существительное город город, город
домен место и расположение место и расположение
определение большая, плотно застроенная и населенная территория с отдельной администрацией; место жизни людей, работающих в промышленности или сфере услуг большой, плотно застроенный и населенный район с отдельной администрацией; место проживания людей, работающих в промышленности или сфере услуг
пример В городе у человека больше шансов сделать карьеру и заработать деньги, хотя впасть в нищету там легче, чем в деревне. В городе гораздо легче сделать карьеру, чем в деревне, но и впасть в нищету гораздо легче.

Важнейшим элементом, определяющим значения слов, являются лексико-семантические и словообразовательные отношения , которые существуют между синсетами и между лексическими единицами. Один синсет группирует такие лексические единицы, которые имеют один и тот же набор отношений. [9] На основе отношений, присвоенных синсетам и единицам, инструменты обработки естественного языка могут сделать вывод о значении леммы, что важно, например, для устранения неоднозначности смысла слова .

Отношения выбранных существительных [9]

[ редактировать ]
Связь Тест Пример
синонимия
  • Если он/она/оно X, то он/она/оно также Y
  • Если он/она/оно Y, то он/она/оно также X
{кот2; домашняя кошка1}, 'кошка, домашняя кошка'
межрегистровая синонимия
  • X и Y имеют общий гипероним, их наборы гипонимов не пересекаются.
  • X и Y не синонимы
  • Если он/она/оно X, то он/она/оно также Y [в пределах стилистической разницы регистров]
  • Если он/она/оно X, то он/она/оно также Y [в пределах стилистической разницы регистров]
{boy1}, {shit1}, 'мальчик, ~брат, сквирт'
гипо-/гиперонимы
  • Если он/она/оно X, то он/она/оно должен быть Y
  • Если он/она/оно Y, то он/она/оно не обязательно X
  • Если он/она/оно не Y, то он/она/оно не может быть X
{бук1} разновидность ». лиственного — это « дерева
меро-/холонимия
  • X является частью Y
  • Y не является частью X
  • Y — целое, частью которого является X
{airbag1} является частью {car1} , « подушка безопасности» является частью « car».

Польские синсеты связаны с соответствующими синсетами Princeton WordNet набором межъязыковых лексико-семантических отношений (таких как, например, синонимия, частичная синонимия, гипонимия ). На данный момент сопоставлено 91 578 синсетов (что составляет около 2/3 синсетов plWordNet, среди которых в основном существительные). [10] Сопоставление позволяет применять plWordNet в машинном переводе , например, в онлайн-сервисе Google Translate . Картирование может сыграть важную роль в использовании инструментов текстового анализа с английского на польский язык. [11]

Приложения

[ редактировать ]

plWordNet доступен по открытого доступа лицензии , позволяющей свободный просмотр. Он доступен пользователям в виде онлайн-словаря , мобильного приложения и веб-сервисов. Некоторые приложения plWordNet:

  1. ^ Jump up to: а б «Словосец» .
  2. ^ Мазиарж М., Пясецкий М., Шпакович С., Приближаясь к plWordNet 2.0, http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
  3. ^ «PlWordNet 3.1» .
  4. ^ Пясецкий М., Шпакович С., Брода Б., Wordnet с нуля, Вроцлав, 2009 г., стр. 170, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up . .pdf
  5. ^ Jump up to: а б Подробную сравнительную статистику plWN и PWN можно найти на веб-странице plWN: http://plwordnet.pwr.wroc.pl/wordnet/stats [доступ: 30.06.2014]
  6. ^ Рабежа-Вишневска Ю., Мазиарж М., Пясецкий М., Шпакович С., Описание лексико-семантических отношений в Słowasieci 2.0. существительное, стр. 4.
  7. ^ Хойка Б., Мазиарж М., Пясецкий М., Рабега-Вишневска Ю., Шпакович С., Описание лексико-семантических отношений в Słowasieci 2.0. Глагол, стр. 15-16.
  8. ^ Мазиарж М., Шпакович С., Пясецкий М., Семантические отношения между прилагательными в польском WordNet 2.0: новый набор отношений, обсуждение и оценка, Когнитивные исследования / Études Cognitives, t. 12, с. 149–179, 2012.
  9. ^ Jump up to: а б Мазиарж М., Пясецкий М., Шпакович С., Рабежа-Вишневска Й., Семантические отношения между существительными в польской сети слов, основанные на лексикографической и семантической традиции, Когнитивные исследования/Etudes Cognitives, т, 11, с. 161-181, 2011.
  10. ^ http://plwordnet.pwr.wroc.pl/wordnet/stats [доступ: 30.05.2014]
  11. ^ Климчак, Кароль М. (2020). «Текстовый анализ в финансах: проблемы эффективного применения». Инновации в сфере финансовых услуг: баланс государственных и частных интересов . Рутледж. п. 199-216. дои : 10.4324/9781003051664-15 . ISBN  9781003051664 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 151d14b0cac4663ac04a8f8fac22c6cd__1674643140
URL1:https://arc.ask3.ru/arc/aa/15/cd/151d14b0cac4663ac04a8f8fac22c6cd.html
Заголовок, (Title) документа по адресу, URL1:
PlWordNet - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)