ДжермаНет
GermaNet — это семантическая сеть немецкого языка . Он семантически связывает существительные , глаголы и прилагательные , группируя лексические единицы, выражающие одну и ту же концепцию, в синсеты и определяя семантические отношения между этими синсетами. [1] GermaNet бесплатен для академического использования после подписания лицензии. GermaNet имеет много общего с английским WordNet и может рассматриваться как онлайновый тезаурус или облегченная онтология . GermaNet разрабатывается и поддерживается в Тюбингенском университете с 1997 года в рамках исследовательской группы по общей и компьютерной лингвистике. Он был интегрирован в EuroWordNet , многоязычную лексико-семантическую базу данных. [2]
База данных
[ редактировать ]Содержание
[ редактировать ]GermaNet делит лексическое пространство на набор понятий, связанных между собой семантическими отношениями. Семантическая концепция моделируется синсетом . Синсет — это набор слов (называемых лексическими единицами), в котором все слова имеют одинаковое или почти одинаковое значение. Таким образом, синсет — это набор синонимов, сгруппированных под одним определением, или «глоссом».
Помимо пояснения, синсеты помечены их синтаксической функцией и сопровождаются примерами предложений для каждого отдельного значения в синсете. [3] Так же, как и в WordNet , для каждой категории слов семантическое пространство разделено на ряд семантических полей, тесно связанных с основными узлами семантической сети: Ort , или «местоположение», Körper , или «тело» и т. д. [2]
Начиная с версии 15.0 (выпуск май 2020 г.), GermaNet содержит: [2]
- Синсеты: 144113
- Лексические единицы: 185000
- Литералы: 169521
- Концептуальные отношения: 157921
- Лексические отношения (без синонимов): 12203
- Сплит-соединения: 98905
- Записей межъязыкового индекса (ILI): 28564
- Описания смыслов в Викисловаре: 29548
Формат
[ редактировать ]Все данные GermaNet хранятся в PostgreSQL реляционной базе данных . Схема базы данных соответствует внутренней структуре GermaNet: имеются таблицы для хранения синсетов, лексических единиц, концептуальных и лексических отношений и т. д. [3] Данные GermaNet распространяются как в этом формате базы данных, так и в виде файлов XML . В данных XML два типа файлов: один для синсетов, другой для отношений, представляют все данные, доступные в базе данных GermaNet. [4]
Интерфейсы
[ редактировать ]Существуют программные библиотеки и API-интерфейсы для Java , Python , JavaScript и Perl . [5] [6] Эти программы распространяются по лицензиям свободного программного обеспечения и обеспечивают легкий доступ ко всей информации в различных версиях GermaNet.
GermaNet Rover — это онлайн-приложение, которое можно использовать для поиска синсетов в GermaNet, изучения связанных с ними данных и расчета семантического сходства пар синсетов. Он включает визуализацию связи гиперонима и расширенные возможности фильтрации для поиска синсетов.
Лицензии
[ редактировать ]GermaNet 15.0 (выпущена в мае 2020 г.) может распространяться по одному из следующих типов лицензионных соглашений : [7]
- Лицензионное соглашение на академические исследования : для целей исследований в академических учреждениях. Лицензионная плата за академическое использование не взимается. Лицензии не выдаются отдельным студентам, и те, кто хочет получить лицензию, должны проконсультироваться с научным руководителем.
- Лицензионное соглашение на исследования и разработки : распространяется на неакадемические учреждения и исследовательские консорциумы. Используется исключительно для разработки технологий и внутренних исследований.
- Соглашение о коммерческой лицензии : распространяется на неакадемические учреждения и коммерческие предприятия. Он разрешает разработку технологий и внутренние исследования, а также дает неисключительное право на распространение и продажу любого производного продукта или услуги.
Альтернативы
[ редактировать ]Open-de-WordNet — это бесплатная альтернатива GermaNet, совместимая с WordNet . [8]
Лингвистические приложения
[ редактировать ]GermaNet использовался для множества приложений, в том числе:
- семантический анализ [9]
- поверхностное распознавание неявной структуры документа [9]
- анализ соединений [9]
- анализ секционных предпочтений [10]
- определение смысла слова [11]
См. также
[ редактировать ]- Гипоним
- Это-а
- Машиночитаемый словарь
- Онтология (информатика)
- Семантическая сеть
- Семантическая сеть
- Синоним Кольцо
- Таксономия
- УБИ-ЛМФ
- Устранение неоднозначности смысла слова
Ссылки
[ редактировать ]- ^ Петра Сторйоханн (23 июня 2010 г.). Лексико-семантические отношения: теоретические и практические аспекты . Издательство Джона Бенджамина. стр. 165–. ISBN 978-90-272-3138-3 . Проверено 16 ноября 2011 г.
- ^ Jump up to: а б с «GermaNet – Введение» . uni-tuebingen.de . Проверено 1 октября 2020 г.
- ^ Jump up to: а б В. Хенрих, Э. Хинрикс. 2010. GernEdiT — Инструмент редактирования GermaNet . В: Материалы седьмой конференции по международным языковым ресурсам и оценке .
- ^ «Формат данных» . Проверено 1 октября 2020 г.
- ^ «Приложения и инструменты» . uni-tuebingen.de . Проверено 1 октября 2020 г.
- ^ "GermaNet::Flat" . Metacpan.org . Проверено 1 октября 2020 г.
- ^ «Лицензии» . uni-tuebingen.de . Проверено 1 октября 2020 г.
- ^ «GitHub — hdaSprachtechnologie/odenet: Открытая немецкая сеть WordNet» . 14 ноября 2019 г. . Получено 20 ноября 2019 г. - через GitHub.
- ^ Jump up to: а б с Мануэла Кунце и Дитмар Рёснер. 2004. Проблемы использования GermaNet в качестве ресурса в реальных приложениях.
- ^ Сабина Шульте им Вальде, 2004. Синсеты GermaNet как селективные предпочтения в семантической кластеризации глаголов.
- ^ Сайто и др., 2002. Оценка GermanNet: проблемы с использованием GermaNet для автоматического устранения неоднозначности смысла слов.