УБИ

УБИ
Версия	1.7
Рамки	Ява
Тип	Многоязычный лексико-семантический ресурс
Лицензия	Бесплатные лицензии на программное обеспечение, сочетание лицензий на входящие в комплект ресурсы.
Веб-сайт	https://www.ukp.tu-darmstadt.de/data/lexical-resources/uby

УБИ ^[1] — это крупномасштабный лексико-семантический ресурс для обработки естественного языка (НЛП), разработанный в лаборатории Ubiquitous Knowledge Processing Lab (UKP) на факультете компьютерных наук Технического университета Дармштадта .UBY основан на стандарте ISO Lexical Markup Framework (LMF) и объединяет информацию из нескольких созданных экспертами и совместно созданных ресурсов на английском и немецком языках.

UBY применяет подход выравнивания смысла слова (подполе устранения неоднозначности смысла слова ) для объединения информации о существительных и глаголах. ^[2]В настоящее время UBY содержит 12 интегрированных ресурсов на английском и немецком языках.

Включенные ресурсы [ править ]

Ресурсы на английском языке: WordNet , Викисловарь , Arc.Ask3.Ru , FrameNet , VerbNet , OmegaWiki.
Немецкие ресурсы: немецкая Arc.Ask3.Ru , немецкий Викисловарь , OntoWiktionary, GermaNet и IMSLex-Subcat.
Многоязычные ресурсы: OmegaWiki.

Формат [ править ]

УБИ-ЛМФ ^[3]^[4] — это формат стандартизации лексических ресурсов для обработки естественного языка (NLP). ^[5] УБИ-ЛМФ соответствует стандарту ISO для лексиконов: LMF , разработанному в рамках ISO-TC37 , и представляет собой так называемую сериализацию этого абстрактного стандарта. ^[6] В соответствии с LMF, все атрибуты и другие лингвистические термины, представленные в UBY-LMF, относятся к стандартизированным описаниям их значений в ISOCat .

Доступность и версии [ править ]

UBY доступен как часть открытого репозитория ресурсов DKPro. DKPro UBY — это Java-фреймворк для создания и доступа к смысловым лексическим ресурсам в соответствии с лексической моделью UBY-LMF . Хотя код UBY лицензируется по нескольким свободным лицензиям, таким как GPL и CC by SA , некоторые из включенных ресурсов находятся под другими лицензиями, например, только для академического использования .

Существует также версия UBY для семантической сети под названием лимонUby. ^[7] LemonUby основан на модели лимона, предложенной в проекте Monnet. Lemon — это модель для моделирования лексики и машиночитаемых словарей, связанная с семантической сетью и облаком связанных данных.

UBY против BabelNet [ править ]

BabelNet — это автоматически лексико-семантический ресурс, который связывает Википедию с наиболее популярными вычислительными словарями, такими как WordNet . На первый взгляд UBY и BabelNet кажутся идентичными и конкурирующими проектами; однако эти два ресурса придерживаются разных философий.На раннем этапе своего существования BabelNet в первую очередь основывалась на совмещении WordNet и Википедии, что по самой природе Википедии подразумевало сильный акцент на существительных, и особенно на именованных объектах. Позже фокус BabelNet был больше смещен в сторону других частей речи. UBY, однако, с самого начала был ориентирован на информацию о глаголах, особенно на синтаксическую информацию, которая содержится в таких ресурсах, как VerbNet или FrameNet . Еще одним важным отличием является то, что UBY моделирует другие ресурсы полностью и независимо друг от друга, так что UBY можно использовать в качестве полной замены каждого из содержащихся ресурсов. Коллективный доступ к множеству ресурсов обеспечивается посредством согласования доступных ресурсов. Более того, модель LMF в UBY обеспечивает единый способ доступа как ко всем, так и к отдельным ресурсам. Между тем, BabelNet использует подход, аналогичный WordNet, и объединяет выбранные типы информации в так называемые Babel Synsets. Это делает доступ и обработку знаний более удобными, однако стирает границы между связанными базами знаний. Кроме того, BabelNet обогащает исходные ресурсы, например, предоставляя автоматически создаваемые переводы понятий, которые не лексикализованы на определенном языке. Хотя это обеспечивает значительное увеличение охвата многоязычных приложений, автоматический вывод информации всегда подвержен определенной степени ошибок.

Таким образом, из-за перечисленных различий между двумя ресурсами использование одного или другого может быть предпочтительным в зависимости от конкретного сценария приложения. Фактически, эти два ресурса можно использовать для предоставления обширных лексикографических знаний, особенно если они связаны друг с другом. Открытая и хорошо документированная структура этих двух ресурсов является важной вехой на пути к достижению этой цели.

Приложения [ править ]

UBY успешно использовался в различных задачах НЛП, таких как устранение неоднозначности в смысле слова , ^[8] Кластеризация смыслов слов, ^[9] Маркировка смысла глагола ^[10] и Классификация текста . ^[11] UBY также вдохновил другие проекты по автоматическому построению лексико-семантических ресурсов. ^[12] Кроме того, лимонUby использовался для улучшения результатов машинного перевода , особенно для поиска перевода неизвестных слов. ^[13]

См. также [ править ]

Внешние ссылки [ править ]

Ссылки [ править ]

^ Ирина Гуревич ; Джудит Экл-Колер; Сильвана Хартманн; Майкл Матушек; Кристиан М. Мейер; Кристиан Вирт (апрель 2012 г.). UBY — Масштабный унифицированный лексико-семантический ресурс на основе LMF . Материалы конференции европейского отделения Ассоциации компьютерной лингвистики. стр. 580–590. ISBN 978-1-937284-19-0 . S2CID 9692934 . Викиданные Q51752742 . {{cite book}}: |journal= игнорируется ( помогите )
^ Матушек, Майкл: Выравнивание смысла слов лексических ресурсов. Технический университет, Дармштадт [Диссертация], (2015)
^ Джудит Экл-Колер, Ирина Гуревич, Сильвана Хартманн, Майкл Матушек, Кристиан М Мейер: UBY-LMF - исследование границ языково-независимых моделей лексики, в Гил Франкопуло, LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )
^ Джудит Экл-Колер, Ирина Гуревич, Сильвана Хартманн, Майкл Матушек и Кристиан М. Мейер. UBY-LMF — унифицированная модель стандартизации гетерогенных лексико-семантических ресурсов в ISO-LMF. В: Николетта Кальцолари, Халид Шукри, Тьерри Деклерк, Мехмет Угур Доган, Бенте Мегаард, Джозеф Мариани, Ян Одейк и Стелиос Пиперидис: материалы 8-й Международной конференции по языковым ресурсам и оценке (LREC), с. 275–282, май 2012 г.
^ Готфрид Херцог, Лоран Ромари, Андреас Витт: Стандарты языковых ресурсов. Стендовый доклад на выставке МЕТА-ФОРУМ 2013 – МЕТА, сентябрь 2013, Берлин, Германия.
^ Лоран Ромари: пешеходные переходы TEI и LMF. КоРР абс/1301.2444 (2013)
^ Джудит Экл-Колер, Джон Филип МакКрэй и Кристиан Кьяркос: LemonUby - большой, взаимосвязанный, синтаксически богатый лексический ресурс для онтологий. В: Журнал Semantic Web Journal, вып. 6, нет. 4, с. 371-378, 2015.
^ Кристиан М. Мейер и Ирина Гуревич: Выставлять - не бездельничать: Многоязычный словарь с устранением смысловой неоднозначности для измерения сходства глаголов, в: Материалы 24-й Международной конференции по компьютерной лингвистике (COLING), Vol. 4, с. 1763–1780, декабрь 2012 г. Мумбаи, Индия.
^ Майкл Матушек, Тристан Миллер и Ирина Гуревич: независимый от языка подход к кластеризации смыслов для расширенного WSD. В: Йозеф Рупперт и Гертруда Фаас: Материалы 12-й конференции по обработке естественного языка (KONVENS 2014), стр. 11–21, Издательство Университета Хильдесхайма, октябрь 2014 г.
^ Костадин Чолаков, Джудит Экл-Колер и Ирина Гуревич: Автоматизированная маркировка смысла глаголов на основе связанных лексических ресурсов. В: Материалы 14-й конференции Европейского отделения Ассоциации компьютерной лингвистики (EACL 2014), с. 68-77, Ассоциация компьютерной лингвистики
^ Люси Флекова и Ирина Гуревич: Личностное профилирование вымышленных персонажей с использованием смысловых связей между лексическими ресурсами, в: Материалы конференции 2015 г. по эмпирическим методам обработки естественного языка (EMNLP), сентябрь 2015 г.
^ Хосе Жилдо де А. Жуниор, Ульрих Шиль и Леандро Балби Мариньо. 2015. Подход к построению лексико-семантических ресурсов на основе разнородных источников информации. В материалах 30-го ежегодного симпозиума ACM по прикладным вычислениям (SAC '15). ACM, Нью-Йорк, США, 402–408. DOI=10.1145/2695664.2695896 http://doi.acm.org/10.1145/2695664.2695896
^ Дж. П. МакКрэй, П. Чимиано: Анализ переводов из сети открытых связанных данных, в: Материалы совместного семинара по NLP&LOD и SWAIE: Semantic Web, Linked Open Data and Information Extraction, стр. 9-13 (2013).

[1] Ирина Гуревич ; Джудит Экл-Колер; Сильвана Хартманн; Майкл Матушек; Кристиан М. Мейер; Кристиан Вирт (апрель 2012 г.). UBY — Масштабный унифицированный лексико-семантический ресурс на основе LMF . Материалы конференции европейского отделения Ассоциации компьютерной лингвистики. стр. 580–590. ISBN 978-1-937284-19-0 . S2CID 9692934 . Викиданные Q51752742 . {{cite book}}: |journal= игнорируется ( помогите )

[2] Матушек, Майкл: Выравнивание смысла слов лексических ресурсов. Технический университет, Дармштадт [Диссертация], (2015)

[3] Джудит Экл-Колер, Ирина Гуревич, Сильвана Хартманн, Майкл Матушек, Кристиан М Мейер: UBY-LMF - исследование границ языково-независимых моделей лексики, в Гил Франкопуло, LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )

[4] Джудит Экл-Колер, Ирина Гуревич, Сильвана Хартманн, Майкл Матушек и Кристиан М. Мейер. UBY-LMF — унифицированная модель стандартизации гетерогенных лексико-семантических ресурсов в ISO-LMF. В: Николетта Кальцолари, Халид Шукри, Тьерри Деклерк, Мехмет Угур Доган, Бенте Мегаард, Джозеф Мариани, Ян Одейк и Стелиос Пиперидис: материалы 8-й Международной конференции по языковым ресурсам и оценке (LREC), с. 275–282, май 2012 г.

[5] Готфрид Херцог, Лоран Ромари, Андреас Витт: Стандарты языковых ресурсов. Стендовый доклад на выставке МЕТА-ФОРУМ 2013 – МЕТА, сентябрь 2013, Берлин, Германия.

[6] Лоран Ромари: пешеходные переходы TEI и LMF. КоРР абс/1301.2444 (2013)

[7] Джудит Экл-Колер, Джон Филип МакКрэй и Кристиан Кьяркос: LemonUby - большой, взаимосвязанный, синтаксически богатый лексический ресурс для онтологий. В: Журнал Semantic Web Journal, вып. 6, нет. 4, с. 371-378, 2015.

[8] Кристиан М. Мейер и Ирина Гуревич: Выставлять - не бездельничать: Многоязычный словарь с устранением смысловой неоднозначности для измерения сходства глаголов, в: Материалы 24-й Международной конференции по компьютерной лингвистике (COLING), Vol. 4, с. 1763–1780, декабрь 2012 г. Мумбаи, Индия.

[9] Майкл Матушек, Тристан Миллер и Ирина Гуревич: независимый от языка подход к кластеризации смыслов для расширенного WSD. В: Йозеф Рупперт и Гертруда Фаас: Материалы 12-й конференции по обработке естественного языка (KONVENS 2014), стр. 11–21, Издательство Университета Хильдесхайма, октябрь 2014 г.

[10] Костадин Чолаков, Джудит Экл-Колер и Ирина Гуревич: Автоматизированная маркировка смысла глаголов на основе связанных лексических ресурсов. В: Материалы 14-й конференции Европейского отделения Ассоциации компьютерной лингвистики (EACL 2014), с. 68-77, Ассоциация компьютерной лингвистики

[11] Люси Флекова и Ирина Гуревич: Личностное профилирование вымышленных персонажей с использованием смысловых связей между лексическими ресурсами, в: Материалы конференции 2015 г. по эмпирическим методам обработки естественного языка (EMNLP), сентябрь 2015 г.

[12] Хосе Жилдо де А. Жуниор, Ульрих Шиль и Леандро Балби Мариньо. 2015. Подход к построению лексико-семантических ресурсов на основе разнородных источников информации. В материалах 30-го ежегодного симпозиума ACM по прикладным вычислениям (SAC '15). ACM, Нью-Йорк, США, 402–408. DOI=10.1145/2695664.2695896 http://doi.acm.org/10.1145/2695664.2695896

[13] Дж. П. МакКрэй, П. Чимиано: Анализ переводов из сети открытых связанных данных, в: Материалы совместного семинара по NLP&LOD и SWAIE: Semantic Web, Linked Open Data and Information Extraction, стр. 9-13 (2013).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]