Извлечение терминологии
![]() | Эта статья может быть слишком технической для понимания большинства читателей . ( декабрь 2018 г. ) |
Часть серии о |
Перевод |
---|
![]() |
Типы |
Теория |
Технологии |
Локализация |
Институциональный |
Связанные темы |
|
Извлечение терминологии (также известное как извлечение терминов , извлечение глоссария терминов , распознавание или интеллектуальный анализ терминологии ) — это подзадача извлечения информации . Целью извлечения терминологии является автоматическое извлечение соответствующих терминов из данного корпуса . [1]
В эпоху семантической сети все большее число сообществ и сетевых предприятий начали получать доступ к Интернету и взаимодействовать через него . Моделирование этих сообществ и их информационных потребностей важно для некоторых веб-приложений , таких как тематические веб-сканеры , [2] веб-сервисы , [3] рекомендательные системы , [4] и т. д. Развитие извлечения терминологии также имеет важное значение для языковой индустрии .
Одним из первых шагов к моделированию предметной области является сбор словаря терминов, относящихся к предметной области, составляющих лингвистическую поверхностную манифестацию концепций предметной области . В литературе описано несколько методов автоматического извлечения технических терминов из хранилищ документов, специфичных для конкретной предметной области. [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17]
Обычно подходы к автоматическому извлечению терминов используют лингвистические процессоры ( тегирование частей речи , фрагментирование фраз ) для извлечения терминологических кандидатов, т.е. синтаксически правдоподобных терминологических именных фраз . Существительные включают составные слова (например, «кредитная карта»), прилагательные существительные (например, «местный офис туристической информации») и предложные существительные (например, «совет директоров»). В английском языке наиболее часто встречаются первые два (сложные слова и прилагательные существительные). [18] Затем терминологические записи фильтруются из списка кандидатов с использованием статистических методов и методов машинного обучения . После фильтрации эти термины из-за их низкой двусмысленности и высокой специфичности особенно полезны для концептуализации предметной области или для поддержки создания онтологии предметной области или терминологической базы. Кроме того, извлечение терминологии является очень полезной отправной точкой для семантического сходства , управления знаниями , человеческого и машинного перевода и т. д.
двуязычной Извлечение терминологии
Методы извлечения терминологии могут быть применены к параллельным корпусам . В сочетании, например, со статистикой совпадения , можно получить кандидатов на перевод терминов. [19] Двуязычная терминология также может быть извлечена из сопоставимых корпусов. [20] (корпуса, содержащие тексты в пределах одного типа текста, предметной области, но не переводы документов между собой).
См. также [ править ]
- Компьютерная лингвистика
- Глоссарий
- Обработка естественного языка
- Онтология предметной области
- Тематическое индексирование
- Таксономия (общая)
- Терминология
- Анализ текста
- Упрощение текста
Ссылки [ править ]
- ^ Альрехами, Хасан Х; Уокер, Коралл (2018). «SemCluster: автоматическое извлечение ключевых фраз без присмотра с использованием распространения сходства». Достижения в области систем вычислительного интеллекта . Достижения в области интеллектуальных систем и вычислений. Том. 650. стр. 222–235. дои : 10.1007/978-3-319-66939-7_19 . ISBN 978-3-319-66938-0 .
- ^ Менцер Ф., Пант Г. и Сринивасан П. Тематически управляемые краулеры: проблемы машинного обучения .
- ^ Фан Дж. и Камбхампати С. Снимок общедоступных веб-служб , в архиве записей ACM SIGMOD, том 34, выпуск 1 (март 2005 г.).
- ^ Ян Чжэн Вэй, Люк Моро, Николас Р. Дженнингс. Рыночный подход к рекомендательным системам , в ACM Transactions on Information Systems (TOIS), 23(3), 2005.
- ^ Буриго Д. и Жакмен К. Извлечение терминов + кластеризация терминов: интегрированная платформа для компьютерной терминологии. Архивировано 19 июня 2006 г. в Wayback Machine , в Proc. EACL, 1999 г.
- ^ Кольер, Н.; Нобата, К.; Цудзи, Дж. (2002). «Автоматическое получение и классификация терминологии с использованием помеченного корпуса в области молекулярной биологии». Терминология . 7 (2): 239–257. doi : 10.1075/term.7.2.07col .
- ^ К. Франци, С. Ананиаду и Х. Мима. (2000). Автоматическое распознавание терминов, состоящих из нескольких слов: метод C-значения/NC-значения. В: К. Николау и К. Стефанидис (ред.) Международный журнал цифровых библиотек, Vol. 3, № 2., стр. 115-130.
- ^ К. Франци, С. Ананиаду и Дж. Цуджи. (1998) Метод C-значения/NC-значения для автоматического распознавания терминов из нескольких слов , В: ECDL '98 Proceedings of the Second European Conference on Research и Advanced Technology for Digital Libraries, стр. 585-604. ISBN 3-540-65101-2
- ^ Л. Козаков; Ю. Парк; Т. Фин; Ю. Дрисси; Ю. Доганата и Т. Кофино. (2004). «Извлечение и использование глоссария в системе поиска и доставки информации для службы технической поддержки IBM» (PDF) . Системный журнал IBM . 43 (3): 546–563. дои : 10.1147/sj.433.0546 .
- ^ Навильи Р. и Веларди, П. Изучение онтологий предметной области из хранилищ документов и специализированных веб-сайтов . Компьютерная лингвистика. 30 (2), MIT Press, 2004, стр. 151–179.
- ^ Оливер А. и Васкес М. TBXTools: бесплатный, быстрый и гибкий инструмент для автоматического извлечения терминологии . Труды последних достижений в области обработки естественного языка (RANLP 2015), 2015, стр. 473–479.
- ^ Ю. Парк, Р. Дж. Берд, Б. Богураев. «Автоматическое извлечение глоссария: помимо идентификации терминологии» , Международная конференция по компьютерной лингвистике, Материалы 19-й международной конференции по компьютерной лингвистике - Тайбэй, Тайвань, 2002 г.
- ^ Склано, Ф. и Веларди, П. . TermExtractor : веб-приложение для изучения общей терминологии новых веб-сообществ. Чтобы появиться в Proc. 3-й Международной конференции по совместимости корпоративного программного обеспечения и приложений (I-ESA 2007). Фуншал (остров Мадейра), Португалия, 28–30 марта 2007 г.
- ^ П. Веларди, Р. Навильи, П. Д'Амадио. Анализ Интернета для создания специализированных глоссариев , IEEE Intelligent Systems, 23(5), IEEE Press, 2008, стр. 18–25.
- ^ Вермтер Дж. и Хан У. В поисках новой терминологии в очень больших корпорациях , в Proc. K-CAP'05, 2–5 октября 2005 г., Банф, Альберта, Канада.
- ^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение сроков обучения онтологий предметной области с использованием распространенности и тенденции предметной области . В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотой Берег. ISBN 978-1-920682-51-4
- ^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение сроков обучения онтологий предметной области в вероятностной структуре . В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотой Берег. ISBN 978-1-920682-51-4
- ^ Альрехами, Хасан Х; Уокер, Коралл (2018). «SemCluster: автоматическое извлечение ключевых фраз без присмотра с использованием распространения сходства». Достижения в области систем вычислительного интеллекта . Достижения в области интеллектуальных систем и вычислений. Том. 650. стр. 222–235. дои : 10.1007/978-3-319-66939-7_19 . ISBN 978-3-319-66938-0 .
- ^ Макен, Лив; Лефевер, Элс; Хост, Вероника (2013). «TExSIS: извлечение двуязычной терминологии из параллельных корпусов с использованием выравнивания по частям» . Терминология . 19 (1): 1–30. doi : 10.1075/term.19.1.01mac . hdl : 1854/LU-2128573 .
- ^ Шаров, Серж; Рапп, Рейнхард; Цвайгенбаум, Пьер; Фунг, Паскаль (2013), Создание и использование сопоставимых корпораций (PDF) , Берлин: Springer-Verlag