Jump to content

Извлечение терминологии

Извлечение терминологии (также известное как извлечение терминов , извлечение глоссария терминов , распознавание или интеллектуальный анализ терминологии ) — это подзадача извлечения информации . Целью извлечения терминологии является автоматическое извлечение соответствующих терминов из данного корпуса . [1]

В эпоху семантической сети все большее число сообществ и сетевых предприятий начали получать доступ к Интернету и взаимодействовать через него . Моделирование этих сообществ и их информационных потребностей важно для некоторых веб-приложений , таких как тематические веб-сканеры , [2] веб-сервисы , [3] рекомендательные системы , [4] и т. д. Развитие извлечения терминологии также имеет важное значение для языковой индустрии .

Одним из первых шагов к моделированию предметной области является сбор словаря терминов, относящихся к предметной области, составляющих лингвистическую поверхностную манифестацию концепций предметной области . В литературе описано несколько методов автоматического извлечения технических терминов из хранилищ документов, специфичных для конкретной предметной области. [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17]

Обычно подходы к автоматическому извлечению терминов используют лингвистические процессоры ( тегирование частей речи , фрагментирование фраз ) для извлечения терминологических кандидатов, т.е. синтаксически правдоподобных терминологических именных фраз . Существительные включают составные слова (например, «кредитная карта»), прилагательные существительные (например, «местный офис туристической информации») и предложные существительные (например, «совет директоров»). В английском языке наиболее часто встречаются первые два (сложные слова и прилагательные существительные). [18] Затем терминологические записи фильтруются из списка кандидатов с использованием статистических методов и методов машинного обучения . После фильтрации эти термины из-за их низкой двусмысленности и высокой специфичности особенно полезны для концептуализации предметной области или для поддержки создания онтологии предметной области или терминологической базы. Кроме того, извлечение терминологии является очень полезной отправной точкой для семантического сходства , управления знаниями , человеческого и машинного перевода и т. д.

двуязычной Извлечение терминологии

Методы извлечения терминологии могут быть применены к параллельным корпусам . В сочетании, например, со статистикой совпадения , можно получить кандидатов на перевод терминов. [19] Двуязычная терминология также может быть извлечена из сопоставимых корпусов. [20] (корпуса, содержащие тексты в пределах одного типа текста, предметной области, но не переводы документов между собой).

См. также [ править ]

Ссылки [ править ]

  1. ^ Альрехами, Хасан Х; Уокер, Коралл (2018). «SemCluster: автоматическое извлечение ключевых фраз без присмотра с использованием распространения сходства». Достижения в области систем вычислительного интеллекта . Достижения в области интеллектуальных систем и вычислений. Том. 650. стр. 222–235. дои : 10.1007/978-3-319-66939-7_19 . ISBN  978-3-319-66938-0 .
  2. ^ Менцер Ф., Пант Г. и Сринивасан П. Тематически управляемые краулеры: проблемы машинного обучения .
  3. ^ Фан Дж. и Камбхампати С. Снимок общедоступных веб-служб , в архиве записей ACM SIGMOD, том 34, выпуск 1 (март 2005 г.).
  4. ^ Ян Чжэн Вэй, Люк Моро, Николас Р. Дженнингс. Рыночный подход к рекомендательным системам , в ACM Transactions on Information Systems (TOIS), 23(3), 2005.
  5. ^ Буриго Д. и Жакмен К. Извлечение терминов + кластеризация терминов: интегрированная платформа для компьютерной терминологии. Архивировано 19 июня 2006 г. в Wayback Machine , в Proc. EACL, 1999 г.
  6. ^ Кольер, Н.; Нобата, К.; Цудзи, Дж. (2002). «Автоматическое получение и классификация терминологии с использованием помеченного корпуса в области молекулярной биологии». Терминология . 7 (2): 239–257. doi : 10.1075/term.7.2.07col .
  7. ^ К. Франци, С. Ананиаду и Х. Мима. (2000). Автоматическое распознавание терминов, состоящих из нескольких слов: метод C-значения/NC-значения. В: К. Николау и К. Стефанидис (ред.) Международный журнал цифровых библиотек, Vol. 3, № 2., стр. 115-130.
  8. ^ К. Франци, С. Ананиаду и Дж. Цуджи. (1998) Метод C-значения/NC-значения для автоматического распознавания терминов из нескольких слов , В: ECDL '98 Proceedings of the Second European Conference on Research и Advanced Technology for Digital Libraries, стр. 585-604. ISBN   3-540-65101-2
  9. ^ Л. Козаков; Ю. Парк; Т. Фин; Ю. Дрисси; Ю. Доганата и Т. Кофино. (2004). «Извлечение и использование глоссария в системе поиска и доставки информации для службы технической поддержки IBM» (PDF) . Системный журнал IBM . 43 (3): 546–563. дои : 10.1147/sj.433.0546 .
  10. ^ Навильи Р. и Веларди, П. Изучение онтологий предметной области из хранилищ документов и специализированных веб-сайтов . Компьютерная лингвистика. 30 (2), MIT Press, 2004, стр. 151–179.
  11. ^ Оливер А. и Васкес М. TBXTools: бесплатный, быстрый и гибкий инструмент для автоматического извлечения терминологии . Труды последних достижений в области обработки естественного языка (RANLP 2015), 2015, стр. 473–479.
  12. ^ Ю. Парк, Р. Дж. Берд, Б. Богураев. «Автоматическое извлечение глоссария: помимо идентификации терминологии» , Международная конференция по компьютерной лингвистике, Материалы 19-й международной конференции по компьютерной лингвистике - Тайбэй, Тайвань, 2002 г.
  13. ^ Склано, Ф. и Веларди, П. . TermExtractor : веб-приложение для изучения общей терминологии новых веб-сообществ. Чтобы появиться в Proc. 3-й Международной конференции по совместимости корпоративного программного обеспечения и приложений (I-ESA 2007). Фуншал (остров Мадейра), Португалия, 28–30 марта 2007 г.
  14. ^ П. Веларди, Р. Навильи, П. Д'Амадио. Анализ Интернета для создания специализированных глоссариев , IEEE Intelligent Systems, 23(5), IEEE Press, 2008, стр. 18–25.
  15. ^ Вермтер Дж. и Хан У. В поисках новой терминологии в очень больших корпорациях , в Proc. K-CAP'05, 2–5 октября 2005 г., Банф, Альберта, Канада.
  16. ^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение сроков обучения онтологий предметной области с использованием распространенности и тенденции предметной области . В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотой Берег. ISBN   978-1-920682-51-4
  17. ^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение сроков обучения онтологий предметной области в вероятностной структуре . В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Золотой Берег. ISBN   978-1-920682-51-4
  18. ^ Альрехами, Хасан Х; Уокер, Коралл (2018). «SemCluster: автоматическое извлечение ключевых фраз без присмотра с использованием распространения сходства». Достижения в области систем вычислительного интеллекта . Достижения в области интеллектуальных систем и вычислений. Том. 650. стр. 222–235. дои : 10.1007/978-3-319-66939-7_19 . ISBN  978-3-319-66938-0 .
  19. ^ Макен, Лив; Лефевер, Элс; Хост, Вероника (2013). «TExSIS: извлечение двуязычной терминологии из параллельных корпусов с использованием выравнивания по частям» . Терминология . 19 (1): 1–30. doi : 10.1075/term.19.1.01mac . hdl : 1854/LU-2128573 .
  20. ^ Шаров, Серж; Рапп, Рейнхард; Цвайгенбаум, Пьер; Фунг, Паскаль (2013), Создание и использование сопоставимых корпораций (PDF) , Берлин: Springer-Verlag
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: cd9244ef0e6f5192573c48bec35ab399__1699092120
URL1:https://arc.ask3.ru/arc/aa/cd/99/cd9244ef0e6f5192573c48bec35ab399.html
Заголовок, (Title) документа по адресу, URL1:
Terminology extraction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)