Извлечение коллокаций
Извлечение словосочетаний — это задача использования компьютера для автоматического извлечения словосочетаний из корпуса .
Традиционный метод извлечения словосочетаний состоит в том, чтобы найти формулу, основанную на статистических количествах этих слов, для расчета оценки, связанной с каждой парой слов. Предлагаемые формулы: взаимная информация , t-критерий , z-критерий , критерий хи-квадрат и отношение правдоподобия . [1]
В области корпусной лингвистики , словосочетание определяется как последовательность слов или терминов которые встречаются чаще, чем можно было бы ожидать случайно. «Кристально чистый», «менеджер среднего звена», «нуклеарная семья» и «косметическая хирургия» — примеры созвучных пар слов. Некоторые слова часто встречаются вместе, потому что они составляют составное существительное , например, «ботинки для верховой езды», «велосипедист» или «извлечение словосочетания» само по себе.
См. также [ править ]
- Коллокационное ограничение
- Коллоструктурный анализ
- Сложное существительное, прилагательное и глагол
- фразовый глагол
- Сиамские близнецы (английский язык)
- Извлечение терминологии
- n-граммный анализ
Внешние ссылки [ править ]

Ссылки [ править ]
- ^ Мэннинг, CD; Шютце, Х. (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-13360-9 .