Jump to content

Коллокация

В корпусной лингвистике словосочетание — это серия слов или терминов , которые встречаются чаще, чем можно было бы ожидать случайно. Во фразеологии словосочетание это разновидность композиционной фраземы , то есть ее можно понять по словам, входящим в ее состав. Это контрастирует с идиомой , где смысл целого не может быть выведен из его частей и может быть совершенно не связан.

Существует около семи основных типов словосочетаний: прилагательное + существительное, существительное + существительное (например, собирательные существительные ), существительное + глагол, глагол + существительное, наречие + прилагательное, глаголы + предложная фраза ( фразовые глаголы ) и глагол + наречие.

Извлечение словосочетаний — это вычислительный метод, который находит словосочетания в документе или корпусе с использованием различных компьютерной лингвистики, элементов напоминающих интеллектуальный анализ данных .

Расширенное определение [ править ]

Коллокации — это частично или полностью фиксированные выражения, которые устанавливаются в результате многократного использования в зависимости от контекста. Такие термины, как «кристально чистый» , «менеджер среднего звена» , «нуклеарная семья » и «косметическая хирургия» , являются примерами созвучных пар слов.

Коллокации могут находиться в синтаксическом отношении (например, глагол-объект : принятие и решение ), лексическом отношении (например, антонимия ) или не находиться в лингвистически определенном отношении. Знание словосочетаний жизненно важно для грамотного использования языка: грамматически правильное предложение будет выглядеть неуклюжим, если коллокационные предпочтения будут нарушены. Это делает коллокацию интересной областью преподавания языка.

Корпусные лингвисты определяют ключевое слово в контексте ( KWIC ) и определяют слова, непосредственно окружающие его. Это дает представление о том, как используются слова.

Обработка словосочетаний включает в себя ряд параметров, наиболее важным из которых является мера ассоциации , которая оценивает, является ли совпадение чисто случайным или статистически значимым . Из-за неслучайной природы языка большинство словосочетаний классифицируются как значимые, а оценки ассоциаций просто используются для ранжирования результатов. Обычно используемые меры связи включают взаимную информацию , t-показатели и логарифмическое правдоподобие . [1] [2]

Вместо того, чтобы выбрать одно определение, Гледхилл [3] предполагает, что коллокация включает в себя как минимум три различных точки зрения: совместное появление, статистическое представление, которое рассматривает коллокацию как повторяющееся появление в тексте узла и его коллокаций; [4] [5] [6] конструкция, рассматривающая словосочетание либо как соотношение между лексемой и лексико-грамматическим образцом, [7] или как отношение между базой и ее коллокативными партнерами; [8] и выражение, прагматический взгляд на словосочетание как на традиционную единицу выражения, независимо от формы. [9] [10] Эти разные точки зрения контрастируют с обычным способом представления словосочетаний во фразеологических исследованиях. Традиционно коллокация объясняется с точки зрения всех трех точек зрения одновременно, в континууме:

Свободная комбинация ↔ связанное словосочетание ↔ замороженная идиома

В словарях [ править ]

В 1933 году во втором промежуточном отчете Гарольда Палмера об английских словосочетаниях подчеркивалась важность словосочетания как ключа к созданию естественно звучащего языка для любого, кто изучает иностранный язык . [11] Таким образом, начиная с 1940-х годов информация о повторяющихся словосочетаниях стала стандартной характеристикой одноязычных словарей для учащихся . Поскольку эти словари стали «менее сосредоточены на словах и более сосредоточены на фразах», [12] больше внимания уделялось коллокации. Эта тенденция поддерживалась с начала 21 века наличием больших текстовых корпусов и интеллектуального программного обеспечения для корпусных запросов , что позволило обеспечить более систематическое описание словосочетания в словарях. Используя эти инструменты, словари, такие как словарь английского языка Macmillan и словарь современного английского языка Лонгмана, включали рамки или панели со списками частых словосочетаний. [13]

Существует также ряд специализированных словарей, посвященных описанию частых словосочетаний в языке. [14] К ним относятся (для испанского языка) Redes: Diccionario combinatorio del español contemporaneo (2004 г.), (для французского языка) Le Robert: Dictionnaire des combinaisons de mots (2007 г.) и (для английского языка) Словарь избранных словосочетаний LTP (1997 г.) и Macmillan. Словарь словосочетаний (2010). [15]

Статистически значимое сочетание [ править ]

Стьюдента T -критерий можно использовать для определения того, является ли появление словосочетания в корпусе статистически значимым. [16] Для биграммы , позволять – безусловная вероятность появления в корпусе размером , и пусть – безусловная вероятность появления в корпусе. Т-оценка для биграммы рассчитывается как:

где является выборочным средним возникновением , это количество появлений , это вероятность при нулевой гипотезе, что и появляются в тексте самостоятельно и — выборочная дисперсия. С большим - тест t эквивалентен Z -тесту .

См. также [ править ]

Ссылки [ править ]

  1. ^ Даннинг, Тед (1993): « Точные методы статистики неожиданностей и совпадений. Архивировано 5 августа 2012 г. в Wayback Machine ». Компьютерная лингвистика 19, 1 (март 1993 г.), 61–74.
  2. ^ Даннинг, Тед (21 марта 2008 г.). «Сюрприз и совпадение» . blogspot.com. Архивировано из оригинала 20 января 2012 г. Проверено 9 апреля 2012 г.
  3. ^ Гледхилл К. (2000): Словосочетания в научной литературе. Архивировано 29 июня 2023 г. в Wayback Machine , Нарр, Тюбинген.
  4. ^ Ферт-младший (1957): Статьи по лингвистике 1934–1951. Оксфорд: Издательство Оксфордского университета.
  5. ^ Синклер Дж. (1996): «В поисках единиц значения», в Textus, IX, 75–106.
  6. ^ Смаджа Ф.А. и Маккеун, КР (1990): « Автоматическое извлечение и представление словосочетаний для генерации языка. Архивировано 6 сентября 2015 г. в Wayback Machine », Proceedings of ACL'90, 252–259, Питтсбург, Пенсильвания.
  7. ^ Ханстон С. и Фрэнсис Г. (2000): Грамматика шаблонов - корпусный подход к лексической грамматике английского языка. Архивировано 29 июня 2023 г. в Wayback Machine , Амстердам, Джон Бенджаминс.
  8. ^ Хаусманн Ф.Дж. (1989): Словарь словосочетаний. В книге Хаусманн Ф.Дж., Райхманн О., Виганд Х.Э., Згуста Л.(ред.), Словари: международный справочник по лексикографии. Словари. Словари. Берлин/Нью-Йорк: Де Грютер. 1010-1019.
  9. ^ Мун Р. (1998): Фиксированные выражения и идиомы, корпусный подход. Оксфорд, Издательство Оксфордского университета.
  10. ^ Фрат П. и Гледхилл К. (2005): « Кластеры свободного ареала или замороженные куски? Ссылка как определяющий критерий для лингвистических единиц». [ мертвая ссылка ] », в журнале English and North American Research, том 38: 25–43.
  11. ^ Коуи, AP, Английские словари для иностранных учащихся, Oxford University Press, 1999: 54–56.
  12. ^ Беджоинт, Х., Лексикография английского языка, Oxford University Press, 2010: 318.
  13. ^ «MED Второе издание – Ключевые особенности – Macmillan» . macmillandictionaries.com . Архивировано из оригинала 28 сентября 2020 г. Проверено 24 августа 2011 г.
  14. ^ Хербст, Т. и Клотц, М. «Синтагматические и фразеологические словари» в Коуи, AP (ред.) Оксфордская история английской лексикографии, 2009: часть 2, 234–243
  15. ^ «Словарь словосочетаний Macmillan - Как он был написан - Macmillan» . macmillandictionaries.com . Архивировано из оригинала 21 декабря 2018 г. Проверено 24 августа 2011 г.
  16. ^ Мэннинг, Крис; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. стр. 163–166 . ISBN  0262133601 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fa32d029882bc493b58144243484dc28__1715022660
URL1:https://arc.ask3.ru/arc/aa/fa/28/fa32d029882bc493b58144243484dc28.html
Заголовок, (Title) документа по адресу, URL1:
Collocation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)