Jump to content

Статистическая семантика

В лингвистике , до степени точности , статистическая семантика применяет методы статистики к проблеме определения значения слов или фраз, в идеале посредством обучения без учителя по крайней мере, достаточной для целей поиска информации .

История [ править ]

Термин статистическая семантика впервые был использован Уорреном Уивером в его известной статье о машинном переводе . [1] Он утверждал, что устранение неоднозначности смысла слова для машинного перевода должно основываться на частоте совпадения контекстных слов рядом с данным целевым словом. Основополагающее предположение о том, что «слово характеризуется тем, какое слово оно содержит», было выдвинуто Дж. Р. Фертом . [2] Это предположение известно в лингвистике как гипотеза распределения . [3] Эмиль Делавене определил статистическую семантику как «статистическое исследование значений слов, их частоты и порядка повторения». [4] « Фурнас и др., 1983» часто упоминается как основополагающий вклад в статистическую семантику. [5] Первым успехом в этой области стал латентный семантический анализ .

Приложения [ править ]

Исследования в области статистической семантики привели к созданию широкого спектра алгоритмов, которые используют гипотезу распределения для обнаружения многих аспектов семантики , применяя статистические методы к большим корпусам :

Связанные поля [ изменить ]

Статистическая семантика фокусируется на значениях общих слов и отношениях между общими словами, в отличие от интеллектуального анализа текста , который имеет тенденцию фокусироваться на целых документах, коллекциях документов или именованных объектах (именах людей, мест и организаций). Статистическая семантика — это подполе вычислительной семантики , которая, в свою очередь, является подполем компьютерной лингвистики и обработки естественного языка .

Многие из приложений статистической семантики (перечисленных выше) также могут быть решены с помощью алгоритмов на основе лексикона вместо корпуса алгоритмов статистической семантики на основе . Одним из преимуществ алгоритмов на основе корпусов является то, что они обычно не так трудоемки, как алгоритмы на основе лексикона. Еще одним преимуществом является то, что их обычно легче адаптировать к новым языкам или более шумным новым типам текста, например, из социальных сетей, чем алгоритмы на основе лексикона. [21] Однако наилучшая производительность приложения часто достигается за счет объединения этих двух подходов. [22]

См. также [ править ]

Ссылки [ править ]

Источники [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 039d7605392f009a7ae4be14f9546ed1__1718508900
URL1:https://arc.ask3.ru/arc/aa/03/d1/039d7605392f009a7ae4be14f9546ed1.html
Заголовок, (Title) документа по адресу, URL1:
Statistical semantics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)