Статистическая семантика
Семантика | ||||||||
---|---|---|---|---|---|---|---|---|
| ||||||||
Семантика языки программирования | ||||||||
| ||||||||
В лингвистике , до степени точности , статистическая семантика применяет методы статистики к проблеме определения значения слов или фраз, в идеале посредством обучения без учителя по крайней мере, достаточной для целей поиска информации .
История [ править ]
Термин статистическая семантика впервые был использован Уорреном Уивером в его известной статье о машинном переводе . [1] Он утверждал, что устранение неоднозначности смысла слова для машинного перевода должно основываться на частоте совпадения контекстных слов рядом с данным целевым словом. Основополагающее предположение о том, что «слово характеризуется тем, какое слово оно содержит», было выдвинуто Дж. Р. Фертом . [2] Это предположение известно в лингвистике как гипотеза распределения . [3] Эмиль Делавене определил статистическую семантику как «статистическое исследование значений слов, их частоты и порядка повторения». [4] « Фурнас и др., 1983» часто упоминается как основополагающий вклад в статистическую семантику. [5] Первым успехом в этой области стал латентный семантический анализ .
Приложения [ править ]
Исследования в области статистической семантики привели к созданию широкого спектра алгоритмов, которые используют гипотезу распределения для обнаружения многих аспектов семантики , применяя статистические методы к большим корпусам :
- Измерение сходства значений слов [6] [7] [8] [9]
- Измерение сходства в отношениях слов [10]
- Моделирование обобщения на основе сходства [11]
- Обнаружение слов с заданным отношением [12]
- Классификация отношений между словами [13]
- Извлечение ключевых слов из документов [14] [15]
- Измерение связности текста [16]
- Открытие разных значений слов [17]
- Различение разных значений слов [18]
- Субкогнитивные аспекты слов [19]
- Отличие похвалы от критики [20]
Связанные поля [ изменить ]
Статистическая семантика фокусируется на значениях общих слов и отношениях между общими словами, в отличие от интеллектуального анализа текста , который имеет тенденцию фокусироваться на целых документах, коллекциях документов или именованных объектах (именах людей, мест и организаций). Статистическая семантика — это подполе вычислительной семантики , которая, в свою очередь, является подполем компьютерной лингвистики и обработки естественного языка .
Многие из приложений статистической семантики (перечисленных выше) также могут быть решены с помощью алгоритмов на основе лексикона вместо корпуса алгоритмов статистической семантики на основе . Одним из преимуществ алгоритмов на основе корпусов является то, что они обычно не так трудоемки, как алгоритмы на основе лексикона. Еще одним преимуществом является то, что их обычно легче адаптировать к новым языкам или более шумным новым типам текста, например, из социальных сетей, чем алгоритмы на основе лексикона. [21] Однако наилучшая производительность приложения часто достигается за счет объединения этих двух подходов. [22]
См. также [ править ]
Ссылки [ править ]
- ^ Уивер 1955 г.
- ^ Ферт 1957
- ^ Салгрен 2008
- ^ Делавене 1960
- ^ Фурнас и др. 1983 год
- ^ Лунд, Берджесс и Этчли, 1995 г.
- ^ Ландауэр и Дюмэ, 1997 г.
- ^ Макдональд и Рамскар, 2001 г.
- ^ Терра и Кларк 2003
- ^ Терни, 2006 г.
- ^ Ярлетт 2008
- ^ Херст 1992
- ^ Терни и Литтман, 2005 г.
- ^ Франк и др. 1999 год
- ^ Терни 2000
- ^ Терни 2003
- ^ Пантель и Лин, 2002 г.
- ^ Терни 2004 г.
- ^ Терни 2001
- ^ Терни и Литтман, 2003 г.
- ^ Сальгрен и Карлгрен, 2009 г.
- ^ Терни и др. 2003 г.
Источники [ править ]
- Делавене, Эмиль (1960). Введение в машинный перевод . Нью-Йорк, штат Нью-Йорк: Темза и Гудзон . ОСЛК 1001646 .
- Ферт, Джон Р. (1957). «Краткий обзор лингвистической теории 1930-1955». Исследования в области лингвистического анализа . Оксфорд: Филологическое общество : 1–32.
- Фрэнк, Эйбе; Пейнтер, Гордон В.; Виттен, Ян Х.; Гутвин, Карл; Невилл-Мэннинг, Крейг Г. (1999). «Извлечение ключевой фразы для конкретного домена». Материалы шестнадцатой международной совместной конференции по искусственному интеллекту . IJCAI-99 . Том. 2. Калифорния: Морган Кауфманн. стр. 668–673. CiteSeerX 10.1.1.148.3598 . ISBN 1-55860-613-0 .
- Фурнас, Джордж В .; Ландауэр, ТК; Гомес, Л.М.; Дюмэ, ST (1983). «Статистическая семантика: анализ потенциальной производительности информационных систем по ключевым словам» (PDF) . Технический журнал Bell System . 62 (6): 1753–1806. дои : 10.1002/j.1538-7305.1983.tb03513.x . S2CID 22483184 . Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 12 июля 2012 г.
- Херст, Марти А. (1992). «Автоматическое получение гипонимов из корпуса большого текста» (PDF) . Материалы четырнадцатой международной конференции по компьютерной лингвистике . КОЛИНГ '92 . Нант, Франция. стр. 539–545. CiteSeerX 10.1.1.36.701 . дои : 10.3115/992133.992154 . Архивировано из оригинала (PDF) 22 мая 2012 г. Проверено 12 июля 2012 г.
- Ландауэр, Томас К.; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» . Психологический обзор . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . дои : 10.1037/0033-295x.104.2.211 . S2CID 1144461 .
- Лунд, Кевин; Берджесс, Курт; Эчли, Рут Энн (1995). «Семантический и ассоциативный прайминг в многомерном семантическом пространстве» (PDF) . Материалы 17-й ежегодной конференции Общества когнитивных наук . Общество когнитивных наук . стр. 660–665. [ постоянная мертвая ссылка ]
- Макдональд, Скотт; Рамскар, Майкл (2001). «Проверка гипотезы распределения: влияние контекста на суждения о семантическом сходстве». Материалы 23-й ежегодной конференции Общества когнитивных наук . стр. 611–616. CiteSeerX 10.1.1.104.7535 .
- Пантель, Патрик; Линь, Декан (2002). «Открытие значений слов по тексту». Материалы конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . КДД '02 . стр. 613–619. CiteSeerX 10.1.1.12.6771 . дои : 10.1145/775047.775138 . ISBN 1-58113-567-Х .
- Салгрен, Магнус (2008). «Гипотеза распределения» (PDF) . Ривиста ди Лингвистика . 20 (1): 33–53. Архивировано из оригинала (PDF) 15 марта 2012 г. Проверено 20 ноября 2012 г.
- Салгрен, Магнус ; Карлгрен, Юсси (2009). Терминологический майнинг в социальных сетях . CIKM '09: Материалы 18-й конференции ACM по управлению информацией и знаниями. дои : 10.1145/1645953.1646006 .
- Терра, Эджидио Л.; Кларк, Чарльз Лос-Анджелес (2003). «Оценки частоты статистических показателей сходства слов» (PDF) . Труды конференции по технологиям человеческого языка и Североамериканского отделения Ассоциации компьютерной лингвистики, 2003 г. HLT/NAACL 2003. стр. 244–251. CiteSeerX 10.1.1.12.9041 . дои : 10.3115/1073445.1073477 . Архивировано из оригинала (PDF) 3 ноября 2013 г. Проверено 12 июля 2012 г.
- Терни, Питер Д. (май 2000 г.). «Алгоритмы обучения извлечению ключевых фраз». Информационный поиск . 2 (4): 303–336. arXiv : cs/0212020 . CiteSeerX 10.1.1.11.1829 . дои : 10.1023/A:1009976227802 . S2CID 7007323 .
- Терни, Питер Д. (2001). «Отвечая на субкогнитивные вопросы теста Тьюринга: ответ французскому языку». Журнал экспериментального и теоретического искусственного интеллекта . 13 (4): 409–419. arXiv : cs/0212015 . CiteSeerX 10.1.1.12.8734 . дои : 10.1080/09528130110100270 . S2CID 59099 .
- Терни, Питер Д. (2003). «Последовательное извлечение ключевых фраз с помощью веб-майнинга». Материалы восемнадцатой международной совместной конференции по искусственному интеллекту . IJCAI-03. Акапулько, Мексика. стр. 434–439. arXiv : cs/0308033 . Бибкод : 2003cs........8033T . CiteSeerX 10.1.1.100.3751 .
- Терни, Питер Д. (2004). «Устранение неоднозначности смысла слов с помощью веб-анализа вероятностей совместного появления слов» . Материалы Третьего международного семинара по оценке систем семантического анализа текста . СЕНСЕВАЛЬ-3. Барселона, Испания. стр. 239–242. arXiv : cs/0407065 . Бибкод : 2004cs........7065T .
- Терни, Питер Д. (2006). «Сходство смысловых отношений» . Компьютерная лингвистика . 32 (3): 379–416. arXiv : cs/0608100 . Бибкод : 2006cs........8100T . CiteSeerX 10.1.1.75.8007 . дои : 10.1162/coli.2006.32.3.379 . S2CID 2468783 .
- Терни, Питер Д.; Литтман, Майкл Л. (октябрь 2003 г.). «Измерение похвалы и критики: вывод о семантической направленности по ассоциации» . Транзакции ACM в информационных системах . 21 (4): 315–346. arXiv : cs/0309034 . Бибкод : 2003cs........9034T . CiteSeerX 10.1.1.9.6425 . дои : 10.1145/944012.944013 . S2CID 2024 .
- Терни, Питер Д.; Литтман, Майкл Л. (2005). «Корпусное изучение аналогий и семантических отношений» . Машинное обучение . 60 (1–3): 251–278. arXiv : cs/0508103 . Бибкод : 2005cs........8103T . CiteSeerX 10.1.1.90.9819 . дои : 10.1007/s10994-005-0913-1 . S2CID 9322367 .
- Терни, Питер Д.; Литтман, Майкл Л.; Бигэм, Джеффри; Шнайдер, Виктор (2003). «Объединение независимых модулей для решения задач синонимов и аналогий с множественным выбором» . Материалы Международной конференции по последним достижениям в области обработки естественного языка . РАНЛП-03. Боровец , Болгария. стр. 482–489. arXiv : cs/0309035 . Бибкод : 2003cs........9035T . CiteSeerX 10.1.1.5.2939 .
- Уивер, Уоррен (1955). «Перевод» (PDF) . В Локке, Западная Нью-Йорк; Бут, окружной прокурор (ред.). Машинный перевод языков . Кембридж, Массачусетс : MIT Press . стр. 15–23. ISBN 0-8371-8434-7 . Архивировано из оригинала (PDF) 29 января 2019 г. Проверено 12 июля 2012 г.
- Ярлетт, Дэниел Г. (2008). Изучение языка посредством обобщения на основе сходства (PDF) (кандидатская диссертация). Стэнфордский университет. Архивировано из оригинала (PDF) 19 апреля 2014 г.