Jump to content

Семантическое пространство

Семантические пространства [примечание 1] [1] в области естественного языка стремятся создать представления естественного языка, способные передавать смысл. Первоначальная мотивация создания семантических пространств проистекает из двух основных проблем естественного языка: словарного несоответствия (тот факт, что одно и то же значение может быть выражено разными способами) и двусмысленности естественного языка (тот факт, что один и тот же термин может иметь несколько значений).

Применение семантических пространств в обработке естественного языка (НЛП) направлено на преодоление ограничений подходов, основанных на правилах или моделях, действующих на уровне ключевых слов . Основным недостатком этих подходов является их хрупкость и большие ручные усилия, необходимые для создания либо основанных на правилах систем НЛП, либо обучающих корпусов для обучения моделям. [2] [3] Модели, основанные на правилах и машинном обучении, фиксируются на уровне ключевых слов и разрушаются, если словарь отличается от словаря, определенного в правилах или от обучающего материала, используемого для статистических моделей.

Исследования семантических пространств насчитывают более 20 лет. В 1996 году были опубликованы две статьи, привлекшие большое внимание к общей идее создания семантических пространств: латентно-семантический анализ. [4] и гиперпространственный аналог языка . [5] Однако их внедрение было ограничено большими вычислительными усилиями, необходимыми для построения и использования этих семантических пространств. Прорыв в точности моделирования ассоциативных отношений между словами (например, «паутина», «зажигалка», в отличие от синонимических отношений типа «кит-дельфин», «космонавт-водитель») был достигнут путем явного семантический анализ (ESA) [6] в 2007 году. ESA представляло собой новый подход, основанный на немашинном обучении, который представлял слова в виде векторов со 100 000 измерений (где каждое измерение представляет собой статью в Википедии ). Однако практическое применение подхода ограничено из-за большого количества требуемых размерностей векторов.

Совсем недавно достижения в области нейронных сетей в сочетании с другими новыми подходами ( тензорами ) привели к множеству новых разработок: Word2vec. [7] от Google , GloVe [8] из Стэнфордского университета и fastText [9] из лаборатории Facebook AI Research (FAIR).

См. также

[ редактировать ]
  1. ^ также называется распределенным семантическим пространством или распределенной семантической памятью.
  1. ^ Барони, Марко; Ленчи, Алессандро (2010). «Распределительная память: общая основа корпусной семантики». Компьютерная лингвистика . 36 (4): 673–721. CiteSeerX   10.1.1.331.3769 . дои : 10.1162/coli_a_00016 . S2CID   5584134 .
  2. ^ Скотт К. Дирвестер; Сьюзан Т. Дюмэ; Томас К. Ландауэр; Джордж В. Фурнас; Ричард А. Харшен (1990). «Индексирование с помощью скрытого семантического анализа» (PDF) . Журнал Американского общества информатики .
  3. ^ Син Вэй; В. Брюс Крофт (2007). «Исследование производительности поиска с помощью тематических моделей, созданных вручную» . Proceeding RIAO '07 Крупномасштабный семантический доступ к контенту (тексту, изображению, видео и звуку) . Риао '07: 333–349.
  4. ^ «LSA: Решение проблемы Платона» . lsa.colorado.edu . Проверено 19 апреля 2016 г.
  5. ^ Лунд, Кевин; Берджесс, Курт (1 июня 1996 г.). «Создание многомерных семантических пространств на основе лексического совпадения» . Методы, инструменты и компьютеры исследования поведения . 28 (2): 203–208. дои : 10.3758/BF03204766 . ISSN   0743-3808 .
  6. ^ Евгений Габрилович и Шауль Маркович (2007). «Вычисление семантической связанности с использованием явного семантического анализа на основе Википедии» (PDF) . Учеб. 20-я Международная совместная конференция. Об искусственном интеллекте (IJCAI). Стр. 1606–1611 .
  7. ^ Томаш Миколов; Илья Суцкевер; Кай Чен; Грег Коррадо; Джеффри Дин (2013). «Распределенные представления слов и фраз и их композиционность». arXiv : 1310.4546 [ cs.CL ].
  8. ^ Джеффри Пеннингтон; Ричард Сочер; Кристофер Д. Мэннинг (2014). «GloVe: глобальные векторы для представления слов» (PDF) .
  9. ^ Маннес, Джон (2 мая 2017 г.). «Библиотека fastText Facebook теперь оптимизирована для мобильных устройств» . ТехКранч . Проверено 12 января 2018 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bd7778ee388ab6cc979bfe07768b4f82__1701831780
URL1:https://arc.ask3.ru/arc/aa/bd/82/bd7778ee388ab6cc979bfe07768b4f82.html
Заголовок, (Title) документа по адресу, URL1:
Semantic space - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)