Скрытый семантический анализ
Семантика | ||||||||
---|---|---|---|---|---|---|---|---|
|
||||||||
Семантика языки программирования | ||||||||
|
||||||||
Скрытый семантический анализ ( LSA ) — это метод обработки естественного языка , в частности дистрибутивной семантики , анализа отношений между набором документов и терминами, которые они содержат, путем создания набора понятий, связанных с документами и терминами. LSA предполагает, что близкие по значению слова будут встречаться в похожих фрагментах текста ( гипотеза распределения ). Матрица, содержащая количество слов в документе (строки представляют уникальные слова, а столбцы представляют каждый документ), строится из большого фрагмента текста, а математический метод, называемый разложением по сингулярным значениям (SVD), используется для уменьшения количества строк при сохранении структуры сходства. среди колонн. Затем документы сравниваются по косинусному сходству между любыми двумя столбцами. Значения, близкие к 1, представляют очень похожие документы, а значения, близкие к 0, представляют очень разные документы. [ 1 ]
Методика поиска информации с использованием скрытой семантической структуры была запатентована в 1988 году. [ 2 ] Скотт Дирвестер , Сьюзан Дюмэ , Джордж Фурнас , Ричард Харшман , Томас Ландауэр , Карен Лохбаум и Линн Стритер . В контексте его применения к поиску информации его иногда называют скрытой семантической индексацией ( LSI ). [ 3 ]
Обзор
[ редактировать ]Матрица вхождений
[ редактировать ]LSA может использовать матрицу терминов документа , которая описывает появление терминов в документах; это разреженная матрица , строки которой соответствуют терминам , а столбцы — документам. Типичным примером взвешивания элементов матрицы является tf-idf (частота термина – обратная частота документа): вес элемента матрицы пропорционален количеству раз появления терминов в каждом документе, где редкие термины имеют повышенный вес, чтобы отразить их относительную важность.
Эта матрица также является общей для стандартных семантических моделей, хотя она не обязательно выражается в виде матрицы явно, поскольку не всегда используются математические свойства матриц.
Понижение ранга
[ редактировать ]После построения матрицы вхождений LSA находит аппроксимацию низкого ранга. [ 5 ] к матрице термин-документ . Причин такого приближения может быть несколько:
- Предполагается, что исходная матрица терминов-документов слишком велика для вычислительных ресурсов; в этом случае аппроксимированная матрица низкого ранга интерпретируется как приближение («наименьшее и необходимое зло»).
- Исходная матрица терминов-документов считается зашумленной : например, необходимо исключить отдельные случаи терминов. С этой точки зрения аппроксимированная матрица интерпретируется как матрица без шума (лучшая матрица, чем исходная).
- Исходная матрица терминов-документов считается слишком разреженной по сравнению с «истинной» матрицей терминов-документов. То есть в исходной матрице перечислены только слова, фактически присутствующие в каждом документе, тогда как нас могут интересовать все слова, относящиеся к каждому документу — обычно это гораздо больший набор из-за синонимии .
Следствием понижения ранга является то, что некоторые измерения объединяются и зависят более чем от одного термина:
- {(автомобиль), (грузовик), (цветок)} → {(1,3452 * автомобиль + 0,2828 * грузовик), (цветок)}
Это смягчает проблему выявления синонимии, поскольку ожидается, что понижение ранга приведет к объединению измерений, связанных с терминами, имеющими схожие значения. Это также частично смягчает проблему с полисемией , поскольку компоненты многозначных слов, указывающие в «правильном» направлении, добавляются к компонентам слов, имеющих схожее значение. И наоборот, компоненты, указывающие в других направлениях, имеют тенденцию либо просто уравновешиваться, либо, в худшем случае, быть меньшими, чем компоненты в направлениях, соответствующих предполагаемому смыслу.
Вывод
[ редактировать ]Позволять быть матрицей, где элемент описывает появление термина в документе (это может быть, например, частота). будет выглядеть так:
Теперь строка в этой матрице будет вектором, соответствующим термину, задающему его отношение к каждому документу:
Аналогично, столбец в этой матрице будет вектором, соответствующим документу, указывающим его отношение к каждому термину:
Теперь скалярное произведение между двумя векторами терминов дает корреляцию между терминами в наборе документов. Матричный продукт содержит все эти скалярные произведения. Элемент (который равен элементу ) содержит скалярное произведение ( ). Аналогично, матрица содержит скалярные произведения между всеми векторами документа, определяющие их корреляцию между терминами: .
Теперь из теории линейной алгебры существует разложение такой, что и являются ортогональными матрицами и является диагональной матрицей . Это называется разложением по сингулярным значениям (SVD):
Матричные продукты, дающие нам корреляции между терминами и документами, затем становятся
С и диагональны, мы видим, что должен содержать собственные векторы , пока должны быть собственными векторами . Оба продукта имеют одинаковые ненулевые собственные значения, заданные ненулевыми записями , или, что то же самое, ненулевыми записями . Теперь разложение выглядит так:
Ценности называются сингулярными значениями, а и левый и правый сингулярные векторы. Обратите внимание на единственную часть что способствует это ряд. Пусть этот вектор-строка называется . Аналогично, единственная часть что способствует это столбец, . Это не собственные векторы, но они зависят от всех собственных векторов.
Оказывается, при выборе наибольшие сингулярные значения и соответствующие им сингулярные векторы из и , ты получишь звание приближение к с наименьшей погрешностью ( норма Фробениуса ). Это приближение имеет минимальную погрешность. Но что еще более важно, теперь мы можем рассматривать векторы терминов и документов как «семантическое пространство». Вектор строки «термин» затем имеет записи, отображающие его в пространство меньшей размерности. Эти новые измерения не связаны ни с какими понятными концепциями. Они представляют собой низкомерное приближение пространства более высоких измерений. Аналогично, вектор «документ» является приближением в этом пространстве более низкой размерности. Запишем это приближение как
Теперь вы можете сделать следующее:
- Посмотрите, как связанные документы и находятся в низкомерном пространстве путем сравнения векторов и (обычно по косинусному подобию ).
- Сравнение терминов и путем сравнения векторов и . Обратите внимание, что теперь является вектор-столбцом.
- Документы и представления векторов терминов можно кластеризовать с помощью традиционных алгоритмов кластеризации, таких как k-средние, с использованием мер сходства, таких как косинус.
- Получив запрос, просмотрите его как мини-документ и сравните его со своими документами в низкоразмерном пространстве.
Чтобы сделать последнее, вы должны сначала перевести свой запрос в низкомерное пространство. Тогда интуитивно понятно, что вы должны использовать то же преобразование, которое вы используете в своих документах:
Обратите внимание, что обратная диагональной матрице может быть найден путем инвертирования каждого ненулевого значения в матрице.
Это означает, что если у вас есть вектор запроса , ты должен сделать перевод прежде чем сравнивать его с векторами документов в низкомерном пространстве. Вы можете сделать то же самое для векторов псевдотерминов:
Приложения
[ редактировать ]Новое низкоразмерное пространство обычно можно использовать для:
- Сравните документы в маломерном пространстве ( кластеризация данных , классификация документов ).
- Найдите похожие документы на разных языках после анализа базового набора переведенных документов ( поиск межъязыковой информации ).
- Найдите отношения между терминами ( синонимия и многозначность ).
- Получив запрос терминов, переведите его в низкомерное пространство и найдите соответствующие документы ( поиск информации ).
- Найдите наилучшее сходство между небольшими группами терминов семантическим способом (т. е. в контексте корпуса знаний), как, например, в MCQ на вопросы с несколькими вариантами ответов. модели ответов [ 6 ]
- Расширьте возможности систем машинного обучения и интеллектуального анализа текста. [ 7 ]
- Анализировать словесные ассоциации в текстовом корпусе [ 8 ]
Синонимия и полисемия являются фундаментальными проблемами обработки естественного языка :
- Синонимия – это явление, когда разные слова описывают одну и ту же идею. Таким образом, запрос в поисковой системе может не найти соответствующий документ, который не содержит слов, которые фигурировали в запросе. Например, поиск по слову «врачи» может не вернуть документ, содержащий слово « врачи », хотя эти слова имеют одинаковое значение.
- Полисемия – явление, когда одно и то же слово имеет несколько значений. Таким образом, поиск может привести к обнаружению нерелевантных документов, содержащих нужные слова в неправильном значении. Например, ботанику и ученому-компьютерщику, ищущим слово «дерево», вероятно, понадобятся разные наборы документов.
Коммерческие приложения
[ редактировать ]LSA использовался для оказания помощи в по известному уровню техники поиске патентов . [ 9 ]
Приложения в человеческой памяти
[ редактировать ]Использование латентно-семантического анализа широко распространено при изучении человеческой памяти, особенно в областях свободного вспоминания и поиска в памяти. Существует положительная корреляция между семантическим сходством двух слов (по данным LSA) и вероятностью того, что слова будут вспоминаться одно за другим в заданиях на свободное запоминание с использованием учебных списков случайных нарицательных существительных. Они также отметили, что в этих ситуациях время ответа между похожими словами было намного быстрее, чем между разными словами. Эти результаты называются эффектом семантической близости . [ 10 ]
Когда участники допускали ошибки при воспроизведении изученных предметов, эти ошибки, как правило, касались предметов, которые были более семантически связаны с желаемым предметом и находились в ранее изученном списке. Эти вторжения из предыдущего списка, как их стали называть, похоже, конкурируют за отзыв с элементами из текущего списка. [ 11 ]
Другая модель, называемая «Пространство словесных ассоциаций» (WAS), также используется в исследованиях памяти путем сбора данных о свободных ассоциациях в результате серии экспериментов и включает меры родства слов для более чем 72 000 различных пар слов. [ 12 ]
Выполнение
[ редактировать ]SVD подхода , обычно вычисляется с использованием методов больших матриц (например, методов Ланцоша ), но также может вычисляться постепенно и со значительно меньшими ресурсами с помощью подобного нейронной сети , который не требует хранения большой матрицы полного ранга в память. [ 13 ] Недавно был разработан быстрый инкрементный алгоритм SVD с малым объемом памяти и большой матрицей. [ 14 ] МАТЛАБ [ 15 ] и Питон [ 16 ] доступны реализации этих быстрых алгоритмов. В отличие от стохастической аппроксимации Горрелла и Уэбба (2005), алгоритм Брэнда (2003) обеспечивает точное решение. В последние годы был достигнут прогресс в снижении вычислительной сложности SVD; например, используя параллельный алгоритм ARPACK для выполнения параллельного разложения по собственным значениям, можно ускорить затраты на вычисления SVD, обеспечивая при этом сопоставимое качество прогнозирования. [ 17 ]
Ограничения
[ редактировать ]Некоторые из недостатков LSA включают в себя:
- Полученные размеры могут быть трудными для интерпретации. Например, в
- {(автомобиль), (грузовик), (цветок)} ↦ {(1,3452 * легковой автомобиль + 0,2828 * грузовой автомобиль), (цветок)}
- компонент (1,3452 * легковой автомобиль + 0,2828 * грузовой автомобиль) можно интерпретировать как «транспортное средство». Однако весьма вероятно, что случаи, близкие к
- {(машина), (бутылка), (цветок)} ↦ {(1,3452 * машина + 0,2828 * бутылка ), (цветок)}
- произойдет. Это приводит к результатам, которые могут быть оправданы на математическом уровне, но не имеют непосредственного очевидного значения на естественном языке. Однако составляющая (1,3452 * автомобиль + 0,2828 * бутылка) может быть оправдана тем, что и бутылки, и автомобили имеют прозрачные и непрозрачные части, изготовлены человеком и с высокой вероятностью содержат на своей поверхности логотипы/слова; таким образом, во многих отношениях эти два понятия «разделяют семантику». То есть в рассматриваемом языке может не быть легкодоступного слова, которое можно было бы присвоить, и объяснимость становится задачей анализа, в отличие от простой задачи присвоения слова/класса/концепции.
- LSA может лишь частично уловить полисемию (т. е. несколько значений слова), поскольку каждое появление слова рассматривается как имеющее одно и то же значение, поскольку слово представлено как одна точка в пространстве. Например, появление слова «председатель» в документе, содержащем «Председатель правления», и в отдельном документе, содержащем «председатель», считается одинаковым. Такое поведение приводит к тому, что векторное представление представляет собой среднее значение всех различных значений слова в корпусе, что может затруднить сравнение. [ 18 ] Однако эффект часто снижается из-за того, что слова имеют преобладающий смысл во всем корпусе (т.е. не все значения одинаково вероятны).
- Ограничения модели «мешок слов» (BOW), в которой текст представлен как неупорядоченный набор слов. Чтобы устранить некоторые ограничения модели «мешок слов» (BOW), можно использовать многограммовый словарь для поиска прямых и косвенных ассоциаций, а также более высокого порядка совпадений между терминами. [ 19 ]
- Вероятностная модель LSA не соответствует наблюдаемым данным: LSA предполагает, что слова и документы образуют совместную гауссову модель ( эргодическая гипотеза ), тогда как распределение Пуассона наблюдается . Таким образом, более новой альтернативой является вероятностный латентно-семантический анализ , основанный на полиномиальной модели, который, как сообщается, дает лучшие результаты, чем стандартный LSA. [ 20 ]
Альтернативные методы
[ редактировать ]Семантическое хеширование
[ редактировать ]В семантическом хешировании [ 21 ] документы сопоставляются с адресами памяти с помощью нейронной сети таким образом, что семантически схожие документы располагаются по соседним адресам. Глубокая нейронная сеть по сути строит графическую модель векторов количества слов, полученных из большого набора документов. Документы, подобные документу запроса, можно затем найти, просто обратившись ко всем адресам, которые отличаются всего на несколько битов от адреса документа запроса. Этот способ повышения эффективности хэш-кодирования для приблизительного сопоставления намного быстрее, чем хеширование с учетом местоположения , которое является самым быстрым из существующих методов. [ нужны разъяснения ]
Скрытая семантическая индексация
[ редактировать ]Скрытое семантическое индексирование ( LSI ) — это метод индексирования и поиска, который использует математический метод, называемый разложением по сингулярным значениям (SVD), для выявления закономерностей во взаимоотношениях между терминами и понятиями, содержащимися в неструктурированной коллекции текста. LSI основан на том принципе, что слова, используемые в одном и том же контексте, имеют схожее значение. Ключевой особенностью LSI является его способность извлекать концептуальное содержание текста путем установления ассоциаций между терминами, встречающимися в схожих контекстах . [ 22 ]
LSI также является применением анализа соответствий , многомерного статистического метода, разработанного Жаном-Полем Бензекри. [ 23 ] в начале 1970-х годов к таблице непредвиденных обстоятельств , построенной на основе количества слов в документах.
Названный « скрытым семантическим индексированием» из-за его способности соотносить семантически связанные термины, которые скрыты в наборе текста, он был впервые применен к тексту в Bellcore в конце 1980-х годов. Этот метод, также называемый скрытым семантическим анализом (LSA), раскрывает скрытую семантическую структуру использования слов в тексте и то, как ее можно использовать для извлечения значения текста в ответ на запросы пользователя, обычно называемые как концептуальный поиск. Запросы или концептуальные поиски по набору документов, прошедших LSI, вернут результаты, концептуально схожие по смыслу с критериями поиска, даже если результаты не имеют общего с критериями поиска определенного слова или слов.
Преимущества ЛСИ
[ редактировать ]LSI помогает преодолеть синонимию за счет увеличения запоминаемости — одного из наиболее проблемных ограничений логических запросов по ключевым словам и моделей векторного пространства. [ 18 ] Синонимия часто является причиной несоответствия лексики авторов документов и пользователей информационно-поисковых систем. [ 24 ] В результате логические запросы или запросы по ключевым словам часто возвращают нерелевантные результаты и пропускают релевантную информацию.
LSI также используется для автоматической категоризации документов . Фактически, несколько экспериментов продемонстрировали, что существует ряд корреляций между тем, как LSI и люди обрабатывают и классифицируют текст. [ 25 ] Категоризация документов — это отнесение документов к одной или нескольким заранее определенным категориям на основе их сходства с концептуальным содержанием категорий. [ 26 ] LSI использует примеры документов для установления концептуальной основы для каждой категории. Во время обработки категоризации понятия, содержащиеся в категоризируемых документах, сравниваются с понятиями, содержащимися в примерных элементах, и категория (или категории) присваивается документам на основе сходства между понятиями, которые они содержат, и понятиями, которые содержатся. в примерах документов.
Динамическую кластеризацию на основе концептуального содержания документов также можно выполнить с помощью LSI. Кластеризация — это способ группировки документов на основе их концептуального сходства друг с другом без использования примеров документов для установления концептуальной основы для каждого кластера. Это очень полезно при работе с неизвестной коллекцией неструктурированного текста.
Поскольку LSI использует строго математический подход, он по своей сути независим от языка. Это позволяет LSI извлекать семантическое содержание информации, написанной на любом языке, без необходимости использования вспомогательных структур, таких как словари и тезаурусы. LSI также может выполнять межлингвистический поиск концепций и категоризацию на основе примеров. Например, запросы могут выполняться на одном языке, например английском, и будут возвращены концептуально схожие результаты, даже если они составлены на совершенно другом языке или на нескольких языках. [ нужна ссылка ]
LSI не ограничивается работой только со словами. Он также может обрабатывать произвольные строки символов. Любой объект, который может быть выражен в виде текста, может быть представлен в векторном пространстве LSI. Например, тесты с рефератами MEDLINE показали, что LSI способна эффективно классифицировать гены на основе концептуального моделирования биологической информации, содержащейся в заголовках и рефератах цитат MEDLINE. [ 27 ]
LSI автоматически адаптируется к новой и меняющейся терминологии и, как было показано, очень устойчив к шуму (т. е. к орфографическим ошибкам в словах, опечаткам, нечитаемым символам и т. д.). [ 28 ] Это особенно важно для приложений, использующих текст, полученный с помощью оптического распознавания символов (OCR) и преобразования речи в текст. LSI также эффективно справляется с редкими, неоднозначными и противоречивыми данными.
Чтобы LSI был эффективным, текст не обязательно должен быть в форме предложения. Он может работать со списками, заметками в свободной форме, электронной почтой, веб-контентом и т. д. Пока набор текста содержит несколько терминов, LSI можно использовать для выявления закономерностей во взаимоотношениях между важными терминами и понятиями, содержащимися в текст.
LSI оказалась полезным решением ряда проблем концептуального сопоставления. [ 29 ] [ 30 ] Было показано, что этот метод позволяет собирать ключевую информацию о взаимоотношениях, включая причинно-следственную, целевую и таксономическую информацию. [ 31 ]
График работы LSI
[ редактировать ]- Середина 1960-х годов - впервые описана и испытана техника факторного анализа (Х. Борко и М. Берник).
- 1988 г. - опубликована основополагающая статья по технологии LSI. [ 22 ]
- 1989 г. – выдан оригинальный патент. [ 22 ]
- 1992 – Первое использование LSI для назначения статей рецензентам. [ 32 ]
- 1994 г. – выдан патент на межъязыковое применение LSI (Ландауэр и др.).
- 1995 – Первое использование LSI для оценки эссе (Фольц и др., Ландауэр и др.).
- 1999 — Первое внедрение технологии LSI для разведывательного сообщества для анализа неструктурированного текста ( SAIC ).
- 2002 г. - предложение продуктов на базе LSI правительственным агентствам, занимающимся разведывательной деятельностью (SAIC).
Математика БИС
[ редактировать ]LSI использует распространенные методы линейной алгебры для изучения концептуальных корреляций в наборе текста. В общем, процесс включает в себя построение взвешенной матрицы терминов-документов, выполнение разложения по сингулярным значениям матрицы и использование матрицы для идентификации понятий, содержащихся в тексте.
Матрица терминодокументов
[ редактировать ]LSI начинается с построения матрицы терминов-документов. , для выявления случаев уникальные термины в коллекции документы. В матрице термин-документ каждый термин представлен строкой, а каждый документ представлен столбцом, причем каждая ячейка матрицы , первоначально обозначающий количество раз, когда соответствующий термин появляется в указанном документе, . Эта матрица обычно очень большая и очень разреженная.
После построения матрицы термин-документ к ней можно применить локальные и глобальные весовые функции для обработки данных. Весовые функции преобразуют каждую ячейку, из , чтобы быть произведением веса локального члена, , который описывает относительную частоту термина в документе и глобальный вес, , который описывает относительную частоту использования термина во всей коллекции документов.
Некоторые распространенные локальные весовые функции [ 33 ] определены в следующей таблице.
Двоичный | если этот термин существует в документе, или иначе | |
TermFrequency | , количество появлений термина в документе | |
Бревно | ||
Аугнорм |
Некоторые общие глобальные весовые функции определены в следующей таблице.
Двоичный | ||
Нормальный | ||
GfIdf | , где это общее количество раз термина встречается во всей коллекции, и количество документов, в котором срок происходит. | |
Idf (обратная частота документов) | ||
Энтропия | , где |
Эмпирические исследования с использованием LSI показывают, что функции взвешивания журнала и энтропии на практике хорошо работают со многими наборами данных. [ 34 ] Другими словами, каждая запись из рассчитывается как:
Разложение сингулярных значений с пониженным рангом
[ редактировать ]с пониженным рангом Разложение по сингулярным значениям выполняется для определения закономерностей во взаимоотношениях между терминами и понятиями, содержащимися в тексте. SVD составляет основу LSI. [ 35 ] Он вычисляет векторные пространства терминов и документов путем аппроксимации одной матрицы частот терминов, , на три другие матрицы — m на r. векторную матрицу терминов и понятий размером , r x r матрица сингулярных значений и n на r , векторная матрица концептуального документа , которые удовлетворяют следующим соотношениям:
В формуле A — это взвешенная матрица m на n частот терминов в наборе текста, где m — количество уникальных терминов, а n — количество документов. T — это вычисленная размером m на r матрица векторов терминов , где r — ранг A — мера его уникальных размеров ≤ min( m,n ) . S — вычисленная r диагональная матрица размером на r убывающих сингулярных значений, а D — вычисленная размером n на r матрица векторов документа .
Затем SVD усекается , чтобы уменьшить ранг, сохраняя только самые большие k « r диагональные элементы в матрице сингулярных значений S , где k обычно имеет порядок от 100 до 300 измерений. Это эффективно уменьшает размеры векторной матрицы терминов и документов до m на k и n на k соответственно. Операция SVD, наряду с этим сокращением, позволяет сохранить наиболее важную семантическую информацию в тексте, одновременно уменьшая шум и другие нежелательные артефакты исходного A. пространства Этот сокращенный набор матриц часто обозначается модифицированной формулой, например:
- А ≈ А k знак равно T k S k D k Т
Эффективные алгоритмы LSI вычисляют только первые k сингулярных значений, а также векторы терминов и документов, а не вычисляют полный SVD и затем усекают его.
Обратите внимание, что это понижение ранга по существу аналогично выполнению анализа главных компонентов (PCA) для матрицы A , за исключением того, что PCA вычитает средние значения. PCA теряет разреженность матрицы A , что может сделать его невозможным для больших словарей.
Запрос и расширение векторных пространств LSI
[ редактировать ]Вычисленные матрицы T k и D k определяют векторные пространства терминов и документов, которые с вычисленными сингулярными значениями S k воплощают концептуальную информацию, полученную из коллекции документов. Сходство терминов или документов в этих пространствах является фактором того, насколько они близки друг к другу в этих пространствах, обычно вычисляемым как функция угла между соответствующими векторами.
Те же шаги используются для поиска векторов, представляющих текст запросов и новых документов, в пространстве документов существующего индекса LSI. Простым преобразованием A = TSD Т уравнение в эквивалент D = A Т ТС −1 уравнение, новый вектор d для запроса или нового документа может быть создан путем вычисления нового столбца в A и последующего умножения нового столбца на TS. −1 . Новый столбец в A вычисляется с использованием первоначально полученных глобальных весов терминов и применения той же локальной весовой функции к терминам в запросе или в новом документе.
Недостаток вычисления векторов таким способом при добавлении новых документов, доступных для поиска, заключается в том, что термины, которые не были известны на этапе SVD для исходного индекса, игнорируются. Эти термины не окажут влияния на глобальные веса и изученные корреляции, полученные из исходной коллекции текста. Однако вычисленные векторы для нового текста по-прежнему очень важны для сравнения сходства со всеми другими векторами документа.
Процесс расширения векторных пространств документов для индекса LSI новыми документами таким образом называется свертыванием . Хотя процесс свертывания не учитывает новое семантическое содержание нового текста, добавление значительного количества документов таким способом все равно обеспечит хорошие результаты для запросов, если содержащиеся в них термины и понятия хорошо представлены в LSI. индекс, к которому они добавляются. Когда термины и понятия нового набора документов необходимо включить в индекс LSI, необходимо пересчитать либо матрицу терминов-документов, либо SVD, либо использовать метод постепенного обновления (например, описанный в разделе [ 14 ] ) необходимо.
Дополнительное использование LSI
[ редактировать ]Общепризнано, что умение работать с текстом на семантической основе имеет важное значение для современных информационно-поисковых систем. В результате в последние годы использование LSI значительно расширилось, поскольку были преодолены прежние проблемы масштабируемости и производительности.
LSI используется в различных приложениях для поиска информации и обработки текста, хотя его основным применением является поиск понятий и автоматическая категоризация документов. [ 36 ] Ниже приведены некоторые другие способы использования LSI:
- Обнаружение информации [ 37 ] ( eDiscovery , Правительство/разведывательное сообщество, Издательство)
- Автоматизированная классификация документов (обнаружение электронных данных, правительственное/разведывательное сообщество, публикации) [ 38 ]
- Обобщение текста [ 39 ] (обнаружение электронных данных, публикация)
- Открытие отношений [ 40 ] (Правительство, разведывательное сообщество, социальные сети)
- Автоматическое создание диаграмм связей отдельных лиц и организаций [ 41 ] (Правительство, Разведывательное сообщество)
- Согласование технических документов и грантов с рецензентами [ 42 ] (Правительство)
- Онлайн-поддержка клиентов [ 43 ] (Управление клиентами)
- Определение авторства документа [ 44 ] (Образование)
- Автоматическое аннотирование изображений по ключевым словам [ 45 ]
- Понимание исходного кода программного обеспечения [ 46 ] (Программная инженерия)
- Фильтрация спама [ 47 ] (Системное администрирование)
- Визуализация информации [ 48 ]
- Оценка эссе [ 49 ] (Образование)
- Открытие на основе литературы [ 50 ]
- Прогноз доходности акций [ 7 ]
- Анализ содержания сновидений (психология) [ 8 ]
LSI все чаще используется для обнаружения электронных документов (eDiscovery), чтобы помочь предприятиям подготовиться к судебным разбирательствам. В eDiscovery крайне важна возможность кластеризации, категоризации и поиска в больших коллекциях неструктурированного текста на концептуальной основе. Концептуальный поиск с использованием LSI был применен к процессу обнаружения электронных данных ведущими поставщиками еще в 2003 году. [ 51 ]
Проблемы LSI
[ редактировать ]Первые проблемы LSI были сосредоточены на масштабируемости и производительности. LSI требует относительно высокой вычислительной производительности и памяти по сравнению с другими методами поиска информации. [ 52 ] Однако с внедрением современных высокоскоростных процессоров и наличием недорогой памяти эти соображения были в значительной степени преодолены. Реальные приложения, включающие более 30 миллионов документов, которые были полностью обработаны с помощью вычислений матрицы и SVD, часто встречаются в некоторых приложениях LSI. Полностью масштабируемая (неограниченное количество документов, онлайн-обучение) реализация LSI содержится в пакете программного обеспечения gensim с открытым исходным кодом . [ 53 ]
Еще одной проблемой для LSI была предполагаемая трудность в определении оптимального количества измерений, используемых для выполнения SVD. Как правило, меньшее количество измерений позволяет проводить более широкие сравнения понятий, содержащихся в наборе текста, тогда как большее количество измерений позволяет проводить более конкретные (или более релевантные) сравнения понятий. Фактическое количество измерений, которые можно использовать, ограничено количеством документов в коллекции. Исследования показали, что около 300 измерений обычно дают наилучшие результаты для коллекций документов среднего размера (сотни тысяч документов) и, возможно, 400 измерений для больших коллекций документов (миллионы документов). [ 54 ] Однако недавние исследования показывают, что подходят 50–1000 измерений в зависимости от размера и характера коллекции документов. [ 55 ] Проверка доли сохраняемой дисперсии, аналогично PCA или факторному анализу , для определения оптимальной размерности не подходит для LSI. Использование теста синонимов или прогнозирование пропущенных слов — два возможных метода определения правильной размерности. [ 56 ] Когда темы LSI используются в качестве функций в методах обучения с учителем, можно использовать измерения ошибок прогнозирования, чтобы найти идеальную размерность.
См. также
[ редактировать ]- Ко-Метрикс
- Обработка сложных терминов
- Дистрибутивная семантика
- Явный семантический анализ
- Скрытое семантическое картирование
- Индексация скрытой семантической структуры
- Анализ основных компонентов
- Вероятностный латентно-семантический анализ
- Спамдексинг
- Вектор слова
- Тематическая модель
Ссылки
[ редактировать ]- ^ Сьюзан Т. Дюмэ (2005). «Скрытый семантический анализ». Ежегодный обзор информационных наук и технологий . 38 : 188–230. дои : 10.1002/aris.1440380105 .
- ^ «Патент США 4839853» . Архивировано из оригинала 2 декабря 2017 г. (сейчас срок действия истек)
- ^ «Домашняя страница скрытого семантического индексирования» .
- ^ "изображение" . thememodels.west.uni-koblenz.de . Архивировано из оригинала 17 марта 2023 года.
- ^ Марковский И. (2012) Низкоранговая аппроксимация: алгоритмы, реализация, приложения, Springer, 2012, ISBN 978-1-4471-2226-5 [ нужна страница ]
- ^ Ален Лифшиц; Сандра Жан-Лароз; Ги Деньер (2009). «Влияние настроенных параметров на модель ответов на вопросы LSA с множественным выбором» (PDF) . Методы исследования поведения . 41 (4): 1201–1209. arXiv : 0811.0146 . дои : 10.3758/BRM.41.4.1201 . ПМИД 19897829 . S2CID 480826 .
- ^ Jump up to: а б Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности онлайн-анализа досок объявлений в автоматических системах прогнозирования запасов». Журнал вычислительной науки . 19 : 1877–7503. дои : 10.1016/j.jocs.2017.01.001 . hdl : 11336/60065 .
- ^ Jump up to: а б Альтшилер, Э.; Рибейро, С.; Сигман, М.; Фернандес Слезак, Д. (2017). «Толкование значения сна: разрешение двусмысленности с помощью скрытого семантического анализа в небольшом корпусе текста». Сознание и познание . 56 : 178–187. arXiv : 1610.01520 . дои : 10.1016/j.concog.2017.09.004 . ПМИД 28943127 . S2CID 195347873 .
- ^ Джерри Дж. Элман (октябрь 2007 г.). «Поддержка автоматизированной патентной экспертизы - предложение». Отчет о законе о биотехнологиях . 26 (5): 435–436. дои : 10.1089/blr.2007.9896 .
- ^ Марк В. Ховард; Майкл Дж. Кахана (1999). «Эффекты контекстной изменчивости и последовательного положения в свободном отзыве» (PDF) . АПА PsycNet Direct .
- ^ Франклин М. Заромб; и др. (2006). Временные ассоциации и вторжения в предварительные списки в Free Recall (PDF) . Интерспич'2005.
- ^ Нельсон, Дуглас. «Словоассоциация Университета Южной Флориды, нормы рифм и фрагментов слов» . Проверено 8 мая 2011 г.
- ^ Женевьева Горрель; Брэндин Уэбб (2005). «Обобщенный алгоритм Хеббиана для скрытого семантического анализа» (PDF) . Интерспич'2005 . Архивировано из оригинала (PDF) 21 декабря 2008 г.
- ^ Jump up to: а б Мэтью Брэнд (2006). «Быстрые низкоранговые модификации тонкого разложения по сингулярным значениям» (PDF) . Линейная алгебра и ее приложения . 415 : 20–30. дои : 10.1016/j.laa.2005.07.021 . Архивировано из оригинала (PDF) 3 декабря 2013 г. Проверено 4 марта 2010 г.
- ^ «МАТЛАБ» . Архивировано из оригинала 28 февраля 2014 г.
- ^ Питон
- ^ Дин, Ягуан; Чжу, Гофэн; Цуй, Чэньян; Чжоу, Цзянь; Тао, Лян (2011). «Параллельная реализация разложения сингулярных значений на основе Map-Reduce и PARPACK». Материалы Международной конференции по компьютерным наукам и сетевым технологиям 2011 года . стр. 739–741. дои : 10.1109/ICCSNT.2011.6182070 . ISBN 978-1-4577-1587-7 . S2CID 15281129 .
- ^ Jump up to: а б Дирвестер, Скотт; Дюмэ, Сьюзен Т.; Фурнас, Джордж В.; Ландауэр, Томас К.; Харшман, Ричард (1990). «Индексация методом скрытого семантического анализа». Журнал Американского общества информатики . 41 (6): 391–407. CiteSeerX 10.1.1.108.8490 . doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 .
- ^ Абеди, Вида; Йасин, Мохаммед; Занд, Рамин (27 ноября 2014 г.). «Эмпирическое исследование с использованием сети семантически связанных ассоциаций для преодоления разрыва в знаниях» . Журнал трансляционной медицины . 12 (1): 324. дои : 10.1186/s12967-014-0324-9 . ПМК 4252998 . ПМИД 25428570 .
- ^ Томас Хофманн (1999). «Вероятностный латентно-семантический анализ». Неопределенность в искусственном интеллекте . arXiv : 1301.6705 .
- ^ Салахутдинов, Руслан и Джеффри Хинтон. «Семантическое хеширование». РБМ 500.3 (2007): 500.
- ^ Jump up to: а б с Дирвестер С. и др. Улучшение поиска информации с помощью скрытого семантического индексирования, Труды 51-го ежегодного собрания Американского общества информатики, 25, 1988 г., стр. 36–40.
- ^ Бенсекри, Ж.-П. (1973). Анализ данных. Том II. Анализ корреспонденции . Париж, Франция: Дюно.
- ^ Фурнас, ГВ; Ландауэр, ТК; Гомес, Л.М.; Дюмэ, ST (1987). «Словарная проблема в общении человека и системы». Коммуникации АКМ . 30 (11): 964–971. CiteSeerX 10.1.1.118.4768 . дои : 10.1145/32206.32212 . S2CID 3002280 .
- ^ Ландауэр, Т. и др., Изучение человеческих знаний путем разложения сингулярных значений: отчет о ходе работы , М.И. Джордан, М.Дж. Кирнс и С.А. Солла (ред.), Достижения в области нейронных систем обработки информации 10, Кембридж: MIT Press, 1998, стр. 45–51.
- ^ Дюмэ, С.; Платт, Дж.; Хекерман, Д.; Сахами, М. (1998). «Алгоритмы индуктивного обучения и представления для категоризации текста» (PDF) . Материалы седьмой международной конференции по управлению информацией и знаниями - CIKM '98 . стр. 148 . CiteSeerX 10.1.1.80.8909 . дои : 10.1145/288627.288651 . ISBN 978-1581130614 . S2CID 617436 .
- ^ Хомаюни, Р.; Генрих, К.; Вэй, Л.; Берри, М.В. (2004). «Кластеризация генов с помощью латентно-семантического индексирования рефератов MEDLINE» . Биоинформатика . 21 (1): 104–115. doi : 10.1093/биоинформатика/bth464 . ПМИД 15308538 .
- ^ Прайс, РДж; Зукас, А.Е. (2005). «Применение скрытого семантического индексирования для обработки зашумленного текста». Информатика разведки и безопасности . Конспекты лекций по информатике. Том. 3495. с. 602. дои : 10.1007/11427995_68 . ISBN 978-3-540-25999-2 .
- ^ Дин, К., Вероятностная модель для скрытого семантического индексирования , основанная на сходстве, Материалы 22-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, 1999, стр. 59–65.
- ^ Бартелл Б., Коттрелл Г. и Белью Р., Скрытое семантическое индексирование - оптимальный частный случай многомерного масштабирования. [ мертвая ссылка ] , Труды конференции ACM SIGIR по исследованиям и разработкам в области поиска информации, 1992, стр. 161–167.
- ^ Грассер, А.; Карнават, А. (2000). «Скрытый семантический анализ фиксирует причинно-следственные, целенаправленные и таксономические структуры». Труды CogSci 2000 : 184–189. CiteSeerX 10.1.1.23.5444 .
- ^ Дюмэ, С.; Нильсен, Дж. (1992). «Автоматизация распределения представленных рукописей рецензентам». Материалы 15-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска - SIGIR '92 . стр. 233–244. CiteSeerX 10.1.1.16.9793 . дои : 10.1145/133160.133205 . ISBN 978-0897915236 . S2CID 15038631 .
- ^ Берри М.В. и Браун М. Понимание поисковых систем: математическое моделирование и текстовый поиск, Общество промышленной и прикладной математики, Филадельфия, (2005).
- ^ Ландауэр Т. и др., Справочник по скрытому семантическому анализу, Lawrence Erlbaum Associates, 2007.
- ^ Берри, Майкл В., Дюмэ, Сьюзен Т., О'Брайен, Гэвин В., Использование линейной алгебры для интеллектуального поиска информации , декабрь 1994 г., SIAM Review 37:4 (1995), стр. 573–595.
- ^ Дюмэ, С., Скрытый семантический анализ, Обзор информационных наук и технологий ARIST, том. 38, 2004 г., Глава 4.
- ^ Комментарий к передовому опыту использования методов поиска и получения информации при обнаружении электронной информации, Конференция в Седоне, 2007 г., стр. 189–223.
- ^ Фольц, П.В. и Дюмэ, С.Т. Персонализированная доставка информации: анализ методов фильтрации информации , Communications of the ACM, 1992, 34 (12), 51-60.
- ^ Гонг, Ю., и Лю, X., Создание общих текстовых сводок , Труды, Шестая международная конференция по анализу и распознаванию документов, 2001, стр. 903–907.
- ^ Брэдфорд, Р., Эффективное обнаружение новой информации в больших текстовых базах данных , Труды, Международная конференция IEEE по разведке и информатике безопасности, Атланта, Джорджия, LNCS Vol. 3495, Springer, 2005, стр. 374–380.
- ^ Брэдфорд, РБ (2006). «Применение скрытого семантического индексирования при построении графов террористических сетей» . Информатика разведки и безопасности . Конспекты лекций по информатике. Том. 3975. стр. 674–675. дои : 10.1007/11760146_84 . ISBN 978-3-540-34478-0 .
- ^ Яровский Д. и Флориан Р., Снятие нагрузки со стульев конференции: к помощнику по маршрутизации цифровых документов , Материалы совместной конференции SIGDAT 1999 г. по эмпирическим методам в НЛП и очень больших корпорациях, 1999, стр. 220–230.
- ^ Кэрон, Дж., Применение LSA для онлайн-поддержки клиентов: пробное исследование, неопубликованная магистерская диссертация, май 2000 г.
- ^ Соборов И. и др., Визуализация авторства документов с использованием N-грамм и скрытого семантического индексирования , Семинар по новым парадигмам визуализации и манипулирования информацией, 1997, стр. 43–48.
- ^ Моней, Ф., и Гатика-Перес, Д., Об автоматической аннотации изображений с помощью скрытых пространственных моделей , Материалы 11-й международной конференции ACM по мультимедиа, Беркли, Калифорния, 2003, стр. 275–278.
- ^ Малетик, Дж.; Маркус, А. (13–15 ноября 2000 г.). «Использование скрытого семантического анализа для выявления сходств в исходном коде для обеспечения понимания программы». Материалы 12-й международной конференции IEEE по инструментам с искусственным интеллектом. ИКТАИ 2000 . стр. 46–53. CiteSeerX 10.1.1.36.6652 . дои : 10.1109/TAI.2000.889845 . ISBN 978-0-7695-0909-9 . S2CID 10354564 .
- ^ Джи, К., Использование скрытого семантического индексирования для фильтрации спама , в: Proceedings, Симпозиум ACM по прикладным вычислениям, 2003 г., Мельбурн, Флорида, стр. 460–464.
- ^ Ландауэр Т., Лахам Д. и Дерр М., От абзаца к графику: скрытый семантический анализ для визуализации информации , Труды Национальной академии наук, 101, 2004, стр. 5214–5219.
- ^ Фольц, Питер В., Лахам, Даррелл и Ландауэр, Томас К., Автоматизированная оценка эссе: приложения к образовательным технологиям , Труды EdMedia, 1999.
- ^ Гордон М. и Дюмэ С., Использование скрытого семантического индексирования для открытий на основе литературы , Журнал Американского общества информатики, 49 (8), 1998, стр. 674–685.
- ^ Должен быть лучший способ поиска, 2008, Технический документ, Fios, Inc.
- ^ Карипис, Г., Хан, Э., Алгоритм быстрого контролируемого уменьшения размерности с приложениями к категоризации и поиску документов , Материалы CIKM-00, 9-я конференция ACM по управлению информацией и знаниями.
- ^ Радим Ржегуржек (2011). «Отслеживание подпространства для скрытого семантического анализа». Достижения в области поиска информации . Конспекты лекций по информатике. Том. 6611. стр. 289–300. дои : 10.1007/978-3-642-20161-5_29 . ISBN 978-3-642-20160-8 .
- ^ Брэдфорд, Р., Эмпирическое исследование необходимой размерности для крупномасштабных приложений скрытого семантического индексирования , Материалы 17-й конференции ACM по управлению информацией и знаниями, Напа-Вэлли, Калифорния, США, 2008, стр. 153–162.
- ^ Ландауэр, Томас К., и Дюмэ, Сьюзан Т., Скрытый семантический анализ, Scholarpedia, 3 (11): 4356, 2008.
- ^ Ландауэр, Т.К., Фольц, П.В., и Лахам, Д. (1998). Введение в латентно-семантический анализ . Дискурсивные процессы, 25, 259–284.
Дальнейшее чтение
[ редактировать ]- Ландауэр, Томас ; Фольц, Питер В.; Лахам, Даррелл (1998). «Введение в латентно-семантический анализ» (PDF) . Дискурсивные процессы . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . дои : 10.1080/01638539809545028 . S2CID 16625196 .
- Дирвестер, Скотт ; Дюмэ, Сьюзен Т .; Фурнас, Джордж В .; Ландауэр, Томас К .; Харшман, Ричард (1990). «Индексирование с помощью скрытого семантического анализа» (PDF) . Журнал Американского общества информатики . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 . Архивировано из оригинала (PDF) 17 июля 2012 г. Оригинальная статья, где модель впервые была выставлена.
- Берри, Майкл ; Дюмэ, Сьюзен Т.; О'Брайен, Гэвин В. (1995). «Использование линейной алгебры для интеллектуального поиска информации» . (PDF) Архивировано 23 ноября 2018 г. в Wayback Machine . Иллюстрация применения LSA для поиска документов.
- Чикко, Д; Массероли, М (2015). «Программный пакет для прогнозирования аннотаций генов и белков и поиска сходства» . Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 12 (4): 837–843. дои : 10.1109/TCBB.2014.2382127 . hdl : 11311/959408 . ПМИД 26357324 . S2CID 14714823 .
- «Скрытый семантический анализ» . ИнфоВис. Архивировано из оригинала 18 февраля 2020 г. Проверено 1 июля 2005 г.
- Фридолин Уайлд (23 ноября 2005 г.). «Пакет LSA с открытым исходным кодом для R» . КРАН . Проверено 20 ноября 2006 г.
- Томас Ландауэр , Сьюзан Т. Дюмэ . «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» . Проверено 2 июля 2007 г.
Внешние ссылки
[ редактировать ]Статьи о ЛСА
[ редактировать ]- Скрытый семантический анализ — научная статья о LSA, написанная Томом Ландауэром, одним из создателей LSA.
Переговоры и демонстрации
[ редактировать ]- Обзор LSA , выступление профессора Томаса Хофмана. Архивировано 22 декабря 2017 г. на Wayback Machine. Описывается LSA, его применение в поиске информации и его связь с вероятностным скрыто-семантическим анализом .
- Полный пример кода LSA на C# для Windows . Демонстрационный код включает в себя перечисление текстовых файлов, фильтрацию стоп-слов, стемминг, создание матрицы терминов документа и SVD.
Реализации
[ редактировать ]Благодаря своим междоменным приложениям в области поиска информации , обработки естественного языка (NLP), когнитивной науки и компьютерной лингвистики , LSA был реализован для поддержки множества различных типов приложений.
- Sense Clusters — Perl-реализация LSA, ориентированная на поиск информации.
- S-Space Package , Java-реализация LSA, ориентированная на вычислительную лингвистику и когнитивные науки.
- Семантические векторы применяют случайную проекцию, LSA и отражающую случайную индексацию к Lucene . матрицам терминов-документов
- Infomap Project , NLP-ориентированная реализация LSA на языке C (заменена проектом semanticvectors)
- Генератор текста в матрицу. Архивировано 7 января 2013 г. по адресу archive.today . Панель инструментов MATLAB для генерации матриц терминов-документов из текстовых коллекций с поддержкой LSA.
- Gensim содержит реализацию LSA на Python для матриц, превышающих размер ОЗУ.