Поиск концепции
Концептуальный поиск (или концептуальный поиск ) — это автоматизированный метод поиска информации , который используется для поиска в неструктурированном тексте, хранящемся в электронном виде (например, в цифровых архивах , электронной почте, научной литературе и т. д.), информации, которая концептуально аналогична информации, представленной в поисковый запрос . Другими словами, идеи, выраженные в информации, полученной в ответ на понятия, поисковый запрос релевантны идеям, содержащимся в тексте запроса.
Разработка
[ редактировать ]концептуального Методы поиска были разработаны из-за ограничений, налагаемых классическими технологиями логического поиска по ключевым словам при работе с большими неструктурированными цифровыми коллекциями текста. Поиск по ключевым словам часто возвращает результаты, которые включают множество нерелевантных элементов ( ложноположительные результаты ) или исключают слишком много релевантных элементов (ложноотрицательные результаты) из-за эффектов синонимии и многозначности . Синонимия означает, что одно из двух или более слов одного и того же языка имеют одинаковое значение, а полисемия означает, что многие отдельные слова имеют более одного значения.
Полисемия является основным препятствием для всех компьютерных систем, пытающихся работать с человеческим языком. В английском языке наиболее часто используемые термины имеют несколько общих значений. Например, слово огонь может означать: деятельность горения; прекратить трудоустройство; запустить или возбудить (как в случае «зажечь»). Для 200 наиболее многозначных терминов английского языка типичный глагол имеет более двенадцати общих значений или смыслов. Типичное существительное из этого набора имеет более восьми смыслов. Для 2000 наиболее многозначных терминов в английском языке типичный глагол имеет более восьми общих значений, а типичное существительное — более пяти. [1]
Помимо проблем многозначности и синонимии, поиск по ключевым словам может исключить случайно написанные слова с ошибками , а также вариации основ ( или корней) слов (например, ударение или ударение). Поиск по ключевым словам также подвержен ошибкам, вносимым процессами сканирования оптического распознавания символов (OCR), которые могут вносить случайные ошибки в текст документов (часто называемые « зашумленным текстом ») во время процесса сканирования.
Поиск понятий может преодолеть эти проблемы, используя устранение смысловой неоднозначности слов (WSD). [2] и другие методы, чтобы помочь ему получить фактические значения слов и лежащие в их основе концепции, а не просто сопоставлять строки символов, как технологии поиска по ключевым словам.
Подходы
[ редактировать ]В целом исследования и технологии информационного поиска можно разделить на две широкие категории: семантические и статистические. Системы информационного поиска, которые попадают в семантическую категорию, будут пытаться реализовать некоторую степень синтаксического и семантического анализа текста на естественном языке , который может предоставить пользователь-человек (см. также компьютерную лингвистику ). Системы, относящиеся к статистической категории, будут искать результаты на основе статистических показателей того, насколько близко они соответствуют запросу. Однако системы семантической категории также часто полагаются на статистические методы, которые помогают им находить и извлекать информацию. [3]
Усилия по созданию систем поиска информации с возможностями семантической обработки в основном использовали три подхода:
- Вспомогательные конструкции
- Локальная совместной встречаемости статистика
- Методы преобразования (в частности, матричное разложение )
Вспомогательные конструкции
[ редактировать ]К семантической обработке применялись различные методы, основанные на искусственном интеллекте (ИИ) и обработке естественного языка (НЛП), и большинство из них опирались на использование вспомогательных структур, таких как контролируемые словари и онтологии . Контролируемые словари (словари и тезаурусы) и онтологии позволяют включать в запросы более широкие, узкие и связанные термины. [4] Контролируемые словари — это один из способов преодолеть некоторые из наиболее серьезных ограничений логических запросов по ключевым словам. За прошедшие годы были созданы дополнительные вспомогательные структуры, представляющие общий интерес, такие как большие наборы синонимов WordNet . [5] Было показано, что поиск понятий, основанный на вспомогательных структурах, таких как WordNet, может быть эффективно реализован путем повторного использования поисковых моделей и структур данных классического информационного поиска. [6] Более поздние подходы реализовали грамматику для расширения диапазона семантических конструкций. В последние годы также было реализовано создание моделей данных, которые представляют собой наборы концепций в конкретной предметной области ( онтологии предметной области ) и которые могут включать отношения между терминами.
Созданные вручную контролируемые словари способствуют эффективности и полноте поиска информации и связанных с ним операций анализа текста, но они работают лучше всего, когда темы четко определены, а терминология стандартизирована. Контролируемые словари требуют активного участия человека и контроля, чтобы идти в ногу с быстрой эволюцией языка. Они также не очень подходят для растущих объемов неструктурированного текста, охватывающего неограниченное количество тем и содержащего тысячи уникальных терминов, поскольку необходимо постоянно вводить новые термины и темы. Контролируемые словари также склонны отражать определенное мировоззрение в определенный момент времени, что затрудняет их модификацию, если изменяются концепции в определенной тематической области. [7]
Локальная статистика совместной встречаемости
[ редактировать ]Системы информационного поиска, включающие этот подход, подсчитывают количество раз, когда группы терминов появляются вместе (совместно) в скользящем окне терминов или предложений (например, ± 5 предложений или ± 50 слов) в документе. Он основан на идее, что слова, встречающиеся вместе в схожих контекстах, имеют схожие значения. Он является локальным в том смысле, что скользящее окно терминов и предложений, используемое для определения совместного появления терминов, относительно невелико.
Этот подход прост, но он захватывает лишь небольшую часть семантической информации, содержащейся в наборе текста. На самом базовом уровне многочисленные эксперименты показали, что примерно лишь четверть информации, содержащейся в тексте, носит локальный характер. [8] Кроме того, чтобы быть наиболее эффективным, этот метод требует предварительных знаний о содержании текста, что может быть затруднительно при использовании больших неструктурированных коллекций документов. [7]
Техники преобразования
[ редактировать ]Некоторые из наиболее мощных подходов к семантической обработке основаны на использовании методов математического преобразования. матричной декомпозиции Наиболее успешными оказались методы . Некоторые широко используемые методы матричной декомпозиции включают следующее: [9]
- Независимый анализ компонентов
- Полудискретное разложение
- Неотрицательная матричная факторизация
- Разложение по сингулярным значениям
Методы матричной декомпозиции управляются данными, что позволяет избежать многих недостатков, связанных со вспомогательными структурами. Они также носят глобальный характер, что означает, что они способны к гораздо более надежному извлечению информации и представлению семантической информации, чем методы, основанные на локальной статистике совместного возникновения. [7]
Анализ независимых компонентов — это метод, который автоматически создает разреженные представления. [10] а подходы с полудискретной и неотрицательной матрицей жертвуют точностью представления, чтобы уменьшить сложность вычислений. [7]
Разложение по сингулярным значениям (SVD) впервые было применено к тексту в Bell Labs в конце 1980-х годов. Он использовался в качестве основы для метода, называемого скрытым семантическим индексированием (LSI), из-за его способности находить семантическое значение, скрытое в наборе текста. Поначалу внедрение SVD продвигалось медленно из-за требований к ресурсам, необходимым для работы с большими наборами данных. Однако в последние годы использование LSI значительно расширилось, поскольку были преодолены прежние проблемы масштабируемости и производительности. [11] и даже с открытым исходным кодом. [12] LSI используется в различных приложениях для поиска информации и обработки текста, хотя его основным применением является поиск понятий и автоматическая категоризация документов. [13]
Использование
[ редактировать ]- eDiscovery . Технологии поиска на основе концепций все чаще используются для обнаружения электронных документов (EDD или eDiscovery), чтобы помочь предприятиям подготовиться к судебным разбирательствам. В eDiscovery возможность кластеризации, категоризации и поиска в больших коллекциях неструктурированного текста на концептуальной основе гораздо более эффективна, чем традиционные методы линейного анализа. Поиск на основе понятий становится надежным и эффективным методом поиска, который с большей вероятностью даст релевантные результаты, чем поиск по ключевым словам или логический поиск. [14]
- Корпоративный поиск и управление корпоративным контентом (ECM) . Технологии концептуального поиска широко используются в корпоративном поиске. По мере роста объема информации внутри предприятия способность группировать, классифицировать и осуществлять поиск в больших коллекциях неструктурированного текста на концептуальной основе стала существенной. В 2004 году группа Gartner подсчитала, что профессионалы тратят 30 процентов своего времени на поиск, получение и управление информацией. [15] Исследовательская компания IDC обнаружила, что корпорация со штатом в 2000 сотрудников может сэкономить до 30 миллионов долларов в год за счет сокращения времени, которое сотрудники тратят на поиск информации и дублирование существующих документов. [15]
- Поиск изображений на основе контента (CBIR) . Подходы на основе контента используются для семантического поиска оцифрованных изображений и видео из больших визуальных массивов. Одной из первых систем поиска изображений на основе контента, решавших семантическую проблему, была поисковая система ImageScape. В этой системе пользователь мог делать прямые запросы к множеству визуальных объектов, таких как небо, деревья, вода и т. д., используя пространственно расположенные значки в индексе WWW, содержащем более десяти миллионов изображений и видео, используя ключевые кадры. Система использовала теорию информации для определения лучших признаков для минимизации неопределенности в классификации. [16] Семантический разрыв часто упоминается в отношении CBIR. Семантический разрыв относится к разрыву между информацией, которую можно извлечь из визуальных данных, и интерпретацией, которую эти же данные имеют для пользователя в данной ситуации. [17] Семинар ACM SIGMM по поиску мультимедийной информации [18] посвящен исследованиям CBIR.
- Мультимедиа и издательское дело . Поиск концепций используется в мультимедийной и издательской отраслях для предоставления пользователям доступа к новостям, технической информации и экспертным знаниям в предметной области, поступающим из множества неструктурированных источников. Контентные методы поиска мультимедийной информации (MIR) стали особенно важными, когда текстовые аннотации отсутствуют или являются неполными. [16]
- Цифровые библиотеки и архивы . Изображения, видео, музыка и текстовые элементы в цифровых библиотеках и цифровых архивах становятся доступными для больших групп пользователей (особенно в Интернете) благодаря использованию методов концептуального поиска. Например, Executive Daily Brief (EDB), продукт для мониторинга и оповещения деловой информации, разработанный EBSCO Publishing , использует технологию концептуального поиска, чтобы предоставить корпоративным конечным пользователям доступ к цифровой библиотеке, содержащей широкий спектр бизнес-контента. Подобным же образом проект «Музыкальный геном» породил Pandora, которая использует поиск концепций для спонтанного создания индивидуальных музыкальных библиотек или виртуальных радиостанций.
- Поиск геномной информации (GIR) – Поиск геномной информации (GIR) использует методы поиска концепций, применяемые к базам данных геномной литературы, чтобы преодолеть двусмысленность научной литературы.
- Кадровое обеспечение и подбор персонала . Многие кадровые и рекрутинговые организации внедрили технологии концептуального поиска для получения высокорелевантных результатов поиска резюме, которые обеспечивают более точные и релевантные резюме кандидатов, чем результаты по слабо связанным ключевым словам.
Эффективный поиск
[ редактировать ]Эффективность концептуального поиска может зависеть от множества элементов, включая искомый набор данных и поисковую систему, которая используется для обработки запросов и отображения результатов. Однако большинство концептуальных поисковых систем лучше всего работают для определенных типов запросов:
- Эффективные запросы состоят из достаточного количества текста, чтобы адекватно передать предполагаемые концепции. Эффективные запросы могут включать полные предложения, абзацы или даже целые документы. Запросы, состоящие всего из нескольких слов, с меньшей вероятностью дадут наиболее релевантные результаты.
- Эффективные запросы не включают в себя понятия, которые не являются объектом поиска. Включение в запрос слишком большого количества несвязанных понятий может отрицательно повлиять на релевантность элементов результатов. Например, поиск информации о катании на лодке по реке Миссисипи с большей вероятностью даст релевантные результаты, чем поиск информации о катании на лодке по реке Миссисипи в дождливый день в середине лета 1967 года.
- Эффективные запросы выражаются в полнотекстовом стиле на естественном языке, аналогичном стилю искомых документов. Например, использование запросов, состоящих из выдержек из вводного учебника по естественным наукам, не будет столь эффективным для концептуального поиска, если искомый набор данных состоит из научных текстов для продвинутого уровня, предназначенных для колледжа. Существенные запросы, которые лучше отражают общие концепции, стили и язык элементов, для которых выполняется запрос, обычно более эффективны.
Как и в случае со всеми стратегиями поиска, опытные поисковики обычно уточняют свои запросы с помощью нескольких поисков, начиная с начального начального запроса для получения концептуально релевантных результатов, которые затем можно использовать для составления и/или уточнения дополнительных запросов для получения все более релевантных результатов. В зависимости от поисковой системы использование концепций запроса, найденных в результирующих документах, может быть таким же простым, как выбор документа и выполнение функции поиска похожей информации . Изменение запроса путем добавления терминов и понятий для повышения релевантности результатов называется расширением запроса . [19] Использование онтологий, таких как WordNet, изучалось для расширения запросов концептуально связанными словами. [20]
Обратная связь по актуальности
[ редактировать ]Обратная связь по релевантности — это функция, которая помогает пользователям определить, соответствуют ли результаты, возвращаемые по их запросам, их информационным потребностям. Другими словами, релевантность оценивается относительно информационной потребности, а не запроса. Документ является релевантным, если он удовлетворяет заявленную информационную потребность, а не потому, что он просто содержит все слова в запросе. [21] Это способ вовлечь пользователей в процесс поиска, чтобы улучшить окончательный набор результатов. [21] Пользователи могут уточнять свои запросы на основе первоначальных результатов, чтобы улучшить качество окончательных результатов.
В общем, релевантность поиска понятий относится к степени сходства между понятиями, выраженными в запросе, и понятиями, содержащимися в результатах, возвращаемых по запросу. Чем больше понятия в результатах похожи на понятия, содержащиеся в запросе, тем более релевантными считаются результаты. Результаты обычно ранжируются и сортируются по релевантности, так что наиболее релевантные результаты находятся вверху списка результатов, а наименее релевантные — внизу списка.
Было показано, что обратная связь по релевантности очень эффективна для повышения релевантности результатов. [21] Поиск по понятиям снижает риск пропуска важных элементов результатов, поскольку все элементы, связанные с понятиями в запросе, будут возвращены независимо от того, содержат ли они те же слова, которые использовались в запросе, или нет. [15]
Ранжирование продолжит оставаться частью любой современной системы поиска информации. Однако отраженные в тексте проблемы разнородных данных, масштаба и нетрадиционных типов дискурса, а также тот факт, что поисковые системы все чаще будут интегрированными компонентами сложных процессов управления информацией, а не просто автономными системами, потребуют новых видов. ответов системы на запрос. Например, одна из проблем ранжированных списков заключается в том, что они могут не выявить связи, существующие между некоторыми элементами результатов. [22]
Рекомендации по оценке концептуальной поисковой системы
[ редактировать ]- Элементы результата должны соответствовать информационной потребности, выраженной понятиями, содержащимися в операторах запроса, даже если терминология, используемая в элементах результата, отличается от терминологии, используемой в запросе.
- Элементы результатов должны быть отсортированы и ранжированы по релевантности.
- Соответствующие элементы результатов должны быть быстро найдены и отображены. Даже сложные запросы должны возвращать релевантные результаты довольно быстро.
- Длина запроса не должна быть фиксированной , т. е. запрос может быть настолько длинным, насколько это необходимо. Предложение, абзац или даже весь документ можно отправить в виде запроса.
- Концептуальный запрос не должен требовать какого-либо специального или сложного синтаксиса. Понятия, содержащиеся в запросе, можно четко и наглядно выразить без использования каких-либо специальных правил.
- Должны быть разрешены комбинированные запросы с использованием понятий, ключевых слов и метаданных. [23]
- Соответствующие части элементов результатов следует использовать в качестве текста запроса, просто выбрав элемент и указав поисковой системе найти похожие элементы.
- Готовые к запросам индексы должны создаваться относительно быстро.
- Поисковая система должна быть способна выполнять объединенный поиск . Федеративный поиск позволяет использовать концептуальные запросы для одновременного поиска информации в нескольких источниках данных , которая затем объединяется, сортируется и отображается в результатах.
- На поиск понятий не должны влиять слова с ошибками, типографские ошибки или ошибки сканирования OCR ни в тексте запроса, ни в тексте набора данных . искомого
Конференции и форумы
[ редактировать ]Формализованная оценка поисковых систем проводится уже много лет. Например, Конференция по поиску текста (TREC) была основана в 1992 году для поддержки исследований в области поиска информации путем предоставления инфраструктуры, необходимой для крупномасштабной оценки методологий поиска текста. Большинство современных коммерческих поисковых систем используют технологии, впервые разработанные в TREC. [24]
В 1997 году был запущен японский аналог TREC под названием Национальный институт информатики (NTCIR). NTCIR проводит серию семинаров по оценке исследований в области поиска информации, ответов на вопросы, автоматического обобщения и т. д. Европейская серия семинаров под названием Форум межъязыковой оценки (CLEF) была начата в 2001 году для помощи исследованиям в области многоязычного доступа к информации. В 2002 году была создана Инициатива по оценке поиска XML (INEX) для оценки контентно-ориентированных систем поиска XML .
Точность и полнота были двумя традиционными показателями производительности систем поиска информации. Точность — это доля полученных результирующих документов, которая соответствует информационным потребностям пользователя. Отзыв определяется как доля соответствующих документов во всей коллекции, возвращаемых как результирующие документы. [21]
Хотя семинары и общедоступные наборы тестов, используемые для тестирования и оценки поисковых систем, дали существенное представление о том, как управляется и извлекается информация, эта область лишь поверхностно затронула проблемы, с которыми люди и организации сталкиваются при поиске, управлении и использовании информации. теперь, когда доступно так много информации. [22] Научные данные о том, как люди используют доступные им сегодня информационные инструменты, все еще неполны, поскольку методологии экспериментальных исследований не успевают за быстрыми темпами изменений. Многие проблемы, такие как контекстуальный поиск, управление личной информацией, интеграция информации и поддержка задач, все еще требуют решения. [22]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Брэдфорд, Р.Б., Устранение неоднозначности в смысле слова, Content Analyst Company , LLC, Патент США 7415462, 2008 г.
- ^ Р. Навильи, Устранение неоднозначности в смысле слова: опрос , ACM Computing Surveys, 41 (2), 2009.
- ^ Гринграсс, Э., Информационный поиск: обзор, 2000.
- ^ Дюбуа, К., Использование тезаурусов в онлайн-поиске, Журнал информатики, 8 (2), март 1984 г., стр. 63-6
- ^ Миллер, Г., Специальный выпуск, WordNet: онлайновая лексическая база данных , Intl. Журнал лексикографии, 3 (4), 1990.
- ^ Фаусто Джунчилья, Владимир Харкевич и Илья Заиграев. Поиск концепций. Архивировано 10 февраля 2014 г. на Wayback Machine , в материалах Европейской конференции по семантической сети, 2009 г.
- ^ Jump up to: а б с д Брэдфорд, Р.Б., Почему LSI? Скрытое семантическое индексирование и поиск информации, Технический документ, Content Analyst Company , LLC, 2008 г.
- ^ Ландауэр Т. и Дюмэ С., Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний , Psychoological Review, 1997, 104 (2), стр. 211-240.
- ^ Скилликорн, Д., Понимание сложных наборов данных: интеллектуальный анализ данных с матричным разложением , CRC Publishing, 2007.
- ^ Хонкела Т., Хиваринен А. и Вайринен Дж. WordICA - Появление лингвистических представлений слов посредством анализа независимых компонентов. Инженерия естественного языка, 16(3):277-308, 2010 г.
- ^ Ржегуржек, Радим (2011). «Масштабируемость семантического анализа при обработке естественного языка» (PDF) . Проверено 27 января 2015 г.
- ^ Программное обеспечение Gensim с открытым исходным кодом.
- ^ Дюмэ, С., Скрытый семантический анализ, Обзор информационных наук и технологий ARIST, том. 38, глава 4, 2004 г.
- ^ Мировой судья Джон М. Фаччиола из Окружного суда США по округу Вашингтон, округ КолумбияСовет по правам инвалидов против Управления городского транспорта Вашингтона, 242 FRD 139 (DDC 2007), цитирует Джорджа Л. Пола и Джейсона Р. Бэрона, «Информационная инфляция: может ли правовая система адаптироваться?» 13 Рич. Дж.Л. и Техн. 10 (2007).
- ^ Jump up to: а б с Лапланш Р., Дельгадо Дж., Тёрк М., Технология концептуального поиска выходит за рамки ключевых слов, Information Outlook, июль 2004 г.
- ^ Jump up to: а б Лью М.С., Себе Н., Джераба К., Джайн Р., Поиск мультимедийной информации на основе контента: современное состояние и проблемы , Транзакции ACM в мультимедийных вычислениях, коммуникациях и приложениях, февраль 2006 г.
- ^ Датта Р., Джоши, Д., Ли Дж., Ван, Дж. З., Поиск изображений: идеи, влияние и тенденции нового века , ACM Computing Surveys, Vol. 40, № 2, апрель 2008 г.
- ^ «Мир 2004» . www.liacs.nl . Архивировано из оригинала 7 марта 2014 года . Проверено 12 января 2022 г.
- ^ Робертсон, С.Э. , Сперк Джонс, К. , Простые, проверенные подходы к поиску текста, Технический отчет, Компьютерная лаборатория Кембриджского университета, декабрь 1994 г.
- ^ Навильи, Р., Веларди, П. Анализ стратегий расширения запросов на основе онтологии. Архивировано 26 апреля 2012 г. в Wayback Machine . Учеб. семинара по адаптивному извлечению и интеллектуальному анализу текста (ATEM 2003) , на 14-й Европейской конференции по машинному обучению (ECML 2003) , Цавтат-Дубровник, Хорватия, 22–26 сентября 2003 г., стр. 42–49.
- ^ Jump up to: а б с д Мэннинг, К.Д., Рагхаван П., Шютце Х., Введение в поиск информации, Cambridge University Press, 2008.
- ^ Jump up to: а б с Каллан, Дж., Аллан, Дж., Кларк, К.Л.А., Дюмэ, С., Эванс, Д., А., Сандерсон, М., Чжай, К., Встреча умов: программа исследований в области информационного поиска , ACM, Форум SIGIR, Vol. 41 № 2, декабрь 2007 г.
- ^ Рехурек, Р., Комбинированная система поиска по сходству векторов на основе инвертированного полнотекстового индекса, Поисковая система ScaleText , ожидающий патент США 15726803, 2017.
- ^ Крофт Б., Мецлер Д., Строман Т., Поисковые системы, информационный поиск на практике, Аддисон Уэсли, 2009.
Внешние ссылки
[ редактировать ]- Конференция по текстовому поиску (TREC) , NIST
- Испытательные стенды НИИ и сообщество исследований доступа к информации (NTCIR) , Национальный институт информатики, Токио
- Межъязыковое образование и функции (CLEF)
- (Инициатива по оценке извлечения XML) , Университет Дуйсбург-Эссен
- INEX (Инициатива по оценке извлечения XML) , Университет Дуйсбурга (архив 2007 г.)