Поиск документов

Поиск документа определяется как сопоставление некоторого заданного пользовательского запроса с набором записей произвольного текста . Эти записи могут представлять собой любой тип, в основном неструктурированного текста , например, газетные статьи , записи о недвижимости или параграфы в руководстве. Пользовательские запросы могут варьироваться от полных описаний необходимой информации до нескольких слов.

Поиск документов иногда называют поиском текста или его ответвлением . Текстовый поиск — это отрасль поиска информации , в которой информация хранится преимущественно в форме текста . Текстовые базы данных стали децентрализованными благодаря персональному компьютеру . Поиск текста сегодня является важной областью исследований, поскольку он является фундаментальной основой всех в Интернете поисковых систем .

Описание

Системы поиска документов находят информацию по заданным критериям, сопоставляя текстовые записи ( документы ) с запросами пользователей, в отличие от экспертных систем , которые отвечают на вопросы, делая выводы из базы логических знаний . Система поиска документов состоит из базы данных документов, алгоритма классификации для построения полнотекстового индекса и пользовательского интерфейса для доступа к базе данных.

Система поиска документов решает две основные задачи:

Найдите соответствующие документы по запросам пользователей
Оцените результаты сопоставления и отсортируйте их по релевантности, используя такие алгоритмы, как PageRank .

Интернета Поисковые системы являются классическими приложениями поиска документов. Подавляющее большинство используемых в настоящее время поисковых систем варьируются от простых логических систем до систем, использующих методы статистической обработки или обработки естественного языка .

Вариации

Существует два основных класса схем индексирования для систем поиска документов: индексирование на основе формы (или на основе слов ) и индексирование на основе содержания . Используемая схема классификации документов (или алгоритм индексации ) определяет характер системы поиска документов.

На основе формы

При поиске документов на основе форм учитываются точные синтаксические свойства текста, что можно сравнить с сопоставлением подстрок при поиске строк. Текст, как правило, неструктурирован и не обязательно написан на естественном языке; например, систему можно использовать для обработки больших наборов химических представлений в молекулярной биологии. Алгоритм суффиксного дерева является примером индексации на основе форм.

Основанный на контенте

Подход, основанный на контенте, использует семантические связи между документами и их частями, а также семантические связи между запросами и документами. Большинство систем поиска документов на основе контента используют алгоритм инвертированного индекса .

Файл подписи — это метод, который создает быстрый и грязный фильтр, например фильтр Блума , который сохранит все документы, соответствующие запросу, и, возможно, несколько документов, которые не соответствуют запросу. Это делается путем создания для каждого файла подписи, обычно версии с хэш-кодом. Одним из методов является наложенное кодирование. Для исключения ложных тревог выполняется этап постобработки. Поскольку в большинстве случаев эта структура уступает инвертированным файлам по скорости, размеру и функциональности, она не получила широкого распространения. Однако при правильных параметрах он может превзойти инвертированные файлы в определенных средах.

Пример: ПабМед

ПабМед ^[1] В интерфейсе формы предусмотрен поиск «похожих статей», который работает путем сравнения слов из заголовка документа, аннотации и терминов MeSH с использованием взвешенного по словам алгоритма. ^[2]^[3]

См. также

Ссылки

^ Ким В., Аронсон А.Р., Уилбур У.Дж. (2001). «Автоматическое назначение сроков MeSH и оценка качества» . Процедура AMIA Symp : 319–23. ПМК 2243528 . ПМИД 11825203 .
^ Подсчет связанных цитирований . Национальный центр биотехнологической информации (США). 06.02.2019.
^ Лин Дж.1, Уилбур У.Дж. (30 октября 2007 г.). «Статьи по теме PubMed: вероятностная тематическая модель сходства контента» . БМК Биоинформатика . 8 : 423. дои : 10.1186/1471-2105-8-423 . ПМК 2212667 . ПМИД 17971238 . {{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )

Дальнейшее чтение

Фалуцсос, Христос; Христодулакис, Ставрос (1984). «Файлы подписей: метод доступа к документам и его аналитическая оценка эффективности» . Транзакции ACM в информационных системах . 2 (4): 267–288. дои : 10.1145/2275.357411 . S2CID 8120705 .
Джастин Зобель; Алистер Моффат; Котагири Рамамоханарао (1998). «Инвертированные файлы и файлы сигнатур для индексации текста» (PDF) . Транзакции ACM в системах баз данных . 23 (4): 453–490. CiteSeerX 10.1.1.54.8753 . дои : 10.1145/296854.277632 . S2CID 7293918 .
Бен Картеретт; Фазли Джан (2005). «Сравнение инвертированных файлов и файлов сигнатур для поиска в большом словаре» (PDF) . Обработка информации и управление . 41 (3): 613–633. дои : 10.1016/j.ipm.2003.12.003 .

Внешние ссылки

Формальный фонд информационного поиска , Бакингемширский университетский колледж Чилтернс

[1] Ким В., Аронсон А.Р., Уилбур У.Дж. (2001). «Автоматическое назначение сроков MeSH и оценка качества» . Процедура AMIA Symp : 319–23. ПМК 2243528 . ПМИД 11825203 .

[2] Подсчет связанных цитирований . Национальный центр биотехнологической информации (США). 06.02.2019.

[3] Лин Дж.1, Уилбур У.Дж. (30 октября 2007 г.). «Статьи по теме PubMed: вероятностная тематическая модель сходства контента» . БМК Биоинформатика . 8 : 423. дои : 10.1186/1471-2105-8-423 . ПМК 2212667 . ПМИД 17971238 . {{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )

[1]

[2]

[3]