Поиск документов
Поиск документа определяется как сопоставление некоторого заданного пользовательского запроса с набором записей произвольного текста . Эти записи могут представлять собой любой тип, в основном неструктурированного текста , например, газетные статьи , записи о недвижимости или параграфы в руководстве. Пользовательские запросы могут варьироваться от полных описаний необходимой информации до нескольких слов.
Поиск документов иногда называют поиском текста или его ответвлением . Текстовый поиск — это отрасль поиска информации , в которой информация хранится преимущественно в форме текста . Текстовые базы данных стали децентрализованными благодаря персональному компьютеру . Поиск текста сегодня является важной областью исследований, поскольку он является фундаментальной основой всех в Интернете поисковых систем .
Описание
[ редактировать ]Системы поиска документов находят информацию по заданным критериям, сопоставляя текстовые записи ( документы ) с запросами пользователей, в отличие от экспертных систем , которые отвечают на вопросы, делая выводы из базы логических знаний . Система поиска документов состоит из базы данных документов, алгоритма классификации для построения полнотекстового индекса и пользовательского интерфейса для доступа к базе данных.
Система поиска документов решает две основные задачи:
- Найдите соответствующие документы по запросам пользователей
- Оцените результаты сопоставления и отсортируйте их по релевантности, используя такие алгоритмы, как PageRank .
Интернета Поисковые системы являются классическими приложениями поиска документов. Подавляющее большинство используемых в настоящее время поисковых систем варьируются от простых логических систем до систем, использующих методы статистической обработки или обработки естественного языка .
Вариации
[ редактировать ]Существует два основных класса схем индексирования для систем поиска документов: индексирование на основе формы (или на основе слов ) и индексирование на основе содержания . Используемая схема классификации документов (или алгоритм индексации ) определяет характер системы поиска документов.
На основе формы
[ редактировать ]При поиске документов на основе форм учитываются точные синтаксические свойства текста, что можно сравнить с сопоставлением подстрок при поиске строк. Текст, как правило, неструктурирован и не обязательно написан на естественном языке; например, систему можно использовать для обработки больших наборов химических представлений в молекулярной биологии. Алгоритм суффиксного дерева является примером индексации на основе форм.
Основанный на контенте
[ редактировать ]Подход, основанный на контенте, использует семантические связи между документами и их частями, а также семантические связи между запросами и документами. Большинство систем поиска документов на основе контента используют алгоритм инвертированного индекса .
Файл подписи — это метод, который создает быстрый и грязный фильтр, например фильтр Блума , который сохранит все документы, соответствующие запросу, и, возможно, несколько документов, которые не соответствуют запросу. Это делается путем создания для каждого файла подписи, обычно версии с хэш-кодом. Одним из методов является наложенное кодирование. Для исключения ложных тревог выполняется этап постобработки. Поскольку в большинстве случаев эта структура уступает инвертированным файлам по скорости, размеру и функциональности, она не получила широкого распространения. Однако при правильных параметрах он может превзойти инвертированные файлы в определенных средах.
Пример: ПабМед
[ редактировать ]ПабМед [1] В интерфейсе формы предусмотрен поиск «похожих статей», который работает путем сравнения слов из заголовка документа, аннотации и терминов MeSH с использованием взвешенного по словам алгоритма. [2] [3]
См. также
[ редактировать ]- Обработка сложных терминов
- Классификация документов
- Корпоративный поиск
- Меры оценки (поиск информации)
- Полнотекстовый поиск
- Поиск информации
- Скрытая семантическая индексация
- Поисковая система
Ссылки
[ редактировать ]- ^ Ким В., Аронсон А.Р., Уилбур У.Дж. (2001). «Автоматическое назначение сроков MeSH и оценка качества» . Процедура AMIA Symp : 319–23. ПМК 2243528 . ПМИД 11825203 .
- ^ Подсчет связанных цитирований . Национальный центр биотехнологической информации (США). 06.02.2019.
- ^ Лин Дж.1, Уилбур У.Дж. (30 октября 2007 г.). «Статьи по теме PubMed: вероятностная тематическая модель сходства контента» . БМК Биоинформатика . 8 : 423. дои : 10.1186/1471-2105-8-423 . ПМК 2212667 . ПМИД 17971238 .
{{cite journal}}
: CS1 maint: числовые имена: список авторов ( ссылка )
Дальнейшее чтение
[ редактировать ]- Фалуцсос, Христос; Христодулакис, Ставрос (1984). «Файлы подписей: метод доступа к документам и его аналитическая оценка эффективности» . Транзакции ACM в информационных системах . 2 (4): 267–288. дои : 10.1145/2275.357411 . S2CID 8120705 .
- Джастин Зобель; Алистер Моффат; Котагири Рамамоханарао (1998). «Инвертированные файлы и файлы сигнатур для индексации текста» (PDF) . Транзакции ACM в системах баз данных . 23 (4): 453–490. CiteSeerX 10.1.1.54.8753 . дои : 10.1145/296854.277632 . S2CID 7293918 .
- Бен Картеретт; Фазли Джан (2005). «Сравнение инвертированных файлов и файлов сигнатур для поиска в большом словаре» (PDF) . Обработка информации и управление . 41 (3): 613–633. дои : 10.1016/j.ipm.2003.12.003 .
Внешние ссылки
[ редактировать ]- Формальный фонд информационного поиска , Бакингемширский университетский колледж Чилтернс