Jump to content

Поиск документов

(Перенаправлено из Поиска текста )

Поиск документа определяется как сопоставление некоторого заданного пользовательского запроса с набором записей произвольного текста . Эти записи могут представлять собой любой тип, в основном неструктурированного текста , например, газетные статьи , записи о недвижимости или параграфы в руководстве. Пользовательские запросы могут варьироваться от полных описаний необходимой информации до нескольких слов.

Поиск документов иногда называют поиском текста или его ответвлением . Текстовый поиск — это отрасль поиска информации , в которой информация хранится преимущественно в форме текста . Текстовые базы данных стали децентрализованными благодаря персональному компьютеру . Поиск текста сегодня является важной областью исследований, поскольку он является фундаментальной основой всех в Интернете поисковых систем .

Описание

[ редактировать ]

Системы поиска документов находят информацию по заданным критериям, сопоставляя текстовые записи ( документы ) с запросами пользователей, в отличие от экспертных систем , которые отвечают на вопросы, делая выводы из базы логических знаний . Система поиска документов состоит из базы данных документов, алгоритма классификации для построения полнотекстового индекса и пользовательского интерфейса для доступа к базе данных.

Система поиска документов решает две основные задачи:

  1. Найдите соответствующие документы по запросам пользователей
  2. Оцените результаты сопоставления и отсортируйте их по релевантности, используя такие алгоритмы, как PageRank .

Интернета Поисковые системы являются классическими приложениями поиска документов. Подавляющее большинство используемых в настоящее время поисковых систем варьируются от простых логических систем до систем, использующих методы статистической обработки или обработки естественного языка .

Вариации

[ редактировать ]

Существует два основных класса схем индексирования для систем поиска документов: индексирование на основе формы (или на основе слов ) и индексирование на основе содержания . Используемая схема классификации документов (или алгоритм индексации ) определяет характер системы поиска документов.

На основе формы

[ редактировать ]

При поиске документов на основе форм учитываются точные синтаксические свойства текста, что можно сравнить с сопоставлением подстрок при поиске строк. Текст, как правило, неструктурирован и не обязательно написан на естественном языке; например, систему можно использовать для обработки больших наборов химических представлений в молекулярной биологии. Алгоритм суффиксного дерева является примером индексации на основе форм.

Основанный на контенте

[ редактировать ]

Подход, основанный на контенте, использует семантические связи между документами и их частями, а также семантические связи между запросами и документами. Большинство систем поиска документов на основе контента используют алгоритм инвертированного индекса .

Файл подписи — это метод, который создает быстрый и грязный фильтр, например фильтр Блума , который сохранит все документы, соответствующие запросу, и, возможно, несколько документов, которые не соответствуют запросу. Это делается путем создания для каждого файла подписи, обычно версии с хэш-кодом. Одним из методов является наложенное кодирование. Для исключения ложных тревог выполняется этап постобработки. Поскольку в большинстве случаев эта структура уступает инвертированным файлам по скорости, размеру и функциональности, она не получила широкого распространения. Однако при правильных параметрах он может превзойти инвертированные файлы в определенных средах.

Пример: ПабМед

[ редактировать ]

ПабМед [1] В интерфейсе формы предусмотрен поиск «похожих статей», который работает путем сравнения слов из заголовка документа, аннотации и терминов MeSH с использованием взвешенного по словам алгоритма. [2] [3]

См. также

[ редактировать ]
  1. ^ Ким В., Аронсон А.Р., Уилбур У.Дж. (2001). «Автоматическое назначение сроков MeSH и оценка качества» . Процедура AMIA Symp : 319–23. ПМК   2243528 . ПМИД   11825203 .
  2. ^ Подсчет связанных цитирований . Национальный центр биотехнологической информации (США). 06.02.2019.
  3. ^ Лин Дж.1, Уилбур У.Дж. (30 октября 2007 г.). «Статьи по теме PubMed: вероятностная тематическая модель сходства контента» . БМК Биоинформатика . 8 : 423. дои : 10.1186/1471-2105-8-423 . ПМК   2212667 . ПМИД   17971238 . {{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2f20668c636b5cad46d700d2414b5868__1701552300
URL1:https://arc.ask3.ru/arc/aa/2f/68/2f20668c636b5cad46d700d2414b5868.html
Заголовок, (Title) документа по адресу, URL1:
Document retrieval - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)