Список публикаций
Список публикаций — это структура данных , обычно используемая в системах информационного поиска (IR) для хранения индексирующей информации о корпусе. Это имеет решающее значение для разработки и эффективности поисковых систем и систем управления базами данных, которым необходимо быстро получать информацию.
Как минимум, список проводок связан с термином из документа и записывает места, где этот термин встречается. Каждый термин, найденный в документах внутри корпуса, сопоставляется с соответствующим списком проводок, содержащим такую информацию, как документы, в которых этот термин встречается, и часто позиции в этих документах. [1]
Структура
[ редактировать ]Список проводок состоит из элементов проводки, иногда называемых проводками. Каждое сообщение обычно содержит:
- Идентификатор документа (DocID), который однозначно идентифицирует документ в корпусе.
- Информация о частоте (Term Frequency), показывающая, как часто термин появляется в документе.
- Информация о позиции, указывающая, где в тексте появляется термин.
- Дополнительные метаданные могут включать такие поля, как названия документов, заголовки или другую соответствующую информацию, относящуюся к документу.
Точная структура списка публикаций может варьироваться в зависимости от его применения: некоторые используют связанные списки, массивы или более сложные структуры данных, такие как списки пропуска, для оптимизации под различные типы поиска.
Во время поискового запроса система IR извлекает списки публикаций для каждого термина в запросе, чтобы определить, какие документы содержат эти термины и насколько релевантными могут быть эти документы на основе частоты и положения терминов.
Варианты
[ редактировать ]Некоторые варианты списков публикаций включают в себя:
- Инвертированный индекс : форма списка публикаций, указывающая от терминов к документам.
- Публикации в порядке влияния: списки, в которых публикации упорядочены по весу или «влиянию» термина в документе.
- Списки позиционных публикаций: расширенные списки публикаций, которые включают информацию о позиции для фразовых запросов и поиска по близости.
Ссылки
[ редактировать ]- ^ Бютчер, Стефан; Кларк, Чарльз Лос-Анджелес; Кормак, Гордон В. (2016). Поиск информации: внедрение и оценка поисковых систем (изд. First MIT Press в мягкой обложке). Кембридж, Массачусетс, Лондон, Англия: MIT Press. ISBN 978-0-262-52887-0 .