Jump to content

Список публикаций

Список публикаций — это структура данных , обычно используемая в системах информационного поиска (IR) для хранения индексирующей информации о корпусе. Это имеет решающее значение для разработки и эффективности поисковых систем и систем управления базами данных, которым необходимо быстро получать информацию.

Как минимум, список проводок связан с термином из документа и записывает места, где этот термин встречается. Каждый термин, найденный в документах внутри корпуса, сопоставляется с соответствующим списком проводок, содержащим такую ​​информацию, как документы, в которых этот термин встречается, и часто позиции в этих документах. [1]

Структура

[ редактировать ]

Список проводок состоит из элементов проводки, иногда называемых проводками. Каждое сообщение обычно содержит:

  • Идентификатор документа (DocID), который однозначно идентифицирует документ в корпусе.
  • Информация о частоте (Term Frequency), показывающая, как часто термин появляется в документе.
  • Информация о позиции, указывающая, где в тексте появляется термин.
  • Дополнительные метаданные могут включать такие поля, как названия документов, заголовки или другую соответствующую информацию, относящуюся к документу.

Точная структура списка публикаций может варьироваться в зависимости от его применения: некоторые используют связанные списки, массивы или более сложные структуры данных, такие как списки пропуска, для оптимизации под различные типы поиска.

Во время поискового запроса система IR извлекает списки публикаций для каждого термина в запросе, чтобы определить, какие документы содержат эти термины и насколько релевантными могут быть эти документы на основе частоты и положения терминов.

Варианты

[ редактировать ]

Некоторые варианты списков публикаций включают в себя:

  • Инвертированный индекс : форма списка публикаций, указывающая от терминов к документам.
  • Публикации в порядке влияния: списки, в которых публикации упорядочены по весу или «влиянию» термина в документе.
  • Списки позиционных публикаций: расширенные списки публикаций, которые включают информацию о позиции для фразовых запросов и поиска по близости.
  1. ^ Бютчер, Стефан; Кларк, Чарльз Лос-Анджелес; Кормак, Гордон В. (2016). Поиск информации: внедрение и оценка поисковых систем (изд. First MIT Press в мягкой обложке). Кембридж, Массачусетс, Лондон, Англия: MIT Press. ISBN  978-0-262-52887-0 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c056378c96f6dfbab36cf9d5100e3e59__1702421520
URL1:https://arc.ask3.ru/arc/aa/c0/59/c056378c96f6dfbab36cf9d5100e3e59.html
Заголовок, (Title) документа по адресу, URL1:
Postings list - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)