Модель отклонения от случайности

В области информации поиска расхождение со случайностью , одна из первых моделей, является одним из типов вероятностных моделей. В основном он используется для проверки объема информации, содержащейся в документах. Он основан на модели индексации 2-Пуассона Хартера. Модель 2-Пуассона предполагает, что уровень документов связан с набором документов, в котором слов встречается относительно больше, чем в остальных документах. Это не «модель», а основа для взвешивания терминов с использованием вероятностных методов, и она имеет особое отношение к взвешиванию терминов, основанному на понятии элитности.

Вес термина рассматривается как стандарт того, находится ли конкретное слово в этом наборе или нет. Веса терминов вычисляются путем измерения расхождения между распределением терминов, полученным в результате случайного процесса, и фактическим распределением терминов.

Отклонение от моделей случайности устанавливается путем реализации трех основных компонентов структуры: сначала выбора базовой модели случайности, затем применения первой нормализации и, наконец, нормализации терминов «частоты». Базовые модели взяты из следующих таблиц.

Определение [ править ]

Отличие от случайности основано на этой идее: «Чем больше отклонение частоты термина внутри документа от его частоты в коллекции, тем больше информации несет слово t в документе d. Другими словами, термин- вес обратно пропорционален вероятности частоты терминов в документе d, полученной с помощью модели случайности M». ^[1](По материалам terrier.org)

${\text{weight}}(t|d)=k{\text{Prob}}_{M}(t\in d|{\text{Collection}})$ (Формула 1)

M представляет собой тип модели случайности, которая используется для расчета вероятности.
d — общее количество слов в документах.
t — номер конкретного слова в d.
k определяется М.

Возможно, мы используем разные модели урн , чтобы выбрать подходящую модель случайности M. В информационном поиске вместо урн используются документы, а вместо цветов — термины. Есть несколько способов выбрать M, каждый из которых имеет базовое отличие от модели случайности, подтверждающей его.

Модель [ править ]

Базовые модели [ править ]

D      Divergence approximation of the binomial
P      Approximation of the binomial
BE        Bose-Einstein distribution
G  Geometric approximation of the  Bose-Einstein 
I(n)   Inverse Document Frequency Model
I(F)   Inverse Term Frequency Model
I(ne) Inverse Expected Document Frequency Model

Модели DFR [ править ]

BB2    Bernoulli-Einstein model with Bernoulli after-effect and normalization 2.
IFB2    Inverse Term Frequency model with Bernoulli after-effect and normalization 2.
In-expB2 Inverse Expected Document Frequency model with Bernoulli after-effect and normalization 2. The logarithms are base 2. This model can be used for classic ad-hoc tasks.
In-expC2  Inverse Expected Document Frequency model with Bernoulli after-effect and normalization 2. The logarithms are base e. This model can be used for classic ad-hoc tasks.
InL2    Inverse Document Frequency model with Laplace after-effect and normalization 2. This model can be used for tasks that require early precision.
PL2    Poisson model with Laplace after-effect and normalization 2. This model can be used for tasks that require early precision[7,8].

Первая нормализация

Если в документе невозможно найти конкретный редкий термин, то в этом документе вероятность того, что этот термин будет информативным, составляет примерно нулевую. С другой стороны, если редкий термин часто встречается в документе, он может иметь очень высокую, почти 100% вероятность быть информативным для темы, упомянутой в документе. Применение языковой модели Понте и Крофта также может быть хорошей идеей. Обратите внимание, что в DFR учитывается компонент риска. Логически говоря, если частота терминов в документе относительно высока, то, наоборот, риск того, что термин не будет информативным, относительно невелик. Допустим, у нас есть Формула 1, дающая высокую ценность, тогда минимальный риск имеет отрицательный эффект, поскольку показывает небольшой прирост информации. Поэтому мы решили организовать вес Формулы 1 так, чтобы учитывать только ту часть, которая представляет собой объем информации, полученной с помощью термина. Чем больше термин встречается в элитном наборе, тем меньшая частота термина обусловлена случайностью и, следовательно, тем меньше связанный с ним риск. В основном мы применяем две модели для расчета прироста информации с помощью термина в документе:

the Laplace L model, the ratio of two Bernoulli's processes B.

Нормализация частоты термина [ править ]

Прежде чем использовать частоту термина внутри документа tf, длина документа dl нормализуется до стандартной длины sl. Поэтому частоты терминов tf пересчитываются относительно стандартной длины документа, то есть:

 tf_n = tf * log(1+ sl/dl) (normalization 1)

tfn представляет собой нормализованную частоту термина. Другой вариант формулы нормализации следующий:

 tf_n = tf * log(1 + c*(sl/dl)) (normalization 2)

Нормализация 2 обычно считается более гибкой, поскольку для c не существует фиксированного значения.

tf — частота термина t в документе d
dl — длина документа.
sl – стандартная длина.

и Математические инструменты статистические

Вероятностное пространство [ править ]

Пространство выборки V [ править ]

Индексирование на основе теории полезности, разработанное Купером и Мароном, представляет собой теорию индексирования, основанную на теории полезности. Чтобы отразить ценность документов, которую ожидают пользователи, документам присваиваются индексные термины. Кроме того, теоретическое индексирование полезности связано с «пространством событий» в статистическом слове. В информационном поиске существует несколько основных пространств Ω. Действительно простое базовое пространство Ω может представлять собой множество V терминов t, которое называется словарем коллекции документов. Поскольку Ω=V представляет собой набор всех взаимоисключающих событий, Ω также может быть определенным событием с вероятностью:

   P(V)= Σ(t∈V)P(t)=1

Таким образом, P, распределение вероятностей, присваивает вероятности всем наборам терминов словаря. Обратите внимание, что основная проблема поиска информации — найти оценку P(t). Оценки рассчитываются на основе выборки, а экспериментальная коллекция текстов предоставляет образцы, необходимые для оценки. Теперь мы сталкиваемся с основной проблемой: как правильно обращаться с двумя произвольными, но разнородными фрагментами текста? Идеалам нравится глава в научном журнале и статья из спортивной газеты. Их можно рассматривать как две разные выборки, поскольку они ориентированы на разные группы населения.

Выборка из документа [ править ]

Связь документа с экспериментами определяется способом выбора выборочного пространства. В международных отношениях термин «эксперимент» или «испытание» используется здесь скорее в техническом значении, чем в здравом смысле. Например, документ может быть экспериментом, что означает, что документ представляет собой последовательность результатов tεV или просто выборку населения. Будем говорить о событии наблюдения числа Xt =tf вхождений данного слова t в последовательность экспериментов. Чтобы ввести это пространство событий, мы должны ввести произведение вероятностных пространств, связанных с экспериментами последовательности. Мы могли бы ввести наше выборочное пространство, чтобы связать точку с возможными конфигурациями результатов. Соответствие «один к одному» для выборочного пространства можно определить как:

  Ω=Vld

Где ld — количество попыток эксперимента или, в данном примере, длина документа. Мы можем предположить, что каждый результат может зависеть или не зависеть от результатов предыдущих экспериментов. Если эксперименты спланированы таким образом, что результат влияет на следующие результаты, то распределение вероятностей V будет разным в каждом испытании. Но чаще всего, чтобы установить более простой случай, когда вероятностное пространство инвариантно в IR, часто делается предположение о независимости термина. Поэтому все возможные конфигурации Ω=Vld считаются равновероятными. Учитывая это предположение, мы можем рассматривать каждый документ как процесс Бернулли. Вероятностные пространства произведения инвариантны, и вероятность данной последовательности является произведением вероятностей в каждом испытании. Следовательно, если p=P(t) — априорная вероятность того, что результатом будет t, а количество экспериментов — ld, мы получим вероятность Xt=tf, равную:

  P(Xt=tf|p)=(ld pick tf)p^tfq^ld-tf

Это сумма вероятностей всех возможных конфигураций, имеющих результаты вне ld. P(Xt=tf|p) — распределение вероятностей, поскольку

 Σ(t∈V)P(Xt=tf|p)=(p+q)^ld=1

ld Длина документа d.
tf Частота термина t в документе d.
Xt Количество вхождений определенного слова в один список.

Множественные выборки [ править ]

Уже рассматривая гипотезу о наличии единой выборки, нам необходимо учитывать, что у нас есть несколько выборок, например, коллекция D документов. Ситуация с набором из N документов абстрактно эквивалентна схеме размещения определенного количества шариков Tot из V цветных типов в наборе из N ячеек. Для каждого члена tεV возможная конфигурация размещения шара удовлетворяет уравнениям:

 tf₁+...+tf_N=Ft

И условие

 F₁+...+F_V=Tot

Где Ft — количество шаров одного цвета t, которые необходимо распределить по N ячейкам. Таким образом, мы изменили основное пространство. Результатом нашего эксперимента будут документы d, в которые будет помещен шар. Кроме того, у нас будет множество возможных конфигураций, соответствующих количеству цветных шариков.

Ft Общее количество токенов t в коллекции.
Tot Общее количество токенов в коллекции D

Распределения [ править ]

распределение Биномиальное

распределение Гипергеометрическое

Статистика Бозе-Эйнштейна [ править ]

Распределения с толстым хвостом [ править ]

Заключение [ править ]

Отличие от модели случайности основано на модели Бернулли и ее предельных формах, гипергеометрическом распределении, статистике Бозе-Эйнштейна и ее предельных формах, соединении биномиального распределения с бета-распределением и распределении с толстым хвостом. Отклонение от модели случайности демонстрирует объединяющую структуру, которая потенциально может создать множество различных эффективных моделей IR.

Приложения [ править ]

Применение и характеристики [ править ]

Модель отклонения от случайности может применяться при автоматической индексации при поиске информации. Это можно объяснить элитарностью диссертации, понятием информативного содержания термина в документе.
Эффективность моделей, основанных на отличии от случайности, очень высока по сравнению как с BM25 , так и с языковой моделью. Для коротких запросов производительность моделей отклонения от случайности определенно лучше, чем у модели BM25, которая с 1994 года используется в качестве стандартной базовой линии для сравнения моделей.
Модель отклонения от случайности может показать наилучшую производительность при использовании всего лишь нескольких документов по сравнению с другими навыками расширения запросов.
Структура модели отклонения от случайности очень общая и гибкая. Благодаря расширению запросов, предусмотренному для каждого компонента, мы можем применять различные технологии для достижения максимальной производительности.

Близость [ править ]

Близость можно учитывать в рамках отклонения от случайности, чтобы учитывать количество появлений пары терминов запроса в окне заранее определенного размера. Чтобы уточнить, модификатор оценки зависимости DFR DSM реализует модели pBiL и pBiL2, которые вычисляют случайность, деленную на длину документа, а не статистику пары в корпусе.

Примеры отклонения от случайности [ править ]

Пусть t — терм, а c — коллекция. Пусть термин встречается в tfc=nL(t,c)=200 местах и в df(t,c)=nL(t,c)=100 документах. Ожидаемая средняя частота терминов составляет avgtf(t,c)=200/100=2; это среднее значение по документам, в которых встречается этот термин. Пусть ND(c)=1000 — общее количество документов. Встречаемость термина в документах составляет 10%: PD(t|c)=100/1000. Ожидаемая средняя частота терминов составляет 200/1000=1/5, и это среднее значение по всем документам. Частота термина отображается как Kt =0,...,6.

В следующей таблице показано, что столбец nD — это количество документов, содержащих kt вхождений t, представленное как nD(t,c,kt). Другой столбец nL — это количество мест, в которых встречается этот термин, согласно этому уравнению: nL=kt*nD. В столбцах справа показаны наблюдаемые вероятности и вероятности Пуассона. P obs,elite(Kt) — наблюдаемая вероятность по всем документам. P poisson,all,lambda(Kt) — вероятность Пуассона, где лямбда(t,c)=nL(t,c)/ND(c)=0,20 — параметр Пуассона. Таблица иллюстрирует, чем наблюдаемая вероятность отличается от вероятности Пуассона. P пуассона(1) больше, чем P obs(1), тогда как при kt>1 наблюдаемые вероятности больше вероятностей Пуассона. В хвосте наблюдаемого распределения масса больше, чем предполагает распределение Пуассона. Более того, столбцы справа иллюстрируют использование элитных документов вместо всех документов. Здесь вероятность единичного события основана только на местонахождении элитных документов.

Дальнейший интерес к примерам [ править ]

Ссылки [ править ]

^ «Структура отклонения от случайности (DFR)» . Команда терьеров, Университет Глазго.

Амати, Г. (nd). Вероятностные модели поиска информации на основе измерения отклонения от случайности [Аннотация]. Университет Глазго, Фонд Уго Бордони и Университет КОРНЕЛИСА ЙУСТА ВАН РЕЙСБЕРГЕНА Глазго. Получено с http://theses.gla.ac.uk/1570/1/2003amatiphd.pdf.
Он, Б. (27 апреля 2005 г.). ДивергенцияОтСлучайности. Получено с http://ir.dcs.gla.ac.uk/wiki/DivergenceFromRandomness.

Внешние ссылки [ править ]

[1] «Структура отклонения от случайности (DFR)» . Команда терьеров, Университет Глазго.

[1]