Jump to content

Модель отклонения от случайности

В области информации поиска расхождение со случайностью , одна из первых моделей, является одним из типов вероятностных моделей. В основном он используется для проверки объема информации, содержащейся в документах. Он основан на модели индексации 2-Пуассона Хартера. Модель 2-Пуассона предполагает, что уровень документов связан с набором документов, в котором слов встречается относительно больше, чем в остальных документах. Это не «модель», а основа для взвешивания терминов с использованием вероятностных методов, и она имеет особое отношение к взвешиванию терминов, основанному на понятии элитности.

Вес термина рассматривается как стандарт того, находится ли конкретное слово в этом наборе или нет. Веса терминов вычисляются путем измерения расхождения между распределением терминов, полученным в результате случайного процесса, и фактическим распределением терминов.

Отклонение от моделей случайности устанавливается путем реализации трех основных компонентов структуры: сначала выбора базовой модели случайности, затем применения первой нормализации и, наконец, нормализации терминов «частоты».Базовые модели взяты из следующих таблиц.

Определение [ править ]

Отличие от случайности основано на этой идее: «Чем больше отклонение частоты термина внутри документа от его частоты в коллекции, тем больше информации несет слово t в документе d. Другими словами, термин- вес обратно пропорционален вероятности частоты терминов в документе d, полученной с помощью модели случайности M». [1] (По материалам terrier.org)

(Формула 1)

  1. M представляет собой тип модели случайности, которая используется для расчета вероятности.
  2. d — общее количество слов в документах.
  3. t — номер конкретного слова в d.
  4. k определяется М.

Возможно, мы используем разные модели урн , чтобы выбрать подходящую модель случайности M. В информационном поиске вместо урн используются документы, а вместо цветов — термины. Есть несколько способов выбрать M, каждый из которых имеет базовое отличие от модели случайности, подтверждающей его.

Модель [ править ]

Базовые модели [ править ]

D  Дивергентная аппроксимация бинома P  Аппроксимация бинома  BE Распределение Бозе-Эйнштейна  G  Геометрическая аппроксимация модели Бозе-Эйнштейна  I(n)  Частотная модель обратного документа I(F)  Частотная модель обратного члена I(ne)  Модель обратной ожидаемой частоты документов 

Модели DFR [ править ]

BB2  Модель Бернулли-Эйнштейна с последействием Бернулли и нормализацией 2. IFB2  Частотно-обратная модель с последействием Бернулли и нормализацией 2. In-expB2  Модель обратной ожидаемой частоты документов с последействием Бернулли и нормализацией 2. Логарифмы имеют основание 2. Эту модель можно использовать для классических специальных задач. In-expC2  Модель частоты обратного ожидаемого документа с последействием Бернулли и нормализацией 2. Логарифмы имеют основание e. Эту модель можно использовать для классических специальных задач. Модель InL2  Inverse Document Frequency с последействием Лапласа и нормализацией 2. Эту модель можно использовать для задач, требующих ранней точности. PL2  Модель Пуассона с последействием Лапласа и нормализацией 2. Эту модель можно использовать для задач, требующих ранней точности[7,8]. 

Первая нормализация

Если в документе невозможно найти конкретный редкий термин, то в этом документе вероятность того, что этот термин будет информативным, составляет примерно нулевую. С другой стороны, если редкий термин часто встречается в документе, он может иметь очень высокую, почти 100% вероятность быть информативным для темы, упомянутой в документе. Применение языковой модели Понте и Крофта также может быть хорошей идеей. Обратите внимание, что в DFR учитывается компонент риска. Логически говоря, если частота терминов в документе относительно высока, то, наоборот, риск того, что термин не будет информативным, относительно невелик. Допустим, у нас есть Формула 1, дающая высокую ценность, тогда минимальный риск имеет отрицательный эффект, демонстрируя небольшой прирост информации. Поэтому мы решили организовать вес Формулы 1 так, чтобы учитывать только ту часть, которая представляет собой объем информации, полученной с помощью термина. Чем больше термин встречается в элитном наборе, тем меньшая частота термина обусловлена ​​случайностью и, следовательно, тем меньше связанный с ним риск. В основном мы применяем две модели для расчета прироста информации с помощью термина в документе:

модель Лапласа Л, соотношение двух процессов Бернулли Б. 

Нормализация частоты термина [ править ]

Прежде чем использовать частоту термина внутри документа tf, длина документа dl нормализуется до стандартной длины sl. Поэтому частоты терминов tf пересчитываются относительно стандартной длины документа, то есть:

 tf  n  = tf * log(1+ sl/dl) (нормализация 1) 

tfn представляет собой нормализованную частоту термина. Другой вариант формулы нормализации следующий:

 tf  n  = tf * log(1 + c*(sl/dl)) (нормализация 2) 

Нормализация 2 обычно считается более гибкой, поскольку для c не существует фиксированного значения.

  1. tf — частота термина t в документе d
  2. dl — длина документа.
  3. sl – стандартная длина.

и Математические инструменты статистические

Вероятностное пространство [ править ]

Пространство выборки V [ править ]

Индексирование на основе теории полезности, разработанное Купером и Мароном, представляет собой теорию индексирования, основанную на теории полезности. Чтобы отразить ценность документов, которую ожидают пользователи, документам присваиваются индексные термины. Кроме того, теоретическое индексирование полезности связано с «пространством событий» в статистическом слове.В информационном поиске существует несколько основных пространств Ω. Действительно простое базовое пространство Ω может представлять собой множество V терминов t, которое называется словарем коллекции документов. Поскольку Ω=V представляет собой набор всех взаимоисключающих событий, Ω также может быть определенным событием с вероятностью:

 P(V)=Σ(tεV)P(t)=1 

Таким образом, P, распределение вероятностей, присваивает вероятности всем наборам терминов словаря.Обратите внимание, что основная проблема поиска информации — найти оценку P(t). Оценки рассчитываются на основе выборки, а экспериментальная коллекция текстов предоставляет образцы, необходимые для оценки. Теперь мы сталкиваемся с основной проблемой: как правильно обращаться с двумя произвольными, но разнородными фрагментами текста? Идеалам нравится глава в научном журнале и статья из спортивной газеты. Их можно рассматривать как две разные выборки, поскольку они ориентированы на разные группы населения.

Выборка из документа [ править ]

Связь документа с экспериментами определяется способом выбора выборочного пространства. В международных отношениях термин «эксперимент» или «испытание» используется здесь скорее в техническом значении, чем в здравом смысле. Например, документ может быть экспериментом, что означает, что документ представляет собой последовательность результатов tεV или просто выборку населения. Будем говорить о случае наблюдения числа Xt =tf появлений данного слова t в последовательности экспериментов. Чтобы ввести это пространство событий, мы должны ввести произведение вероятностных пространств, связанных с экспериментами последовательности. Мы могли бы ввести наше выборочное пространство, чтобы связать точку с возможными конфигурациями результатов. Соответствие «один к одному» для выборочного пространства можно определить как:

 Ом=Влд 

Где ld — количество попыток эксперимента или, в данном примере, длина документа. Мы можем предположить, что каждый результат может зависеть или не зависеть от результатов предыдущих экспериментов. Если эксперименты спланированы таким образом, что результат влияет на последующие результаты, то распределение вероятностей V будет разным в каждом испытании. Но чаще всего, чтобы установить более простой случай, когда вероятностное пространство инвариантно в IR, часто делается предположение о независимости термина. Поэтому все возможные конфигурации Ω=Vld считаются равновероятными. Учитывая это предположение, мы можем рассматривать каждый документ как процесс Бернулли. Вероятностные пространства произведения инвариантны, и вероятность данной последовательности является произведением вероятностей в каждом испытании. Следовательно, если p=P(t) — априорная вероятность того, что результатом будет t, а количество экспериментов — ld, мы получим вероятность Xt=tf, равную:

 P(Xt=tf|p)=(ld Pick tf)p ТС д лд-тф 

Это сумма вероятностей всех возможных конфигураций, имеющих результаты вне ld. P(Xt=tf|p) — распределение вероятностей, поскольку

 Σ(tεV)P(Xt=tf|p)=(p+q) лд =1 
  1. ld Длина документа d.
  2. tf Частота термина t в документе d.
  3. Xt Количество вхождений определенного слова в один список.

Множественные выборки [ править ]

Уже рассматривая гипотезу о наличии единой выборки, нам необходимо учитывать, что у нас есть несколько выборок, например, коллекция D документов. Ситуация с набором из N документов абстрактно эквивалентна схеме размещения определенного количества шариков Tot из V цветных типов в наборе из N ячеек.Для каждого члена tεV возможная конфигурация размещения шара удовлетворяет уравнениям:

 tf  1  +...+tf  N  =Ft 

И условие

 F  1  +...+F  V  =Tot 

Где Ft — количество шаров одного цвета t, которые необходимо распределить по N ячейкам.Таким образом, мы изменили основное пространство. Результатом нашего эксперимента будут документы d, в которые будет помещен шар. Кроме того, у нас будет множество возможных конфигураций, соответствующих количеству цветных шариков.

  1. Ft Общее количество токенов t в коллекции.
  2. Tot Общее количество токенов в коллекции D

Распределения [ править ]

распределение Биномиальное

распределение Гипергеометрическое

Статистика Бозе-Эйнштейна [ править ]

Распределения с толстым хвостом [ править ]

Заключение [ править ]

Отличие от модели случайности основано на модели Бернулли и ее предельных формах, гипергеометрическом распределении, статистике Бозе-Эйнштейна и ее предельных формах, соединении биномиального распределения с бета-распределением и распределении с толстым хвостом. Отклонение от модели случайности демонстрирует объединяющую структуру, которая потенциально может создать множество различных эффективных моделей IR.

Приложения [ править ]

Применение и характеристики [ править ]

  1. Модель отклонения от случайности может применяться при автоматической индексации при поиске информации. Это можно объяснить элитарностью диссертации, понятием информативного содержания термина в документе.
  2. Эффективность моделей, основанных на отличии от случайности, очень высока по сравнению как с BM25 , так и с языковой моделью. Для коротких запросов производительность моделей отклонения от случайности определенно лучше, чем у модели BM25, которая с 1994 года используется в качестве стандартной базовой линии для сравнения моделей.
  3. Модель отклонения от случайности может показать наилучшую производительность при использовании всего лишь нескольких документов по сравнению с другими навыками расширения запросов.
  4. Структура модели отклонения от случайности очень общая и гибкая. Благодаря расширению запросов, предусмотренному для каждого компонента, мы можем применять различные технологии для достижения максимальной производительности.

Близость [ править ]

Близость можно учитывать в рамках отклонения от случайности, чтобы учитывать количество появлений пары терминов запроса в окне заранее определенного размера. Чтобы уточнить, модификатор оценки зависимости DFR DSM реализует модели pBiL и pBiL2, которые вычисляют случайность, деленную на длину документа, а не статистику пары в корпусе.

Примеры отклонения от случайности [ править ]

Пусть t — терм, а c — коллекция. Пусть термин встречается в tfc=nL(t,c)=200 местах и ​​в df(t,c)=nL(t,c)=100 документах. Ожидаемая средняя частота терминов составляет avgtf(t,c)=200/100=2; это среднее значение по документам, в которых встречается этот термин.Пусть ND(c)=1000 — общее количество документов. Встречаемость термина в документах составляет 10%: PD(t|c)=100/1000. Ожидаемая средняя частота терминов составляет 200/1000=1/5, и это среднее значение по всем документам. Частота термина отображается как Kt =0,...,6.

В следующей таблице показано, что столбец nD — это количество документов, содержащих kt вхождений t, представленное как nD(t,c,kt). Другой столбец nL — это количество мест, в которых встречается этот термин, согласно этому уравнению: nL=kt*nD. В столбцах справа показаны наблюдаемые вероятности и вероятности Пуассона.P obs,elite(Kt) — наблюдаемая вероятность по всем документам. P poisson,all,lambda(Kt) — вероятность Пуассона, где лямбда(t,c)=nL(t,c)/ND(c)=0,20 — параметр Пуассона. Таблица иллюстрирует, чем наблюдаемая вероятность отличается от вероятности Пуассона. P пуассона(1) больше, чем P obs(1), тогда как при kt>1 наблюдаемые вероятности больше вероятностей Пуассона. В хвосте наблюдаемого распределения масса больше, чем предполагает распределение Пуассона.Более того, столбцы справа иллюстрируют использование элитных документов вместо всех документов. Здесь вероятность единичного события основана только на местонахождении элитных документов.

Дальнейший интерес к примерам [ править ]

  1. Регулировка длины документа .
  2. Применение DFR в XML-документах, содержащих только содержимое
  3. Введение в модели DFR

Ссылки [ править ]

  1. ^ «Структура отклонения от случайности (DFR)» . Команда терьеров, Университет Глазго.
  • Амати, Г. (nd). Вероятностные модели поиска информации на основе измерения отклонения от случайности [Аннотация]. Университет Глазго, Фонд Уго Бордони и Университет КОРНЕЛИСА ЙУСТА ВАН РЕЙСБЕРГЕНА Глазго. Получено с http://theses.gla.ac.uk/1570/1/2003amatiphd.pdf.
  • Он, Б. (27 апреля 2005 г.). ДивергенцияОтСлучайности. Получено с http://ir.dcs.gla.ac.uk/wiki/DivergenceFromRandomness.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9f61e4c743a464f940f651b6eb4b54c7__1718492340
URL1:https://arc.ask3.ru/arc/aa/9f/c7/9f61e4c743a464f940f651b6eb4b54c7.html
Заголовок, (Title) документа по адресу, URL1:
Divergence-from-randomness model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)