Jump to content

Модель Брэдли – Терри

Модель Брэдли-Терри — это вероятностная модель результатов парных сравнений между элементами, командами или объектами. Учитывая пару элементов i и j, взятых из некоторой совокупности , он оценивает вероятность того, что парное сравнение i > j окажется верным, как

( 1 )

где p i — положительная действительная оценка, присвоенная индивидууму i . Сравнение i > j можно прочитать как « i предпочтительнее j », « i имеет более высокий рейтинг, чем j », или « i превосходит j », в зависимости от приложения.

Например, pi может обозначать мастерство команды на спортивном турнире, а вероятность того, что я выиграю игру против j . [ 1 ] [ 2 ] Или p i может представлять качество или желательность коммерческого продукта и вероятность того, что потребитель предпочтет товар i товару j .

Модель Брэдли-Терри может использоваться в прямом направлении для прогнозирования результатов, как описано, но чаще используется в обратном направлении, чтобы вывести баллы p i с учетом наблюдаемого набора результатов. [ 2 ] В этом типе приложений pi представляет собой некоторую меру силы или качества Модель позволяет нам оценить сильные стороны на основе серии парных сравнений. Например, при опросе винных предпочтений респондентам может быть сложно дать полную оценку большого набора вин, но им относительно легко сравнить образцы пар вин и сказать, какое, по их мнению, лучше. На основе набора таких парных сравнений модель Брэдли-Терри можно затем использовать для получения полного рейтинга вин.

После того как значения оценок p i рассчитаны, модель можно также использовать в прямом направлении, например, для прогнозирования вероятного результата сравнений, которые еще не произошли на самом деле. Например, в примере с опросом о вине можно вычислить вероятность того, что кто-то предпочтет вино. за вином , даже если никто из участников опроса напрямую не сравнил эту конкретную пару.

История и приложения

[ редактировать ]

Модель названа в честь Ральфа А. Брэдли и Милтона Э. Терри. [ 3 ] который представил его в 1952 году, [ 4 ] хотя его уже изучал Эрнст Цермело в 1920-х годах. [ 1 ] [ 5 ] [ 6 ] Приложения модели включают ранжирование участников спортивных, шахматных и других соревнований. [ 7 ] ранжирование продуктов в парных сравнительных опросах потребительского выбора , анализ иерархий доминирования в сообществах животных и людей, [ 8 ] рейтинг журналов , рейтинг моделей ИИ, [ 9 ] и оценка релевантности документов в с машинным обучением поисковых системах . [ 10 ]

Определение

[ редактировать ]

Модель Брэдли-Терри можно параметризовать различными способами. Уравнение ( 1 ), пожалуй, самое распространенное, но существует и ряд других. Сами Брэдли и Терри определили экспоненциальные функции оценки. , так что [ 2 ]

В качестве альтернативы можно использовать logit , например, [ 1 ]

то есть для

Эта формулировка подчеркивает сходство модели Брэдли-Терри и логистической регрессии . Оба используют по существу одну и ту же модель, но по-разному. В логистической регрессии обычно известны параметры и пытается вывести функциональную форму ; при ранжировании по модели Брэдли-Терри знают функциональную форму и пытаются вывести параметры.

С масштабным коэффициентом 400 это эквивалентно рейтинговой системе Эло для игроков с рейтингами Эло R i и R j .

Оценка параметров

[ редактировать ]

Наиболее распространенное применение модели Брэдли – Терри – определение значений параметров. учитывая наблюдаемый набор результатов , например, победы и поражения в соревнованиях. Самый простой способ оценить параметры — это оценка максимального правдоподобия , т. е. максимизация вероятности наблюдаемых результатов с учетом значений модели и параметров.

Предположим, мы знаем результаты набора парных соревнований между определенной группой людей, и пусть w ij — количество раз, когда индивидуум i побеждает индивидуума j . Тогда вероятность этого набора результатов в модели Брэдли-Терри равна а логарифмическое правдоподобие вектора параметров p = [ p 1 , ..., p n ] равно [ 1 ]

Цермело [ 5 ] показал, что это выражение имеет только один максимум, который можно найти, дифференцируя по и установка результата равным нулю, что приводит к

( 2 )

Это уравнение не имеет известного решения в замкнутой форме, но Цермело предложил решать его простой итерацией. Начиная с любого удобного набора (положительных) начальных значений для , итеративно выполняется обновление

( 3 )

для всех я в свою очередь. Результирующие параметры являются произвольными с точностью до общей мультипликативной константы, поэтому после вычисления всех новых значений их следует нормализовать путем деления на среднее геометрическое следующим образом:

( 4 )

Эта процедура оценки повышает логарифмическое правдоподобие на каждой итерации и гарантированно в конечном итоге достигает уникального максимума. [ 5 ] [ 11 ] Однако сближение происходит медленно. [ 1 ] [ 12 ] Совсем недавно было отмечено [ 13 ] это уравнение ( 2 ) также можно переписать как

которое можно решить повторением

( 5 )

снова нормализация после каждого раунда обновлений с использованием уравнения ( 4 ). Эта итерация дает результаты, идентичные результату в ( 3 ), но сходится гораздо быстрее и, следовательно, обычно предпочтительнее ( 3 ). [ 13 ]

Рабочий пример процедуры решения

[ редактировать ]

Рассмотрим спортивное соревнование между четырьмя командами, которые играют между собой 22 игры. Победы каждой команды указаны в строках таблицы ниже, а соперники указаны в столбцах:

Результаты
А Б С Д
А 2 0 1
Б 3 5 0
С 0 3 1
Д 4 0 3

Например, команда А дважды обыграла команду Б и трижды проиграла команде Б; вообще не играл за команду С; выиграл один раз и четырежды проиграл команде D.

Мы хотели бы оценить относительную силу команд, что мы и делаем, вычисляя параметры , где более высокие параметры указывают на большее мастерство. Для этого мы произвольно инициализируем четыре записи в векторе параметров p , например, присваивая каждой команде значение 1: [1, 1, 1, 1] . Затем мы применяем уравнение ( 5 ) для обновления , что дает

Теперь мы применяем ( 5 ) снова, чтобы обновить , убедившись, что используется новое значение что мы только что рассчитали:

Аналогично для и мы получаем

Затем мы нормализуем все параметры путем деления на их среднее геометрическое чтобы получить расчетные параметры p = [0,516, 1,413, 0,672, 2,041] .

Для дальнейшего улучшения оценок мы повторяем процесс, используя новые значения p . Например,

Повторяя этот процесс для остальных параметров и нормируя, получаем p = [0,677, 1,034, 0,624, 2,287] . Повторение еще 10 раз дает быструю сходимость к окончательному решению p = [0,640, 1,043, 0,660, 2,270] . Это указывает на то, что команда D является самой сильной, а команда B — второй по силе, в то время как команды A и C почти равны по силе, но уступают командам B и D. Таким образом, модель Брэдли-Терри позволяет нам сделать вывод о взаимоотношениях между всеми четырьмя командами. хотя не все команды играли друг с другом.

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б с д и Хантер, Дэвид Р. (2004). «Алгоритмы ММ для обобщенных моделей Брэдли – Терри» . Анналы статистики . 32 (1): 384–406. CiteSeerX   10.1.1.110.7878 . дои : 10.1214/aos/1079120141 . JSTOR   3448514 .
  2. ^ Перейти обратно: а б с Агрести, Алан (2014). Категориальный анализ данных . Джон Уайли и сыновья. стр. 436–439.
  3. ^ ЭЕМ ван Беркум. «Модель Брэдли-Терри» . Энциклопедия математики . Проверено 18 ноября 2014 .
  4. ^ Брэдли, Ральф Аллан; Терри, Милтон Э. (1952). «Ранговый анализ неполных блочных конструкций: I. Метод парных сравнений». Биометрика . 39 (3/4): 324–345. дои : 10.2307/2334029 . JSTOR   2334029 .
  5. ^ Перейти обратно: а б с Цермело, Эрнст (1929). «Подсчет результатов турнира как задача максимума теории вероятностей». Математический журнал . 29 (1): 436–460. дои : 10.1007/BF01180541 . S2CID   122877703 .
  6. ^ Хайнц-Дитер Эббингауз (2007), Эрнст Цермело: подход к его жизни и работе , Springer, стр. 268–269, ISBN  9783540495536
  7. ^ Шев, А.; Фуджи, К.; Се, Ф.; МакКоуэн, Б. (2014). «Системное тестирование модели Брэдли-Терри на предмет нелинейной иерархии ранжирования» . ПЛОС Один . 9 (12): e115367. дои : 10.1371/journal.pone.0115367 . ПМК   4274013 . ПМИД   25531899 .
  8. ^ Бойд, Роберт; Силк, Джоан Б. (1983). «Метод присвоения кардинальных рангов доминирования». Поведение животных . 31 (1): 45–58. дои : 10.1016/S0003-3472(83)80172-9 . S2CID   53178779 .
  9. ^ «Арена чат-ботов: новые модели и обновление системы Elo | LMSYS Org» . lmsys.org . Проверено 30 января 2024 г.
  10. ^ Шуммер, Мартин; Йылмаз, Эмине (2011). Полуконтролируемое обучение ранжированию с регуляризацией предпочтений (PDF) . ЦИКМ.
  11. ^ Форд-младший, LR (1957). «Решение проблемы ранжирования на основе бинарных сравнений». Американский математический ежемесячник . 64 (8): 28–33. дои : 10.1080/00029890.1957.11989117 .
  12. ^ Дикстра-младший, Отто (1956). «Заметка о ранговом анализе неполных блочных конструкций». Биометрия . 12 : 301–306. дои : 10.2307/2334029 . JSTOR   2334029 .
  13. ^ Перейти обратно: а б Ньюман, МЕДЖ (2023). «Эффективное вычисление рейтингов на основе парных сравнений» . Журнал исследований машинного обучения . 24 (238): 1–25.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c586ab91dca094a47b1046778c9430b3__1717755420
URL1:https://arc.ask3.ru/arc/aa/c5/b3/c586ab91dca094a47b1046778c9430b3.html
Заголовок, (Title) документа по адресу, URL1:
Bradley–Terry model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)