Jump to content

Порядковая регрессия

В статистике . порядковая регрессия , также называемая порядковой классификацией , представляет собой тип регрессионного анализа , используемый для прогнозирования порядковой переменной , то есть переменной, значение которой существует в произвольном масштабе, где существенен только относительный порядок между различными значениями Ее можно считать промежуточной задачей между регрессией и классификацией . [1] [2] Примерами порядковой регрессии являются упорядоченный логит и упорядоченный пробит . Порядковая регрессия часто встречается в социальных науках , например, при моделировании человеческих уровней предпочтений (по шкале, скажем, от 1–5 от «очень плохо» до «отлично»), а также при поиске информации . В машинном обучении порядковую регрессию можно также назвать ранжирующим обучением . [3] [а]

Линейные модели для порядковой регрессии

[ редактировать ]

Порядковую регрессию можно выполнить с использованием обобщенной линейной модели (GLM), которая соответствует как вектору коэффициентов, так и набору пороговых значений для набора данных. Предположим, у вас есть набор наблюдений, представленный длины p векторами от x 1 до x n , с соответствующими ответами от y 1 до y n , где каждый y i является порядковой переменной в масштабе 1, ..., K . Для простоты и без ограничения общности будем считать, что y — неубывающий вектор, т. е. y i y я+1 . К этим данным аппроксимируют длины p коэффициентов вектор w и набор порогов θ 1 , ..., θ K -1 со свойством, что θ 1 < θ 2 < ... < θ K -1 . Этот набор порогов делит линию действительных чисел на K непересекающихся сегментов, соответствующих K уровням ответа.

Теперь модель можно сформулировать как

или кумулятивная вероятность того, что ответ y не превышает i, определяется функцией σ ( функцией обратной связи ), примененной к линейной функции от x . существует несколько вариантов Для σ ; логистическая функция

дает упорядоченную логит- модель, а использование функции пробит дает упорядоченную модель пробита . Третий вариант — использовать показательную функцию.

что дает модель пропорциональных рисков . [4]

Модель скрытой переменной

[ редактировать ]

Пробит-версию приведенной выше модели можно оправдать, если предположить существование действительной скрытой переменной (ненаблюдаемой величины) y* , определяемой выражением [5]

где ε с обычно распределяется нулевым средним значением и единичной дисперсией обусловленной x . , Переменная отклика y является результатом «неполного измерения» y* , при котором определяется только интервал, в который попадает y* :

Определив θ 0 = -∞ и θ K = ∞ , вышесказанное можно резюмировать как y = k тогда и только тогда, когда θ k −1 < y * ≤ θ k .

Из этих предположений можно вывести условное распределение y как [5]

где Φ кумулятивная функция распределения стандартного нормального распределения, берущая на себя роль функции обратной связи σ . Логарифмическое правдоподобие модели для одного обучающего примера x i , y i теперь можно выразить как [5]

(с использованием скобки Айверсона [ y i = k ] ). Логарифмическое правдоподобие упорядоченной логит-модели аналогично, с использованием логистической функции вместо Φ . [6]

Альтернативные модели

[ редактировать ]

В машинном обучении были предложены альтернативы моделям порядковой регрессии со скрытыми переменными. Первым результатом стал PRank, вариант алгоритма перцептрона , который находил несколько параллельных гиперплоскостей, разделяющих различные ранги; его выходом является весовой вектор w и отсортированный вектор K -1 порогов θ , как в упорядоченных моделях логит/пробит. Правило прогнозирования для этой модели состоит в том, чтобы вывести наименьший ранг k такой, что wx < θ k . [7]

Другие методы основаны на принципе обучения с большим запасом, который также лежит в основе машин опорных векторов . [8] [9]

Другой подход предложен Ренни и Сребро, которые, понимая, что «даже простая оценка вероятности предиктора не является простой задачей» в моделях упорядоченной логит- и пробит-модели, предлагают подбирать модели порядковой регрессии путем адаптации общих функций потерь из классификации ( такие как потеря шарнира и потеря журнала ) в порядковом случае. [10]

Программное обеспечение

[ редактировать ]

ORCA (алгоритмы порядковой регрессии и классификации) — это платформа Octave/MATLAB, включающая широкий набор методов порядковой регрессии. [11]

Пакеты R, предоставляющие методы порядковой регрессии, включают MASS. [12] и Порядковый номер. [13]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Уиншип, Кристофер; Маре, Роберт Д. (1984). «Модели регрессии с порядковыми переменными» (PDF) . Американский социологический обзор . 49 (4): 512–525. дои : 10.2307/2095465 . JSTOR   2095465 .
  2. ^ Гутьеррес, Пенсильвания; Перес-Ортис, М.; Санчес-Монедеро, Дж.; Фернандес-Наварро, Ф.; Эрвас-Мартинес, К. (январь 2016 г.). «Методы порядковой регрессии: опрос и экспериментальное исследование». Транзакции IEEE по знаниям и инженерии данных . 28 (1): 127–146. дои : 10.1109/TKDE.2015.2457911 . hdl : 10396/14494 . ISSN   1041-4347 .
  3. ^ Шашуа, Амнон; Левин, Анат (2002). Принцип ранжирования с большой маржой: два подхода . НИПС .
  4. ^ МакКаллах, Питер (1980). «Модели регрессии для порядковых данных». Журнал Королевского статистического общества . Серия Б (Методическая). 42 (2): 109–142.
  5. ^ Jump up to: а б с Вулдридж, Джеффри М. (2010). Эконометрический анализ перекрестных и панельных данных . МТИ Пресс. стр. 655–657. ISBN  9780262232586 .
  6. ^ Агрести, Алан (23 октября 2010 г.). «Моделирование порядковых категориальных данных» (PDF) . Проверено 23 июля 2015 г.
  7. ^ Краммер, Коби; Певец Йорам (2001). Пранк с рейтингом . НИПС.
  8. ^ Чу, Вэй; Кирти, С. Сатья (2007). «Поддержка векторной порядковой регрессии». Нейронные вычисления . 19 (3): 792–815. CiteSeerX   10.1.1.297.3637 . дои : 10.1162/neco.2007.19.3.792 . ПМИД   17298234 .
  9. ^ Хербрих, Ральф; Грепель, Торе; Обермайер, Клаус (2000). «Границы рангов с большой маржой для порядковой регрессии» . Достижения в области классификаторов с большой маржой . МТИ Пресс. стр. 115–132.
  10. ^ Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретными упорядоченными метками (PDF) . Учеб. IJCAI по достижениям в области обработки предпочтений. Междисциплинарный семинар
  11. ^ orca: Алгоритмы порядковой регрессии и классификации , AYRNA, 21 ноября 2017 г. , получено 21 ноября 2017 г.
  12. ^ «Современная прикладная статистика с S, 4-е изд.» . www.stats.ox.ac.uk . Проверено 15 июля 2020 г.
  13. ^ Кристенсен, Руне Хаубо Б. (05 июня 2020 г.), runehaubo/ordinal , получено 15 июля 2020 г.

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 945e10e55bc412bad495941d7f9e1a32__1707729540
URL1:https://arc.ask3.ru/arc/aa/94/32/945e10e55bc412bad495941d7f9e1a32.html
Заголовок, (Title) документа по адресу, URL1:
Ordinal regression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)