Сомерс Д
В статистике Сомерса D , иногда неправильно называемый D Сомерса , является мерой порядковой связи между двумя возможно зависимыми случайными X и Y. величинами Сомерс D принимает значения между когда все пары переменных не совпадают и когда все пары переменных совпадают. Сомерса D назван в честь Роберта Х. Сомерса, который предложил его в 1962 году. [ 1 ]
Сомерса D играет центральную роль в ранговой статистике и является параметром многих непараметрических методов. [ 2 ] Он также используется в качестве меры качества бинарного выбора или порядковой регрессии (например, логистической регрессии ) и кредитного скоринга моделей .
Somers' D для образца
[ редактировать ]Мы говорим, что две пары и согласованы, если ранги обоих элементов совпадают, или и или если и . Мы говорим, что две пары и несогласны, если ранги обоих элементов не совпадают или если и или если и . Если или , пара не является ни согласованной, ни несогласной.
Позволять быть набором наблюдений двух возможно зависимых случайных векторов X и Y . Определите коэффициент ранговой корреляции тау Кендалла как
где количество согласованных пар и - количество несогласных пар. Сомерса D Y X относительно как определяется . [ 2 ] Обратите внимание, что тау Кендалла симметрично по X и Y Сомерса D асимметрично по X и Y. , тогда как
Как определяет количество пар с неравными значениями X Сомерса , D - это разница между количеством согласованных и несогласованных пар, деленная на количество пар со значениями X в неравной паре.
Somers ' D для распространения
[ редактировать ]Пусть две независимые двумерные случайные величины и имеют одинаковое распределение вероятностей . Сомерса Опять же, D , который измеряет порядковую ассоциацию случайных величин X и Y в , можно определить через тау Кендалла
или разность между вероятностями согласия и несогласия. Сомерса D Y X относительно как определяется . Таким образом, - это разница между двумя соответствующими вероятностями, при условии, что значения X не равны. Если X имеет непрерывное распределение вероятностей , то и тау Кендалла и D Сомерса совпадают. Сомерса D нормализует тау Кендалла для возможных массовых точек переменной X .
Если X и Y Сомерса оба двоичные со значениями 0 и 1, то D — это разница между двумя вероятностями:
Сомерса D для двоичных зависимых переменных
[ редактировать ]Сомерса На практике D чаще всего используется, когда зависимая переменная Y является двоичной переменной . [ 2 ] т.е. для бинарной классификации или прогнозирования бинарных результатов, включая модели бинарного выбора в эконометрике. Методы подбора таких моделей включают логистическую и пробит-регрессию .
Для количественной оценки качества таких моделей можно использовать несколько статистических данных: площадь под кривой рабочей характеристики приемника (ROC), гамма Гудмана и Краскала , тау Кендалла (Tau-a) Сомерса , D Сомерса, и т. д. D вероятно, наиболее широко используется доступная порядковая статистика ассоциаций. [ 3 ] Идентично коэффициенту Джини Сомерса , D относится к площади под кривой рабочей характеристики приемника (AUC), [ 2 ]
- .
В случае, когда независимая (предикторная) переменная X является дискретной , а зависимая (результатная) переменная Y Сомерса является двоичной, D равен
где — это количество ни согласованных, ни несогласованных пар, которые не связаны по переменной , а не по переменной Y. X
Пример
[ редактировать ]Предположим, что независимая (предикторная) переменная X принимает три значения: 0,25 , 0,5 или 0,75 , а зависимая (результат) переменная Y принимает два значения: 0 или 1 . В таблице ниже приведены наблюдаемые комбинации X и Y :
Х И
|
0.25 | 0.5 | 0.75 |
---|---|---|---|
0 | 3 | 5 | 2 |
1 | 1 | 7 | 6 |
Число согласованных пар равно
Число несогласных пар равно
Количество связанных пар равно общему количеству пар за вычетом согласованных и несогласованных пар.
Сомерса Таким образом, D равно
Ссылки
[ редактировать ]- ^ Сомерс, Р.Х. (1962). «Новая асимметричная мера связи для порядковых переменных». Американский социологический обзор . 27 (6). дои : 10.2307/2090408 . JSTOR 2090408 .
- ^ Jump up to: а б с д Ньюсон, Роджер (2002). Сомерса «Параметры «непараметрической» статистики: тау Кендалла, D и медианные различия» . Статический журнал . 2 (1): 45–64.
- ^ О'Коннелл, А.А. (2006). Модели логистической регрессии для порядковых переменных отклика . Публикации SAGE.