Коэффициент точечно-бисерийной корреляции
Коэффициент двухрядной точечной корреляции ( r pb ) — это коэффициент корреляции, используемый, когда одна переменная (например, Y ) является дихотомической ; Y может быть либо «естественным» дихотомическим, например, если монета выпадет орлом или решкой, либо искусственно дихотомизированной переменной. В большинстве ситуаций нецелесообразно искусственно дихотомизировать переменные. Когда новая переменная искусственно дихотомируется, новая дихотомическая переменная может быть концептуализирована как имеющая в основе свою непрерывность. В этом случае бисериальная корреляция более подходящим расчетом будет .
Точечно-бисерийная корреляция математически эквивалентна коэффициенту корреляции Пирсона (момент произведения) ; то есть, если у нас есть одна непрерывно измеряемая переменная X и дихотомическая переменная Y , r XY = r pb . Это можно продемонстрировать, присвоив дихотомической переменной два различных числовых значения.
Расчет
[ редактировать ]Чтобы вычислить r pb , предположим, что дихотомическая переменная Y имеет два значения 0 и 1. Если мы разделим набор данных на две группы: группу 1, которая получила значение «1» для Y , и группу 2, которая получила значение «0». на Y , то коэффициент точечно-бисериальной корреляции вычисляется следующим образом:
где s n — стандартное отклонение, используемое, когда данные доступны для каждого члена совокупности:
M 1 — среднее значение непрерывной переменной X для всех точек данных в группе 1, а M 0 — среднее значение непрерывной переменной X для всех точек данных в группе 2. Кроме того, n 1 — количество точек данных в группе. 1, n 0 — количество точек данных в группе 2, а n — общий размер выборки. Эта формула представляет собой вычислительную формулу, полученную на основе формулы для r XY с целью сокращения количества шагов в расчете; его легче вычислить, чем r XY .
Существует эквивалентная формула, в которой используется s n −1 :
где s n −1 — стандартное отклонение, используемое, когда данные доступны только для выборки совокупности:
Версия формулы, использующая s n −1, полезна, если вычисляются коэффициенты двухрядной корреляции точек на языке программирования или в другой среде разработки, где есть функция для вычисления s n −1 , но нет функции для вычисления s n .
Книга Гласса и Хопкинса « Статистические методы в образовании и психологии » (3-е издание) [1] содержит правильную версию формулы точечного бисериала.
Также можно записать квадрат точечного бисериального коэффициента корреляции:
Мы можем проверить нулевую гипотезу о том, что корреляция в популяции равна нулю. Немного алгебры показывает, что обычная формула для оценки значимости коэффициента корреляции применительно к r pb совпадает с формулой для непарного t -критерия , и поэтому
следует t-распределению Стьюдента с ( n 1 + n 0 − 2) степенями свободы, когда нулевая гипотеза верна.
Одним из недостатков точечного бисериального коэффициента является то, что чем дальше распределение Y от 50/50, тем более ограниченным будет диапазон значений, которые может принимать коэффициент. Если можно предположить, что X имеет нормальное распределение, лучший описательный индекс дается бисериальным коэффициентом.
где u — ордината нормального распределения с нулевым средним значением и единичной дисперсией в точке, которая делит распределение на пропорции n 0 / n и n 1 / n . Это нелегко вычислить, и бисериальный коэффициент на практике широко не используется.
Конкретный случай бисериальной корреляции возникает, когда X представляет собой сумму ряда дихотомических переменных, одной из которых Y. является Примером этого может служить случай, когда X — общий балл человека по тесту, состоящему из n элементов, набранных дихотомически. Интересующая статистика (которая представляет собой индекс дискриминации) представляет собой корреляцию между ответами на данный вопрос и соответствующими общими баллами по тесту. Широко используются три вычисления: [2] все они называются точечно-бисерийной корреляцией : (i) корреляция Пирсона между баллами по заданиям и общими баллами по тесту, включая баллы по заданиям, (ii) корреляция Пирсона между баллами по предметам и общими баллами по тесту, исключая баллы по заданиям, и (iii) корреляция с поправкой на систематическую ошибку, вызванную включением баллов по пунктам в результаты тестов. Корреляция (iii) равна
Немного другая версия точечного бисериального коэффициента - это бисериальный коэффициент ранга, который возникает там, где переменная X состоит из рангов, а Y является дихотомической. Мы могли бы вычислить коэффициент таким же образом, как и в случае, когда X является непрерывным, но у него будет тот же недостаток: диапазон значений, которые он может принимать, становится более ограниченным по мере того, как распределение Y становится более неравномерным. Чтобы обойти эту проблему, отметим, что коэффициент будет иметь наибольшее значение, когда все наименьшие ранги расположены напротив 0, а самые большие ранги - напротив 1. Наименьшее значение имеет место в обратном случае. Эти значения соответственно плюс и минус ( n 1 + n 0 )/2. Поэтому мы можем использовать обратную величину этого значения для перемасштабирования разницы между наблюдаемыми средними рангами в интервал от плюс одного до минус одного. Результат
где M 1 и M 0 представляют собой соответственно средние значения рангов, соответствующих оценкам 1 и 0 дихотомической переменной. Эта формула, упрощающая расчеты путем подсчета соглашений и инверсий, принадлежит Джину В. Глассу (1966).
Это можно использовать для проверки нулевой гипотезы о нулевой корреляции в популяции, из которой была взята выборка. Если r rb рассчитывается, как указано выше, то меньшее из
и
распределяется как U Манна – Уитни с размерами выборки n 1 и n 0, когда нулевая гипотеза верна.
Примечания
[ редактировать ]- МакКаллум, Роберт С. и др. 2002. О практике дихотомизации количественных переменных. Психологические методы 7 (1): 19–40.
Ссылки
[ редактировать ]- ^ Джин В. Гласс и Кеннет Д. Хопкинс (1995). Статистические методы в образовании и психологии (3-е изд.). Аллин и Бэкон . ISBN 0-205-14212-5 .
- ^ Линакр, Джон (2008). «Ожидаемое значение точечно-бисериальной (или аналогичной) корреляции» . Транзакции измерения Раша . 22 (1): 1154.
Внешние ссылки
[ редактировать ]- Точечный бисериальный коэффициент (Кит Калкинс, 2005)