Коэффициент корреляции
В статистике коэффициент корреляции является мерой криволинейной зависимости между статистической дисперсией внутри отдельных категорий и дисперсией по всей совокупности или выборке. Мера определяется как соотношение двух стандартных отклонений, представляющих эти типы вариаций. Контекст здесь тот же, что и у коэффициента внутриклассовой корреляции , значением которого является квадрат коэффициента корреляции.
Определение [ править ]
Предположим, что каждое наблюдение — это y xi , где x указывает категорию, в которой находится наблюдение, а i — метку конкретного наблюдения. Пусть n x — количество наблюдений в категории x и
- и
где среднее значение категории x и является средним значением всей популяции. Корреляционное отношение η ( eta ) определяется как удовлетворяющее
который можно записать как
т.е. взвешенная дисперсия категории означает деление дисперсии всех выборок.
Если связь между значениями и ценности является линейным (что, безусловно, верно, когда есть только две возможности для x ), это даст тот же результат, что и квадрат коэффициента корреляции Пирсона ; в противном случае коэффициент корреляции будет больше по величине. Поэтому его можно использовать для оценки нелинейных отношений.
Диапазон [ править ]
Коэффициент корреляции принимает значения от 0 до 1. Предел представляет собой особый случай отсутствия дисперсии среди средств различных категорий, в то время как означает отсутствие дисперсии внутри соответствующих категорий. не определено, когда все точки данных всей совокупности принимают одно и то же значение.
Пример [ править ]
Предположим, имеется распределение результатов тестов по трем темам (категориям):
- Алгебра: 45, 70, 29, 15 и 21 (5 баллов)
- Геометрия: 40, 20, 30 и 42 (4 балла).
- Статистика: 65, 95, 80, 70, 85 и 73 (6 очков).
Тогда средние значения испытуемых составляют 36, 33 и 78, а общий средний балл — 52.
Суммы квадратов различий со средними показателями по предмету составляют 1952 по алгебре, 308 по геометрии и 600 по статистике, что в сумме дает 2860. Общая сумма квадратов различий от общего среднего значения составляет 9640. Разница между ними составляет 6780. также взвешенная сумма квадратов различий между средними показателями субъектов и общим средним показателем:
Это дает
предполагая, что большая часть общей дисперсии является результатом различий между темами, а не внутри тем. Извлечение квадратного корня дает
Для Общая дисперсия выборки обусловлена исключительно дисперсией между категориями, а вовсе не дисперсией внутри отдельных категорий. Для быстрого понимания просто представьте, что все оценки по алгебре, геометрии и статистике одинаковы соответственно, например, 5 раз по 36, 4 раза по 33, 6 раз по 78.
Предел относится к случаю отсутствия дисперсии среди категорий, вносящих вклад в общую дисперсию. Тривиальное требование для этой крайности состоит в том, чтобы все средние категории были одинаковыми.
Пирсон против Фишера [ править ]
Коэффициент корреляции был введен Карлом Пирсоном как часть дисперсионного анализа . Рональд Фишер прокомментировал:
«В качестве описательной статистики полезность коэффициента корреляции крайне ограничена. Следует отметить, что число степеней свободы в числителе зависит от количества массивов" [1]
на что Эгон Пирсон (сын Карла) ответил, сказав
«Опять же, давно устоявшийся метод, такой как использование коэффициента корреляции [§45 «Коэффициент корреляции» η] обходит в нескольких словах без адекватного описания, что, возможно, вряд ли справедливо по отношению к студенту, которому не предоставляется возможность самому судить о его масштабах». [2]
Эта статья нуждается в дополнительных цитатах для проверки . ( август 2011 г. ) |
Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Август 2011 г. ) |
Ссылки [ править ]
- ^ Рональд Фишер (1926) « Статистические методы для научных работников », ISBN 0-05-002170-2 (отрывок)
- ^ Пирсон Э.С. (1926) «Обзор статистических методов для научных работников (РА Фишер)», «Прогресс науки», 20, 733-734. (отрывок)