Таблица непредвиденных обстоятельств
В статистике таблица непредвиденных обстоятельств (также известная как перекрестная таблица или перекрестная таблица ) — это тип таблицы в матричном формате, которая отображает многомерное частотное распределение переменных. Они широко используются в опросах, бизнес-аналитике, инженерных и научных исследованиях. Они дают базовую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействия между ними. Термин « таблица непредвиденных обстоятельств» впервые был использован Карлом Пирсоном в «Теории непредвиденных обстоятельств и ее связи с ассоциацией и нормальной корреляцией». [1] часть компании Drapers биометрической серии исследовательских мемуаров , которую я опубликовал в 1904 году.
Ключевой проблемой многомерной статистики является поиск структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах сопряженности. Если будут выявлены некоторые из условных независимости , то даже хранение данных можно будет осуществлять более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы непредвиденных обстоятельств с помощью относительных частот.
Сводная таблица — это способ создания таблиц непредвиденных обстоятельств с помощью программного обеспечения для работы с электронными таблицами.
Пример
[ редактировать ]Предположим, есть две переменные: пол (мужской или женский) и праворукость (правша или левша). Далее предположим, что 100 человек случайным образом выбраны из очень большой популяции в рамках исследования половых различий в рукопожатии. Можно создать таблицу непредвиденных обстоятельств, чтобы отобразить количество людей, которые являются мужчинами-правшами и левшами, женщинами-правшами и левшами. Такая таблица непредвиденных обстоятельств приведена ниже.
Ручной- ность Секс | Правша | Левша | Общий |
---|---|---|---|
Мужской | 43 | 9 | 52 |
Женский | 44 | 4 | 48 |
Общий | 87 | 13 | 100 |
Численность самцов, самок, а также правшей и левшей называется предельной суммой . Общая сумма (общее количество людей, представленных в таблице непредвиденных обстоятельств) — это число в правом нижнем углу.
Таблица позволяет пользователям сразу увидеть, что доля мужчин-правшей примерно такая же, как и доля женщин-правшей, хотя пропорции не идентичны. Силу связи можно измерить с помощью отношения шансов , а отношение шансов для популяции оценить с помощью отношения шансов выборки . Значимость разницы между двумя пропорциями можно оценить с помощью различных статистических тестов, включая критерий хи-квадрат Пирсона , G -критерий , точный критерий Фишера , тест Бошлоо и тест Барнарда , при условии, что записи в таблице представляют людей случайным образом. отобраны из генеральной совокупности, на основании чего следует сделать выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что существует непредвиденная связь между двумя переменными . Другими словами, две переменные не являются независимыми. Если непредвиденных обстоятельств нет, говорят, что две переменные независимы .
Приведенный выше пример представляет собой простейшую таблицу сопряженности, таблицу, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, можно использовать любое количество строк и столбцов. Переменных также может быть больше двух, но таблицы сопряженности более высокого порядка сложно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена в таблицах сопряженности, хотя такая практика встречается редко. Дополнительную информацию об использовании таблицы сопряженности для связи между двумя порядковыми переменными см. в разделе « Гамма Гудмана и Краскала» .
Стандартное содержание таблицы сопряженности
[ редактировать ]- Несколько столбцов (исторически они предназначались для использования всего свободного пространства печатной страницы). Если каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называют точками баннера или вырезками (а строки иногда называют заглушками ).
- Тесты значимости. Обычно это сравнение столбцов , которое проверяет различия между столбцами и отображает эти результаты с помощью букв, или сравнение ячеек , которое использует цвет или стрелки для идентификации ячейки в таблице, которая каким-то образом выделяется.
- Нетто или нетто, которое является промежуточным итогом.
- Одно или несколько из следующих значений: проценты, проценты строк, проценты столбцов, индексы или средние значения.
- Невзвешенные размеры выборки (количество).
Меры объединения
[ редактировать ]Степень связи между двумя переменными можно оценить по ряду коэффициентов. В следующих подразделах описаны некоторые из них. Более полное обсуждение их использования см. в основных статьях, ссылки на которые приведены под заголовками каждого подраздела.
Коэффициент шансов
[ редактировать ]Простейшей мерой связи для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B, или, что то же самое (из-за симметрии), отношение шансов B в присутствии A и шансы B в отсутствие A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.
Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:
соотношение шансов:
Коэффициент Фи
[ редактировать ]Простой мерой, применимой только к случаю таблиц непредвиденных обстоятельств 2 × 2, является коэффициент фи (φ), определяемый формулой
где х 2 вычисляется как в тесте хи-квадрат Пирсона , а N — общая сумма наблюдений. φ варьируется от 0 (соответствует отсутствию связи между переменными) до 1 или -1 (полная связь или полная обратная связь), при условии, что она основана на данных о частоте, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы минус произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная доля равна 0,5 (и две диагональные ячейки пусты). [2]
Крамера V и коэффициент непредвиденных обстоятельств C
[ редактировать ]Двумя альтернативами являются коэффициент непредвиденных обстоятельств C и V Крамера .
Формулы для коэффициентов C и V :
- и
k — количество строк или количество столбцов, в зависимости от того, что меньше.
C страдает тем недостатком, что он не достигает максимума 1,0, в частности, максимальное значение, которого он может достичь в таблице 2 × 2, составляет 0,707. В таблицах сопряженности с большим количеством категорий он может достигать значений, близких к 1,0; например, оно может достигать максимума 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если в них разное количество категорий. [3]
C можно настроить так, чтобы оно достигло максимума 1,0 при полной ассоциации в таблице любого количества строк и столбцов, разделив C на где k — количество строк или столбцов, если таблица квадратная. [ нужна ссылка ] или по где r — количество строк, а c — количество столбцов. [4]
Тетрахорический коэффициент корреляции
[ редактировать ]Другой вариант — коэффициент тетрахорической корреляции , но он применим только к таблицам 2 × 2. Полихорическая корреляция — это расширение тетрахорной корреляции на таблицы, включающие переменные с более чем двумя уровнями.
Тетрахорическая корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, нормально распределена. [5] Коэффициент обеспечивает «удобную меру корреляции [продукт-момент Пирсона], когда градуированные измерения сведены к двум категориям». [6]
Коэффициент тетрахорической корреляции не следует путать с коэффициентом корреляции Пирсона , рассчитанным путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).
Лямбда-коэффициент
[ редактировать ]Коэффициент лямбда является мерой силы связи перекрестных таблиц, когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет ассоциации) до 1,0 (максимально возможная ассоциация).
Асимметричная лямбда измеряет процентное улучшение прогнозирования зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогноз выполняется в обоих направлениях.
Коэффициент неопределенности
[ редактировать ]Коэффициент неопределенности , или U Тейла, является еще одной мерой переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или полная инверсия) до +1,0 (100% положительная ассоциация или полное согласие). Значение 0,0 указывает на отсутствие ассоциации.
Кроме того, коэффициент неопределенности является условной и асимметричной мерой связи, которую можно выразить как
- .
Это асимметричное свойство может привести к пониманию, которое не так очевидно при симметричных мерах ассоциации. [7]
Другие
[ редактировать ]- Гамма-тест : нет корректировок ни по размеру стола, ни по ничьим.
- Тау Кендалла : поправка на связи.
См. также
[ редактировать ]- Матрица путаницы
- Сводная таблица в программном обеспечении для работы с электронными таблицами сопоставляет данные выборки с подсчетами (таблица непредвиденных обстоятельств) и/или суммами.
- TPL Tables — это инструмент для создания и печати перекрестных таблиц.
- Итеративная процедура пропорциональной аппроксимации по существу манипулирует таблицами непредвиденных обстоятельств для сопоставления измененных совместных распределений или предельных сумм.
- Многомерная статистика в специальных многомерных дискретных распределениях вероятностей. Некоторые процедуры, используемые в этом контексте, могут использоваться при работе с таблицами непредвиденных обстоятельств.
- OLAP-куб , современная многомерная вычислительная форма таблиц непредвиденных обстоятельств.
- Панельные данные , многомерные данные с течением времени
Ссылки
[ редактировать ]- ^ Карл Пирсон, ФРС (1904 г.). Математический вклад в теорию эволюции . Дулау и Ко.
- ^ Фергюсон, Джорджия (1966). Статистический анализ в психологии и образовании . Нью-Йорк: МакГроу-Хилл.
- ^ Смит, С.С., и Альбаум, Г.С. (2004) Основы маркетинговых исследований . Сейдж: Таузенд-Оукс, Калифорния. п. 631
- ^ Блейки, Н. (2003) Анализ количественных данных . Сейдж: Таузенд-Оукс, Калифорния. п. 100
- ^ Фергюсон. [ нужна полная цитата ]
- ^ Фергюсон, 1966, с. 244
- ^ «В поисках категориальной корреляции» . 26 декабря 2019 г.
Дальнейшее чтение
[ редактировать ]- Андерсен, Эрлинг Б. 1980. Дискретные статистические модели с приложениями в социальных науках . Северная Голландия, 1980 год.
- Бишоп, YMM ; Файнберг, SE ; Голландия, PW (1975). Дискретный многомерный анализ: теория и практика . МТИ Пресс. ISBN 978-0-262-02113-5 . МР 0381130 .
- Кристенсен, Рональд (1997). Лог-линейные модели и логистическая регрессия . Тексты Springer в статистике (второе изд.). Нью-Йорк: Springer-Verlag. стр. xvi+483. ISBN 0-387-98247-7 . МР 1633357 .
- Лауритцен, Штеффен Л. (1979). Лекции по таблицам непредвиденных обстоятельств (Ольборгский университет) (PDF) (4-е издание (первое электронное издание), изд. 2002 г.).
- Гохале, Д.В.; Кульбак, Соломон (1978). Информация в таблицах сопряженности . Марсель Деккер. ISBN 0-824-76698-9 .
Внешние ссылки
[ редактировать ]- Онлайн-анализ таблиц сопряженности: калькулятор с примерами
- Интерактивная перекрестная таблица, независимый тест хи-квадрат и учебное пособие
- Калькулятор Фишера и хи-квадрат таблицы непредвиденных обстоятельств 2 × 2
- Дополнительные коэффициенты корреляции
- Номинальная ассоциация: Фи, коэффициент непредвиденных обстоятельств, T Чупрова, V Крамера, лямбда, коэффициент неопределенности , 24 марта 2008 г., Дж. Дэвид Гарсон, Университет штата Северная Каролина.
- Перекрестная таблица CustomInsight.com
- Проект POWERMUTT: IV. ОТОБРАЖЕНИЕ КАТЕГОРИЧЕСКИХ ДАННЫХ
- StATS: Стивс пытается научить статистике соотношение шансов и относительный риск (9 января 2001 г.)
- Учебное пособие по оценке здоровья населения Epi Info. Урок 5. Анализ: создание статистики