Jump to content

Таблица непредвиденных обстоятельств

В статистике таблица непредвиденных обстоятельств (также известная как перекрестная таблица или перекрестная таблица ) — это тип таблицы в матричном формате, которая отображает многомерное частотное распределение переменных. Они широко используются в опросах, бизнес-аналитике, инженерных и научных исследованиях. Они дают базовую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействия между ними. Термин « таблица непредвиденных обстоятельств» впервые был использован Карлом Пирсоном в «Теории непредвиденных обстоятельств и ее связи с ассоциацией и нормальной корреляцией». [1] часть компании Drapers биометрической серии исследовательских мемуаров , которую я опубликовал в 1904 году.

Ключевой проблемой многомерной статистики является поиск структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах сопряженности. Если будут выявлены некоторые из условных независимости , то даже хранение данных можно будет осуществлять более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы непредвиденных обстоятельств с помощью относительных частот.

Сводная таблица — это способ создания таблиц непредвиденных обстоятельств с помощью программного обеспечения для работы с электронными таблицами.

Предположим, есть две переменные: пол (мужской или женский) и праворукость (правша или левша). Далее предположим, что 100 человек случайным образом выбраны из очень большой популяции в рамках исследования половых различий в рукопожатии. Можно создать таблицу непредвиденных обстоятельств, чтобы отобразить количество людей, которые являются мужчинами-правшами и левшами, женщинами-правшами и левшами. Такая таблица непредвиденных обстоятельств приведена ниже.

Ручной-
ность
Секс
Правша Левша Общий
Мужской 43 9 52
Женский 44 4 48
Общий 87 13 100

Численность самцов, самок, а также правшей и левшей называется предельной суммой . Общая сумма (общее количество людей, представленных в таблице непредвиденных обстоятельств) — это число в правом нижнем углу.

Таблица позволяет пользователям сразу увидеть, что доля мужчин-правшей примерно такая же, как и доля женщин-правшей, хотя пропорции не идентичны. Силу связи можно измерить с помощью отношения шансов , а отношение шансов для популяции оценить с помощью отношения шансов выборки . Значимость разницы между двумя пропорциями можно оценить с помощью различных статистических тестов, включая критерий хи-квадрат Пирсона , G -критерий , точный критерий Фишера , тест Бошлоо и тест Барнарда , при условии, что записи в таблице представляют людей случайным образом. отобраны из генеральной совокупности, на основании чего следует сделать выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что существует непредвиденная связь между двумя переменными . Другими словами, две переменные не являются независимыми. Если непредвиденных обстоятельств нет, говорят, что две переменные независимы .

Приведенный выше пример представляет собой простейшую таблицу сопряженности, таблицу, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, можно использовать любое количество строк и столбцов. Переменных также может быть больше двух, но таблицы сопряженности более высокого порядка сложно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена ​​в таблицах сопряженности, хотя такая практика встречается редко. Дополнительную информацию об использовании таблицы сопряженности для связи между двумя порядковыми переменными см. в разделе « Гамма Гудмана и Краскала» .

Стандартное содержание таблицы сопряженности

[ редактировать ]
  • Несколько столбцов (исторически они предназначались для использования всего свободного пространства печатной страницы). Если каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называют точками баннера или вырезками (а строки иногда называют заглушками ).
  • Тесты значимости. Обычно это сравнение столбцов , которое проверяет различия между столбцами и отображает эти результаты с помощью букв, или сравнение ячеек , которое использует цвет или стрелки для идентификации ячейки в таблице, которая каким-то образом выделяется.
  • Нетто или нетто, которое является промежуточным итогом.
  • Одно или несколько из следующих значений: проценты, проценты строк, проценты столбцов, индексы или средние значения.
  • Невзвешенные размеры выборки (количество).

Меры объединения

[ редактировать ]

Степень связи между двумя переменными можно оценить по ряду коэффициентов. В следующих подразделах описаны некоторые из них. Более полное обсуждение их использования см. в основных статьях, ссылки на которые приведены под заголовками каждого подраздела.

Коэффициент шансов

[ редактировать ]

Простейшей мерой связи для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B, или, что то же самое (из-за симметрии), отношение шансов B в присутствии A и шансы B в отсутствие A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.

Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:

соотношение шансов:

Коэффициент Фи

[ редактировать ]

Простой мерой, применимой только к случаю таблиц непредвиденных обстоятельств 2 × 2, является коэффициент фи (φ), определяемый формулой

где х 2 вычисляется как в тесте хи-квадрат Пирсона , а N — общая сумма наблюдений. φ варьируется от 0 (соответствует отсутствию связи между переменными) до 1 или -1 (полная связь или полная обратная связь), при условии, что она основана на данных о частоте, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы минус произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная доля равна 0,5 (и две диагональные ячейки пусты). [2]

Крамера V и коэффициент непредвиденных обстоятельств C

[ редактировать ]

Двумя альтернативами являются коэффициент непредвиденных обстоятельств C и V Крамера .

Формулы для коэффициентов C и V :

и

k — количество строк или количество столбцов, в зависимости от того, что меньше.

C страдает тем недостатком, что он не достигает максимума 1,0, в частности, максимальное значение, которого он может достичь в таблице 2 × 2, составляет 0,707. В таблицах сопряженности с большим количеством категорий он может достигать значений, близких к 1,0; например, оно может достигать максимума 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если в них разное количество категорий. [3]

C можно настроить так, чтобы оно достигло максимума 1,0 при полной ассоциации в таблице любого количества строк и столбцов, разделив C на где k — количество строк или столбцов, если таблица квадратная. [ нужна ссылка ] или по где r — количество строк, а c — количество столбцов. [4]

Тетрахорический коэффициент корреляции

[ редактировать ]

Другой вариант — коэффициент тетрахорической корреляции , но он применим только к таблицам 2 × 2. Полихорическая корреляция — это расширение тетрахорной корреляции на таблицы, включающие переменные с более чем двумя уровнями.

Тетрахорическая корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, нормально распределена. [5] Коэффициент обеспечивает «удобную меру корреляции [продукт-момент Пирсона], когда градуированные измерения сведены к двум категориям». [6]

Коэффициент тетрахорической корреляции не следует путать с коэффициентом корреляции Пирсона , рассчитанным путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).

Лямбда-коэффициент

[ редактировать ]

Коэффициент лямбда является мерой силы связи перекрестных таблиц, когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет ассоциации) до 1,0 (максимально возможная ассоциация).

Асимметричная лямбда измеряет процентное улучшение прогнозирования зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогноз выполняется в обоих направлениях.

Коэффициент неопределенности

[ редактировать ]

Коэффициент неопределенности , или U Тейла, является еще одной мерой переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или полная инверсия) до +1,0 (100% положительная ассоциация или полное согласие). Значение 0,0 указывает на отсутствие ассоциации.

Кроме того, коэффициент неопределенности является условной и асимметричной мерой связи, которую можно выразить как

.

Это асимметричное свойство может привести к пониманию, которое не так очевидно при симметричных мерах ассоциации. [7]

  • Гамма-тест : нет корректировок ни по размеру стола, ни по ничьим.
  • Тау Кендалла : поправка на связи.
    • Tau-b : используется для квадратных таблиц.
    • Tau-c : используется для прямоугольных таблиц.

См. также

[ редактировать ]
  • Матрица путаницы
  • Сводная таблица в программном обеспечении для работы с электронными таблицами сопоставляет данные выборки с подсчетами (таблица непредвиденных обстоятельств) и/или суммами.
  • TPL Tables — это инструмент для создания и печати перекрестных таблиц.
  • Итеративная процедура пропорциональной аппроксимации по существу манипулирует таблицами непредвиденных обстоятельств для сопоставления измененных совместных распределений или предельных сумм.
  • Многомерная статистика в специальных многомерных дискретных распределениях вероятностей. Некоторые процедуры, используемые в этом контексте, могут использоваться при работе с таблицами непредвиденных обстоятельств.
  • OLAP-куб , современная многомерная вычислительная форма таблиц непредвиденных обстоятельств.
  • Панельные данные , многомерные данные с течением времени
  1. ^ Карл Пирсон, ФРС (1904 г.). Математический вклад в теорию эволюции . Дулау и Ко.
  2. ^ Фергюсон, Джорджия (1966). Статистический анализ в психологии и образовании . Нью-Йорк: МакГроу-Хилл.
  3. ^ Смит, С.С., и Альбаум, Г.С. (2004) Основы маркетинговых исследований . Сейдж: Таузенд-Оукс, Калифорния. п. 631
  4. ^ Блейки, Н. (2003) Анализ количественных данных . Сейдж: Таузенд-Оукс, Калифорния. п. 100
  5. ^ Фергюсон. [ нужна полная цитата ]
  6. ^ Фергюсон, 1966, с. 244
  7. ^ «В поисках категориальной корреляции» . 26 декабря 2019 г.

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1b441bcf29a6a10e1ec614a151da5e10__1698686160
URL1:https://arc.ask3.ru/arc/aa/1b/10/1b441bcf29a6a10e1ec614a151da5e10.html
Заголовок, (Title) документа по адресу, URL1:
Contingency table - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)