Взаимодействие (статистика)

Из Википедии, бесплатной энциклопедии
Эффект взаимодействия образования и идеологии на обеспокоенность по поводу повышения уровня моря

В статистике взаимодействие может возникнуть при рассмотрении взаимосвязи между тремя или более переменными и описывает ситуацию , в которой влияние одной причинной переменной на результат зависит от состояния второй причинной переменной (то есть, когда эффекты двух причинных переменных причины не суммируются ). [1] [2] Хотя концепция взаимодействия обычно рассматривается с точки зрения причинно-следственных связей, она также может описывать и непричинные связи (тогда также называемые модерацией или модификацией эффекта ). Взаимодействия часто рассматриваются в контексте регрессионного анализа или факторных экспериментов .

Наличие взаимодействий может иметь важные последствия для интерпретации статистических моделей. Если две интересующие переменные взаимодействуют, связь между каждой из взаимодействующих переменных и третьей «зависимой переменной» зависит от значения другой взаимодействующей переменной. На практике это затрудняет прогнозирование последствий изменения значения переменной, особенно если переменные, с которыми она взаимодействует, трудно измерить или трудно контролировать.

Понятие «взаимодействие» тесно связано с понятием умеренности , которое распространено в исследованиях в области социальных наук и здравоохранения: взаимодействие между объясняющей переменной и переменной окружающей среды предполагает, что эффект объясняющей переменной смягчается или модифицируется переменной окружающей среды. . [1]

Введение [ править ]

Переменная взаимодействия или функция взаимодействия — это переменная, созданная из исходного набора переменных, чтобы попытаться представить либо все присутствующее взаимодействие, либо некоторую его часть. В исследовательском статистическом анализе обычно используются произведения исходных переменных в качестве основы для проверки наличия взаимодействия с возможностью замены других более реалистичных переменных взаимодействия на более позднем этапе. Когда имеется более двух объясняющих переменных, конструируются несколько переменных взаимодействия, при этом попарные продукты представляют парные взаимодействия, а продукты более высокого порядка представляют взаимодействия более высокого порядка.

Бинарный фактор A и количественная переменная X взаимодействуют (не аддитивны) при анализе по отношению к переменной Y. результата

Таким образом, для ответа Y и двух переменных x 1 и x 2 аддитивная : модель будет иметь вид

В отличие от этого,

является примером модели с взаимодействием между переменными x 1 и x 2 («ошибка» относится к случайной величине , значение которой равно значению, на которое ; см . ошибки Y отличается от ожидаемого значения Y и остатки в статистике ). Часто модели представлены без члена взаимодействия. , но это смешивает основной эффект и эффект взаимодействия (т. е. без указания термина взаимодействия возможно, что любой обнаруженный основной эффект на самом деле обусловлен взаимодействием).

В моделировании [ править ]

В ANOVA [ править ]

Простая ситуация, в которой могут возникнуть взаимодействия, — это двухфакторный эксперимент , анализируемый с использованием дисперсионного анализа (ANOVA). у нас есть два бинарных фактора A и B. Предположим , Например, эти факторы могут указывать на то, был ли пациенту назначен какой-либо из двух методов лечения, при этом методы лечения применялись либо по отдельности, либо в комбинации. Затем мы можем рассмотреть средний ответ на лечение (например, уровни симптомов после лечения) для каждого пациента как функцию назначенной комбинации лечения. В следующей таблице показана одна из возможных ситуаций:

Б = 0 Б = 1
А = 0 6 7
А = 1 4 5

В этом примере нет взаимодействия между двумя методами лечения — их эффекты аддитивны. Причина этого в том, что разница в среднем ответе между субъектами, получающими лечение А , и теми, кто не получает лечение А, составляет -2 независимо от того, проводится ли лечение Б (-2 = 4 - 6) или нет (-2 = 5 - 7). ). Обратите внимание, что из этого автоматически следует, что разница в среднем ответе между субъектами, получающими лечение B , и теми, кто не получает лечение B , одинакова независимо от того, назначается ли лечение A (7–6 = 5–4).

Напротив, если наблюдаются следующие средние ответы

Б = 0 Б = 1
А = 0 1 4
А = 1 7 6

тогда существует взаимодействие между методами лечения — их эффекты не суммируются. Если предположить, что большее количество соответствует лучшему ответу, в этой ситуации лечение Б в среднем полезно, если субъект не получает также лечение А , но в среднем вредно, если его назначают в сочетании с А. лечением Лечение А в среднем полезно независимо от того, применяется ли также лечение Б , но оно более эффективно как в абсолютном, так и в относительном выражении, если проводится отдельно, а не в сочетании с Б. лечением Аналогичные наблюдения сделаны для этого конкретного примера в следующем разделе.

Качественные и количественные взаимодействия [ править ]

Во многих приложениях полезно различать качественные и количественные взаимодействия. [3] Количественное взаимодействие между А и В — это ситуация, когда величина эффекта В зависит от значения А , но направление действия В является постоянным для А. всех Качественное взаимодействие между A и B относится к ситуации, когда как величина, так и направление эффекта каждой переменной могут зависеть от значения другой переменной.

Таблица средних значений слева ниже показывает количественное взаимодействие — лечение А полезно как тогда, когда Б назначается , так и когда Б не назначается, но польза больше, когда Б не назначается (т. е. когда А назначается отдельно). . Таблица средних справа показывает качественное взаимодействие. А вредно, когда дается Б , но полезно, когда Б не дается. Обратите внимание, что та же интерпретация будет справедлива, если мы рассмотрим выгоду от B в зависимости от того, ли A. дано

Б = 0 Б = 1 Б = 0 Б = 1
А = 0 2 1 А = 0 2 6
А = 1 5 3 А = 1 5 3

Различие между качественными и количественными взаимодействиями зависит от порядка рассмотрения переменных (напротив, свойство аддитивности инвариантно по отношению к порядку переменных). В следующей таблице, если мы сосредоточимся на эффекте лечения А , мы увидим количественное взаимодействие: назначение лечения А улучшит результат в среднем независимо от того, ли лечение Б проводится или нет (хотя польза будет больше, если лечение А дается отдельно). Однако если мы сосредоточимся на эффекте лечения Б , то возникнет качественное взаимодействие: назначение лечения Б субъекту, который уже получает лечение А , (в среднем) ухудшит ситуацию, тогда как предоставление лечения Б субъекту, который не получает лечения. Лечение А в среднем улучшит результат.

Б = 0 Б = 1
А = 0 1 4
А = 1 7 6

Аддитивность единичной обработки [ править ]

В своей простейшей форме предположение об аддитивности единиц лечения гласит, что наблюдаемая реакция y ij от экспериментальной единицы i при получении лечения j может быть записана как сумма y ij = y i + t j . [4] [5] [6] Предположение об аддитивности единичной обработки подразумевает, что каждая обработка оказывает одинаковое аддитивное воздействие на каждую экспериментальную единицу. По мнению Кокса, поскольку любая данная экспериментальная единица может подвергнуться только одной из обработок, предположение об аддитивности обработки единицы является гипотезой, которая не поддается непосредственной фальсификации. [ нужна цитата ] и Кемпторн. [ нужна цитата ]

Однако многие последствия аддитивности лечебных единиц можно сфальсифицировать. [ нужна цитата ] Для рандомизированного эксперимента предположение об аддитивности лечения подразумевает, что дисперсия постоянна для всех методов лечения. Следовательно, напротив, необходимым условием аддитивности единичного лечения является постоянство дисперсии. [ нужна цитата ]

Свойство аддитивности единичного лечения не инвариантно при изменении масштаба. [ нужна цитата ] поэтому статистики часто используют преобразования для достижения аддитивности единичного лечения. Если ожидается, что переменная ответа будет следовать параметрическому семейству вероятностных распределений, то статистик может указать (в протоколе эксперимента или наблюдательного исследования), что ответы должны быть преобразованы для стабилизации дисперсии. [7] Во многих случаях статистика может указать, что к ответам применяются логарифмические преобразования, которые, как полагают, соответствуют мультипликативной модели. [5] [8]

Предположение об аддитивности единичного лечения было сформулировано Кемпторном при планировании эксперимента. [ нужна цитата ] и Кокс [ нужна цитата ] . Использование Кемпторном аддитивности и рандомизации единичного лечения аналогично плановому анализу выборки при обследовании конечного населения.

В последние годы это стало обычным явлением [ нужна цитата ] использовать терминологию Дональда Рубина, которая использует контрфактические утверждения. Предположим, мы сравниваем две группы людей по некоторому атрибуту y . Например, первая группа может состоять из людей, которым назначается стандартное лечение какого-либо заболевания, а вторая группа — из людей, которые получают новое лечение с неизвестным эффектом. С «контрфактической» точки зрения мы можем рассмотреть человека, чей атрибут имеет значение y, если этот человек принадлежит к первой группе, и чей атрибут имеет значение τ ( y ), если человек принадлежит ко второй группе. Предположение об «аддитивности единичного лечения» состоит в том, что τ ( y ) = τ , то есть «эффект лечения» не зависит от y . Поскольку мы не можем наблюдать одновременно y и τ( y ) для данного человека, это невозможно проверить на индивидуальном уровне. Однако аддитивность единичного лечения подразумевает, что кумулятивные функции распределения F 1 и F 2 для двух групп удовлетворяют F 2 ( y ) = F 1 ( y − τ ), пока отнесение особей к группам 1 и 2 не зависит от всех других факторов, влияющих на y (т.е. нет никаких помех ). Отсутствие аддитивности единичного лечения можно рассматривать как форму взаимодействия между назначением лечения (например, группам 1 или 2) и исходным или необработанным значением y .

Категориальные переменные [ править ]

Иногда взаимодействующими переменными являются категориальные переменные, а не действительные числа, и тогда исследование можно рассматривать как анализ проблемы дисперсии . Например, члены населения могут быть классифицированы по религии и роду занятий. Если кто-то хочет предсказать рост человека, основываясь только на его религии и роде занятий, простая аддитивная модель, т. е. модель без взаимодействия, добавит к общему среднему росту поправку на конкретную религию и еще одну на конкретную профессию. Модель взаимодействия, в отличие от аддитивной модели , может внести дополнительную корректировку «взаимодействия» между этой религией и этой профессией. Этот пример может заставить заподозрить, что слово « взаимодействие» употребляется неправильно.

Статистически наличие взаимодействия между категориальными переменными обычно проверяется с использованием формы дисперсионного анализа (ANOVA). Однако если одна или несколько переменных являются непрерывными по своей природе, их обычно проверяют с помощью модерируемой множественной регрессии. [9] Это так называется потому, что модератор — это переменная, которая влияет на силу связи между двумя другими переменными.

эксперименты Спланированные

Геничи Тагучи утверждал [10] что взаимодействия можно исключить из системы путем соответствующего выбора переменной отклика и преобразования. Однако Джордж Бокс и другие утверждают, что в целом это не так. [11]

Размер модели [ править ]

Учитывая n предикторов, количество членов в линейной модели, включающей константу, каждый предиктор и каждое возможное взаимодействие, равно . Поскольку эта величина растет экспоненциально, она легко становится непрактично большой. Одним из способов ограничения размера модели является ограничение порядка взаимодействий. Например, если разрешены только двусторонние взаимодействия, количество термов становится равным . В таблице ниже показано количество терминов для каждого количества предикторов и максимальный порядок взаимодействия.

Количество терминов
Предсказатели Включая до m -сторонних взаимодействий
2 3 4 5
1 2 2 2 2 2
2 4 4 4 4 4
3 7 8 8 8 8
4 11 15 16 16 16
5 16 26 31 32 32
6 22 42 57 63 64
7 29 64 99 120 128
8 37 93 163 219 256
9 46 130 256 382 512
10 56 176 386 638 1,024
11 67 232 562 1,024 2,048
12 79 299 794 1,586 4,096
13 92 378 1,093 2,380 8,192
14 106 470 1,471 3,473 16,384
15 121 576 1,941 4,944 32,768
20 211 1,351 6,196 21,700 1,048,576
25 326 2,626 15,276 68,406 33,554,432
50 1,276 20,876 251,176 2,369,936 10 15
100 5,051 166,751 4,087,976 79,375,496 10 30
1,000 500,501 166,667,501 10 10 10 12 10 300

В регрессии [ править ]

Самый общий подход к моделированию эффектов взаимодействия предполагает регрессию, начиная с приведенной выше элементарной версии:

где член взаимодействия может быть сформирован явно путем умножения двух (или более) переменных или неявно с использованием факториальной записи в современных статистических пакетах, таких как Stata . Компоненты x 1 и x 2 могут быть измерениями или фиктивными переменными {0,1} в любой комбинации. Взаимодействия, включающие фиктивную переменную, умноженную на переменную измерения, называются фиктивными переменными наклона . [12] потому что они оценивают и проверяют разницу в наклонах между группами 0 и 1.

Когда переменные измерения используются во взаимодействиях, часто желательно работать с центрированными версиями, где среднее значение переменной (или какое-либо другое достаточно центральное значение) устанавливается равным нулю. Центрирование может сделать основные эффекты в моделях взаимодействия более интерпретируемыми, поскольку оно уменьшает мультиколлинеарность между членом взаимодействия и основными эффектами. [13] Например, коэффициент a в приведенном выше уравнении представляет влияние x 1 , когда x 2 равно нулю.

Взаимодействие образования и политических партий, влияющее на представления об изменении климата

Регрессионные подходы к моделированию взаимодействия являются очень общими, поскольку они могут учитывать дополнительные предикторы и множество альтернативных спецификаций или стратегий оценки, выходящих за рамки обычного метода наименьших квадратов . устойчивые , квантильные и смешанные ( многоуровневые Среди возможностей имеются ) модели, а также обобщенное линейное моделирование , охватывающее широкий диапазон категориальных, упорядоченных, подсчитываемых или иным образом ограниченных зависимых переменных. На графике показано взаимодействие образования и политики на основе вероятностно-взвешенного логит-регрессионного анализа данных опроса. [14]

Графики взаимодействия [ править ]

Графики взаимодействия, также называемые графиками простого наклона , показывают возможные взаимодействия между переменными.

Пример: Взаимодействие видов и температуры воздуха и их влияние на температуру тела [ править ]

Рассмотрим исследование температуры тела разных видов при разной температуре воздуха, в градусах Фаренгейта. Данные приведены в таблице ниже.

Данные о температуре тела по видам

На графике взаимодействия в качестве оси x может использоваться либо температура воздуха, либо вид. Второй фактор представлен линиями на графике взаимодействия.

График взаимодействия, температура тела

График взаимодействия, температура тела 2

Между двумя факторами (температурой воздуха и видом) существует взаимодействие в их влиянии на реакцию (температуру тела), поскольку влияние температуры воздуха зависит от вида. Взаимодействие указано на графике, поскольку линии не параллельны.

: влияние тяжести инсульта и лечения выздоровление Пример на

В качестве второго примера рассмотрим клиническое исследование взаимосвязи между тяжестью инсульта и эффективностью препарата для выживаемости пациентов. Данные приведены в таблице ниже.

данные о выживаемости после инсульта при взаимодействии

сюжет взаимодействия инсульт выживание

На графике взаимодействия линии для групп с легким и умеренным инсультом параллельны, что указывает на то, что препарат оказывает одинаковый эффект в обеих группах, поэтому взаимодействия нет. Линия для группы тяжелого инсульта не параллельна другим линиям, что указывает на наличие взаимодействия между тяжестью инсульта и влиянием препарата на выживаемость. Линия для группы тяжелого инсульта плоская, что указывает на то, что среди этих пациентов нет разницы в выживаемости между лечением препаратом и плацебо. Напротив, линии для групп с легким и умеренным инсультом наклонены вправо, указывая на то, что среди этих пациентов группа плацебо имеет более низкую выживаемость, чем группа, принимавшая лекарства.

Проверка гипотез для взаимодействий [ править ]

Дисперсионный анализ и регрессионный анализ используются для проверки существенных взаимодействий.

Пример: Взаимодействие температуры и времени при выпечке печенья [ править ]

Влияет ли выход хорошего печенья на температуру выпечки и время нахождения в духовке? В таблице приведены данные для 8 пакетов файлов cookie.

данные о доходности файлов cookie взаимодействия

сюжет взаимодействия, выпечка печенья

Данные показывают, что выход хорошего печенья является лучшим, когда либо (i) температура высокая и время нахождения в духовке короткое, либо (ii) температура низкая и время нахождения в духовке длительное. Если печенье оставить на длительное время в духовке при высокой температуре, печенье получится подгоревшим и выход будет низким.

Из графика и данных видно, что линии не параллельны, что указывает на наличие взаимодействия. Это можно проверить с помощью дисперсионного анализа (ANOVA). Первая модель ANOVA не будет включать член взаимодействия. То есть первая модель ANOVA игнорирует возможное взаимодействие. Вторая модель ANOVA будет включать в себя член взаимодействия. То есть вторая модель ANOVA явно выполняет проверку гипотезы о взаимодействии.

Модель ANOVA 1: отсутствие взаимодействия; выход ~ температура + время [ править ]

печенье анова модель 1

В модели ANOVA, которая игнорирует взаимодействие, ни температура, ни время не оказывают существенного влияния на выход (p=0,91), что явно является неверным выводом. Более подходящая модель ANOVA должна проверять возможное взаимодействие.

Модель ANOVA 2: включает фактор взаимодействия; урожайность ~ температура * время [ править ]

Файл cookie anova, модель 2

Член взаимодействия температура: время является значимым (p = 0,000180). На основании теста взаимодействия и графика взаимодействия выяснилось, что влияние времени на выход зависит от температуры и наоборот.

Примеры [ править ]

Реальные примеры взаимодействия включают в себя:

  • Взаимодействие между добавлением сахара в кофе и перемешиванием кофе. Ни одна из двух отдельных переменных не оказывает большого влияния на сладость, но их комбинация оказывает влияние.
  • Взаимодействие между добавлением углерода в сталь и закалкой . Ни один из этих двух факторов по отдельности не оказывает большого влияния на силу, но их комбинация имеет впечатляющий эффект.
  • Взаимодействие между курением и вдыханием асбестовых волокон: оба повышают риск рака легких, но воздействие асбеста умножает риск рака у курильщиков и некурящих. Здесь совместный эффект вдыхания асбеста и курения превышает сумму обоих эффектов. [15]
  • Взаимодействие между генетическими факторами риска диабета 2 типа и диетой (в частности, «западной» диетой). Было показано, что западный режим питания увеличивает риск диабета для субъектов с высоким «шкалом генетического риска», но не для других субъектов. [16]
  • Взаимодействие между образованием и политической ориентацией, влияющее на восприятие широкой общественностью проблемы изменения климата. Например, опросы в США часто обнаруживают, что принятие реальности антропогенного изменения климата возрастает с увеличением уровня образования среди умеренных или либеральных респондентов, но снижается с ростом уровня образования среди наиболее консервативных. [17] [18] Было замечено, что подобные взаимодействия влияют на некоторые неклиматические науки или представления об окружающей среде. [19] и использовать научную грамотность или другие показатели знаний вместо образования. [20] [21]

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б Додж, Ю. (2003). Оксфордский словарь статистических терминов . Издательство Оксфордского университета. ISBN  978-0-19-920613-1 .
  2. ^ Кокс, ДР (1984). "Взаимодействие". Международный статистический обзор . 52 (1): 1–25. дои : 10.2307/1403235 . JSTOR   1403235 .
  3. ^ Пето, ДП (1982). «Статистические аспекты исследований рака». Лечение рака (Первое изд.). Лондон: Чепмен и Холл. ISBN  0-412-21850-Х .
  4. ^ Кемпторн, Оскар (1979). Планирование и анализ экспериментов (исправленное переиздание (1952) под ред. Wiley). Роберт Э. Кригер. ISBN  978-0-88275-105-4 .
  5. ^ Перейти обратно: а б Кокс, Дэвид Р. (1958). Планирование экспериментов . Уайли. Глава 2. ISBN  0-471-57429-5 .
  6. ^ Хинкельманн, Клаус и Кемпторн, Оскар (2008). Планирование и анализ экспериментов, Том I: Введение в планирование экспериментов (второе изд.). Уайли. Главы 5-6. ISBN  978-0-471-72756-9 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  7. ^ Хинкельманн, Клаус и Кемпторн, Оскар (2008). Планирование и анализ экспериментов, Том I: Введение в планирование экспериментов (второе изд.). Уайли. Главы 7-8. ISBN  978-0-471-72756-9 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  8. ^ Бейли, РА (2008). План сравнительных экспериментов . Издательство Кембриджского университета. ISBN  978-0-521-68357-9 . Предварительные главы доступны в Интернете.
  9. ^ Овертон, RC (2001). «Умеренная множественная регрессия для взаимодействий с участием категориальных переменных: статистический контроль гетерогенной дисперсии в двух группах». Психологические методы . 6 (3): 218–33. дои : 10.1037/1082-989X.6.3.218 . ПМИД   11570229 .
  10. ^ «Планирование экспериментов — эксперименты Тагучи» . www.qualitytrainingportal.com . Проверено 27 ноября 2015 г.
  11. ^ Джордж Э.П. Бокс (1990). «Имеет ли значение взаимодействие?» (PDF) . Инженерия качества . 2 : 365–369. дои : 10.1080/08982119008962728 . Архивировано из оригинала (PDF) 10 июня 2010 г. Проверено 28 июля 2009 г.
  12. ^ Гамильтон, LC 1992. Регрессия с графикой: второй курс прикладной статистики . Пасифик Гроув, Калифорния: Брукс/Коул. ISBN   978-0534159009
  13. ^ Якобуччи, Рассвет; Шнайдер, Мэтью Дж.; Попович, Дейдре Л.; Бакамитсос, Георгиос А. (2016). «Центрирование по среднему помогает смягчить «микро», но не «макро» мультиколлинеарность» . Методы исследования поведения . 48 (4): 1308–1317. дои : 10.3758/s13428-015-0624-x . ISSN   1554-3528 . ПМИД   26148824 .
  14. ^ Гамильтон, округ Колумбия; Сайто, К. (2015). «Четырехсторонний взгляд на экологическую озабоченность США». Экологическая политика . 24 (2): 212–227. Бибкод : 2015EnvPo..24..212H . дои : 10.1080/09644016.2014.976485 . S2CID   154762226 .
  15. ^ Ли, ПН (2001). «Связь между воздействием асбеста и курением совместно и риском рака легких» . Профессиональная и экологическая медицина . 58 (3): 145–53. дои : 10.1136/oem.58.3.145 . ПМК   1740104 . ПМИД   11171926 .
  16. ^ Лу, К.; и другие. (2009). «Генетическая предрасположенность, западный образ питания и риск диабета 2 типа у мужчин» . Ам Дж Клин Нутр . 89 (5): 1453–1458. дои : 10.3945/ajcn.2008.27249 . ПМК   2676999 . ПМИД   19279076 .
  17. ^ Гамильтон, LC (2011). «Образование, политика и мнения об изменении климата: доказательства эффектов взаимодействия» . Климатические изменения . 104 (2): 231–242. Бибкод : 2011ClCh..104..231H . дои : 10.1007/s10584-010-9957-8 . S2CID   16481640 .
  18. ^ МакКрайт, AM (2011). «Политическая ориентация смягчает убеждения американцев и их обеспокоенность по поводу изменения климата». Климатические изменения . 104 (2): 243–253. Бибкод : 2011ClCh..104..243M . дои : 10.1007/s10584-010-9946-y . S2CID   152795205 .
  19. ^ Гамильтон, Лоуренс К.; Сайто, Кей (2015). «Четырехсторонний взгляд на экологическую озабоченность США». Экологическая политика . 24 (2): 212–227. Бибкод : 2015EnvPo..24..212H . дои : 10.1080/09644016.2014.976485 . S2CID   154762226 .
  20. ^ Кахан, DM; Дженкинс-Смит, Х.; Браман, Д. (2011). «Культурное познание научного консенсуса» . Журнал исследований рисков . 14 (2): 147–174. дои : 10.1080/13669877.2010.511246 . hdl : 10.1080/13669877.2010.511246 . S2CID   216092368 .
  21. ^ Гамильтон, округ Колумбия; Катлер, MJ; Шефер, А. (2012). «Общественные знания и обеспокоенность по поводу потепления в полярном регионе». Полярная география . 35 (2): 155–168. Бибкод : 2012PolGe..35..155H . дои : 10.1080/1088937X.2012.684155 . S2CID   12437794 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]