Лог-линейный анализ
Лог-линейный анализ — это метод, используемый в статистике для изучения взаимосвязи между более чем двумя категориальными переменными . Этот метод используется как для проверки гипотез , так и для построения моделей. В обоих случаях модели проверяются, чтобы найти наиболее экономную (т. е. наименее сложную) модель, которая лучше всего объясняет дисперсию наблюдаемых частот. ( Вместо лог-линейного анализа можно использовать критерий хи-квадрат Пирсона , но этот метод позволяет сравнивать только две переменные одновременно. [1] )
Критерий соответствия
[ редактировать ]Лог-линейный анализ использует отношения правдоподобия . статистику которое имеет приблизительное распределение хи-квадрат при большом размере выборки: [2]
где
- натуральный логарифм ;
- наблюдаемая частота в ячейке ij ( i = строка и j = столбец);
- ожидаемая частота в ячейке ij .
- отклонение . модели [3]
Предположения
[ редактировать ]В лог-линейном анализе есть три предположения: [2]
1. Наблюдения независимы и случайны ;
2. Наблюдаемые частоты обычно распределяются относительно ожидаемых частот по повторяющимся выборкам. Это хорошее приближение, если (а) ожидаемые частоты больше или равны 5 для 80% или более категорий и (б) все ожидаемые частоты больше 1. Нарушения этого предположения приводят к значительному снижению власть. Предлагаемые решения этого нарушения: удалить переменную, объединить уровни одной переменной (например, объединить мужчин и женщин) или собрать больше данных.
3. Логарифм ожидаемого значения переменной отклика представляет собой линейную комбинацию объясняющих переменных. Это предположение настолько фундаментально, что о нем редко упоминают, но, как и большинство предположений о линейности, оно редко бывает точным и часто делается просто для получения удобной модели.
Кроме того, данные всегда должны быть категориальными. Непрерывные данные можно сначала преобразовать в категориальные данные с некоторой потерей информации. Как с непрерывными, так и с категориальными данными лучше всего использовать логистическую регрессию . (Любые данные, которые анализируются с помощью лог-линейного анализа, также могут быть проанализированы с помощью логистической регрессии. Выбор метода зависит от вопросов исследования.)
Переменные
[ редактировать ]В лог-линейном анализе нет четкого различия между тем, какие переменные являются независимыми или зависимыми переменными. Переменные обрабатываются одинаково. Однако часто теоретическая основа переменных приводит к тому, что переменные интерпретируются либо как независимые, либо как зависимые переменные. [1]
Модели
[ редактировать ]Цель лог-линейного анализа — определить, какие компоненты модели необходимо сохранить, чтобы наилучшим образом учесть данные. Компоненты модели — это количество основных эффектов и взаимодействий в модели. Например, если мы исследуем взаимосвязь между тремя переменными — переменной A, переменной B и переменной C — в насыщенной модели будет семь компонентов модели. Три основных эффекта (A, B, C), три двусторонних взаимодействия (AB, AC, BC) и одно трехстороннее взаимодействие (ABC) дают семь компонентов модели.
Лог-линейные модели можно рассматривать как континуум, причем двумя крайностями являются простейшая модель и насыщенная модель . Самая простая модель — это модель, в которой все ожидаемые частоты равны. Это верно, когда переменные не связаны. Насыщенная модель — это модель, включающая все компоненты модели. Эта модель всегда лучше всего объясняет данные, но она наименее экономна, поскольку включает в себя все. В этой модели наблюдаемые частоты равны ожидаемым частотам, поэтому в статистике хи-квадрат отношения правдоподобия соотношение и . Это приводит к тому, что статистика хи-квадрат отношения правдоподобия равна 0, что является наилучшим соответствием модели. [2] Другими возможными моделями являются модель условной равновероятности и модель взаимной зависимости. [1]
Каждую лог-линейную модель можно представить в виде лог-линейного уравнения. Например, с тремя переменными ( A , B , C ) насыщенная модель имеет следующее лог-линейное уравнение: [1]
где
- ожидаемая частота в ячейке ijk ;
- относительный вес каждой переменной.
Иерархическая модель
[ редактировать ]Модели лог-линейного анализа могут быть иерархическими или неиерархическими. Иерархические модели являются наиболее распространенными. Эти модели содержат все взаимодействия низшего порядка и основные эффекты взаимодействия, которые необходимо изучить. [1]
Графическая модель
[ редактировать ]Лог-линейная модель является графической, если всякий раз, когда модель содержит все двухфакторные члены, порожденные взаимодействием более высокого порядка, модель также содержит взаимодействие более высокого порядка. [4] Как прямое следствие, графические модели являются иерархическими. Более того, будучи полностью определяемой своими двухфакторными членами, графическая модель может быть представлена неориентированным графом, вершины которого представляют собой переменные, а ребра представляют собой двухфакторные члены, входящие в модель.
Разложимая модель
[ редактировать ]Лог-линейная модель является разложимой, если она графическая и соответствующий граф хордальный .
Модель подходит
[ редактировать ]Модель хорошо подходит, когда остатки (т. е. наблюдаемое-ожидаемое) близки к 0, то есть чем ближе наблюдаемые частоты к ожидаемым частотам, тем лучше модель подходит. Если статистика хи-квадрат отношения правдоподобия незначительна, то модель подходит хорошо (т. е. рассчитанные ожидаемые частоты близки к наблюдаемым частотам). Если статистика хи-квадрат отношения правдоподобия значительна, то модель не подходит (т. е. рассчитанные ожидаемые частоты не близки к наблюдаемым частотам).
Обратное исключение используется для определения того, какие компоненты модели необходимо сохранить для наилучшего учета данных. Лог-линейный анализ начинается с насыщенной модели, а взаимодействия высшего порядка удаляются до тех пор, пока модель не перестанет точно соответствовать данным. В частности, на каждом этапе, после удаления взаимодействия высшего порядка, вычисляется статистика хи-квадрат отношения правдоподобия, чтобы измерить, насколько хорошо модель соответствует данным. Взаимодействия высшего порядка больше не удаляются, когда статистика хи-квадрат отношения правдоподобия становится значимой. [2]
Сравнение моделей
[ редактировать ]Когда две модели вложены , их также можно сравнить с помощью теста разницы хи-квадрат. Тест на разницу хи-квадрат вычисляется путем вычитания статистики хи-квадрат отношения правдоподобия для двух сравниваемых моделей. Затем это значение сравнивается с критическим значением хи-квадрат при разнице степеней свободы. Если разница хи-квадрат меньше критического значения хи-квадрат, новая модель значительно лучше соответствует данным и является предпочтительной моделью. В противном случае, если разница хи-квадрат больше критического значения, предпочтительна менее экономная модель. [1]
Последующие тесты
[ редактировать ]После определения модели наилучшего соответствия взаимодействие высшего порядка исследуется путем проведения анализа хи-квадрат на разных уровнях одной из переменных. Для проведения анализа хи-квадрат необходимо разбить модель на таблицу непредвиденных обстоятельств 2 × 2 или 2 × 1 . [2]
Например, если кто-то исследует взаимосвязь между четырьмя переменными, а модель наилучшего соответствия содержит одно из трехсторонних взаимодействий, нужно изучить ее простые двусторонние взаимодействия на разных уровнях третьей переменной.
Размеры эффекта
[ редактировать ]Чтобы сравнить величину эффекта взаимодействия между переменными, отношения шансов используются . Отношения шансов предпочтительнее статистики хи-квадрат по двум основным причинам: [1]
1. Отношения шансов не зависят от размера выборки;
2. Неравные предельные распределения не влияют на соотношение шансов.
Программное обеспечение
[ редактировать ]Для наборов данных с несколькими переменными – общие лог-линейные модели.
[ редактировать ]- R с loglm функцией пакета MASS (см. туториал )
- IBM SPSS Статистика с процедурой GENLOG ( использование )
Для наборов данных с сотнями переменных – разложимые модели.
[ редактировать ]См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д и ж г Хауэлл, округ Колумбия (2009). Статистические методы психологии (7-е изд.) . Белмот, Калифорния: Cengage Learning . стр. 630–655.
- ^ Jump up to: а б с д и Филд, А. (2005). Обнаружение статистики с помощью SPSS (2-е изд.) . Таузенд-Оукс, Калифорния: Публикации SAGE . стр. 695–718 . ISBN 9780761944515 .
- ^ Агрести, Алан (2007). Введение в категориальный анализ данных (2-е изд.) . Хобокен, Нью-Джерси: Wiley Inter-Science . п. 212. дои : 10.1002/0470114754 . ISBN 978-0-471-22618-5 .
- ^ Кристенсен, Р. (1997). Лог-линейные модели и логистическая регрессия (2-е изд.) . Спрингер.
- ^ Петижан, Ф.; Уэбб, Дж.И.; Николсон, А.Е. (2013). Масштабирование лог-линейного анализа для многомерных данных (PDF) . Международная конференция по интеллектуальному анализу данных. Даллас, Техас, США: IEEE. стр. 597–606.
Дальнейшее чтение
[ редактировать ]- Лог-линейные модели
- Симкисс, Д.; Эбрагим, Дж.Дж.; Уотерстон, AJR (ред.) «Глава 14: Анализ категориальных данных: лог-линейный анализ». Журнал тропической педиатрии , онлайн-раздел «Методы исследования II: многомерный анализ» (стр. 144–153). Получено в мае 2012 г. с http://www.oxfordjournals.org/tropej/online/ma_chap14.pdf.
- Пью, доктор медицины (1983). «Содействующая вина и осуждения за изнасилование: лог-линейные модели обвинения жертвы». Ежеквартальный журнал социальной психологии, 46 , 233–242. JSTOR 3033794
- Табачник, Б.Г., и Фиделл, Л.С. (2007). Использование многомерной статистики (5-е изд.). Нью-Йорк, штат Нью-Йорк: Аллин и Бэкон. [ нужна страница ]