Jump to content

Лог-линейный анализ

Лог-линейный анализ — это метод, используемый в статистике для изучения взаимосвязи между более чем двумя категориальными переменными . Этот метод используется как для проверки гипотез , так и для построения моделей. В обоих случаях модели проверяются, чтобы найти наиболее экономную (т. е. наименее сложную) модель, которая лучше всего объясняет дисперсию наблюдаемых частот. ( Вместо лог-линейного анализа можно использовать критерий хи-квадрат Пирсона , но этот метод позволяет сравнивать только две переменные одновременно. [1] )

Критерий соответствия

[ редактировать ]

Лог-линейный анализ использует отношения правдоподобия . статистику которое имеет приблизительное распределение хи-квадрат при большом размере выборки: [2]

где

натуральный логарифм ;
наблюдаемая частота в ячейке ij ( i = строка и j = столбец);
ожидаемая частота в ячейке ij .
отклонение . модели [3]

Предположения

[ редактировать ]

В лог-линейном анализе есть три предположения: [2]

1. Наблюдения независимы и случайны ;

2. Наблюдаемые частоты обычно распределяются относительно ожидаемых частот по повторяющимся выборкам. Это хорошее приближение, если (а) ожидаемые частоты больше или равны 5 для 80% или более категорий и (б) все ожидаемые частоты больше 1. Нарушения этого предположения приводят к значительному снижению власть. Предлагаемые решения этого нарушения: удалить переменную, объединить уровни одной переменной (например, объединить мужчин и женщин) или собрать больше данных.

3. Логарифм ожидаемого значения переменной отклика представляет собой линейную комбинацию объясняющих переменных. Это предположение настолько фундаментально, что о нем редко упоминают, но, как и большинство предположений о линейности, оно редко бывает точным и часто делается просто для получения удобной модели.

Кроме того, данные всегда должны быть категориальными. Непрерывные данные можно сначала преобразовать в категориальные данные с некоторой потерей информации. Как с непрерывными, так и с категориальными данными лучше всего использовать логистическую регрессию . (Любые данные, которые анализируются с помощью лог-линейного анализа, также могут быть проанализированы с помощью логистической регрессии. Выбор метода зависит от вопросов исследования.)

Переменные

[ редактировать ]

В лог-линейном анализе нет четкого различия между тем, какие переменные являются независимыми или зависимыми переменными. Переменные обрабатываются одинаково. Однако часто теоретическая основа переменных приводит к тому, что переменные интерпретируются либо как независимые, либо как зависимые переменные. [1]

Цель лог-линейного анализа — определить, какие компоненты модели необходимо сохранить, чтобы наилучшим образом учесть данные. Компоненты модели — это количество основных эффектов и взаимодействий в модели. Например, если мы исследуем взаимосвязь между тремя переменными — переменной A, переменной B и переменной C — в насыщенной модели будет семь компонентов модели. Три основных эффекта (A, B, C), три двусторонних взаимодействия (AB, AC, BC) и одно трехстороннее взаимодействие (ABC) дают семь компонентов модели.

Лог-линейные модели можно рассматривать как континуум, причем двумя крайностями являются простейшая модель и насыщенная модель . Самая простая модель — это модель, в которой все ожидаемые частоты равны. Это верно, когда переменные не связаны. Насыщенная модель — это модель, включающая все компоненты модели. Эта модель всегда лучше всего объясняет данные, но она наименее экономна, поскольку включает в себя все. В этой модели наблюдаемые частоты равны ожидаемым частотам, поэтому в статистике хи-квадрат отношения правдоподобия соотношение и . Это приводит к тому, что статистика хи-квадрат отношения правдоподобия равна 0, что является наилучшим соответствием модели. [2] Другими возможными моделями являются модель условной равновероятности и модель взаимной зависимости. [1]

Каждую лог-линейную модель можно представить в виде лог-линейного уравнения. Например, с тремя переменными ( A , B , C ) насыщенная модель имеет следующее лог-линейное уравнение: [1]

где

ожидаемая частота в ячейке ijk ;
относительный вес каждой переменной.

Иерархическая модель

[ редактировать ]

Модели лог-линейного анализа могут быть иерархическими или неиерархическими. Иерархические модели являются наиболее распространенными. Эти модели содержат все взаимодействия низшего порядка и основные эффекты взаимодействия, которые необходимо изучить. [1]

Графическая модель

[ редактировать ]

Лог-линейная модель является графической, если всякий раз, когда модель содержит все двухфакторные члены, порожденные взаимодействием более высокого порядка, модель также содержит взаимодействие более высокого порядка. [4] Как прямое следствие, графические модели являются иерархическими. Более того, будучи полностью определяемой своими двухфакторными членами, графическая модель может быть представлена ​​неориентированным графом, вершины которого представляют собой переменные, а ребра представляют собой двухфакторные члены, входящие в модель.

Разложимая модель

[ редактировать ]

Лог-линейная модель является разложимой, если она графическая и соответствующий граф хордальный .

Модель подходит

[ редактировать ]

Модель хорошо подходит, когда остатки (т. е. наблюдаемое-ожидаемое) близки к 0, то есть чем ближе наблюдаемые частоты к ожидаемым частотам, тем лучше модель подходит. Если статистика хи-квадрат отношения правдоподобия незначительна, то модель подходит хорошо (т. е. рассчитанные ожидаемые частоты близки к наблюдаемым частотам). Если статистика хи-квадрат отношения правдоподобия значительна, то модель не подходит (т. е. рассчитанные ожидаемые частоты не близки к наблюдаемым частотам).

Обратное исключение используется для определения того, какие компоненты модели необходимо сохранить для наилучшего учета данных. Лог-линейный анализ начинается с насыщенной модели, а взаимодействия высшего порядка удаляются до тех пор, пока модель не перестанет точно соответствовать данным. В частности, на каждом этапе, после удаления взаимодействия высшего порядка, вычисляется статистика хи-квадрат отношения правдоподобия, чтобы измерить, насколько хорошо модель соответствует данным. Взаимодействия высшего порядка больше не удаляются, когда статистика хи-квадрат отношения правдоподобия становится значимой. [2]

Сравнение моделей

[ редактировать ]

Когда две модели вложены , их также можно сравнить с помощью теста разницы хи-квадрат. Тест на разницу хи-квадрат вычисляется путем вычитания статистики хи-квадрат отношения правдоподобия для двух сравниваемых моделей. Затем это значение сравнивается с критическим значением хи-квадрат при разнице степеней свободы. Если разница хи-квадрат меньше критического значения хи-квадрат, новая модель значительно лучше соответствует данным и является предпочтительной моделью. В противном случае, если разница хи-квадрат больше критического значения, предпочтительна менее экономная модель. [1]

Последующие тесты

[ редактировать ]

После определения модели наилучшего соответствия взаимодействие высшего порядка исследуется путем проведения анализа хи-квадрат на разных уровнях одной из переменных. Для проведения анализа хи-квадрат необходимо разбить модель на таблицу непредвиденных обстоятельств 2 × 2 или 2 × 1 . [2]

Например, если кто-то исследует взаимосвязь между четырьмя переменными, а модель наилучшего соответствия содержит одно из трехсторонних взаимодействий, нужно изучить ее простые двусторонние взаимодействия на разных уровнях третьей переменной.

Размеры эффекта

[ редактировать ]

Чтобы сравнить величину эффекта взаимодействия между переменными, отношения шансов используются . Отношения шансов предпочтительнее статистики хи-квадрат по двум основным причинам: [1]

1. Отношения шансов не зависят от размера выборки;

2. Неравные предельные распределения не влияют на соотношение шансов.

Программное обеспечение

[ редактировать ]

Для наборов данных с несколькими переменными – общие лог-линейные модели.

[ редактировать ]

Для наборов данных с сотнями переменных – разложимые модели.

[ редактировать ]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д и ж г Хауэлл, округ Колумбия (2009). Статистические методы психологии (7-е изд.) . Белмот, Калифорния: Cengage Learning . стр. 630–655.
  2. ^ Jump up to: а б с д и Филд, А. (2005). Обнаружение статистики с помощью SPSS (2-е изд.) . Таузенд-Оукс, Калифорния: Публикации SAGE . стр. 695–718 . ISBN  9780761944515 .
  3. ^ Агрести, Алан (2007). Введение в категориальный анализ данных (2-е изд.) . Хобокен, Нью-Джерси: Wiley Inter-Science . п. 212. дои : 10.1002/0470114754 . ISBN  978-0-471-22618-5 .
  4. ^ Кристенсен, Р. (1997). Лог-линейные модели и логистическая регрессия (2-е изд.) . Спрингер.
  5. ^ Петижан, Ф.; Уэбб, Дж.И.; Николсон, А.Е. (2013). Масштабирование лог-линейного анализа для многомерных данных (PDF) . Международная конференция по интеллектуальному анализу данных. Даллас, Техас, США: IEEE. стр. 597–606.

Дальнейшее чтение

[ редактировать ]
  • Лог-линейные модели
  • Симкисс, Д.; Эбрагим, Дж.Дж.; Уотерстон, AJR (ред.) «Глава 14: Анализ категориальных данных: лог-линейный анализ». Журнал тропической педиатрии , онлайн-раздел «Методы исследования II: многомерный анализ» (стр. 144–153). Получено в мае 2012 г. с http://www.oxfordjournals.org/tropej/online/ma_chap14.pdf.
  • Пью, доктор медицины (1983). «Содействующая вина и осуждения за изнасилование: лог-линейные модели обвинения жертвы». Ежеквартальный журнал социальной психологии, 46 , 233–242. JSTOR   3033794
  • Табачник, Б.Г., и Фиделл, Л.С. (2007). Использование многомерной статистики (5-е изд.). Нью-Йорк, штат Нью-Йорк: Аллин и Бэкон. [ нужна страница ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 51bc005ae891ee11eae627cc9426c15f__1686573060
URL1:https://arc.ask3.ru/arc/aa/51/5f/51bc005ae891ee11eae627cc9426c15f.html
Заголовок, (Title) документа по адресу, URL1:
Log-linear analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)