G -тест

В статистике ранее G -тесты представляют собой отношения правдоподобия или максимального правдоподобия тесты статистической значимости , которые все чаще используются в ситуациях, когда тесты хи-квадрат . рекомендовались ^[1]

Формулировка [ править ]

Общая формула для G :

G=2\sum _{i}{O_{i}\cdot \ln \left({\frac {O_{i}}{E_{i}}}\right)},

где ${\textstyle O_{i}\geq 0}$ наблюдаемое количество в ячейке, ${\textstyle E_{i}>0}$ ожидаемое количество при нулевой гипотезе , ${\textstyle \ln }$ обозначает натуральный логарифм , а сумма берется по всем непустым ячейкам. В результате ${\textstyle G}$ распределено по принципу хи-квадрат .

Кроме того, общее наблюдаемое количество должно быть равно общему ожидаемому количеству:

\sum _{i}O_{i}=\sum _{i}E_{i}=N

где

{\textstyle N}

общее количество наблюдений.

Вывод [ править ]

Мы можем получить значение G -теста из теста логарифмического отношения правдоподобия , где базовой моделью является полиномиальная модель.

Предположим, у нас есть образец ${\textstyle x=(x_{1},\ldots ,x_{m})}$ где каждый ${\textstyle x_{i}}$ сколько раз объект типа ${\textstyle i}$ наблюдалось. Кроме того, пусть ${\textstyle n=\sum _{i=1}^{m}x_{i}}$ быть общее количество наблюдаемых объектов. Если мы предположим, что базовая модель является полиномиальной, то тестовая статистика определяется формулой

\ln \left({\frac {L({\tilde {\theta }}|x)}{L({\hat {\theta }}|x)}}\right)=\ln \left({\frac {\prod _{i=1}^{m}{\tilde {\theta }}_{i}^{x_{i}}}{\prod _{i=1}^{m}{\hat {\theta }}_{i}^{x_{i}}}}\right)

где

{\textstyle {\tilde {\theta }}}

является нулевой гипотезой и

{\hat {\theta }}

— это оценка максимального правдоподобия (MLE) параметров с учетом данных. Напомним, что для полиномиальной модели MLE

{\textstyle {\hat {\theta }}_{i}}

учитывая некоторые данные, определяется

{\hat {\theta }}_{i}={\frac {x_{i}}{n}}

Кроме того, мы можем представить каждый параметр нулевой гипотезы

{\tilde {\theta }}_{i}

как

{\tilde {\theta }}_{i}={\frac {e_{i}}{n}}

Таким образом, подставив представления

{\textstyle {\tilde {\theta }}}

и

{\textstyle {\hat {\theta }}}

в логарифмическом отношении правдоподобия уравнение упрощается до

{\begin{aligned}\ln \left({\frac {L({\tilde {\theta }}|x)}{L({\hat {\theta }}|x)}}\right)&=\ln \prod _{i=1}^{m}\left({\frac {e_{i}}{x_{i}}}\right)^{x_{i}}\\&=\sum _{i=1}^{m}x_{i}\ln \left({\frac {e_{i}}{x_{i}}}\right)\\\end{aligned}}

Переименуйте переменные

{\textstyle e_{i}}

с

{\textstyle E_{i}}

и

{\textstyle x_{i}}

с

{\textstyle O_{i}}

. Наконец, умножьте на коэффициент

{\textstyle -2}

(используется, чтобы сделать формулу G-теста асимптотически эквивалентной формуле теста хи-квадрат Пирсона ) для достижения формы

${\begin{alignedat}{2}G&=&\;-2\sum _{i=1}^{m}O_{i}\ln \left({\frac {E_{i}}{O_{i}}}\right)\\&=&2\sum _{i=1}^{m}O_{i}\ln \left({\frac {O_{i}}{E_{i}}}\right)\end{alignedat}}$

Эвристически можно представить $~O_{i}~$ как непрерывный и стремящийся к нулю, и в этом случае $~O_{i}\ln O_{i}\to 0~,$ а члены с нулевыми наблюдениями можно просто отбросить. Однако ожидаемое количество в каждой ячейке должно быть строго больше нуля для каждой ячейки ( $~E_{i}>0~\forall \,i~$ ), чтобы применить метод.

Распространение и использование [ править ]

Учитывая нулевую гипотезу о том, что наблюдаемые частоты являются результатом случайной выборки из распределения с заданными ожидаемыми частотами, распределение G распределение примерно представляет собой хи-квадрат с тем же количеством степеней свободы , что и в соответствующем тесте хи-квадрат.

Для очень маленьких выборок полиномиальный критерий согласия и точный критерий Фишера для таблиц сопряженности или даже выбор байесовской гипотезы предпочтительнее G -критерия. ^[2] Макдональд рекомендует всегда использовать точный критерий (точный критерий согласия, точный критерий Фишера ), если общий размер выборки меньше 1000.

В размере выборки в 1000 нет ничего волшебного, это просто красивое круглое число, находящееся в пределах диапазона, в котором точный критерий, критерий хи-квадрат и G -критерий дадут почти одинаковые

p

значения . Электронные таблицы, калькуляторы веб-страниц и SAS без труда проведут точный тест на выборке размером 1000 человек.

— Джон Х. Макдональд ^[2]

G -тесты рекомендуются, по крайней мере, начиная с издания 1981 года «Биометрии» , учебника по статистике Роберта Р. Сокала и Ф. Джеймса Рольфа . ^[3]

Связь с другими показателями [ править ]

Связь с тестом хи-квадрат [ править ]

Обычно используемые тесты хи-квадрат для проверки соответствия распределению и независимости в таблицах непредвиденных обстоятельств на самом деле являются аппроксимацией логарифмического отношения правдоподобия , на котором G -тесты. основаны ^[4]

Общая формула статистики критерия хи-квадрат Пирсона:

\chi ^{2}=\sum _{i}{\frac {\left(O_{i}-E_{i}\right)^{2}}{E_{i}}}~.

Аппроксимация G хи-квадратом получается путем разложения Тейлора второго порядка натурального логарифма вокруг 1 (см. #Вывод (хи-квадрат) ниже).У нас есть $G\approx \chi ^{2}$ когда наблюдаемое имеет значение $~O_{i}~$ близки к ожидаемым значениям $~E_{i}~.$ Однако когда эта разница велика, $~\chi ^{2}~$ приближение начинает разрушаться. Здесь влияние выбросов в данных будет более выраженным, и это объясняет, почему $~\chi ^{2}~$ тесты терпят неудачу в ситуациях с небольшим количеством данных.

Для выборок разумного размера G -тест и критерий хи-квадрат приведут к одним и тем же выводам. Однако приближение к теоретическому распределению хи-квадрат для G -теста лучше, чем для критерия хи-квадрат Пирсона . ^[5] В случаях, когда $~O_{i}>2\cdot E_{i}~$ для некоторых случаев ячейки G -тест всегда лучше, чем тест хи-квадрат. ^{[ нужна ссылка ]}

Для проверки согласия G -критерий бесконечно более эффективен, чем критерий хи-квадрат в смысле Бахадура, но оба теста одинаково эффективны в смысле Питмана или в смысле Ходжеса и Лемана. ^[6]^[7]

Вывод (хи-квадрат) [ править ]

Учитывать

G=2\sum _{i}{O_{i}\ln \left({\frac {O_{i}}{E_{i}}}\right)}~,

и пусть $O_{i}=E_{i}+\delta _{i}$ с $\sum _{i}\delta _{i}=0~,$ так что общее количество отсчетов остается прежним. После замены находим

G=2\sum _{i}{(E_{i}+\delta _{i})\ln \left(1+{\frac {\delta _{i}}{E_{i}}}\right)}~.

Расширение Тейлора вокруг $1+{\frac {\delta _{i}}{E_{i}}}$ может быть выполнено с помощью $\ln(1+x)=x-{\frac {1}{2}}x^{2}+{\mathcal {O}}(x^{3})$ . Результат

G=2\sum _{i}(E_{i}+\delta _{i})\left({\frac {\delta _{i}}{E_{i}}}-{\frac {1}{2}}{\frac {\delta _{i}^{2}}{E_{i}^{2}}}+{\mathcal {O}}\left(\delta _{i}^{3}\right)\right)~,

и условия распространения, которые мы находим,

G=2\sum _{i}\delta _{i}+{\frac {1}{2}}{\frac {\delta _{i}^{2}}{E_{i}}}+{\mathcal {O}}\left(\delta _{i}^{3}\right)~.

Теперь, используя тот факт, что $~\sum _{i}\delta _{i}=0~$ и $~\delta _{i}=O_{i}-E_{i}~,$ мы можем написать результат,

~G\approx \sum _{i}{\frac {\left(O_{i}-E_{i}\right)^{2}}{E_{i}}}~.

с расхождением Кульбака Лейблера Связь –

Статистика G -теста пропорциональна отличию Кульбака-Лейблера теоретического распределения от эмпирического распределения:

{\begin{aligned}G&=2\sum _{i}{O_{i}\cdot \ln \left({\frac {O_{i}}{E_{i}}}\right)}=2N\sum _{i}{o_{i}\cdot \ln \left({\frac {o_{i}}{e_{i}}}\right)}\\&=2N\,D_{\mathrm {KL} }(o\|e),\end{aligned}}

где N — общее количество наблюдений и $o_{i}$ и $e_{i}$ – эмпирическая и теоретическая частоты соответственно.

к информации взаимной Отношение

Для анализа таблиц сопряженности значение G также можно выразить через взаимную информацию .

Позволять

N=\sum _{ij}{O_{ij}}\;

,

\;\pi _{ij}={\frac {O_{ij}}{N}}\;

,

\;\pi _{i.}={\frac {\sum _{j}O_{ij}}{N}}\;

, и

\;\pi _{.j}={\frac {\sum _{i}O_{ij}}{N}}\;

.

Тогда G можно выразить в нескольких альтернативных формах:

G=2\cdot N\cdot \sum _{ij}{\pi _{ij}\left(\ln(\pi _{ij})-\ln(\pi _{i.})-\ln(\pi _{.j})\right)},

G=2\cdot N\cdot \left[H(r)+H(c)-H(r,c)\right],

G=2\cdot N\cdot \operatorname {MI} (r,c)\,,

где энтропия дискретной случайной величины $X\,$ определяется как

H(X)=-{\sum _{x\in {\text{Supp}}(X)}p(x)\log p(x)}\,,

и где

\operatorname {MI} (r,c)=H(r)+H(c)-H(r,c)\,

- взаимная информация между вектором-строкой r и вектором-столбцом c таблицы сопряженности.

Это также можно показать ^{[ нужна ссылка ]} что обратное взвешивание частоты документов, обычно используемое для поиска текста, является аппроксимацией G, применимой, когда сумма строк для запроса намного меньше, чем сумма строк для остальной части корпуса. Аналогичным образом, результат байесовского вывода, примененный к выбору одного полиномиального распределения для всех строк таблицы сопряженности вместе взятых, по сравнению с более общей альтернативой отдельного многочлена для каждой строки, дает результаты, очень похожие на G. статистику ^{[ нужна ссылка ]}

Приложение [ править ]

Тест Макдональда-Крейтмана в статистической генетике представляет собой применение G -теста.
Даннинг ^[8] представил тест сообществу компьютерной лингвистики , где он сейчас широко используется.
Программа R-scape (используемая Rfam ) использует G-тест для обнаружения ковариаций между положениями выравнивания последовательностей РНК. ^[9]

Статистическое программное обеспечение [ править ]

Быстрые реализации в R можно найти в пакетах AMR и Rfast . Для пакета AMR команда g.test который работает точно так же, как chisq.test из базы RR также есть функция правдоподобия.test. Архивировано 16 декабря 2013 г. в функции Wayback Machine в Deducer. Архивировано 9 марта 2012 г. в пакете Wayback Machine . Примечание. -тест Фишера G в пакете GeneCycle языка программирования R ( fisher.g.test) реализует не G -тест, как описано в этой статье, а скорее точный тест Фишера гауссовского белого шума во временном ряду. ^[10]
Другая реализация R для вычисления статистики G и соответствующих значений p предоставляется пакетом R entropy . Команды Gstat для стандартной статистики G и связанного с ней значения p и Gstatindep для статистики G, применяемой для сравнения совместного распределения и распределения продуктов для проверки независимости.
В SAS можно провести G -тест, применив /chisq вариант после proc freq. ^[11]
В Stata можно провести G -тест, применив lr вариант после tabulate команда.
В Java используйте org.apache.commons.math3.stat.inference.GTest. ^[12]
В Python используйте scipy.stats.power_divergence с lambda_=0. ^[13]

Ссылки [ править ]

^ Макдональд, Дж. Х. (2014). «G – критерий согласия» . Справочник по биологической статистике (Третье изд.). Балтимор, Мэриленд: Издательство Sparky House. стр. 53–58.
^ Jump up to: ^а ^б Макдональд, Джон Х. (2014). «Малые числа в хи-квадрат и G -тестах» . Справочник по биологической статистике (3-е изд.). Балтимор, Мэриленд: Издательство Sparky House. стр. 86–89.
^ Сокаль, Р.Р.; Рольф, Ф.Дж. (1981). Биометрия: принципы и практика статистики в биологических исследованиях (второе изд.). Нью-Йорк: Фриман. ISBN 978-0-7167-2411-7 .
^ Хоуи, Дж. (2012). «Двусторонний тест отношения правдоподобия (G) и сравнение с двусторонним тестом хи-квадрат». arXiv : 1206.4881 [ stat.ME ].
^ Харремоэс, П.; Тушнади, Г. (2012). «Информационное расхождение имеет большее распределение хи-квадрат, чем статистика хи-квадрат». Труды ИСИТ 2012 . стр. 538–543. arXiv : 1202.1125 . Бибкод : 2012arXiv1202.1125H .
^ Куайн, член парламента; Робинсон, Дж. (1985). «Эффективность критериев согласия хи-квадрат и отношения правдоподобия» . Анналы статистики . 13 (2): 727–742. дои : 10.1214/aos/1176349550 .
^ Харремоэс, П.; Вайда, И. (2008). «О Бахадур-эффективном тестировании однородности с помощью энтропии». Транзакции IEEE по теории информации . 54 : 321–331. CiteSeerX 10.1.1.226.8051 . дои : 10.1109/тит.2007.911155 . S2CID 2258586 .
^ Даннинг, Тед (1993). « Точные методы статистики неожиданностей и совпадений, заархивированные 15 декабря 2011 г. в Wayback Machine », Компьютерная лингвистика , том 19, выпуск 1 (март 1993 г.).
^ Ривас, Елена (30 октября 2020 г.). «Предсказание структуры РНК с использованием положительной и отрицательной эволюционной информации» . PLOS Вычислительная биология . 16 (10): e1008387. дои : 10.1371/journal.pcbi.1008387 . ПМЦ 7657543 .
^ Фишер, Р.А. (1929). «Тест значимости в гармоническом анализе» . Труды Лондонского королевского общества А. 125 (796): 54–59. Бибкод : 1929RSPSA.125...54F . дои : 10.1098/rspa.1929.0151 . hdl : 2440/15201 .
^ G-критерий независимости , G-критерий согласия в Справочнике по биологической статистике, Университет штата Делавэр. (стр. 46–51, 64–69 в: McDonald, JH (2009) Справочник по биологической статистике (2-е изд.). Издательство Sparky House, Балтимор, Мэриленд.)
^ org.apache.commons.math3.stat.inference.GTest
^ «Scipy.stats.power_divergence — Руководство по SciPy v1.7.1» .

Внешние ссылки [ править ]

Г ²/Калькулятор логарифмического правдоподобия

[1] Макдональд, Дж. Х. (2014). «G – критерий согласия» . Справочник по биологической статистике (Третье изд.). Балтимор, Мэриленд: Издательство Sparky House. стр. 53–58.

[McDonald-2014-HBS-2] Jump up to: ^а ^б Макдональд, Джон Х. (2014). «Малые числа в хи-квадрат и G -тестах» . Справочник по биологической статистике (3-е изд.). Балтимор, Мэриленд: Издательство Sparky House. стр. 86–89.

[3] Сокаль, Р.Р.; Рольф, Ф.Дж. (1981). Биометрия: принципы и практика статистики в биологических исследованиях (второе изд.). Нью-Йорк: Фриман. ISBN 978-0-7167-2411-7 .

[4] Хоуи, Дж. (2012). «Двусторонний тест отношения правдоподобия (G) и сравнение с двусторонним тестом хи-квадрат». arXiv : 1206.4881 [ stat.ME ].

[5] Харремоэс, П.; Тушнади, Г. (2012). «Информационное расхождение имеет большее распределение хи-квадрат, чем статистика хи-квадрат». Труды ИСИТ 2012 . стр. 538–543. arXiv : 1202.1125 . Бибкод : 2012arXiv1202.1125H .

[6] Куайн, член парламента; Робинсон, Дж. (1985). «Эффективность критериев согласия хи-квадрат и отношения правдоподобия» . Анналы статистики . 13 (2): 727–742. дои : 10.1214/aos/1176349550 .

[7] Харремоэс, П.; Вайда, И. (2008). «О Бахадур-эффективном тестировании однородности с помощью энтропии». Транзакции IEEE по теории информации . 54 : 321–331. CiteSeerX 10.1.1.226.8051 . дои : 10.1109/тит.2007.911155 . S2CID 2258586 .

[8] Даннинг, Тед (1993). « Точные методы статистики неожиданностей и совпадений, заархивированные 15 декабря 2011 г. в Wayback Machine », Компьютерная лингвистика , том 19, выпуск 1 (март 1993 г.).

[9] Ривас, Елена (30 октября 2020 г.). «Предсказание структуры РНК с использованием положительной и отрицательной эволюционной информации» . PLOS Вычислительная биология . 16 (10): e1008387. дои : 10.1371/journal.pcbi.1008387 . ПМЦ 7657543 .

[10] Фишер, Р.А. (1929). «Тест значимости в гармоническом анализе» . Труды Лондонского королевского общества А. 125 (796): 54–59. Бибкод : 1929RSPSA.125...54F . дои : 10.1098/rspa.1929.0151 . hdl : 2440/15201 .

[11] G-критерий независимости , G-критерий согласия в Справочнике по биологической статистике, Университет штата Делавэр. (стр. 46–51, 64–69 в: McDonald, JH (2009) Справочник по биологической статистике (2-е изд.). Издательство Sparky House, Балтимор, Мэриленд.)

[12] rg.apache.commons.math3.stat.inference.GTest

[13] «Scipy.stats.power_divergence — Руководство по SciPy v1.7.1» .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]