Jump to content

G -тест

В статистике ранее G -тесты представляют собой отношения правдоподобия или максимального правдоподобия тесты статистической значимости , которые все чаще используются в ситуациях, когда тесты хи-квадрат . рекомендовались [1]

Формулировка [ править ]

Общая формула для G :

где наблюдаемое количество в ячейке, ожидаемое количество при нулевой гипотезе , обозначает натуральный логарифм , а сумма берется по всем непустым ячейкам. В результате распределено по принципу хи-квадрат .

Кроме того, общее наблюдаемое количество должно быть равно общему ожидаемому количеству:

где общее количество наблюдений.

Вывод [ править ]

Мы можем получить значение G -теста из теста логарифмического отношения правдоподобия , где базовой моделью является полиномиальная модель.

Предположим, у нас есть образец где каждый сколько раз объект типа наблюдалось. Кроме того, пусть быть общее количество наблюдаемых объектов. Если мы предположим, что базовая модель является полиномиальной, то тестовая статистика определяется формулой

где является нулевой гипотезой и — это оценка максимального правдоподобия (MLE) параметров с учетом данных. Напомним, что для полиномиальной модели MLE учитывая некоторые данные, определяется
Кроме того, мы можем представить каждый параметр нулевой гипотезы как
Таким образом, подставив представления и в логарифмическом отношении правдоподобия уравнение упрощается до
Переименуйте переменные с и с . Наконец, умножьте на коэффициент (используется, чтобы сделать формулу G-теста асимптотически эквивалентной формуле теста хи-квадрат Пирсона ) для достижения формы

Эвристически можно представить как непрерывный и стремящийся к нулю, и в этом случае а члены с нулевыми наблюдениями можно просто отбросить. Однако ожидаемое количество в каждой ячейке должно быть строго больше нуля для каждой ячейки ( ), чтобы применить метод.

Распространение и использование [ править ]

Учитывая нулевую гипотезу о том, что наблюдаемые частоты являются результатом случайной выборки из распределения с заданными ожидаемыми частотами, распределение G распределение примерно представляет собой хи-квадрат с тем же количеством степеней свободы , что и в соответствующем тесте хи-квадрат.

Для очень маленьких выборок полиномиальный критерий согласия и точный критерий Фишера для таблиц сопряженности или даже выбор байесовской гипотезы предпочтительнее G -критерия. [2] Макдональд рекомендует всегда использовать точный критерий (точный критерий согласия, точный критерий Фишера ), если общий размер выборки меньше 1000.

В размере выборки в 1000 нет ничего волшебного, это просто красивое круглое число, находящееся в пределах диапазона, в котором точный критерий, критерий хи-квадрат и G -критерий дадут почти одинаковые p значения . Электронные таблицы, калькуляторы веб-страниц и SAS без труда проведут точный тест на выборке размером 1000 человек.
— Джон Х. Макдональд [2]

G -тесты рекомендуются, по крайней мере, начиная с издания 1981 года «Биометрии» , учебника по статистике Роберта Р. Сокала и Ф. Джеймса Рольфа . [3]

Связь с другими показателями [ править ]

Связь с тестом хи-квадрат [ править ]

Обычно используемые тесты хи-квадрат для проверки соответствия распределению и независимости в таблицах непредвиденных обстоятельств на самом деле являются аппроксимацией логарифмического отношения правдоподобия , на котором G -тесты. основаны [4]

Общая формула статистики критерия хи-квадрат Пирсона:

Аппроксимация G хи-квадратом получается путем разложения Тейлора второго порядка натурального логарифма вокруг 1 (см. #Вывод (хи-квадрат) ниже).У нас есть когда наблюдаемое имеет значение близки к ожидаемым значениям Однако когда эта разница велика, приближение начинает разрушаться. Здесь влияние выбросов в данных будет более выраженным, и это объясняет, почему тесты терпят неудачу в ситуациях с небольшим количеством данных.

Для выборок разумного размера G -тест и критерий хи-квадрат приведут к одним и тем же выводам. Однако приближение к теоретическому распределению хи-квадрат для G -теста лучше, чем для критерия хи-квадрат Пирсона . [5] В случаях, когда для некоторых случаев ячейки G -тест всегда лучше, чем тест хи-квадрат. [ нужна ссылка ]

Для проверки согласия G -критерий бесконечно более эффективен, чем критерий хи-квадрат в смысле Бахадура, но оба теста одинаково эффективны в смысле Питмана или в смысле Ходжеса и Лемана. [6] [7]

Вывод (хи-квадрат) [ править ]

Учитывать

и пусть с так что общее количество отсчетов остается прежним. После замены находим

Расширение Тейлора вокруг может быть выполнено с помощью . Результат

и условия распространения, которые мы находим,

Теперь, используя тот факт, что и мы можем написать результат,

с расхождением Кульбака Лейблера Связь

Статистика G -теста пропорциональна отличию Кульбака-Лейблера теоретического распределения от эмпирического распределения:

где N — общее количество наблюдений и и – эмпирическая и теоретическая частоты соответственно.

к информации взаимной Отношение

Для анализа таблиц сопряженности значение G также можно выразить через взаимную информацию .

Позволять

, , , и .

Тогда G можно выразить в нескольких альтернативных формах:

где энтропия дискретной случайной величины определяется как

и где

- взаимная информация между вектором-строкой r и вектором-столбцом c таблицы сопряженности.

Это также можно показать [ нужна ссылка ] что обратное взвешивание частоты документов, обычно используемое для поиска текста, является аппроксимацией G, применимой, когда сумма строк для запроса намного меньше, чем сумма строк для остальной части корпуса. Аналогичным образом, результат байесовского вывода, примененный к выбору одного полиномиального распределения для всех строк таблицы сопряженности вместе взятых, по сравнению с более общей альтернативой отдельного многочлена для каждой строки, дает результаты, очень похожие на G. статистику [ нужна ссылка ]

Приложение [ править ]

Статистическое программное обеспечение [ править ]

  • Быстрые реализации в R можно найти в пакетах AMR и Rfast . Для пакета AMR команда g.test который работает точно так же, как chisq.test из базы RR также есть функция правдоподобия.test. Архивировано 16 декабря 2013 г. в функции Wayback Machine в Deducer. Архивировано 9 марта 2012 г. в пакете Wayback Machine . Примечание. -тест Фишера G в пакете GeneCycle языка программирования R ( fisher.g.test) реализует не G -тест, как описано в этой статье, а скорее точный тест Фишера гауссовского белого шума во временном ряду. [10]
  • Другая реализация R для вычисления статистики G и соответствующих значений p предоставляется пакетом R entropy . Команды Gstat для стандартной статистики G и связанного с ней значения p и Gstatindep для статистики G, применяемой для сравнения совместного распределения и распределения продуктов для проверки независимости.
  • В SAS можно провести G -тест, применив /chisq вариант после proc freq. [11]
  • В Stata можно провести G -тест, применив lr вариант после tabulate команда.
  • В Java используйте org.apache.commons.math3.stat.inference.GTest. [12]
  • В Python используйте scipy.stats.power_divergence с lambda_=0. [13]

Ссылки [ править ]

  1. ^ Макдональд, Дж. Х. (2014). «G – критерий согласия» . Справочник по биологической статистике (Третье изд.). Балтимор, Мэриленд: Издательство Sparky House. стр. 53–58.
  2. ^ Jump up to: а б Макдональд, Джон Х. (2014). «Малые числа в хи-квадрат и G -тестах» . Справочник по биологической статистике (3-е изд.). Балтимор, Мэриленд: Издательство Sparky House. стр. 86–89.
  3. ^ Сокаль, Р.Р.; Рольф, Ф.Дж. (1981). Биометрия: принципы и практика статистики в биологических исследованиях (второе изд.). Нью-Йорк: Фриман. ISBN  978-0-7167-2411-7 .
  4. ^ Хоуи, Дж. (2012). «Двусторонний тест отношения правдоподобия (G) и сравнение с двусторонним тестом хи-квадрат». arXiv : 1206.4881 [ stat.ME ].
  5. ^ Харремоэс, П.; Тушнади, Г. (2012). «Информационное расхождение имеет большее распределение хи-квадрат, чем статистика хи-квадрат». Труды ИСИТ 2012 . стр. 538–543. arXiv : 1202.1125 . Бибкод : 2012arXiv1202.1125H .
  6. ^ Куайн, член парламента; Робинсон, Дж. (1985). «Эффективность критериев согласия хи-квадрат и отношения правдоподобия» . Анналы статистики . 13 (2): 727–742. дои : 10.1214/aos/1176349550 .
  7. ^ Харремоэс, П.; Вайда, И. (2008). «О Бахадур-эффективном тестировании однородности с помощью энтропии». Транзакции IEEE по теории информации . 54 : 321–331. CiteSeerX   10.1.1.226.8051 . дои : 10.1109/тит.2007.911155 . S2CID   2258586 .
  8. ^ Даннинг, Тед (1993). « Точные методы статистики неожиданностей и совпадений, заархивированные 15 декабря 2011 г. в Wayback Machine », Компьютерная лингвистика , том 19, выпуск 1 (март 1993 г.).
  9. ^ Ривас, Елена (30 октября 2020 г.). «Предсказание структуры РНК с использованием положительной и отрицательной эволюционной информации» . PLOS Вычислительная биология . 16 (10): e1008387. дои : 10.1371/journal.pcbi.1008387 . ПМЦ   7657543 .
  10. ^ Фишер, Р.А. (1929). «Тест значимости в гармоническом анализе» . Труды Лондонского королевского общества А. 125 (796): 54–59. Бибкод : 1929RSPSA.125...54F . дои : 10.1098/rspa.1929.0151 . hdl : 2440/15201 .
  11. ^ G-критерий независимости , G-критерий согласия в Справочнике по биологической статистике, Университет штата Делавэр. (стр. 46–51, 64–69 в: McDonald, JH (2009) Справочник по биологической статистике (2-е изд.). Издательство Sparky House, Балтимор, Мэриленд.)
  12. ^ org.apache.commons.math3.stat.inference.GTest
  13. ^ «Scipy.stats.power_divergence — Руководство по SciPy v1.7.1» .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6c72881b8d687ada0eeead2535df02c1__1706873640
URL1:https://arc.ask3.ru/arc/aa/6c/c1/6c72881b8d687ada0eeead2535df02c1.html
Заголовок, (Title) документа по адресу, URL1:
G-test - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)