График вопросов-вопросов
В статистике график Q-Q ( график квантилей-квантилей ) — это вероятностный график, графический метод сравнения двух распределений вероятностей путем сопоставления их квантилей друг с другом. [1] Точка ( x , y ) на графике соответствует одному из квантилей второго распределения ( координата y ), нанесенному на график против того же квантиля первого распределения ( координата x ). Это определяет параметрическую кривую , где параметром является индекс квантильного интервала.
Если два сравниваемых распределения подобны, точки на графике Q – Q будут примерно лежать на тождественной линии y = x . Если распределения линейно связаны, точки на графике Q – Q будут примерно лежать на линии, но не обязательно на линии y = x . Графики Q – Q также можно использовать в качестве графического средства оценки параметров в в масштабе местоположения семействе распределений .
График AQ – Q используется для сравнения форм распределений, предоставляя графическое представление о том, насколько такие свойства, как местоположение , масштаб и асимметрия , похожи или различны в двух распределениях. Графики Q–Q можно использовать для сравнения наборов данных или теоретических распределений . Использование графиков Q–Q для сравнения двух выборок данных можно рассматривать как непараметрический подход к сравнению их основных распределений. образцов График AQ – Q, как правило, более диагностичен, чем сравнение гистограмм , но менее широко известен. Графики Q – Q обычно используются для сравнения набора данных с теоретической моделью. [2] [3] Это может обеспечить графическую оценку степени соответствия , а не сводиться к числовой сводной статистике . Графики Q – Q также используются для сравнения двух теоретических распределений друг с другом. [4] Поскольку графики Q–Q сравнивают распределения, нет необходимости наблюдать значения в виде пар, как на диаграмме рассеяния , или даже чтобы количество значений в двух сравниваемых группах было равным.
Термин «вероятностный график» иногда относится конкретно к графику Q–Q, иногда к более общему классу графиков, а иногда к менее часто используемому графику P–P . График коэффициента корреляции вероятностного графика (график PPCC) - это величина, полученная на основе идеи графиков Q – Q, которая измеряет соответствие подобранного распределения с наблюдаемыми данными и которая иногда используется как средство подгонки распределения к данным.
Определение и конструкция
[ редактировать ]График Q – Q — это график сопоставления квантилей двух распределений друг с другом или график, основанный на оценках квантилей. Набор точек на графике используется для сравнения двух распределений.
Основным шагом в построении графика Q – Q является расчет или оценка квантилей, которые будут отображаться на графике. Если одна или обе оси на графике Q – Q основаны на теоретическом распределении с непрерывной кумулятивной функцией распределения (CDF), все квантили определяются однозначно и могут быть получены путем инвертирования CDF. Если теоретическое распределение вероятностей с прерывистой CDF является одним из двух сравниваемых распределений, некоторые квантили могут быть не определены, поэтому можно построить интерполированный квантиль. Если график Q–Q основан на данных, используется несколько квантильных оценок. Правила построения графиков Q–Q, когда квантили необходимо оценить или интерполировать, называются позициями построения .
Простой случай — два набора данных одинакового размера. В этом случае, чтобы построить график Q – Q, каждый набор упорядочивается в порядке возрастания, затем объединяется в пары и отображает соответствующие значения. Более сложной конструкцией является случай, когда сравниваются два набора данных разного размера. В этом случае для построения графика Q – Q необходимо использовать интерполированную оценку квантилей, чтобы можно было построить квантили, соответствующие одной и той же базовой вероятности.
Более абстрактно, [4] с учетом двух кумулятивных функций распределения вероятностей F и G с соответствующими функциями квантиля F −1 и Г −1 (обратная функция CDF - это функция квантиля), график Q – Q рисует q -й квантиль F против q -го квантиля G для диапазона значений q . Таким образом, график Q–Q представляет собой параметрическую кривую, индексированную по [0,1] со значениями в реальной плоскости R. 2 .
Интерпретация
[ редактировать ]Точки, нанесенные на график Q – Q, всегда не уменьшаются, если смотреть слева направо. Если два сравниваемых распределения идентичны, график Q – Q следует линии y = x под углом 45 ° . Если два распределения согласуются после линейного преобразования значений в одном из распределений, то график Q – Q следует некоторой линии, но не обязательно линии y = x . Если общий тренд графика Q – Q более пологий, чем линия y = x , распределение, нанесенное на горизонтальную ось, более разбросано , чем распределение, нанесенное на вертикальную ось. И наоборот, если общий тренд графика Q – Q более крутой, чем линия y = x , распределение, нанесенное на вертикальной оси, более разбросано , чем распределение, нанесенное на горизонтальную ось. Графики Q – Q часто имеют дугообразную или S-образную форму, что указывает на то, что одно из распределений более асимметрично, чем другое, или что одно из распределений имеет более тяжелые хвосты, чем другое.
Хотя график Q–Q основан на квантилях, на стандартном графике Q–Q невозможно определить, какая точка на графике Q–Q определяет данный квантиль. Например, невозможно определить медиану любого из двух сравниваемых распределений путем проверки графика Q – Q. Некоторые графики Q – Q указывают децили, позволяющие сделать подобные определения возможными.
Точка пересечения и наклон линейной регрессии между квантилями дают меру относительного местоположения и относительного масштаба выборок. Если медиана распределения, отложенная на горизонтальной оси, равна 0, точка пересечения линии регрессии является мерой местоположения, а наклон — мерой масштаба. Расстояние между медианами является еще одной мерой относительного местоположения, отраженной на графике Q – Q. « Коэффициент корреляции вероятностного графика » (график PPCC) представляет собой коэффициент корреляции между парными квантилями выборки. Чем ближе коэффициент корреляции к единице, тем ближе распределения к сдвинутым, масштабированным версиям друг друга. Для распределений с одним параметром формы график коэффициента корреляции вероятности предоставляет метод оценки параметра формы: просто вычисляется коэффициент корреляции для различных значений параметра формы и используется тот, который лучше всего подходит, как если бы сравнивали дистрибутивы разных типов.
Другое распространенное использование графиков Q – Q — сравнение распределения выборки с теоретическим распределением, таким как стандартное нормальное распределение N (0,1) , как на графике нормальной вероятности . Как и в случае сравнения двух выборок данных, данные упорядочиваются (формально вычисляются порядковая статистика), а затем строится график их зависимости от определенных квантилей теоретического распределения. [3]
Отрисовка позиций
[ редактировать ]Выбор квантилей из теоретического распределения может зависеть от контекста и цели. Одним из вариантов, учитывая выборку размером n , является k / n для k = 1, …, n , поскольку это квантили, которые реализует выборочное распределение . Последний из них, n / n , соответствует 100-му процентилю – максимальному значению теоретического распределения, которое иногда бесконечно. Другой вариант — использовать ( k − 0,5) / n или вместо этого расположить n точек так, чтобы между всеми ними, а также между двумя крайними точками и краями было одинаковое расстояние. интервал, используя k /( n + 1) . [6]
Было предложено множество других вариантов, как формальных, так и эвристических, основанных на теории или моделировании, соответствующих контексту. В следующих подразделах обсуждаются некоторые из них. Более узкий вопрос — это выбор максимума (оценка максимума численности населения), известный как проблема немецких танков , для которой существуют аналогичные решения «максимум выборки плюс разрыв», проще всего m + m / n − 1 . Более формальное применение этой униформизации расстояния происходит при оценке максимального расстояния между параметрами.
Ожидаемое значение статистики порядка для равномерного распределения
[ редактировать ]Подход k / ( n + 1) эквивалентен построению точек в соответствии с вероятностью того, что последнее из ( n + 1 ) случайно выбранных значений не превысит k -е наименьшее из первых n случайно выбранных значений. [7] [8]
Ожидаемое значение статистики порядка для стандартного нормального распределения
[ редактировать ]При использовании графика нормальной вероятности в качестве квантилей используются ранкиты , квантиль ожидаемого значения порядковой статистики стандартного нормального распределения.
В более общем смысле, тест Шапиро – Уилка использует ожидаемые значения порядковой статистики данного распределения; Полученный график и линия дают наименьших квадратов обобщенную оценку местоположения и масштаба методом (из точки пересечения и наклона подобранной линии). [9] Хотя для нормального распределения это не слишком важно (местоположение и масштаб оцениваются по среднему и стандартному отклонению соответственно), это может быть полезно для многих других распределений.
Однако для этого требуется вычислить ожидаемые значения статистики порядка, что может оказаться затруднительным, если распределение не является нормальным.
Медиана статистики заказов
[ редактировать ]В качестве альтернативы можно использовать оценки медианы статистики порядка, которую можно вычислить на основе оценок медианы статистики порядка равномерного распределения и функции квантиля распределения; это было предложено Филлибеном (1975) . [9]
Это можно легко сгенерировать для любого распределения, для которого можно вычислить функцию квантиля, но, наоборот, полученные оценки местоположения и масштаба больше не являются точными оценками наименьших квадратов, хотя они существенно различаются только для n малых .
Эвристика
[ редактировать ]Несколько различных формул использовались или предлагались в качестве аффинно- симметричных положений графика . Такие формулы имеют вид ( k − a ) / ( n + 1 − 2 a ) для некоторого значения a в диапазоне от 0 до 1, что дает диапазон между k / ( n + 1) и ( k − 1) / ( п - 1) .
Выражения включают в себя:
- k / ( n + 1)
- ( k − 0.3) / ( n + 0.4) . [10]
- ( k − 0.3175) / ( n + 0.365) . [11] [примечание 1]
- ( k − 0.326) / ( n + 0.348) . [12]
- ( k − ⅓) / ( n + ⅓) . [примечание 2]
- ( k − 0.375) / ( n + 0.25) . [примечание 3]
- ( k − 0.4) / ( n + 0.2) . [13]
- ( k − 0.44) / ( n + 0.12) . [примечание 4]
- ( k − 0.5) / n . [15]
- ( k − 0.567) / ( n − 0.134) . [16]
- ( k − 1) / ( n − 1) . [примечание 5]
Для большого размера выборки n разница между этими различными выражениями невелика.
Оценка Филибена
[ редактировать ]Медианы статистики порядка — это медианы порядковой статистики распределения. Их можно выразить через функцию квантиля и медианы статистики порядка для непрерывного равномерного распределения следующим образом:
где U ( i ) — медианы статистики равномерного порядка, а G — функция квантиля для желаемого распределения. Функция квантиля является обратной функцией кумулятивной функции распределения (вероятность того, что X меньше или равна некоторому значению). То есть, учитывая вероятность, нам нужен соответствующий квантиль кумулятивной функции распределения.
Джеймс Дж. Филлибен использует следующие оценки медиан статистики равномерного порядка: [17]
Причина этой оценки в том, что медианы порядковой статистики не имеют простой формы.
Программное обеспечение
[ редактировать ]В языке программирования R имеются функции для построения графиков Q–Q, а именно qqnorm и qqplot из stats
упаковка. fastqq
Пакет реализует более быстрое построение графиков для большого количества точек данных.
См. также
[ редактировать ]- Эмпирическая функция распределения
- Пробит -анализ был разработан Честером Иттнером Блиссом в 1934 году.
Примечания
[ редактировать ]- ^ Обратите внимание, что здесь также используется другое выражение для первой и последней точек. [1] цитирует оригинальную работу Филлибена (1975) . является оценкой медианы U Это выражение ( k ) .
- ^ Простая (и легко запоминающаяся) формула построения позиций; используется в BMDP . статистическом пакете
- ^ Это более раннее приближение Блома (1958) и выражение, используемое в MINITAB .
- ^ Эту позицию на графике использовал Ирвинг И. Грингортен. [14] для построения точек в тестах для распределения Gumbel .
- ^ используемые Филлибеном (1975) , равны модам U Эти точки графика , ( k ) .
Ссылки
[ редактировать ]Цитаты
[ редактировать ]- ^ Уилк, МБ; Гнанадэсикан, Р. (1968), «Методы построения вероятностных графиков для анализа данных», Biometrika , 55 (1), Biometrika Trust: 1–17, doi : 10.1093/biomet/55.1.1 , JSTOR 2334448 , PMID 5661047 .
- ^ Гнанадэсикан (1977) , с. 199.
- ^ Jump up to: а б Тоуд (2002) , Раздел 2.2.2, Квантиль-квантильные графики, стр. 2.2.2. 21
- ^ Jump up to: а б Гиббонс и Чакраборти (2003) , с. 144
- ^ «SR 20 - Шоссе Норт-Каскейдс - История открытия и закрытия» . Перевалы Северных Каскадов . Департамент транспорта штата Вашингтон. Октябрь 2009 года . Проверено 8 февраля 2009 г.
- ^ Вейбулл, Валодди (1939), «Статистическая теория сопротивления материалов», IVA Handlingar, Шведская королевская академия инженерных наук (151)
- ^ Мэдсен, ХО; и др. (1986), Методы структурной безопасности.
- ^ Макконен, Л. (2008), «Завершение спора о позиции построения графика», Коммуникации в статистике – теория и методы , 37 (3): 460–467, doi : 10.1080/03610920701653094 , S2CID 122822135
- ^ Jump up to: а б Тестирование на нормальность , Генри К. Тоуд, CRC Press, 2002 г., ISBN 978-0-8247-9613-6 , с. 31
- ^ Бенард, А.; Бос-Левенбах, ЕС (сентябрь 1953 г.). «Нанесение наблюдений на вероятностную бумагу» . Statistica Neerlandica (на голландском языке). 7 : 163–173. дои : 10.1111/j.1467-9574.1953.tb00821.x .
- ^ «1.3.3.21. График нормальной вероятности» . itl.nist.gov . Проверено 16 февраля 2022 г.
- ^ Положение свободного распределения , Ю и Хуан
- ^ Каннейн (1978) .
- ^ Грингортен, Ирвинг И. (1963). «Правило построения бумаги о предельной вероятности» . Журнал геофизических исследований . 68 (3): 813–814. Бибкод : 1963JGR....68..813G . дои : 10.1029/JZ068i003p00813 . ISSN 2156-2202 .
- ^ Хейзен, Аллен (1914), «Хранилища, которые должны быть предусмотрены в водохранилищах для муниципального водоснабжения», Труды Американского общества инженеров-строителей (77): 1547–1550.
- ^ Ларсен, Карран и Хант (1980) .
- ^ В Ливии (1975) .
Источники
[ редактировать ]- Эта статья включает общедоступные материалы Национального института стандартов и технологий.
- Блом, Г. (1958), Статистические оценки и преобразованные бета-переменные , Нью-Йорк: Джон Уайли и сыновья.
- Чемберс, Джон; Кливленд, Уильям; Кляйнер, Бит; Тьюки, Пол (1983), Графические методы анализа данных , Уодсворт
- Кливленд, WS (1994) Элементы графических данных , Hobart Press ISBN 0-9634884-1-4
- Филлибен, Дж. Дж. (февраль 1975 г.), «Тест на нормальность коэффициента корреляции вероятностного графика», Technometrics , 17 (1), Американское общество качества: 111–117, doi : 10.2307/1268008 , JSTOR 1268008 .
- Гиббонс, Джин Дикинсон ; Чакраборти, Субхабрата (2003), Непараметрический статистический вывод (4-е изд.), CRC Press, ISBN 978-0-8247-4052-8
- Гнанадэсикан, Р. (1977). Методы статистического анализа многомерных наблюдений . Уайли. ISBN 0-471-30845-5 .
- Тоуд, Генри К. (2002), Тестирование на нормальность , Нью-Йорк: Марсель Деккер, ISBN 0-8247-9613-6