Jump to content

График вопросов-вопросов

Обычный график Q – Q случайно сгенерированных независимых стандартных экспоненциальных данных ( X ~ Exp(1) ). На этом графике Q–Q выборка данных статистической сравнивается по вертикальной оси со совокупностью по горизонтальной оси. Точки следуют сильно нелинейному шаблону, что позволяет предположить, что данные не распределяются по стандартному нормальному закону ( X ~ N(0,1) ). Смещение между линией и точками предполагает, что среднее значение данных не равно 0. Медиана точек может быть определена как около 0,7.
Нормальный график Q-Q, сравнивающий случайно сгенерированные независимые стандартные нормальные данные по вертикальной оси со стандартной нормальной популяцией по горизонтальной оси. Линейность точек позволяет предположить, что данные распределены нормально.
График AQ–Q выборки данных в сравнении с распределением Вейбулла . Децили распределений показаны красным цветом. В верхней части диапазона очевидны три выброса. В остальном данные хорошо соответствуют модели Вейбулла (1,2).
График AQ – Q, сравнивающий распределения стандартизированных дневных максимальных температур на 25 станциях в американском штате Огайо в марте и в июле. Изогнутая диаграмма предполагает, что центральные квантили расположены ближе друг к другу в июле, чем в марте, и что июльское распределение смещено влево по сравнению с мартовским распределением. Данные охватывают период 1893–2001 гг.

В статистике график Q-Q ( график квантилей-квантилей ) — это вероятностный график, графический метод сравнения двух распределений вероятностей путем сопоставления их квантилей друг с другом. [1] Точка ( x , y ) на графике соответствует одному из квантилей второго распределения ( координата y ), нанесенному на график против того же квантиля первого распределения ( координата x ). Это определяет параметрическую кривую , где параметром является индекс квантильного интервала.

Если два сравниваемых распределения подобны, точки на графике Q – Q будут примерно лежать на тождественной линии y = x . Если распределения линейно связаны, точки на графике Q – Q будут примерно лежать на линии, но не обязательно на линии y = x . Графики Q – Q также можно использовать в качестве графического средства оценки параметров в в масштабе местоположения семействе распределений .

График AQ – Q используется для сравнения форм распределений, предоставляя графическое представление о том, насколько такие свойства, как местоположение , масштаб и асимметрия , похожи или различны в двух распределениях. Графики Q–Q можно использовать для сравнения наборов данных или теоретических распределений . Использование графиков Q–Q для сравнения двух выборок данных можно рассматривать как непараметрический подход к сравнению их основных распределений. образцов График AQ – Q, как правило, более диагностичен, чем сравнение гистограмм , но менее широко известен. Графики Q – Q обычно используются для сравнения набора данных с теоретической моделью. [2] [3] Это может обеспечить графическую оценку степени соответствия , а не сводиться к числовой сводной статистике . Графики Q – Q также используются для сравнения двух теоретических распределений друг с другом. [4] Поскольку графики Q–Q сравнивают распределения, нет необходимости наблюдать значения в виде пар, как на диаграмме рассеяния , или даже чтобы количество значений в двух сравниваемых группах было равным.

Термин «вероятностный график» иногда относится конкретно к графику Q–Q, иногда к более общему классу графиков, а иногда к менее часто используемому графику P–P . График коэффициента корреляции вероятностного графика (график PPCC) - это величина, полученная на основе идеи графиков Q – Q, которая измеряет соответствие подобранного распределения с наблюдаемыми данными и которая иногда используется как средство подгонки распределения к данным.

Определение и конструкция

[ редактировать ]
График Q–Q для дат первого открытия/окончательного закрытия шоссе 20 штата Вашингтон в сравнении с нормальным распределением. [5] Выбросы видны в правом верхнем углу.

График Q – Q — это график сопоставления квантилей двух распределений друг с другом или график, основанный на оценках квантилей. Набор точек на графике используется для сравнения двух распределений.

Основным шагом в построении графика Q – Q является расчет или оценка квантилей, которые будут отображаться на графике. Если одна или обе оси на графике Q – Q основаны на теоретическом распределении с непрерывной кумулятивной функцией распределения (CDF), все квантили определяются однозначно и могут быть получены путем инвертирования CDF. Если теоретическое распределение вероятностей с прерывистой CDF является одним из двух сравниваемых распределений, некоторые квантили могут быть не определены, поэтому можно построить интерполированный квантиль. Если график Q–Q основан на данных, используется несколько квантильных оценок. Правила построения графиков Q–Q, когда квантили необходимо оценить или интерполировать, называются позициями построения .

Простой случай — два набора данных одинакового размера. В этом случае, чтобы построить график Q – Q, каждый набор упорядочивается в порядке возрастания, затем объединяется в пары и отображает соответствующие значения. Более сложной конструкцией является случай, когда сравниваются два набора данных разного размера. В этом случае для построения графика Q – Q необходимо использовать интерполированную оценку квантилей, чтобы можно было построить квантили, соответствующие одной и той же базовой вероятности.

Более абстрактно, [4] с учетом двух кумулятивных функций распределения вероятностей F и G с соответствующими функциями квантиля F −1 и Г −1 (обратная функция CDF - это функция квантиля), график Q – Q рисует q -й квантиль F против q -го квантиля G для диапазона значений q . Таким образом, график Q–Q представляет собой параметрическую кривую, индексированную по [0,1] со значениями в реальной плоскости R. 2 .

Интерпретация

[ редактировать ]

Точки, нанесенные на график Q – Q, всегда не уменьшаются, если смотреть слева направо. Если два сравниваемых распределения идентичны, график Q – Q следует линии y = x под углом 45 ° . Если два распределения согласуются после линейного преобразования значений в одном из распределений, то график Q – Q следует некоторой линии, но не обязательно линии y = x . Если общий тренд графика Q – Q более пологий, чем линия y = x , распределение, нанесенное на горизонтальную ось, более разбросано , чем распределение, нанесенное на вертикальную ось. И наоборот, если общий тренд графика Q – Q более крутой, чем линия y = x , распределение, нанесенное на вертикальной оси, более разбросано , чем распределение, нанесенное на горизонтальную ось. Графики Q – Q часто имеют дугообразную или S-образную форму, что указывает на то, что одно из распределений более асимметрично, чем другое, или что одно из распределений имеет более тяжелые хвосты, чем другое.

Хотя график Q–Q основан на квантилях, на стандартном графике Q–Q невозможно определить, какая точка на графике Q–Q определяет данный квантиль. Например, невозможно определить медиану любого из двух сравниваемых распределений путем проверки графика Q – Q. Некоторые графики Q – Q указывают децили, позволяющие сделать подобные определения возможными.

Точка пересечения и наклон линейной регрессии между квантилями дают меру относительного местоположения и относительного масштаба выборок. Если медиана распределения, отложенная на горизонтальной оси, равна 0, точка пересечения линии регрессии является мерой местоположения, а наклон — мерой масштаба. Расстояние между медианами является еще одной мерой относительного местоположения, отраженной на графике Q – Q. « Коэффициент корреляции вероятностного графика » (график PPCC) представляет собой коэффициент корреляции между парными квантилями выборки. Чем ближе коэффициент корреляции к единице, тем ближе распределения к сдвинутым, масштабированным версиям друг друга. Для распределений с одним параметром формы график коэффициента корреляции вероятности предоставляет метод оценки параметра формы: просто вычисляется коэффициент корреляции для различных значений параметра формы и используется тот, который лучше всего подходит, как если бы сравнивали дистрибутивы разных типов.

Другое распространенное использование графиков Q – Q — сравнение распределения выборки с теоретическим распределением, таким как стандартное нормальное распределение N (0,1) , как на графике нормальной вероятности . Как и в случае сравнения двух выборок данных, данные упорядочиваются (формально вычисляются порядковая статистика), а затем строится график их зависимости от определенных квантилей теоретического распределения. [3]

Отрисовка позиций

[ редактировать ]

Выбор квантилей из теоретического распределения может зависеть от контекста и цели. Одним из вариантов, учитывая выборку размером n , является k / n для k = 1, …, n , поскольку это квантили, которые реализует выборочное распределение . Последний из них, n / n , соответствует 100-му процентилю – максимальному значению теоретического распределения, которое иногда бесконечно. Другой вариант — использовать ( k − 0,5) / n или вместо этого расположить n точек так, чтобы между всеми ними, а также между двумя крайними точками и краями было одинаковое расстояние. интервал, используя k /( n + 1) . [6]

Было предложено множество других вариантов, как формальных, так и эвристических, основанных на теории или моделировании, соответствующих контексту. В следующих подразделах обсуждаются некоторые из них. Более узкий вопрос — это выбор максимума (оценка максимума численности населения), известный как проблема немецких танков , для которой существуют аналогичные решения «максимум выборки плюс разрыв», проще всего m + m / n − 1 . Более формальное применение этой униформизации расстояния происходит при оценке максимального расстояния между параметрами.

Ожидаемое значение статистики порядка для равномерного распределения

[ редактировать ]

Подход k / ( n + 1) эквивалентен построению точек в соответствии с вероятностью того, что последнее из ( n + 1 ) случайно выбранных значений не превысит k -е наименьшее из первых n случайно выбранных значений. [7] [8]

Ожидаемое значение статистики порядка для стандартного нормального распределения

[ редактировать ]

При использовании графика нормальной вероятности в качестве квантилей используются ранкиты , квантиль ожидаемого значения порядковой статистики стандартного нормального распределения.

В более общем смысле, тест Шапиро – Уилка использует ожидаемые значения порядковой статистики данного распределения; Полученный график и линия дают наименьших квадратов обобщенную оценку местоположения и масштаба методом (из точки пересечения и наклона подобранной линии). [9] Хотя для нормального распределения это не слишком важно (местоположение и масштаб оцениваются по среднему и стандартному отклонению соответственно), это может быть полезно для многих других распределений.

Однако для этого требуется вычислить ожидаемые значения статистики порядка, что может оказаться затруднительным, если распределение не является нормальным.

Медиана статистики заказов

[ редактировать ]

В качестве альтернативы можно использовать оценки медианы статистики порядка, которую можно вычислить на основе оценок медианы статистики порядка равномерного распределения и функции квантиля распределения; это было предложено Филлибеном (1975) . [9]

Это можно легко сгенерировать для любого распределения, для которого можно вычислить функцию квантиля, но, наоборот, полученные оценки местоположения и масштаба больше не являются точными оценками наименьших квадратов, хотя они существенно различаются только для n малых .

Эвристика

[ редактировать ]

Несколько различных формул использовались или предлагались в качестве аффинно- симметричных положений графика . Такие формулы имеют вид ( k a ) / ( n + 1 − 2 a ) для некоторого значения a в диапазоне от 0 до 1, что дает диапазон между k / ( n + 1) и ( k − 1) / ( п - 1) .

Выражения включают в себя:

Для большого размера выборки n разница между этими различными выражениями невелика.

Оценка Филибена

[ редактировать ]

Медианы статистики порядка — это медианы порядковой статистики распределения. Их можно выразить через функцию квантиля и медианы статистики порядка для непрерывного равномерного распределения следующим образом:

где U ( i ) — медианы статистики равномерного порядка, а G — функция квантиля для желаемого распределения. Функция квантиля является обратной функцией кумулятивной функции распределения (вероятность того, что X меньше или равна некоторому значению). То есть, учитывая вероятность, нам нужен соответствующий квантиль кумулятивной функции распределения.

Джеймс Дж. Филлибен использует следующие оценки медиан статистики равномерного порядка: [17]

Причина этой оценки в том, что медианы порядковой статистики не имеют простой формы.

Программное обеспечение

[ редактировать ]

В языке программирования R имеются функции для построения графиков Q–Q, а именно qqnorm и qqplot из stats упаковка. fastqq Пакет реализует более быстрое построение графиков для большого количества точек данных.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Обратите внимание, что здесь также используется другое выражение для первой и последней точек. [1] цитирует оригинальную работу Филлибена (1975) . является оценкой медианы U Это выражение ( k ) .
  2. ^ Простая (и легко запоминающаяся) формула построения позиций; используется в BMDP . статистическом пакете
  3. ^ Это более раннее приближение Блома (1958) и выражение, используемое в MINITAB .
  4. ^ Эту позицию на графике использовал Ирвинг И. Грингортен. [14] для построения точек в тестах для распределения Gumbel .
  5. ^ используемые Филлибеном (1975) , равны модам U Эти точки графика , ( k ) .
  1. ^ Уилк, МБ; Гнанадэсикан, Р. (1968), «Методы построения вероятностных графиков для анализа данных», Biometrika , 55 (1), Biometrika Trust: 1–17, doi : 10.1093/biomet/55.1.1 , JSTOR   2334448 , PMID   5661047 .
  2. ^ Гнанадэсикан (1977) , с. 199.
  3. ^ Jump up to: а б Тоуд (2002) , Раздел 2.2.2, Квантиль-квантильные графики, стр. 2.2.2. 21
  4. ^ Jump up to: а б Гиббонс и Чакраборти (2003) , с. 144
  5. ^ «SR 20 - Шоссе Норт-Каскейдс - История открытия и закрытия» . Перевалы Северных Каскадов . Департамент транспорта штата Вашингтон. Октябрь 2009 года . Проверено 8 февраля 2009 г.
  6. ^ Вейбулл, Валодди (1939), «Статистическая теория сопротивления материалов», IVA Handlingar, Шведская королевская академия инженерных наук (151)
  7. ^ Мэдсен, ХО; и др. (1986), Методы структурной безопасности.
  8. ^ Макконен, Л. (2008), «Завершение спора о позиции построения графика», Коммуникации в статистике – теория и методы , 37 (3): 460–467, doi : 10.1080/03610920701653094 , S2CID   122822135
  9. ^ Jump up to: а б Тестирование на нормальность , Генри К. Тоуд, CRC Press, 2002 г., ISBN   978-0-8247-9613-6 , с. 31
  10. ^ Бенард, А.; Бос-Левенбах, ЕС (сентябрь 1953 г.). «Нанесение наблюдений на вероятностную бумагу» . Statistica Neerlandica (на голландском языке). 7 : 163–173. дои : 10.1111/j.1467-9574.1953.tb00821.x .
  11. ^ «1.3.3.21. График нормальной вероятности» . itl.nist.gov . Проверено 16 февраля 2022 г.
  12. ^ Положение свободного распределения , Ю и Хуан
  13. ^ Каннейн (1978) .
  14. ^ Грингортен, Ирвинг И. (1963). «Правило построения бумаги о предельной вероятности» . Журнал геофизических исследований . 68 (3): 813–814. Бибкод : 1963JGR....68..813G . дои : 10.1029/JZ068i003p00813 . ISSN   2156-2202 .
  15. ^ Хейзен, Аллен (1914), «Хранилища, которые должны быть предусмотрены в водохранилищах для муниципального водоснабжения», Труды Американского общества инженеров-строителей (77): 1547–1550.
  16. ^ Ларсен, Карран и Хант (1980) .
  17. ^ В Ливии (1975) .

Источники

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d1a84d4a4cab0f7bc9ef5cf6d48e469a__1722633120
URL1:https://arc.ask3.ru/arc/aa/d1/9a/d1a84d4a4cab0f7bc9ef5cf6d48e469a.html
Заголовок, (Title) документа по адресу, URL1:
Q–Q plot - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)