Регрессия Деминга

В статистике , регрессия Деминга , названная в честь У. Эдвардса Деминга , представляет собой модель ошибок в переменных которая пытается найти линию наилучшего соответствия для двумерного набора данных. Она отличается от простой линейной регрессии тем, что учитывает ошибки наблюдений как по оси x , так и по оси y . Это частный случай метода наименьших квадратов , который допускает любое количество предикторов и более сложную структуру ошибок.
Регрессия Деминга эквивалентна максимального правдоподобия оценке модели ошибок в переменных , в которой ошибки для двух переменных предполагаются независимыми и нормально распределенными , а соотношение их дисперсий, обозначаемое δ , известно. [1] На практике это соотношение можно оценить на основе соответствующих источников данных; однако процедура регрессии не учитывает возможные ошибки в оценке этого соотношения.
Регрессию Деминга вычислить лишь немного сложнее, чем простую линейную регрессию . Большинство пакетов статистического программного обеспечения, используемых в клинической химии, предлагают регрессию Деминга.
Модель была первоначально введена Адкоком (1878), который рассматривал случай δ = 1, а затем, в более общем плане, Каммеллом (1879) с произвольным δ . Однако их идеи оставались практически незамеченными в течение более 50 лет, пока они не были возрождены Купмансом (1936) , а затем еще более пропагандированы Демингом (1943) . Последняя книга стала настолько популярной в клинической химии и смежных областях, что в этих областях этот метод даже назвали регрессией Деминга . [2]
Спецификация
[ редактировать ]Предположим, что доступные данные ( y i , x i ) представляют собой измеренные наблюдения «истинных» значений ( y i * , x i * ), которые лежат на линии регрессии:
где ошибки ε и η независимы и соотношение их дисперсий предполагается известным:
На практике отклонения и параметры часто неизвестны, что усложняет оценку . Обратите внимание, что когда метод измерения для и одинаково, то эти дисперсии, скорее всего, будут равны, поэтому для этого случая.
Мы стремимся найти линию «наилучшего соответствия».
так, чтобы взвешенная сумма квадратов остатков модели была минимизирована: [3]
см . в Jensen (2007) Полный вывод .
Решение
[ редактировать ]Решение можно выразить через выборочные моменты второй степени. То есть сначала вычисляем следующие величины (все суммы идут от i = 1 до n ):
Наконец, оценки параметров модели методом наименьших квадратов будут равны [4]
Ортогональная регрессия
[ редактировать ]Для случая равных дисперсий ошибок, т. е. когда Регрессия Деминга становится ортогональной регрессией : она минимизирует сумму квадратов перпендикулярных расстояний от точек данных до линии регрессии . В этом случае обозначим каждое наблюдение как точку в комплексной плоскости (т.е. точка где – мнимая единица ). Обозначим как сумма квадратов разностей точек данных от центроида (также обозначается в комплексных координатах), то есть точка, положение которой по горизонтали и вертикали является средним значением значений точек данных. Затем: [5]
- Если , то каждая линия, проходящая через центроид, является линией наилучшего ортогонального соответствия.
- Если , ортогональная линия регрессии проходит через центр тяжести и параллельна вектору от начала координат до .
Тригонометрическое представление ортогональной линии регрессии было дано Кулиджем в 1913 году. [6]
Приложение
[ редактировать ]В случае трех неколлинеарных точек на плоскости треугольник с этими точками в качестве вершин имеет уникальный эллипс Штейнера , который касается сторон треугольника в их средних точках. Большая ось этого эллипса попадает на ортогональную линию регрессии для трех вершин. [7] биологической клетки Количественную оценку внутреннего клеточного шума можно дать количественно, применив регрессию Деминга к наблюдаемому поведению двухрепортерной синтетической биологической цепи . [8]
Когда людей просят нарисовать линейную регрессию на диаграмме рассеяния путем угадывания, их ответы ближе к ортогональной регрессии, чем к обычной регрессии наименьших квадратов. [9]
Йоркская регрессия
[ редактировать ]Регрессия Йорка расширяет регрессию Деминга, допуская коррелированные ошибки по x и y. [10]
См. также
[ редактировать ]Ссылки
[ редактировать ]- Примечания
- ^ Линнет 1993 .
- ^ Корнблит и Гочман 1979 .
- ^ Фуллер 1987 , гл. 1.3.3.
- ^ Глейстер 2001 .
- ^ Минда и Фелпс 2008 , Теорема 2.3.
- ^ Кулидж 1913 .
- ^ Минда и Фелпс 2008 , Следствие 2.4.
- ^ Квартон 2020 .
- ^ Чиччоне, Лоренцо; Деэн, Станислас (август 2021 г.). «Могут ли люди выполнить мысленную регрессию на графике? Точность и предвзятость в восприятии диаграмм рассеяния». Когнитивная психология . 128 : 101406. doi : 10.1016/j.cogpsych.2021.101406 .
- ^ Йорк, Д., Эвенсен, Н.М., Мартинес, М.Л., и Дельгадо, JDB: Унифицированные уравнения для наклона, точки пересечения и стандартных ошибок лучшей прямой линии, Am. J. Phys., 72, 367–375, https://doi.org/10.1119/1.1632486 , 2004.
- Библиография
- Адкок, Р.Дж. (1878). «Задача наименьших квадратов» . Аналитик . 5 (2): 53–54. дои : 10.2307/2635758 . JSTOR 2635758 .
- Кулидж, Дж. Л. (1913). «Два геометрических приложения математики наименьших квадратов». Американский математический ежемесячник . 20 (6): 187–190. дои : 10.2307/2973072 . JSTOR 2973072 .
- Корнблит, Пи Джей; Гочман, Н. (1979). «Неправильные коэффициенты регрессии наименьших квадратов» . Клиническая химия . 25 (3): 432–438. дои : 10.1093/клинчем/25.3.432 . ПМИД 262186 .
- Деминг, МЫ (1943). Статистическая корректировка данных . Уайли, штат Нью-Йорк (издание Dover Publications, 1985 г.). ISBN 0-486-64685-8 .
- Фуллер, Уэйн А. (1987). Модели ошибок измерения . Джон Уайли и сыновья, Inc. ISBN 0-471-86187-1 .
- Глейстер, П. (2001). «Возвращение к методу наименьших квадратов». Математический вестник . 85 : 104–107. дои : 10.2307/3620485 . JSTOR 3620485 . S2CID 125949467 .
- Дженсен, Андерс Кристиан (2007). «Регрессия Деминга, пакет MethComp» (PDF) . Гентофте, Дания: Диабетический центр Стено.
- Купманс, ТК (1936). Линейный регрессионный анализ экономических временных рядов . ДеЭрвен Ф. Бон, Харлем, Нидерланды.
- Каммелл, CH (1879). «Редукция уравнений наблюдения, содержащих более одной наблюдаемой величины» . Аналитик . 6 (4): 97–105. дои : 10.2307/2635646 . JSTOR 2635646 .
- Линнет, К. (1993). «Оценка регрессионных процедур для сравнительных исследований методов» . Клиническая химия . 39 (3): 424–432. дои : 10.1093/клинчем/39.3.424 . ПМИД 8448852 .
- Минда, Д. ; Фелпс, С. (2008). «Треугольники, эллипсы и кубические многочлены». Американский математический ежемесячник . 115 (8): 679–689. дои : 10.1080/00029890.2008.11920581 . МР 2456092 . S2CID 15049234 .
- Куартон, Т.Г. (2020). «Развязка шума экспрессии генов в соответствии с центральной догмой с использованием геномно-инженерных линий клеток человека» . Исследования нуклеиновых кислот . 48 (16): 9406–9413. дои : 10.1093/nar/gkaa668 . ПМЦ 7498316 . ПМИД 32810265 .