Матрица проектирования
В статистике и, в частности, в регрессионном анализе , матрица плана , также известная как матрица модели или матрица регрессора и часто обозначаемая X , представляет собой матрицу значений независимых переменных набора объектов. Каждая строка представляет отдельный объект, а последующие столбцы соответствуют переменным и их конкретным значениям для этого объекта. Матрица плана используется в некоторых статистических моделях , например, в общей линейной модели . [1] [2] [3] Он может содержать индикаторные переменные (единицы и нули), которые указывают на членство в группе в ANOVA , или может содержать значения непрерывных переменных .
Матрица плана содержит данные о независимых переменных (также называемых объясняющими переменными) в статистической модели, которая предназначена для объяснения наблюдаемых данных о переменной отклика (часто называемой зависимой переменной ). Теория, относящаяся к таким моделям, использует матрицу планирования в качестве входных данных для некоторой линейной алгебры : см., например, линейную регрессию . Примечательной особенностью концепции матрицы плана является то, что она способна представлять ряд различных экспериментальных планов и статистических моделей, например, ANOVA , ANCOVA и линейную регрессию. [ нужна ссылка ]
Определение
[ редактировать ]Матрица проектирования определяется как матрица такой, что ( Дж й столбец i й ряд ) представляет значение j й переменная, связанная с i й объект.
Модель регрессии может быть представлена посредством умножения матриц как
где X — матрица проектирования, — вектор коэффициентов модели (по одному на каждую переменную), — вектор случайных ошибок со средним нулевым значением, а y — вектор прогнозируемых выходных данных для каждого объекта.
Размер
[ редактировать ]Матрица плана имеет размерность n - p , где n — количество наблюдаемых выборок, а p — количество переменных ( признаков ), измеренных во всех выборках. [4] [5]
В этом представлении разные строки обычно представляют разные повторения эксперимента, а столбцы представляют разные типы данных (скажем, результаты определенных зондов). Например, предположим, что проводится эксперимент: 10 человек вытаскивают с улицы и задают 4 вопроса. Матрица данных M будет матрицей 10×4 (то есть 10 строк и 4 столбца). Данные в строке i и столбце j этой матрицы будут ответом i й человек в j й вопрос.
Примеры
[ редактировать ]Среднее арифметическое
[ редактировать ]Матрица расчета для среднего арифметического представляет собой вектор- столбец из единиц .
Простая линейная регрессия
[ редактировать ]В этом разделе приведен пример простой линейной регрессии , то есть регрессии только с одной объясняющей переменной, с семью наблюдениями.Семь точек данных: { y i , x i } для i = 1, 2, …, 7. Простая модель линейной регрессии:
где это y -перехват и – наклон линии регрессии. Эту модель можно представить в матричной форме как
где первый столбец из единиц в матрице плана позволяет оценить y -пересечение, а второй столбец содержит значения x , связанные с соответствующими значениями y . Матрица, столбцы которой в этом примере имеют значения 1 и x, является матрицей проекта.
Множественная регрессия
[ редактировать ]Этот раздел содержит пример множественной регрессии с двумя ковариатами (независимыми переменными): w и x .Снова предположим, что данные состоят из семи наблюдений и что для каждого наблюдаемого значения необходимо спрогнозировать ( ), значения w i и xi двух также наблюдаются ковариат. Модель, которую следует рассмотреть,
Эту модель можно записать в матричных терминах как
Здесь матрица 7×3 справа — это матрица проекта.
Односторонний дисперсионный анализ (ячейка означает модель)
[ редактировать ]В этом разделе содержится пример однофакторного дисперсионного анализа ( ANOVA ) с тремя группами и семью наблюдениями. В данный набор данных входят первые три наблюдения, принадлежащие первой группе, следующие два наблюдения, принадлежащие второй группе, и последние два наблюдения, принадлежащие третьей группе.Если подходящая модель представляет собой просто среднее значение каждой группы, то модель
который можно написать
В этой модели представляет собой среднее значение ая группа.
Односторонний дисперсионный анализ (смещение от контрольной группы)
[ редактировать ]Модель ANOVA может быть эквивалентно записана как каждый параметр группы. являющееся смещением от некоторой общей ссылки. Обычно за эту точку отсчета принимается одна из рассматриваемых групп. Это имеет смысл в контексте сравнения нескольких групп лечения с контрольной группой, причем контрольная группа считается «эталонной». В этом примере группа 1 была выбрана в качестве контрольной группы. Таким образом, подходящей моделью является
с тем ограничением, что равен нулю.
В этой модели является средним значением референтной группы и отличие от группы в референтную группу. не включается в матрицу, поскольку его отличие от референтной группы (самой себя) обязательно равно нулю.
См. также
[ редактировать ]- Матрица моментов
- Матрица проекции
- Матрица Якобиана и определитель
- Матрица рассеяния
- Матрица Грамма
- Матрица Вандермонда
Ссылки
[ редактировать ]- ^ Эверитт, бакалавр наук (2002). Кембриджский статистический словарь (2-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 0-521-81099-Х .
- ^ Коробка, ГЭП ; Тяо, GC (1992) [1973]. Байесовский вывод в статистическом анализе . Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-57428-7 . (раздел 8.1.1)
- ^ Тимм, Нил Х. (2007). Прикладной многомерный анализ . Springer Science & Business Media. п. 107. ИСБН 9780387227719 .
- ^ Джонсон, Ричард А; Вичерн, Дин В. (2001). Прикладной многомерный статистический анализ . Пирсон. стр. 111–112. ISBN 0131877151 .
- ^ «Основные концепции многомерной статистики, стр.2» (PDF) . Институт САС.
Дальнейшее чтение
[ редактировать ]- Вербек, Альберт (1984). «Геометрия выбора модели в регрессии». В Дейкстре, Тео К. (ред.). Анализ неточностей . Нью-Йорк: Спрингер. стр. 20–36. ISBN 0-387-13893-5 .