Преобразование данных (статистика)

В статистике , данных преобразование — это применение детерминированной математической функции к каждой точке набора данных то есть каждая точка данных z _i заменяется преобразованным значением y _i = f ( zi ₎ , где f — функция. Преобразования обычно применяются для того, чтобы данные выглядели более точно соответствующими предположениям статистического вывода применяемой процедуры , или для улучшения интерпретируемости или внешнего вида графиков .

Почти всегда функция, которая используется для преобразования данных, является обратимой и, как правило, непрерывной . Преобразование обычно применяется к набору сопоставимых измерений. Например, если мы работаем с данными о доходах людей в какой-либо денежной единице, обычно значение дохода каждого человека преобразуется с помощью функции логарифма .

Мотивация

Рекомендации относительно того, как следует преобразовывать данные или следует ли вообще применять преобразование, должны основываться на конкретном статистическом анализе, который необходимо выполнить. Например, простой способ построить приблизительный 95% доверительный интервал для среднего значения генеральной совокупности — это взять выборочное среднее плюс-минус две единицы стандартной ошибки . Однако используемый здесь постоянный коэффициент 2 характерен для нормального распределения и применим только в том случае, если выборочное среднее изменяется примерно нормально. Центральная предельная теорема утверждает, что во многих ситуациях выборочное среднее изменяется нормально, если размер выборки достаточно велик. Однако если совокупность существенно искажена , а размер выборки не более чем умеренный, приближение, обеспечиваемое центральной предельной теоремой, может быть плохим, и полученный доверительный интервал, скорее всего, будет иметь неправильную вероятность охвата . Таким образом, когда есть свидетельства существенного искажения данных, обычно данные преобразуются к симметричному распределению. ^[1] перед построением доверительного интервала. При желании доверительный интервал для квантилей (например, медианы) можно затем преобразовать обратно в исходную шкалу, используя обратное преобразование, которое было применено к данным. ^[2]^[3]

Данные также можно преобразовать, чтобы их было легче визуализировать. Например, предположим, что у нас есть диаграмма рассеяния, на которой точками являются страны мира, а отображаемые значения данных — это площадь суши и население каждой страны. Если график построен с использованием непреобразованных данных (например, площади в квадратных километрах и численности населения в расчете на население), большинство стран будут отображены плотным кластером точек в левом нижнем углу графика. Несколько стран с очень большой территорией и/или населением будут разбросаны по большей части площади графика. Простое изменение масштаба единиц измерения (например, до тысяч квадратных километров или миллионов человек) не изменит ситуацию. Однако после логарифмических преобразований площади и численности населения точки будут распределены на графике более равномерно.

Другой причиной применения преобразования данных является улучшение интерпретируемости, даже если не требуется проводить формальный статистический анализ или визуализацию. Например, предположим, что мы сравниваем автомобили с точки зрения их экономии топлива. Эти данные обычно представляются как «километры на литр» или «мили на галлон». Однако, если цель состоит в том, чтобы оценить, сколько дополнительного топлива человек будет использовать за один год при вождении одного автомобиля по сравнению с другим, более естественно работать с данными, преобразованными с помощью обратной функции , что дает литры на километр или галлоны. за милю.

В регрессии

Преобразование данных можно использовать в качестве меры по исправлению ситуации, чтобы сделать данные пригодными для моделирования с помощью линейной регрессии, если исходные данные нарушают одно или несколько предположений линейной регрессии. ^[4] Например, простейшие модели линейной регрессии предполагают линейную связь между ожидаемым значением Y ( переменной отклика, которую нужно предсказать) и каждой независимой переменной (когда другие независимые переменные остаются фиксированными). Если линейность не сохраняется, даже приблизительно, иногда можно преобразовать независимые или зависимые переменные в регрессионной модели, чтобы улучшить линейность. ^[5] Например, добавление квадратичных функций исходных независимых переменных может привести к линейной зависимости с ожидаемым значением Y , что приведет к модели полиномиальной регрессии , частному случаю линейной регрессии.

Еще одним предположением линейной регрессии является должна быть одинаковой независимо гомоскедастичность, то есть дисперсия ошибок от значений предикторов. Если это предположение нарушается (т. е. если данные гетероскедастичны ), возможно найти преобразование только Y или преобразования как X ( переменные-предикторы ) и Y , так что предположение о гомоскедастичности (в дополнение к линейности предположение) справедливо для преобразованных переменных ^[5] и поэтому к ним можно применить линейную регрессию.

Еще одним применением преобразования данных является решение проблемы отсутствия нормальности с точки зрения ошибок. Одномерная нормальность не требуется для того, чтобы наименьших квадратов оценки параметров регрессии методом были значимыми (см. теорему Гаусса – Маркова ). Однако доверительные интервалы и проверки гипотез будут иметь лучшие статистические свойства, если переменные демонстрируют многомерную нормальность . Преобразования, которые стабилизируют дисперсию ошибок (т. е. те, которые устраняют гетероскедичность), часто также помогают сделать ошибки примерно нормальными. ^[5]^[6]

Примеры

Уравнение: $Y=a+bX$

Значение: Увеличение X на единицу связано со средним увеличением Y на b единиц.

Уравнение: $\log(Y)=a+bX$

(Из возведения в степень обеих частей уравнения:

Y=e^{a}e^{bX}

)

Значение: Увеличение единицы X связано со средним увеличением b единиц в

\log(Y)

или, что то же самое, Y увеличивается в среднем на мультипликативный коэффициент

e^{b}\!

. В иллюстративных целях, если бы логарифм по основанию 10 в приведенном выше преобразовании использовался вместо натурального логарифма и те же символы ( a и b ) использовались для обозначения коэффициентов регрессии, то увеличение X на единицу привело бы к

10^{b}

в среднем увеличивается в разы по Y. Если бы b было равно 1, то это подразумевало бы 10-кратное увеличение Y при единичном увеличении X.

Уравнение: $Y=a+b\log(X)$

Значение: увеличение X в k раз связано со средним значением

b\times \log(k)

единицы увеличиваются в Y. Для иллюстративных целей, если бы использовался логарифм по основанию 10 вместо натурального логарифма в приведенном выше преобразовании и те же символы ( a и b ) использовались для обозначения коэффициентов регрессии, то десятикратное увеличение X привело бы к среднее увеличение

b\times \log _{10}(10)=b

единицы в Y

Уравнение: $\log(Y)=a+b\log(X)$

(Из возведения в степень обеих частей уравнения:

Y=e^{a}X^{b}

)

Значение: увеличение X в k раз связано с

k^{b}

мультипликативное увеличение Y в среднем. Таким образом, если X удвоится, это приведет к изменению Y на мультипликативный коэффициент.

2^{b}\!

. ^[7]

Альтернатива

Обобщенные линейные модели (GLM) обеспечивают гибкое обобщение обычной линейной регрессии, которое позволяет использовать переменные отклика, которые имеют модели распределения ошибок, отличные от нормального распределения. GLM позволяют связать линейную модель с переменной отклика через функцию связи и позволяют величине дисперсии каждого измерения быть функцией его прогнозируемого значения. ^[8]^[9]

Распространенные случаи

логарифма квадратного Преобразование и корня преобразование обычно используются для положительных данных, а мультипликативное обратное преобразование ( обратное преобразование ) может использоваться для ненулевых данных. Степенное преобразование — это семейство преобразований, параметризованное неотрицательным значением λ, которое включает в себя логарифмирование, квадратный корень и мультипликативные обратные преобразования в качестве особых случаев. Чтобы систематически подходить к преобразованию данных, можно использовать методы статистической оценки для оценки параметра λ при степенном преобразовании, тем самым определяя преобразование, которое является примерно наиболее подходящим в данной ситуации. Поскольку семейство степенных преобразований также включает в себя преобразование идентичности, этот подход также может указать, будет ли лучше анализировать данные без преобразования. В регрессионном анализе этот подход известен как преобразование Бокса-Кокса .

Обратное преобразование, некоторые степенные преобразования, такие как преобразование Йео-Джонсона , и некоторые другие преобразования, такие как применение обратного гиперболического синуса , могут быть осмысленно применены к данным, которые включают как положительные, так и отрицательные значения. ^[10] (степенное преобразование обратимо для всех действительных чисел, если λ — нечетное целое число). Однако, когда наблюдаются как отрицательные, так и положительные значения, иногда принято начинать с добавления константы ко всем значениям, создавая набор неотрицательных данных, к которым можно применить любое степенное преобразование. ^[3]

Обычной ситуацией, когда применяется преобразование данных, является ситуация, когда интересующее значение варьируется в пределах нескольких порядков величины . Многие физические и социальные явления демонстрируют такое поведение — доходы, популяции видов, размеры галактик и объёмы осадков, и это лишь некоторые из них. Степенные преобразования и, в частности, логарифмирование часто можно использовать для обеспечения симметрии таких данных. Часто отдают предпочтение логарифму, поскольку его результат легко интерпретировать с точки зрения «кратности изменений».

Логарифм также оказывает полезное влияние на отношения. Если мы сравниваем положительные величины X и Y , используя соотношение X / Y , то если X < Y , отношение находится в интервале (0,1), тогда как если X > Y , отношение находится в полупрямом (1 ,∞), где отношение 1 соответствует равенству. В анализе, где X и Y рассматриваются симметрично, логарифмическое отношение log( X / Y ) равно нулю в случае равенства и обладает тем свойством, что если X в K раз больше, чем Y , логарифмическое отношение является эквидистантно от нуля, как в ситуации, когда Y в K раз больше, чем X (логарифмические отношения равны log( K ) и −log( K ) в этих двух ситуациях).

Если значения естественным образом ограничены диапазоном от 0 до 1, не включая конечные точки, тогда может подойти логит-преобразование : это дает значения в диапазоне (-∞, ∞).

Превращение в нормальность

1. Не всегда необходимо или желательно преобразовывать набор данных так, чтобы он напоминал нормальное распределение. Однако, если желательны симметрия или нормальность, их часто можно вызвать с помощью одного из степенных преобразований.

2. Лингвистическая степенная функция распределяется по закону Ципфа-Мандельброта . Распределение чрезвычайно колючее и лептокуртическое , поэтому исследователям пришлось отвернуться от статистики, чтобы решить, например, проблемы установления авторства . Тем не менее, использование гауссовой статистики вполне возможно путем применения преобразования данных. ^[11]

любой из стандартных тестов на нормальность 3. Для оценки того, была ли достигнута нормальность после преобразования, можно использовать . Графический подход обычно более информативен, чем формальный статистический тест, и поэтому обычный квантильный график для оценки соответствия набора данных нормальной популяции обычно используется эмпирические правила, основанные на асимметрии выборки и эксцессе . . В качестве альтернативы также были предложены ^[12]^[13]

Преобразование к равномерному распределению или произвольному распределению

Если мы наблюдаем набор из n значений X ₁ , ..., X _n без каких-либо связей (т. е. существует n различных значений), мы можем заменить X _i преобразованным значением Y _i = k , где k определено так, что X _я - это k ^й самое большое среди всех X. значений Это называется ранговым преобразованием , ^[14] и создает данные, идеально подходящие для равномерного распределения . Этот подход имеет популяционный аналог.

Используя преобразование интеграла вероятности , если X — любая случайная величина , а F — кумулятивная функция распределения X [ , то, пока F обратима, случайная величина U = F ( X ) следует равномерному распределению на единичном интервале 0 ,1].

Из равномерного распределения мы можем перейти к любому распределению с обратимой кумулятивной функцией распределения. Если G — обратимая кумулятивная функция распределения, а U — равномерно распределенная случайная величина, то случайная величина G ⁻¹( U ) имеет G в качестве кумулятивной функции распределения.

Объединив эти два понятия, если X — любая случайная величина, F — обратимая кумулятивная функция распределения X , а G — обратимая кумулятивная функция распределения, то случайная величина G ⁻¹( F ( X )) имеет G в качестве кумулятивной функции распределения.

Преобразования, стабилизирующие дисперсию

Многие типы статистических данных демонстрируют « отношение дисперсии к среднему», что означает, что изменчивость различна для значений данных с разными ожидаемыми значениями . Например, при сравнении различных групп населения в мире разница в доходах имеет тенденцию увеличиваться вместе со средним доходом. Если мы рассмотрим несколько небольших единиц территории (например, округа в Соединенных Штатах) и получим среднее значение и дисперсию доходов внутри каждого округа, то, как правило, округа с более высоким средним доходом также будут иметь более высокие отклонения.

Преобразование , стабилизирующее дисперсию, направлено на устранение зависимости дисперсии от среднего, чтобы дисперсия стала постоянной относительно среднего. Примерами преобразований, стабилизирующих дисперсию, являются преобразование Фишера для выборочного коэффициента корреляции, преобразование квадратного корня или преобразование Анскомба для данных Пуассона (данные подсчета), преобразование Бокса-Кокса для регрессионного анализа, а также арксинусное преобразование квадратного корня или угловое преобразование для пропорции ( биномиальные данные). Хотя арксинусное преобразование квадратного корня обычно используется для статистического анализа пропорциональных данных, оно не рекомендуется, поскольку логистическая регрессия или логит-преобразование более подходят для биномиальных или небиномиальных пропорций соответственно, особенно из-за уменьшения ошибки типа II . ^[15]^[3]

Преобразования для многомерных данных

Одномерные функции можно точечно применять к многомерным данным, чтобы изменить их маргинальные распределения. Также возможно изменить некоторые атрибуты многомерного распределения, используя соответствующим образом построенное преобразование. Например, при работе с временными рядами и другими типами последовательных данных обычно различают данные для улучшения стационарности . Если данные, сгенерированные случайным вектором X, наблюдаются как векторы X _i наблюдений с ковариационной матрицей Σ, линейное преобразование можно использовать для декорреляции данных . Для этого разложение Холецкого, используется выражающее Σ = A A' . Тогда преобразованный вектор Y _i = A ⁻¹X _i имеет единичную матрицу в качестве ковариационной матрицы.

См. также

Ссылки

^ Кун, Макс; Джонсон, Кьелл (2013). Прикладное прогнозное моделирование . Нью-Йорк. дои : 10.1007/978-1-4614-6849-3 . ISBN 9781461468493 . LCCN 2013933452 . OCLC 844349710 . S2CID 60246745 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ Альтман, Дуглас Г.; Бланд, Дж. Мартин (27 апреля 1996 г.). «Статистические примечания: преобразования, средние значения и доверительные интервалы» . БМЖ . 312 (7038): 1079. doi : 10.1136/bmj.312.7038.1079 . ISSN 0959-8138 . ПМК 2350916 . ПМИД 8616417 .
^ Jump up to: ^а ^б ^с «Преобразования данных — Справочник по биологической статистике» . www.biostathandbook.com . Проверено 19 марта 2019 г.
^ «Урок 9: Преобразования данных | STAT 501» . newonlinecourses.science.psu.edu . Проверено 17 марта 2019 г.
^ Jump up to: ^а ^б ^с Катнер, Майкл Х.; Нахтсхайм, Кристофер Дж.; Нетер, Джон; Ли, Уильям (2005). Прикладные линейные статистические модели (5-е изд.). Бостон: МакГроу-Хилл Ирвин. стр. 129–133 . ISBN 0072386886 . LCCN 2004052447 . OCLC 55502728 .
^ Альтман, Дуглас Г.; Бланд, Дж. Мартин (23 марта 1996 г.). «Статистические примечания: преобразование данных» . БМЖ . 312 (7033): 770. doi : 10.1136/bmj.312.7033.770 . ISSN 0959-8138 . ПМК 2350481 . ПМИД 8605469 .
^ «9.3 — Логарифмическое преобразование предиктора и ответа | STAT 501» . newonlinecourses.science.psu.edu . Проверено 17 марта 2019 г.
^ Тернер, Хизер (2008). «Введение в обобщенные линейные модели» (PDF) .
^ Ло, Стесон; Эндрюс, Салли (07 августа 2015 г.). «Преобразовывать или не трансформировать: использование обобщенных линейных смешанных моделей для анализа данных о времени реакции» . Границы в психологии . 6 : 1171. doi : 10.3389/fpsyg.2015.01171 . ISSN 1664-1078 . ПМЦ 4528092 . ПМИД 26300841 .
^ «Преобразования: введение» . fmwww.bc.edu . Проверено 19 марта 2019 г.
^ Ван Дрогенброк FJ, «Существенная перефразировка закона Ципфа-Мандельброта для решения задач установления авторства с помощью статистики Гаусса» (2019) [1]
^ Ким, Хэ Ён (01 февраля 2013 г.). «Статистические заметки для клинических исследователей: оценка нормального распределения (2) с использованием асимметрии и эксцесса» . Восстановительная стоматология и эндодонтия . 38 (1): 52–54. дои : 10.5395/rde.2013.38.1.52 . ISSN 2234-7658 . ПМЦ 3591587 . ПМИД 23495371 .
^ «Проверка нормальности, включая асимметрию и эксцесс» . images.mrc-cbu.cam.ac.uk . Проверено 18 марта 2019 г.
^ «Новый взгляд на статистику: непараметрические модели: преобразование рангов» . www.sportsci.org . Проверено 23 марта 2019 г.
^ Уортон, Д.; Хуэй, Ф. (2011). «Арксинус ослиный: анализ пропорций в экологии». Экология . 92 (1): 3–10. дои : 10.1890/10-0340.1 . hdl : 1885/152287 . ПМИД 21560670 .

Внешние ссылки

Преобразования журнала для асимметричных и широких распределений - обсуждение журнала и преобразований «знакового логарифма» (глава из «Практической науки о данных с R»).

[1] Кун, Макс; Джонсон, Кьелл (2013). Прикладное прогнозное моделирование . Нью-Йорк. дои : 10.1007/978-1-4614-6849-3 . ISBN 9781461468493 . LCCN 2013933452 . OCLC 844349710 . S2CID 60246745 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )

[2] Альтман, Дуглас Г.; Бланд, Дж. Мартин (27 апреля 1996 г.). «Статистические примечания: преобразования, средние значения и доверительные интервалы» . БМЖ . 312 (7038): 1079. doi : 10.1136/bmj.312.7038.1079 . ISSN 0959-8138 . ПМК 2350916 . ПМИД 8616417 .

[:1-3] Jump up to: ^а ^б ^с «Преобразования данных — Справочник по биологической статистике» . www.biostathandbook.com . Проверено 19 марта 2019 г.

[4] «Урок 9: Преобразования данных | STAT 501» . newonlinecourses.science.psu.edu . Проверено 17 марта 2019 г.

[:0-5] Jump up to: ^а ^б ^с Катнер, Майкл Х.; Нахтсхайм, Кристофер Дж.; Нетер, Джон; Ли, Уильям (2005). Прикладные линейные статистические модели (5-е изд.). Бостон: МакГроу-Хилл Ирвин. стр. 129–133 . ISBN 0072386886 . LCCN 2004052447 . OCLC 55502728 .

[6] Альтман, Дуглас Г.; Бланд, Дж. Мартин (23 марта 1996 г.). «Статистические примечания: преобразование данных» . БМЖ . 312 (7033): 770. doi : 10.1136/bmj.312.7033.770 . ISSN 0959-8138 . ПМК 2350481 . ПМИД 8605469 .

[7] «9.3 — Логарифмическое преобразование предиктора и ответа | STAT 501» . newonlinecourses.science.psu.edu . Проверено 17 марта 2019 г.

[8] Тернер, Хизер (2008). «Введение в обобщенные линейные модели» (PDF) .

[9] Ло, Стесон; Эндрюс, Салли (07 августа 2015 г.). «Преобразовывать или не трансформировать: использование обобщенных линейных смешанных моделей для анализа данных о времени реакции» . Границы в психологии . 6 : 1171. doi : 10.3389/fpsyg.2015.01171 . ISSN 1664-1078 . ПМЦ 4528092 . ПМИД 26300841 .

[10] «Преобразования: введение» . fmwww.bc.edu . Проверено 19 марта 2019 г.

[11] Ван Дрогенброк FJ, «Существенная перефразировка закона Ципфа-Мандельброта для решения задач установления авторства с помощью статистики Гаусса» (2019) [1]

[12] Ким, Хэ Ён (01 февраля 2013 г.). «Статистические заметки для клинических исследователей: оценка нормального распределения (2) с использованием асимметрии и эксцесса» . Восстановительная стоматология и эндодонтия . 38 (1): 52–54. дои : 10.5395/rde.2013.38.1.52 . ISSN 2234-7658 . ПМЦ 3591587 . ПМИД 23495371 .

[13] «Проверка нормальности, включая асимметрию и эксцесс» . images.mrc-cbu.cam.ac.uk . Проверено 18 марта 2019 г.

[14] «Новый взгляд на статистику: непараметрические модели: преобразование рангов» . www.sportsci.org . Проверено 23 марта 2019 г.

[The_arcsine_is_asinine-15] Уортон, Д.; Хуэй, Ф. (2011). «Арксинус ослиный: анализ пропорций в экологии». Экология . 92 (1): 3–10. дои : 10.1890/10-0340.1 . hdl : 1885/152287 . ПМИД 21560670 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]