Тип статистических данных
Эта статья нуждается в дополнительных цитатах для проверки . ( июнь 2014 г. ) |
В статистике группы отдельных точек данных могут быть классифицированы как принадлежащие к любому из различных типов статистических данных , например, категориальные («красный», «синий», «зеленый»), вещественные числа ( 1,68 , −5 , 1,7 × 10) . +6 ), нечетное число (1,3,5) и т. д. Тип данных является фундаментальным компонентом семантического содержания переменной и определяет, какие виды вероятностных распределений можно логически использовать для описания переменной, допустимые операции с переменной. , тип регрессионного анализа, используемого для прогнозирования переменной, и т. д. Концепция типа данных аналогична концепции уровня измерения , но более конкретна: например, данные подсчета требуют другого распределения (например, распределения Пуассона или биномиального распределения). ), чем требуют неотрицательные действительные данные, но оба подпадают под один и тот же уровень измерения (шкалу отношений).
Были предприняты различные попытки создать таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и пропорциональную шкалы. Номинальные измерения не имеют значимого порядка ранжирования значений и допускают любое однозначное преобразование. Порядковые измерения имеют неточную разницу между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования, сохраняющие порядок. Интервальные измерения имеют определенные значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ) и допускает любое линейное преобразование. Измерения отношений имеют как значимое нулевое значение, так и определенные расстояния между различными измерениями и допускают любое преобразование масштабирования.
Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются как категориальные переменные , тогда как измерения отношений и интервалов группируются вместе как количественные переменные , которые могут быть как дискретными , так и непрерывными из-за их числовой природы. Такие различия часто можно слабо коррелировать с типом данных в информатике, поскольку дихотомические категориальные переменные могут быть представлены с помощью логического типа данных , политомические категориальные переменные с произвольно назначенными целыми числами в целочисленном типе данных и непрерывные переменные с реальным типом данных , включающим вычисления с плавающей запятой . Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних осуществляется.
Были предложены и другие классификации. Например, Мостеллер и Тьюки (1977). [1] различали чины, чины, считали дроби, подсчеты, суммы и остатки. Нелдер (1990) [2] описал непрерывный подсчет, непрерывные отношения, отношения подсчета и категориальные режимы данных. См. также Крисман (1998), [3] ван ден Берг (1991). [4]
Вопрос о том, уместно ли применять различные виды статистических методов к данным, полученным в результате различных процедур измерения, осложняется проблемами, касающимися преобразования переменных и точной интерпретации исследовательских вопросов. «Отношения между данными и тем, что они описывают, просто отражают тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. (Хэнд, 2004, стр. 82). [5]
Простые типы данных [ править ]
В следующей таблице классифицируются различные простые типы данных, связанные распределения, допустимые операции и т. д. Независимо от логически возможных значений, все эти типы данных обычно кодируются с использованием действительных чисел , поскольку теория случайных величин часто явно предполагает, что они содержат действительные числа. цифры.
Тип данных | Возможные значения | Пример использования | Уровень измерение | Распределение | Масштаб родственник различия | Допустимая статистика | Регрессионный анализ |
---|---|---|---|---|---|---|---|
0, 1 (произвольные метки) | двоичный результат («да/нет», «истина/ложь», «успех/неуспех» и т. д.) | Бернулли | режим , хи-квадрат | логистика , пробит | |||
«имя1», «имя2», «имя3», ... «имяK» (произвольные метки) | категориальный результат с именами или местами, такими как «Рим», «Амстердам», «Мадрид», «Лондон», «Вашингтон» (конкретная группа крови , политическая партия , слово и т. д.) | категоричный | полиномиальный логит , полиномиальный пробит | ||||
категории заказа или целое или действительное число (произвольный масштаб) | Порядок наречий, таких как «Маленький», «Средний», «Большой», относительный балл, важен только для создания рейтинга. | категоричный | родственник сравнение | порядковая регрессия ( упорядоченный логит , упорядоченный пробит ) | |||
0, 1, ..., Н | количество успехов (например, голосов «да») из N возможных | биномиальный , бета-биномиальный и т. д. | добавка | среднее значение , медиана , мода , стандартное отклонение , корреляция | биномиальная регрессия ( логистическая , пробит ) | ||
неотрицательные целые числа (0, 1, ...) | количество объектов ( телефонные звонки , люди, молекулы , рождения, смерти и т. д.) в заданном интервале/площади/объеме | Пуассона , отрицательный бином и т. д. | мультипликативный | Вся статистика, разрешенная для интервальных шкал, плюс следующее: среднее геометрическое , среднее гармоническое , коэффициент вариации. | Пуассон , отрицательная биномиальная регрессия | ||
реальная стоимость добавка | действительное число | температура в градусах Цельсия или Фаренгейта, относительное расстояние, параметр местоположения и т. д. (или приблизительно все, что не меняется в большом масштабе) | нормальный и т. д. (обычно симметричен относительно среднего значения ) | добавка | среднее значение , медиана , мода , стандартное отклонение , корреляция | стандартная линейная регрессия | |
реальная стоимость мультипликативный | положительное действительное число | температура в кельвинах , цена, доход, размер, параметр масштаба и т. д. (особенно при изменении в большом масштабе) | логарифмически нормальное , гамма , экспоненциальное и т. д. (обычно асимметричное распределение) | мультипликативный | Вся статистика, разрешенная для интервальных шкал, плюс следующее: среднее геометрическое , среднее гармоническое , коэффициент вариации. | обобщенная линейная модель с логарифмической связью |
Многомерные типы данных [ править ]
Данные, которые невозможно описать с помощью одного числа, часто объединяются в случайные векторы действительных случайных величин , хотя наблюдается растущая тенденция рассматривать их самостоятельно. Некоторые примеры:
- Случайные векторы . Отдельные элементы могут быть коррелированы , а могут и не коррелировать . Примерами распределений, используемых для описания коррелированных случайных векторов, являются многомерное нормальное распределение и многомерное t-распределение . В общем, между любыми элементами и любыми другими могут быть произвольные корреляции; однако это часто становится неуправляемым при превышении определенного размера, что требует дополнительных ограничений на коррелирующие элементы.
- Случайные матрицы . Случайные матрицы можно расположить линейно и рассматривать как случайные векторы; однако это может быть неэффективным способом представления корреляций между различными элементами. Некоторые распределения вероятностей специально разработаны для случайных матриц, например, матричное нормальное распределение и распределение Уишарта .
- Случайные последовательности . Иногда их считают тем же, что и случайные векторы, но в других случаях этот термин применяется специально к случаям, когда каждая случайная величина коррелирует только с соседними переменными (как в модели Маркова ). Это частный случай сети Байеса , который часто используется для очень длинных последовательностей, например последовательностей генов или длинных текстовых документов. Ряд моделей специально разработан для таких последовательностей, например, скрытые модели Маркова .
- Случайные процессы . Они похожи на случайные последовательности, но длина последовательности неопределенна или бесконечна, а элементы последовательности обрабатываются один за другим. Это часто используется для данных, которые можно описать как временной ряд , например, цена акции в последовательные дни. Случайные процессы также используются для моделирования значений, которые изменяются непрерывно (например, температура в последовательные моменты времени), а не через дискретные интервалы.
- Сети Байеса . Они соответствуют совокупности случайных величин, описываемых с помощью графических моделей , где отдельные случайные величины связаны в структуру графа с условными распределениями, связывающими переменные с соседними переменными.
- Многоуровневые модели являются подклассами сетей Байеса, которые можно рассматривать как имеющие несколько уровней линейной регрессии .
- Случайные деревья . Это подкласс сети Байеса, где переменные связаны в древовидную структуру . Примером может служить проблема анализа предложения, когда используются методы статистического анализа, такие как вероятностные контекстно-свободные грамматики (PCFG).
- Случайные поля . Они представляют собой распространение случайных процессов на несколько измерений и распространены в физике , где они используются в статистической механике для описания таких свойств, как сила или электрическое поле , которые могут непрерывно изменяться в трех измерениях (или четырех измерениях, если учитывать время). .
Эти понятия возникают в различных научных областях и часто совпадают в использовании. В результате очень часто к одной и той же проблеме потенциально можно применить несколько концепций.
Ссылки [ править ]
- ^ Мостеллер, Ф .; Тьюки, JW (1977). Анализ данных и регрессия . Аддисон-Уэсли. ISBN 978-0-201-04854-4 .
- ^ Нелдер, Дж. А. (1990). «Знания, необходимые для компьютеризации анализа и интерпретации статистической информации». Экспертные системы и искусственный интеллект: потребность в информации о данных . Лондон: Библиотечная ассоциация. ОСЛК 27042489 .
- ^ Крисман, Николас Р. (1998). «Переосмысление уровней измерения для картографии». Картография и географическая информатика . 25 (4): 231–242. Бибкод : 1998CGISy..25..231C . дои : 10.1559/152304098782383043 .
- ^ ван ден Берг, Г. (1991). Выбор метода анализа . Лейден: DSWO Press. ISBN 978-90-6695-062-7 .
- ^ Хэнд, диджей (2004). Теория и практика измерения: Мир через количественную оценку . Уайли. п. 82. ИСБН 978-0-470-68567-9 .