Jump to content

Тип статистических данных

В статистике группы отдельных точек данных могут быть классифицированы как принадлежащие к любому из различных типов статистических данных , например, категориальные («красный», «синий», «зеленый»), вещественные числа ( 1,68 , −5 , 1,7 × 10) . +6 ), нечетное число (1,3,5) и т. д. Тип данных является фундаментальным компонентом семантического содержания переменной и определяет, какие виды вероятностных распределений можно логически использовать для описания переменной, допустимые операции с переменной. , тип регрессионного анализа, используемого для прогнозирования переменной, и т. д. Концепция типа данных аналогична концепции уровня измерения , но более конкретна: например, данные подсчета требуют другого распределения (например, распределения Пуассона или биномиального распределения). ), чем требуют неотрицательные действительные данные, но оба подпадают под один и тот же уровень измерения (шкалу отношений).

Были предприняты различные попытки создать таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и пропорциональную шкалы. Номинальные измерения не имеют значимого порядка ранжирования значений и допускают любое однозначное преобразование. Порядковые измерения имеют неточную разницу между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования, сохраняющие порядок. Интервальные измерения имеют определенные значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ) и допускает любое линейное преобразование. Измерения отношений имеют как значимое нулевое значение, так и определенные расстояния между различными измерениями и допускают любое преобразование масштабирования.

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются как категориальные переменные , тогда как измерения отношений и интервалов группируются вместе как количественные переменные , которые могут быть как дискретными , так и непрерывными из-за их числовой природы. Такие различия часто можно слабо коррелировать с типом данных в информатике, поскольку дихотомические категориальные переменные могут быть представлены с помощью логического типа данных , политомические категориальные переменные с произвольно назначенными целыми числами в целочисленном типе данных и непрерывные переменные с реальным типом данных , включающим вычисления с плавающей запятой . Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних осуществляется.

Были предложены и другие классификации. Например, Мостеллер и Тьюки (1977). [1] различали чины, чины, считали дроби, подсчеты, суммы и остатки. Нелдер (1990) [2] описал непрерывный подсчет, непрерывные отношения, отношения подсчета и категориальные режимы данных. См. также Крисман (1998), [3] ван ден Берг (1991). [4]

Вопрос о том, уместно ли применять различные виды статистических методов к данным, полученным в результате различных процедур измерения, осложняется проблемами, касающимися преобразования переменных и точной интерпретации исследовательских вопросов. «Отношения между данными и тем, что они описывают, просто отражают тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. (Хэнд, 2004, стр. 82). [5]

Простые типы данных [ править ]

В следующей таблице классифицируются различные простые типы данных, связанные распределения, допустимые операции и т. д. Независимо от логически возможных значений, все эти типы данных обычно кодируются с использованием действительных чисел , поскольку теория случайных величин часто явно предполагает, что они содержат действительные числа. цифры.

Тип данных
Возможные значения Пример использования
Уровень
измерение
Распределение
Масштаб
родственник
различия
Допустимая статистика Регрессионный анализ
0, 1 (произвольные метки) двоичный результат («да/нет», «истина/ложь», «успех/неуспех» и т. д.) Бернулли режим , хи-квадрат логистика , пробит
«имя1», «имя2», «имя3», ... «имяK» (произвольные метки) категориальный результат с именами или местами, такими как «Рим», «Амстердам», «Мадрид», «Лондон», «Вашингтон» (конкретная группа крови , политическая партия , слово и т. д.) категоричный полиномиальный логит , полиномиальный пробит
категории заказа или целое или действительное число (произвольный масштаб) Порядок наречий, таких как «Маленький», «Средний», «Большой», относительный балл, важен только для создания рейтинга. категоричный
родственник
сравнение
порядковая регрессия ( упорядоченный логит , упорядоченный пробит )
0, 1, ..., Н количество успехов (например, голосов «да») из N возможных биномиальный , бета-биномиальный и т. д.
добавка
среднее значение , медиана , мода , стандартное отклонение , корреляция биномиальная регрессия ( логистическая , пробит )
неотрицательные целые числа (0, 1, ...) количество объектов ( телефонные звонки , люди, молекулы , рождения, смерти и т. д.) в заданном интервале/площади/объеме Пуассона , отрицательный бином и т. д.
мультипликативный
Вся статистика, разрешенная для интервальных шкал, плюс следующее: среднее геометрическое , среднее гармоническое , коэффициент вариации. Пуассон , отрицательная биномиальная регрессия
действительное число температура в градусах Цельсия или Фаренгейта, относительное расстояние, параметр местоположения и т. д. (или приблизительно все, что не меняется в большом масштабе) нормальный и т. д. (обычно симметричен относительно среднего значения )
добавка
среднее значение , медиана , мода , стандартное отклонение , корреляция стандартная линейная регрессия
реальная стоимость
мультипликативный
положительное действительное число температура в кельвинах , цена, доход, размер, параметр масштаба и т. д. (особенно при изменении в большом масштабе) логарифмически нормальное , гамма , экспоненциальное и т. д. (обычно асимметричное распределение)
мультипликативный
Вся статистика, разрешенная для интервальных шкал, плюс следующее: среднее геометрическое , среднее гармоническое , коэффициент вариации. обобщенная линейная модель с логарифмической связью

Многомерные типы данных [ править ]

Данные, которые невозможно описать с помощью одного числа, часто объединяются в случайные векторы действительных случайных величин , хотя наблюдается растущая тенденция рассматривать их самостоятельно. Некоторые примеры:

Эти понятия возникают в различных научных областях и часто совпадают в использовании. В результате очень часто к одной и той же проблеме потенциально можно применить несколько концепций.

Ссылки [ править ]

  1. ^ Мостеллер, Ф .; Тьюки, JW (1977). Анализ данных и регрессия . Аддисон-Уэсли. ISBN  978-0-201-04854-4 .
  2. ^ Нелдер, Дж. А. (1990). «Знания, необходимые для компьютеризации анализа и интерпретации статистической информации». Экспертные системы и искусственный интеллект: потребность в информации о данных . Лондон: Библиотечная ассоциация. ОСЛК   27042489 .
  3. ^ Крисман, Николас Р. (1998). «Переосмысление уровней измерения для картографии». Картография и географическая информатика . 25 (4): 231–242. Бибкод : 1998CGISy..25..231C . дои : 10.1559/152304098782383043 .
  4. ^ ван ден Берг, Г. (1991). Выбор метода анализа . Лейден: DSWO Press. ISBN  978-90-6695-062-7 .
  5. ^ Хэнд, диджей (2004). Теория и практика измерения: Мир через количественную оценку . Уайли. п. 82. ИСБН  978-0-470-68567-9 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7b029244167b30c8e293fa08d75232c1__1717604520
URL1:https://arc.ask3.ru/arc/aa/7b/c1/7b029244167b30c8e293fa08d75232c1.html
Заголовок, (Title) документа по адресу, URL1:
Statistical data type - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)