Номинальная категория
Введение в номинальные данные
[ редактировать ]Переменная, используемая для связи каждой точки данных в наборе наблюдений или, в конкретном случае, с определенной качественной категорией, является категориальной переменной. Категориальные переменные имеют два типа шкал: порядковые и номинальные. [1] Первый тип категориальной шкалы зависит от естественного порядка, уровней, которые определяются ощущением качества. Переменные с этим соглашением о порядке известны как порядковые переменные . Для сравнения, переменные с неупорядоченными шкалами являются номинальными переменными. [1]

Номинальная переменная, или номинальная группа, — это группа объектов или идей, коллективно сгруппированных по определенной качественной характеристике . [3] Номинальные переменные не имеют естественного порядка, а это означает, что статистический анализ этих переменных всегда будет давать одни и те же результаты, независимо от порядка представления данных. [1] [3]
Несмотря на то, что статистические методы порядковых переменных нельзя использовать для номинальных групп, методы номинальных групп можно использовать для обоих типов наборов категориальных данных; однако номинальная категоризация порядковых данных приведет к удалению порядка, ограничивая дальнейший анализ набора данных, чтобы привести к номинальным результатам. [1]
Допустимые выполняемые операции над номинальными данными
[ редактировать ]Поскольку номинальная группа состоит из данных, которые идентифицируются как члены или нечлены, каждая отдельная точка данных не имеет никакого дополнительного значения, кроме идентификации группы. Кроме того, идентификация данных обосновывает необходимость формирования новых именных групп на основе имеющейся информации. [3] Поскольку номинальные категории не могут быть организованы численно или ранжированы, члены, связанные с номинальной группой, не могут быть помещены в порядковую форму или форму отношения .
Номинальные данные часто сравнивают с порядковыми и относительными данными, чтобы определить, влияют ли отдельные точки данных на поведение наборов данных, основанных на количественном анализе. [1] [4] Например, влияние расы (номинального) на доход (коэффициент) можно исследовать путем регрессии уровня дохода на одну или несколько фиктивных переменных , определяющих расовую принадлежность. Когда в этих контекстах используются номинальные переменные, допустимые операции с данными, которые могут быть выполнены, ограничены. Хотя арифметические операции и расчеты, измеряющие центральную тенденцию данных (количественные задания анализа данных, включая среднее значение , медиану ), не могут быть выполнены над номинальными категориями, выполняемые операции с данными включают сравнение частот и распределения частот , определение режима , создание сводных таблиц и использование Хи-квадрат критериев соответствия и независимости , кодирование и перекодирование, а также логистические или пробит-регрессии . [1] [3] [4]

Примеры и логический анализ номинальных данных
[ редактировать ]Как предполагает термин «номинальный», номинальные группы основаны на названии данных, которые они инкапсулируют. [3] Например, гражданство — это номинальная группа. Человек может либо быть гражданином страны, либо нет. При этом гражданин Канады не имеет «большего гражданства», чем другой гражданин Канады; следовательно, невозможно упорядочить гражданство с помощью какой-либо математической логики.
Другим примером категоризации имен может быть определение «слов, начинающихся с буквы «а»». Существуют тысячи слов, которые начинаются с буквы «а», но ни одно из них не имеет «большего» этого номинального качества, чем другие, а это означает, что слово, начинающееся с буквы «а», более важно, чем определение количества букв «а» в качестве первой буквы. буквы экземпляра, поскольку это связано с членством, а не с количественной оценкой данных как порядковой группы.
При этом корреляция двух номинальных категорий затруднена, поскольку некоторые возникающие связи являются ложными, когда ошибочно предполагается, что две или более переменных коррелируют друг с другом. Данные, сравниваемые внутри категорий, также могут быть неважными. Например, выяснение того, пропорционально ли больше канадцев имеют имена, начинающиеся на букву «а», чем неканадцы, было бы довольно произвольным и случайным упражнением. Однако использование сравнения номинальных данных с частотным распределением для сопоставления пола и политической принадлежности было бы более эффективным, поскольку корреляция между подсчетами конкретной партийной принадлежности будет сравниваться с количеством избирателей мужского и/или женского пола, учтенных в наборе данных.
С точки зрения количественного анализа, одной из наиболее распространенных операций над номинальными данными является присвоение фиктивной переменной, метод, представленный ранее. Например, если номинальная переменная имеет три категории (A, B и C), будут созданы две фиктивные переменные (для A и B), где C — эталонная категория, номинальная переменная, которая служит базовой линией для сравнения переменных. [6] Другим примером этого является использование кодирования индикаторной переменной, которое присваивает числовое значение 0 или 1 каждой точке данных в наборе. Этот метод определяет, принадлежат ли отдельные наблюдения к определенной группе (устанавливается на единицу) или нет (устанавливается на ноль). [6] Эта числовая ассоциация обеспечивает большую гибкость при анализе номинальных данных, поскольку она фиксирует различия не только между отдельными номинальными группами, но также и различия, присутствующие между данными в наборе, определяя взаимодействие между номинальными переменными и другими переменными в систематическом контексте. [6]
Ссылки
[ редактировать ]- ^ Jump up to: а б с д и ж Агрести, Алан (2007). Введение в категориальный анализ данных . Ряды Уайли по вероятности и статистике (2-е изд.). Хобокен (Нью-Джерси): Wiley-Interscience. ISBN 978-0-471-22618-5 .
- ^ Дахуда, Мвамба Касонго; Джо, Инви (2021). «Техника глубокого обучения для кодирования категориальных признаков» . Доступ IEEE . 9 : 114381–114391. Бибкод : 2021IEEA...9k4381D . дои : 10.1109/ACCESS.2021.3104357 . ISSN 2169-3536 .
- ^ Jump up to: а б с д и Рагг, Гордон; Петре, Мэриан (2006), Нежное руководство по методам исследования , McGraw-Hill International, ISBN 9780335219278 .
- ^ Jump up to: а б Т.Рейнольдс, Х. (1984). Анализ номинальных данных . SAGE Publications, Inc. doi : 10.4135/9781412983303 . ISBN 978-1-4129-8330-3 .
- ^ Рид, Ховард М. (2014). Введение в статистику: фундаментальные понятия и процедуры анализа данных . Лос-Анджелес: SAGE. ISBN 978-1-4522-7196-5 .
- ^ Jump up to: а б с Райан, Томас П. (2009). Руководство по решениям для сопровождения современных методов регрессии . Ряды Уайли по вероятности и статистике (2-е изд.). Хобокен, Нью-Джерси: Уайли. ISBN 978-0-470-08186-0 .