Режим (статистика)
В статистике режим — это значение, которое чаще всего появляется в наборе значений данных. [1] Если X — дискретная случайная величина, мода — это значение x , при котором функция массы вероятности принимает максимальное значение (т. е. x =argmax x i P( X = x i ) ). Другими словами, это значение, которое, скорее всего, будет выбрано.
Подобно статистическому среднему и медиане , мода — это способ выражения (обычно) одного числа важной информации о случайной величине или совокупности . Числовое значение моды такое же, как у среднего и медианы в нормальном распределении , и оно может сильно отличаться в сильно асимметричных распределениях .
Режим не обязательно уникален в данном дискретном распределении , поскольку функция массы вероятности может принимать одно и то же максимальное значение в нескольких точках x 1 , x 2 и т. д. Самый крайний случай возникает в равномерных распределениях , где все значения встречаются одинаково часто.
Модой непрерывного распределения вероятностей часто считают любое значение x , при котором его функция плотности вероятности имеет локально максимальное значение. [2] Когда функция плотности вероятности непрерывного распределения имеет несколько локальных максимумов, все локальные максимумы принято называть модами распределения, поэтому любой пик является модой. Такое непрерывное распределение называется мультимодальным (в отличие от унимодального ).
В симметричных унимодальных распределениях, таких как нормальное распределение , среднее значение (если оно определено), медиана и мода совпадают. Для выборок, если известно, что они взяты из симметричного унимодального распределения, выборочное среднее можно использовать в качестве оценки моды совокупности.
Режим выборки [ править ]
Режим выборки — это элемент, который чаще всего встречается в коллекции. Например, режим выборки [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] равен 6. Учитывая список данных [1, 1, 2, 4, 4] его режим не уникален. Набор данных в таком случае называется бимодальным , а набор с более чем двумя режимами можно назвать мультимодальным .
Для выборки из непрерывного распределения, такой как [0,935..., 1,211..., 2,430..., 3,668..., 3,874...], эта концепция непригодна в исходном виде, поскольку не существует двух значений. будет точно таким же, поэтому каждое значение будет встречаться ровно один раз. Чтобы оценить характер основного распределения, обычной практикой является дискретизация данных путем присвоения значений частоты интервалам равного расстояния, как при построении гистограммы , эффективно заменяя значения средними точками интервалы, которым они назначены. В этом случае мода — это значение, при котором гистограмма достигает своего пика. Для выборок небольшого или среднего размера результат этой процедуры зависит от выбора ширины интервала, если он выбран слишком узким или слишком широким; обычно значительная часть данных должна быть сконцентрирована в относительно небольшом количестве интервалов (от 5 до 10), в то время как доля данных, выходящих за пределы этих интервалов, также значительна. Альтернативным подходом является оценка плотности ядра , которая по существу размывает точечные выборки для получения непрерывной оценки функции плотности вероятности, которая может дать оценку режима.
Следующий пример кода MATLAB (или Octave ) вычисляет режим выборки:
X = sort(x); % x is a column vector dataset
indices = find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] = max (diff([0; indices])); % longest persistence length of repeated values
mode = X(indices(i));
Алгоритм требует в качестве первого шага отсортировать выборку в порядке возрастания. Затем он вычисляет дискретную производную отсортированного списка и находит индексы, в которых эта производная положительна. Затем он вычисляет дискретную производную этого набора индексов, определяя максимум этой производной индексов, и, наконец, оценивает отсортированную выборку в точке, где возникает этот максимум, что соответствует последнему члену участка повторяющихся значений.
среднего, медианы Сравнение моды и

Тип | Описание | Пример | Результат |
---|---|---|---|
Среднее арифметическое | Сумма значений набора данных, деленная на количество значений | (1+2+2+3+4+7+9) / 7 | 4 |
медиана | Среднее значение, разделяющее большую и меньшую половины набора данных | 1, 2, 2, 3 , 4, 7, 9 | 3 |
Режим | Наиболее частое значение в наборе данных | 1, 2 , 2 , 3, 4, 7, 9 | 2 |
Используйте [ править ]
В отличие от среднего значения и медианы, концепция моды также имеет смысл для « номинальных данных » (т. е. не состоящих из числовых значений в случае среднего значения или даже из упорядоченных значений в случае медианы). Например, взяв образец корейских фамилий , можно обнаружить, что « Ким » встречается чаще, чем любое другое имя. Тогда «Ким» будет модой образца. В любой системе голосования, где большинство определяет победу, единственное модальное значение определяет победителя, в то время как мультимодальный результат потребует выполнения некоторой процедуры разрешения ничьей.
В отличие от медианы, концепция моды имеет смысл для любой случайной величины, принимающей значения из векторного пространства , включая действительные числа (одномерное векторное пространство ) и целые числа (которые можно считать внедренными в действительные числа). Например, распределение точек на плоскости обычно имеет среднее значение и моду, но понятие медианы не применяется. Медиана имеет смысл, когда существует линейный порядок возможных значений. Обобщением концепции медианы на пространства более высокой размерности являются геометрическая медиана и центральная точка .
и определенность Уникальность
Для некоторых распределений вероятностей ожидаемое значение может быть бесконечным или неопределенным, но если оно определено, оно уникально. Среднее значение (конечной) выборки всегда определяется. Медианой называется такая величина, при которой доли, не превышающие ее и не опускающиеся ниже нее, составляют каждая не менее 1/2. Оно не обязательно уникально, но никогда не является бесконечным или полностью неопределенным. Для выборки данных это «половинное» значение, когда список значений упорядочивается по возрастанию, где обычно для списка четной длины берется среднее числовое значение двух значений, ближайших к «половине». Наконец, как было сказано ранее, режим не обязательно уникален. Некоторые патологические распределения (например, распределение Кантора ) вообще не имеют определенного режима. [ нужна ссылка ] [4] Для конечной выборки данных модой является одно (или несколько) значений в выборке.
Свойства [ править ]
Предполагая определенность и простоту уникальности, ниже приведены некоторые из наиболее интересных свойств.
- Все три меры обладают следующим свойством: если случайная величина (или каждое значение из выборки) подвергается линейному или аффинному преобразованию , которое заменяет X на aX + b , то же самое происходит со средним значением, медианой и модой.
- За исключением очень маленьких выборок, этот режим нечувствителен к « выбросам » (таким как случайные, редкие, ложные экспериментальные показания). Медиана также очень устойчива при наличии выбросов, тогда как среднее значение довольно чувствительно.
- В непрерывных унимодальных распределениях медиана часто лежит между средним значением и модой, примерно на одной трети пути от среднего значения к моде. В формуле медиана ≈ (2 × среднее + мода)/3. Это правило, предложенное Карлом Пирсоном , часто применяется к слегка несимметричным распределениям, напоминающим нормальное распределение, но оно не всегда верно, и вообще три статистики могут появляться в любом порядке. [5] [6]
- Для унимодальных распределений мода находится в пределах √ 3 стандартных отклонений от среднего значения, а среднеквадратичное отклонение моды находится между стандартным отклонением и удвоенным стандартным отклонением. [7]
Пример асимметричного распределения [ править ]
Примером асимметричного распределения является личное богатство : немногие люди очень богаты, но среди них есть чрезвычайно богатые. Однако многие из них довольно бедны.

Хорошо известный класс распределений, которые могут быть произвольно искажены, представляет собой логнормальное распределение . Его получают преобразованием случайной величины X , имеющей нормальное распределение, в случайную величину Y = e Х . Тогда логарифм случайной величины Y распределяется нормально, отсюда и название.
Приняв среднее значение µ X за 0, медиана Y будет равна 1, независимо от стандартного отклонения σ X . Это так, потому что X имеет симметричное распределение, поэтому его медиана также равна 0. Преобразование от X к Y является монотонным, и поэтому мы находим медиану e 0 1 для Y. =
Когда X имеет стандартное отклонение σ = 0,25, распределение Y слабо искажено. Используя формулы логнормального распределения , находим:
Действительно, медиана составляет около одной трети на пути от среднего к моде.
Когда X имеет большее стандартное отклонение, σ = 1 , распределение Y сильно искажается. Сейчас
Здесь эмпирическое правило Пирсона не работает.
Состояние Ван Цвета [ править ]
Ван Цвет вывел неравенство, которое обеспечивает достаточные условия для выполнения этого неравенства. [8] Неравенство
- Режим ≤ Медиана ≤ Среднее
имеет место, если
- F( Медиана - x ) + F ( Медиана + x ) ≥ 1
для всех x , где F() — кумулятивная функция распределения распределения.
Унимодальные распределения [ править ]
Для унимодального распределения можно показать, что медиана и среднее значение лежать внутри (3/5) 1/2 ≈ 0,7746 стандартных отклонений друг друга. [9] В символах,
где является абсолютной величиной.
Аналогичное соотношение сохраняется между медианой и модой: они лежат в пределах 3 1/2 ≈ 1,732 стандартных отклонения друг от друга:
История [ править ]
Термин «режим» был предложен Карлом Пирсоном в 1895 году. [10]
Пирсон использует термин «режим» взаимозаменяемо с термином «максимальная ордината» . В сноске он говорит: «Мне показалось удобным использовать термин «мода» для абсциссы, соответствующей ординате максимальной частоты».
См. также [ править ]
- Злой Макс
- Центральная тенденция
- Описательная статистика
- Момент (математика)
- Сводная статистика
- Унимодальная функция
Ссылки [ править ]
- ^ Дамодар Н. Гуджарати . Основы эконометрики . МакГроу-Хилл Ирвин. 3-е издание, 2006: с. 110.
- ^ Чжан, К; Мэйпс, Бельгия; Соден, Би Джей (2003). «Бимодальность тропического водяного пара». QJR Метеорол. Соц . 129 (594): 2847–2866. Бибкод : 2003QJRMS.129.2847Z . дои : 10.1256/qj.02.166 . S2CID 17153773 .
- ^ «Обзор статистики AP - кривые плотности и нормальное распределение» . Архивировано из оригинала 2 апреля 2015 года . Проверено 16 марта 2015 г.
- ^ Моррисон, Кент (23 июля 1998 г.). «Случайные блуждания с уменьшающимися шагами» (PDF) . Кафедра математики Калифорнийского политехнического государственного университета . Архивировано из оригинала (PDF) 2 декабря 2015 г. Проверено 16 февраля 2007 г.
- ^ «Связь между средним значением, медианой, модой и стандартным отклонением в унимодальном распределении» .
- ^ Хиппель, Пол Т. фон (2005). «Среднее, медиана и перекос: исправление правила из учебника» . Журнал статистического образования . 13 (2). дои : 10.1080/10691898.2005.11910556 .
- ^ Боттомли, Х. (2004). «Максимальное расстояние между модой и средним значением унимодального распределения» (PDF) . Неопубликованный препринт .
- ^ ван Цвет, WR (1979). «Среднее, медиана, режим II». Статистическое управление Нидерландов . 33 (1): 1–5. дои : 10.1111/j.1467-9574.1979.tb00657.x .
- ^ Басу, Санджиб; Дасгупта, Анирбан (1997). «Среднее, медиана и режим унимодальных распределений: характеристика». Теория вероятностей и ее приложения . 41 (2): 210–223. дои : 10.1137/S0040585X97975447 .
- ^ Пирсон, Карл (1895). «Вклад в математическую теорию эволюции. II. Косые изменения в однородном материале» . Философские труды Лондонского королевского общества А. 186 : 343–414. Бибкод : 1895RSPTA.186..343P . дои : 10.1098/rsta.1895.0010 .
Внешние ссылки [ править ]
- «Режим» , Энциклопедия математики , EMS Press , 2001 [1994]
- Руководство по пониманию и расчету режима
- Вайсштейн, Эрик В. «Режим» . Математический мир .
- Короткое видео для начинающих о среднем, медиане и моде от Академии Хана