Математическая статистика

Из Википедии, бесплатной энциклопедии
Иллюстрация линейной регрессии набора данных. Регрессионный анализ является важной частью математической статистики.

Математическая статистика — это применение теории вероятностей , раздела математики , к статистике , в отличие от методов сбора статистических данных. Конкретные математические методы, которые используются для этого, включают математический анализ , линейную алгебру , стохастический анализ , дифференциальные уравнения и теорию меры . [1] [2]

Введение [ править ]

Сбор статистических данных связан с планированием исследований, особенно с планированием рандомизированных экспериментов и планированием обследований с использованием случайной выборки . Первоначальный анализ данных часто следует протоколу исследования, указанному до его проведения. Данные исследования также можно проанализировать, чтобы рассмотреть вторичные гипотезы, основанные на первоначальных результатах, или предложить новые исследования. Вторичный анализ данных запланированного исследования использует инструменты анализа данных , а процесс выполнения этого процесса представляет собой математическую статистику.

Анализ данных делится на:

  • описательная статистика – часть статистики, описывающая данные, т.е. обобщающая данные и их типичные свойства.
  • Инференциальная статистика – часть статистики, которая делает выводы на основе данных (с использованием некоторой модели данных). Например, инференциальная статистика включает в себя выбор модели для данных, проверку того, соответствуют ли данные условиям конкретной модели, а также количественную оценку связана с неопределенностью (например, с использованием доверительных интервалов ).

Хотя инструменты анализа данных лучше всего работают с данными рандомизированных исследований, они также применяются и к другим типам данных. Например, из естественных экспериментов и наблюдательных исследований , и в этом случае вывод зависит от модели, выбранной статистиком, и поэтому субъективен. [3] [4]

Темы [ править ]

Ниже приведены некоторые важные темы математической статистики: [5] [6]

вероятностей Распределения

Распределение вероятностей — это функция , которая присваивает вероятность каждому измеримому подмножеству возможных результатов случайного эксперимента , опроса или процедуры статистического вывода . Примеры можно найти в экспериментах, в которых выборочное пространство не является числовым, где распределение будет категориальным ; эксперименты, выборочное пространство которых кодируется дискретными случайными величинами , где распределение может быть задано функцией вероятности ; и эксперименты с выборочными пространствами, закодированными непрерывными случайными величинами, где распределение может быть задано функцией плотности вероятности . Более сложные эксперименты, например эксперименты со случайными процессами, определяемыми в непрерывном времени , могут потребовать использования более общих вероятностных мер .

Распределение вероятностей может быть одномерным или многомерным . Одномерное распределение дает вероятности того, что одна случайная величина принимает различные альтернативные значения; многомерное распределение ( совместное распределение вероятностей ) дает вероятности случайного вектора — набора двух или более случайных величин — принимающего различные комбинации значений. Важные и часто встречающиеся одномерные распределения вероятностей включают биномиальное распределение , гипергеометрическое распределение и нормальное распределение . Многомерное нормальное распределение — это часто встречающееся многомерное распределение.

Специальные дистрибутивы [ править ]

Статистический вывод

Статистический вывод — это процесс получения выводов на основе данных, которые подвержены случайным изменениям, например, ошибкам наблюдений или вариациям выборки. [7] Первоначальные требования к такой системе процедур вывода и индукции заключаются в том, что система должна давать разумные ответы при применении к четко определенным ситуациям и быть достаточно общей, чтобы ее можно было применять в широком диапазоне ситуаций. Инференциальная статистика используется для проверки гипотез и оценок с использованием выборочных данных. В то время как описательная статистика описывает выборку, индуктивная статистика делает прогнозы относительно более крупной популяции, которую представляет выборка.

Результатом статистического вывода может быть ответ на вопрос «что делать дальше?», где это может быть решение о проведении дальнейших экспериментов или исследований или о том, чтобы сделать вывод перед реализацией какой-либо организационной или государственной политики. По большей части статистические выводы делают предположения о популяциях, используя данные, полученные от интересующей популяции с помощью той или иной формы случайной выборки. В более общем смысле данные о случайном процессе получаются на основе его наблюдаемого поведения в течение конечного периода времени. Учитывая параметр или гипотезу, относительно которой нужно сделать вывод, статистический вывод чаще всего использует:

  • статистическую модель случайного процесса, который должен генерировать данные, которая известна, когда использовалась рандомизация, и
  • конкретная реализация случайного процесса; т.е. набор данных.

Регрессия [ править ]

В статистике регрессионный анализ — это статистический процесс оценки взаимосвязей между переменными. Он включает в себя множество способов моделирования и анализа нескольких переменных, когда основное внимание уделяется взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными . Более конкретно, регрессионный анализ помогает понять, как меняется типичное значение зависимой переменной (или «критериальной переменной»), когда изменяется любая из независимых переменных, в то время как другие независимые переменные остаются неизменными. Чаще всего регрессионный анализ оценивает условное ожидание зависимой переменной с учетом независимых переменных, то есть среднее значение зависимой переменной, когда независимые переменные фиксированы. Реже основное внимание уделяется квантилю или другому параметру местоположения условного распределения зависимой переменной с учетом независимых переменных. Во всех случаях целью оценки является функция независимых переменных, называемых функция регрессии . В регрессионном анализе также представляет интерес охарактеризовать изменение зависимой переменной вокруг функции регрессии, которую можно описать распределением вероятностей .

Разработано множество методик проведения регрессионного анализа. Знакомые методы, такие как линейная регрессия , являются параметрическими , поскольку функция регрессии определяется с точки зрения конечного числа неизвестных параметров , которые оцениваются на основе данных (например, с использованием обычного метода наименьших квадратов ). Непараметрическая регрессия относится к методам, которые позволяют функции регрессии находиться в заданном наборе функций , который может быть бесконечномерным .

Непараметрическая статистика [ править ]

Непараметрическая статистика — это значения, рассчитанные на основе данных способом, не основанным на параметризованных семействах вероятностных распределений . Они включают как описательную , так и косвенную статистику. Типичными параметрами являются ожидания, дисперсия и т. д. В отличие от параметрической статистики , непараметрическая статистика не делает предположений о вероятностном распределении оцениваемых переменных. [8]

Непараметрические методы широко используются для изучения групп населения, которые имеют ранжированный порядок (например, обзоры фильмов, получающие от одной до четырех звезд). Использование непараметрических методов может оказаться необходимым, когда данные имеют ранжирование , но не имеют четкой числовой интерпретации, например, при оценке предпочтений . С точки зрения уровней измерения непараметрические методы дают «порядковые» данные.

Поскольку непараметрические методы делают меньше допущений, их применимость гораздо шире, чем у соответствующих параметрических методов. В частности, они могут применяться в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за меньшего количества предположений непараметрические методы более надежны .

Одним из недостатков непараметрических методов является то, что, поскольку они не полагаются на предположения, они обычно менее эффективны , чем их параметрические аналоги. [9] Непараметрические тесты с низким энергопотреблением проблематичны, поскольку эти методы обычно используются в случаях, когда выборка имеет небольшой размер. [9] Многие параметрические методы оказались наиболее мощными тестами благодаря таким методам, как лемма Неймана-Пирсона и тест отношения правдоподобия .

Еще одним оправданием использования непараметрических методов является простота. В некоторых случаях, даже когда использование параметрических методов оправдано, непараметрические методы могут оказаться более простыми в использовании. Некоторые статистики считают, что из-за этой простоты и большей надежности непараметрические методы оставляют меньше места для неправильного использования и неправильного понимания.

Статистика, математика и математическая статистика [ править ]

Математическая статистика является ключевым подразделом статистики . Теоретики статистики изучают и совершенствуют статистические процедуры с помощью математики, а статистические исследования часто поднимают математические вопросы.

Математики и статистики, такие как Гаусс , Лаплас и К.С. Пирс, использовали теорию принятия решений с распределениями вероятностей и функциями потерь (или функциями полезности ). Подход к статистическим выводам, основанный на теории принятия решений, был возрожден Абрахамом Вальдом и его последователями. [10] [11] [12] [13] [14] [15] [16] и широко использует научные вычисления , анализ и оптимизацию ; для планирования экспериментов статистики используют алгебру и комбинаторику . Но хотя статистическая практика часто опирается на теорию вероятностей и теории принятия решений , их применение может быть спорным. [4]

См. также [ править ]

Ссылки [ править ]

  1. ^ Каннан, Д.; Лакшмикантам, В., ред. (2002). Справочник по стохастическому анализу и его приложениям . Нью-Йорк: М. Деккер. ISBN  0824706609 .
  2. ^ Шервиш, Марк Дж. (1995). Теория статистики (Иср. 2-е изд.). Нью-Йорк: Спрингер. ISBN  0387945466 .
  3. ^ Фридман, Д.А. (2005) Статистические модели: теория и практика , Cambridge University Press. ISBN   978-0-521-67105-7
  4. ^ Перейти обратно: а б Фридман, Дэвид А. (2010). Коллиер, Дэвид; Сехон, Джасджит С.; Старк, Филп Б. (ред.). Статистические модели и причинный вывод: диалог с социальными науками . Издательство Кембриджского университета. ISBN  978-0-521-12390-7 .
  5. ^ Хогг, Р.В., А. Крейг и Дж. В. Маккин. «Введение в математическую статистику». (2005).
  6. ^ Ларсен, Ричард Дж. и Маркс, Моррис Л. «Введение в математическую статистику и ее приложения» (2012). Прентис Холл.
  7. ^ Аптон, Г., Кук, И. (2008) Оксфордский статистический словарь , OUP. ISBN   978-0-19-954145-4
  8. ^ «Непараметрические методы исследования» . Университет Карнеги Меллон . Проверено 30 августа 2022 г.
  9. ^ Перейти обратно: а б «Непараметрические тесты» . sphweb.bumc.bu.edu . Проверено 31 августа 2022 г.
  10. ^ Вальд, Авраам (1947). Последовательный анализ . Нью-Йорк: Джон Уайли и сыновья. ISBN  0-471-91806-7 . См. перепечатку из Дувра, 2004 г.: ISBN   0-486-43912-7
  11. ^ Вальд, Авраам (1950). Статистические функции принятия решений . Джон Уайли и сыновья, Нью-Йорк.
  12. ^ Леманн, Эрих (1997). Проверка статистических гипотез (2-е изд.). ISBN  0-387-94919-4 .
  13. ^ Леманн, Эрих ; Касселла, Джордж (1998). Теория точечной оценки (2-е изд.). ISBN  0-387-98502-6 .
  14. ^ Бикель, Питер Дж .; Доксум, Кьелл А. (2001). Математическая статистика: основные и избранные темы . Том. 1 (Второе (обновленное издание 2007 г.) изд.). Пирсон Прентис-Холл.
  15. ^ Ле Кам, Люсьен (1986). Асимптотические методы в статистической теории принятия решений . Спрингер-Верлаг. ISBN  0-387-96307-3 .
  16. ^ Лизе, Фридрих и Миске, Клаус-Дж. (2008). Статистическая теория принятия решений: оценка, тестирование и отбор . Спрингер.

Дальнейшее чтение [ править ]