Jump to content

Статистическая проверка гипотез

(Перенаправлено из «Проверка гипотезы» )
На изображении выше показана таблица с некоторыми наиболее распространенными статистическими данными тестов и соответствующими тестами или моделями.

Проверка статистической гипотезы — это метод статистического вывода, используемый для определения того, достаточно ли данные подтверждают конкретную гипотезу. Проверка статистической гипотезы обычно включает в себя расчет тестовой статистики . Затем принимается решение либо путем сравнения тестовой статистики с критическим значением , либо, что то же самое, путем оценки p значения , вычисленного на основе тестовой статистики. около 100 специализированных статистических тестов . Было определено [1] [2]

Хотя проверка гипотез была популяризирована в начале 20-го века, ранние формы использовались в 1700-х годах. Первое использование приписывается Джону Арбутноту (1710 г.). [3] за ним последовал Пьер-Симон Лаплас (1770-е годы) при анализе соотношения полов у человека при рождении; см . § Соотношение полов у человека .

Выбор нулевой гипотезы

[ редактировать ]

Пол Мил утверждал, что эпистемологическая важность выбора нулевой гипотезы осталась в значительной степени непризнанной. Когда нулевая гипотеза предсказывается теорией, более точный эксперимент станет более серьезной проверкой лежащей в ее основе теории. Когда нулевая гипотеза по умолчанию равна «нет разницы» или «нет эффекта», более точный эксперимент является менее серьезной проверкой теории, которая мотивировала проведение эксперимента. [4] Поэтому изучение истоков последней практики может оказаться полезным:

1778: Pierre Laplace compares the birthrates of boys and girls in multiple European cities. He states: "it is natural to conclude that these possibilities are very nearly in the same ratio". Thus, the null hypothesis in this case that the birthrates of boys and girls should be equal given "conventional wisdom".[5]

1900: Karl Pearson develops the chi squared test to determine "whether a given form of frequency curve will effectively describe the samples drawn from a given population." Thus the null hypothesis is that a population is described by some distribution predicted by theory. He uses as an example the numbers of five and sixes in the Weldon dice throw data.[6]

1904: Karl Pearson develops the concept of "contingency" in order to determine whether outcomes are independent of a given categorical factor. Here the null hypothesis is by default that two things are unrelated (e.g. scar formation and death rates from smallpox).[7] The null hypothesis in this case is no longer predicted by theory or conventional wisdom, but is instead the principle of indifference that led Fisher and others to dismiss the use of "inverse probabilities".[8]

Modern origins and early controversy

[edit]

Modern significance testing is largely the product of Karl Pearson (p-value, Pearson's chi-squared test), William Sealy Gosset (Student's t-distribution), and Ronald Fisher ("null hypothesis", analysis of variance, "significance test"), while hypothesis testing was developed by Jerzy Neyman and Egon Pearson (son of Karl). Ronald Fisher began his life in statistics as a Bayesian (Zabell 1992), but Fisher soon grew disenchanted with the subjectivity involved (namely use of the principle of indifference when determining prior probabilities), and sought to provide a more "objective" approach to inductive inference.[9]

Fisher emphasized rigorous experimental design and methods to extract a result from few samples assuming Gaussian distributions. Neyman (who teamed with the younger Pearson) emphasized mathematical rigor and methods to obtain more results from many samples and a wider range of distributions. Modern hypothesis testing is an inconsistent hybrid of the Fisher vs Neyman/Pearson formulation, methods and terminology developed in the early 20th century.

Fisher popularized the "significance test". He required a null-hypothesis (corresponding to a population frequency distribution) and a sample. His (now familiar) calculations determined whether to reject the null-hypothesis or not. Significance testing did not utilize an alternative hypothesis so there was no concept of a Type II error (false negative).

The p-value was devised as an informal, but objective, index meant to help a researcher determine (based on other knowledge) whether to modify future experiments or strengthen one's faith in the null hypothesis.[10] Hypothesis testing (and Type I/II errors) was devised by Neyman and Pearson as a more objective alternative to Fisher's p-value, also meant to determine researcher behaviour, but without requiring any inductive inference by the researcher.[11][12]

Neyman & Pearson considered a different problem to Fisher (which they called "hypothesis testing"). They initially considered two simple hypotheses (both with frequency distributions). They calculated two probabilities and typically selected the hypothesis associated with the higher probability (the hypothesis more likely to have generated the sample). Their method always selected a hypothesis. It also allowed the calculation of both types of error probabilities.

Fisher and Neyman/Pearson clashed bitterly. Neyman/Pearson considered their formulation to be an improved generalization of significance testing (the defining paper[11] was abstract; Mathematicians have generalized and refined the theory for decades[13]). Fisher thought that it was not applicable to scientific research because often, during the course of the experiment, it is discovered that the initial assumptions about the null hypothesis are questionable due to unexpected sources of error. He believed that the use of rigid reject/accept decisions based on models formulated before data is collected was incompatible with this common scenario faced by scientists and attempts to apply this method to scientific research would lead to mass confusion.[14]

The dispute between Fisher and Neyman–Pearson was waged on philosophical grounds, characterized by a philosopher as a dispute over the proper role of models in statistical inference.[15]

Events intervened: Neyman accepted a position in the University of California, Berkeley in 1938, breaking his partnership with Pearson and separating the disputants (who had occupied the same building). World War II provided an intermission in the debate. The dispute between Fisher and Neyman terminated (unresolved after 27 years) with Fisher's death in 1962. Neyman wrote a well-regarded eulogy.[16] Some of Neyman's later publications reported p-values and significance levels.[17]

The modern version of hypothesis testing is a hybrid of the two approaches that resulted from confusion by writers of statistical textbooks (as predicted by Fisher) beginning in the 1940s[18] (but signal detection, for example, still uses the Neyman/Pearson formulation). Great conceptual differences and many caveats in addition to those mentioned above were ignored. Neyman and Pearson provided the stronger terminology, the more rigorous mathematics and the more consistent philosophy, but the subject taught today in introductory statistics has more similarities with Fisher's method than theirs.[19]

Sometime around 1940,[18] authors of statistical text books began combining the two approaches by using the p-value in place of the test statistic (or data) to test against the Neyman–Pearson "significance level".

A comparison between Fisherian, frequentist (Neyman–Pearson)
#Fisher's null hypothesis testingNeyman–Pearson decision theory
1Set up a statistical null hypothesis. The null need not be a nil hypothesis (i.e., zero difference).Set up two statistical hypotheses, H1 and H2, and decide about α, β, and sample size before the experiment, based on subjective cost-benefit considerations. These define a rejection region for each hypothesis.
2Report the exact level of significance (e.g. p = 0.051 or p = 0.049). Do not refer to "accepting" or "rejecting" hypotheses. If the result is "not significant", draw no conclusions and make no decisions, but suspend judgement until further data is available.If the data falls into the rejection region of H1, accept H2; otherwise accept H1. Accepting a hypothesis does not mean that you believe in it, but only that you act as if it were true.
3Use this procedure only if little is known about the problem at hand, and only to draw provisional conclusions in the context of an attempt to understand the experimental situation.The usefulness of the procedure is limited among others to situations where you have a disjunction of hypotheses (e.g. either μ1 = 8 or μ2 = 10 is true) and where you can make meaningful cost-benefit trade-offs for choosing alpha and beta.

Philosophy

[edit]

Hypothesis testing and philosophy intersect. Inferential statistics, which includes hypothesis testing, is applied probability. Both probability and its application are intertwined with philosophy. Philosopher David Hume wrote, "All knowledge degenerates into probability." Competing practical definitions of probability reflect philosophical differences. The most common application of hypothesis testing is in the scientific interpretation of experimental data, which is naturally studied by the philosophy of science.

Fisher and Neyman opposed the subjectivity of probability. Their views contributed to the objective definitions. The core of their historical disagreement was philosophical.

Many of the philosophical criticisms of hypothesis testing are discussed by statisticians in other contexts, particularly correlation does not imply causation and the design of experiments.Hypothesis testing is of continuing interest to philosophers.[15][20]

Education

[edit]

Statistics is increasingly being taught in schools with hypothesis testing being one of the elements taught.[21][22] Many conclusions reported in the popular press (political opinion polls to medical studies) are based on statistics. Some writers have stated that statistical analysis of this kind allows for thinking clearly about problems involving mass data, as well as the effective reporting of trends and inferences from said data, but caution that writers for a broad public should have a solid understanding of the field in order to use the terms and concepts correctly.[23][24] An introductory college statistics class places much emphasis on hypothesis testing – perhaps half of the course. Such fields as literature and divinity now include findings based on statistical analysis (see the Bible Analyzer). An introductory statistics class teaches hypothesis testing as a cookbook process. Hypothesis testing is also taught at the postgraduate level. Statisticians learn how to create good statistical test procedures (like z, Student's t, F and chi-squared). Statistical hypothesis testing is considered a mature area within statistics,[25] but a limited amount of development continues.

An academic study states that the cookbook method of teaching introductory statistics leaves no time for history, philosophy or controversy. Hypothesis testing has been taught as received unified method. Surveys showed that graduates of the class were filled with philosophical misconceptions (on all aspects of statistical inference) that persisted among instructors.[26] While the problem was addressed more than a decade ago,[27] and calls for educational reform continue,[28] students still graduate from statistics classes holding fundamental misconceptions about hypothesis testing.[29] Ideas for improving the teaching of hypothesis testing include encouraging students to search for statistical errors in published papers, teaching the history of statistics and emphasizing the controversy in a generally dry subject.[30]

Performing a frequentist hypothesis test in practice

[edit]

The typical steps involved in performing a frequentist hypothesis test in practice are:

  1. Define a hypothesis (claim which is testable using data).
  2. Select a relevant statistical test with associated test statistic T.
  3. Derive the distribution of the test statistic under the null hypothesis from the assumptions. In standard cases this will be a well-known result. For example, the test statistic might follow a Student's t distribution with known degrees of freedom, or a normal distribution with known mean and variance.
  4. Select a significance level (α), the maximum acceptable false positive rate. Common values are 5% and 1%.
  5. Compute from the observations the observed value tobs of the test statistic T.
  6. Decide to either reject the null hypothesis in favor of the alternative or not reject it. The Neyman-Pearson decision rule is to reject the null hypothesis H0 if the observed value tobs is in the critical region, and not to reject the null hypothesis otherwise.[31]

Practical example

[edit]

The difference in the two processes applied to the radioactive suitcase example (below):

  • "The Geiger-counter reading is 10. The limit is 9. Check the suitcase."
  • "The Geiger-counter reading is high; 97% of safe suitcases have lower readings. The limit is 95%. Check the suitcase."

The former report is adequate, the latter gives a more detailed explanation of the data and the reason why the suitcase is being checked.

Not rejecting the null hypothesis does not mean the null hypothesis is "accepted" per se (though Neyman and Pearson used that word in their original writings; see the Interpretation section).

The processes described here are perfectly adequate for computation. They seriously neglect the design of experiments considerations.[32][33]

It is particularly critical that appropriate sample sizes be estimated before conducting the experiment.

The phrase "test of significance" was coined by statistician Ronald Fisher.[34]

Interpretation

[edit]

When the null hypothesis is true and statistical assumptions are met, the probability that the p-value will be less than or equal to the significance level is at most . This ensures that the hypothesis test maintains its specified false positive rate (provided that statistical assumptions are met).[35]

The p-value is the probability that a test statistic which is at least as extreme as the one obtained would occur under the null hypothesis. At a significance level of 0.05, a fair coin would be expected to (incorrectly) reject the null hypothesis (that it is fair) in 1 out of 20 tests on average. The p-value does not provide the probability that either the null hypothesis or its opposite is correct (a common source of confusion).[36]

If the p-value is less than the chosen significance threshold (equivalently, if the observed test statistic is in the critical region), then we say the null hypothesis is rejected at the chosen level of significance. If the p-value is not less than the chosen significance threshold (equivalently, if the observed test statistic is outside the critical region), then the null hypothesis is not rejected at the chosen level of significance.

In the "lady tasting tea" example (below), Fisher required the lady to properly categorize all of the cups of tea to justify the conclusion that the result was unlikely to result from chance. His test revealed that if the lady was effectively guessing at random (the null hypothesis), there was a 1.4% chance that the observed results (perfectly ordered tea) would occur.

Use and importance

[edit]

Statistics are helpful in analyzing most collections of data. This is equally true of hypothesis testing which can justify conclusions even when no scientific theory exists. In the Lady tasting tea example, it was "obvious" that no difference existed between (milk poured into tea) and (tea poured into milk). The data contradicted the "obvious".

Real world applications of hypothesis testing include:[37]

  • Testing whether more men than women suffer from nightmares
  • Establishing authorship of documents
  • Evaluating the effect of the full moon on behavior
  • Determining the range at which a bat can detect an insect by echo
  • Deciding whether hospital carpeting results in more infections
  • Selecting the best means to stop smoking
  • Checking whether bumper stickers reflect car owner behavior
  • Testing the claims of handwriting analysts

Statistical hypothesis testing plays an important role in the whole of statistics and in statistical inference. For example, Lehmann (1992) in a review of the fundamental paper by Neyman and Pearson (1933) says: "Nevertheless, despite their shortcomings, the new paradigm formulated in the 1933 paper, and the many developments carried out within its framework continue to play a central role in both the theory and practice of statistics and can be expected to do so in the foreseeable future".

Тестирование значимости было излюбленным статистическим инструментом в некоторых экспериментальных социальных науках (более 90% статей в Журнале прикладной психологии в начале 1990-х годов). [38] Другие области отдают предпочтение оценке параметров (например, размера эффекта ). Проверка значимости используется вместо традиционного сравнения прогнозируемого значения и экспериментального результата, лежащего в основе научного метода . Когда теория способна предсказать только знак взаимосвязи, направленную (одностороннюю) проверку гипотезы можно сконфигурировать так, чтобы только статистически значимый результат поддерживал теорию. Эта форма оценки теории является наиболее подвергаемым критике применением проверки гипотез.

Предостережения

[ редактировать ]

«Если бы правительство требовало, чтобы статистические процедуры имели предупреждающие надписи, как на лекарствах, большинство методов вывода действительно имели бы длинные надписи». [39] Это предостережение относится к проверке гипотез и альтернативам им.

Успешная проверка гипотезы связана с вероятностью и частотой ошибок I рода. Вывод может быть неверным.

Выводы теста столь же надежны, как и образец, на котором они основаны. Дизайн эксперимента имеет решающее значение. Был обнаружен ряд неожиданных эффектов, в том числе:

  • Умный эффект Ганса . Лошадь, казалось, была способна выполнять простые арифметические действия.
  • Эффект Хоторна . Промышленные рабочие были более продуктивны при лучшем освещении и наиболее продуктивны при худшем.
  • Эффект плацебо . Таблетки, не содержащие активных ингредиентов, оказались чрезвычайно эффективными.

Статистический анализ вводящих в заблуждение данных приводит к ошибочным выводам. Вопрос качества данных может быть более тонким. Например, в прогнозировании не существует единого мнения относительно меры точности прогноза. В отсутствие консенсусного измерения ни одно решение, основанное на измерениях, не будет бесспорным.

Предвзятость публикации: статистически незначимые результаты могут быть опубликованы с меньшей вероятностью, что может привести к искажению литературы.

Множественное тестирование: когда несколько тестов истинной нулевой гипотезы проводятся одновременно без корректировки, общая вероятность ошибки типа I выше номинального альфа-уровня. [40]

Те, кто принимает критические решения на основе результатов проверки гипотез, благоразумно обращают внимание на детали, а не только на выводы. В физических науках большинство результатов полностью принимаются только в том случае, если они подтверждены независимо. Общий совет относительно статистики таков: «Цифры никогда не лгут, а лжецы верят» (анонимно).

Определение терминов

[ редактировать ]

Следующие определения в основном основаны на изложении книги Лемана и Романо: [35]

  • Статистическая гипотеза : утверждение о параметрах, описывающих популяцию (а не выборку ).
  • Статистика теста: значение, рассчитанное на основе выборки без каких-либо неизвестных параметров, часто для обобщения выборки в целях сравнения.
  • Простая гипотеза : любая гипотеза, которая полностью определяет распределение населения.
  • Составная гипотеза: любая гипотеза, которая не определяет полностью распределение населения.
  • Нулевая гипотеза (H 0 )
  • Положительные данные: данные, которые позволяют исследователю отвергнуть нулевую гипотезу.
  • Альтернативная гипотеза (H 1 )
Предположим, что данные могут быть реализованы из распределения N(0,1). Например, при выбранном уровне значимости α = 0,05 из Z-таблицы можно получить одностороннее критическое значение примерно 1,645. Одностороннее критическое значение C α ≈ 1,645 соответствует выбранному уровню значимости. Критическая область [Cα , ∞) реализуется как хвост стандартного нормального распределения.
  • Критические значения s статистического теста — это границы приемлемой области теста. [41] Область приемлемости — это набор значений тестовой статистики, для которых нулевая гипотеза не отвергается. В зависимости от формы приемной области может быть одно или несколько критических значений.
    • Область отторжения / Критическая область : набор значений тестовой статистики, для которых нулевая гипотеза отклоняется.
  • Мощность теста (1 - β )
  • Размер отклонения теста : для простых гипотез это вероятность неправильного нулевой гипотезы. Уровень ложноположительных результатов . Для составных гипотез это верхняя граница вероятности отклонения нулевой гипотезы во всех случаях, охватываемых нулевой гипотезой. Дополнение ложноположительных результатов называется специфичностью в биостатистике . («Это специфический тест. Поскольку результат положительный, мы можем с уверенностью сказать, что у пациента есть заболевание».) См. чувствительность и специфичность , а также ошибки типа I и типа II для получения исчерпывающих определений.
  • Уровень значимости теста ( α)
  • р -значение
  • Тест статистической значимости : предшественник теста статистической гипотезы (см. раздел «Происхождение»). Экспериментальный результат считался статистически значимым , если выборка в достаточной степени не соответствовала (нулевой) гипотезе. По-разному это считалось здравым смыслом, прагматической эвристикой для выявления значимых экспериментальных результатов, соглашением, устанавливающим порог статистических данных или методом получения выводов на основе данных. Проверка статистической гипотезы добавила концепции математическую строгость и философскую последовательность, сделав альтернативную гипотезу явной. Этот термин широко используется для обозначения современной версии, которая сейчас является частью проверки статистических гипотез.
  • Консервативный тест: тест является консервативным, если при его построении для данного номинального уровня значимости истинная вероятность неправильного отклонения нулевой гипотезы никогда не превышает номинальный уровень.
  • Точный тест

Проверка статистической гипотезы сравнивает статистику теста ( z или t для примеров) с пороговым значением. Статистика теста (формула приведена в таблице ниже) основана на оптимальности. Для фиксированного уровня частоты ошибок типа I использование этой статистики минимизирует частоту ошибок типа II (эквивалентно максимизации мощности). Следующие термины описывают тесты с точки зрения такой оптимальности:

  • Самый мощный тест: для данного размера или уровня значимости тест с наибольшей мощностью (вероятностью отклонения) для данного значения проверяемого параметра(ов), содержащегося в альтернативной гипотезе.
  • Равномерно самый мощный тест (UMP)

Непараметрическая проверка гипотезы начальной загрузки

[ редактировать ]

на основе бутстрапа Методы повторной выборки можно использовать для проверки нулевой гипотезы. Бутстрап создает множество смоделированных выборок путем случайной повторной выборки (с заменой) исходных объединенных выборочных данных, предполагая, что нулевая гипотеза верна. Бутстрап очень универсален, поскольку он не имеет распределения и не опирается на ограничительные параметрические предположения, а скорее на эмпирические приближенные методы с асимптотическими гарантиями. Традиционные параметрические тесты гипотез более эффективны в вычислительном отношении, но делают более строгие структурные предположения. В ситуациях, когда вычисление вероятности тестовой статистики при нулевой гипотезе затруднено или невозможно (возможно, из-за неудобства или отсутствия знания основного распределения), бутстрап предлагает жизнеспособный метод статистического вывода. [42] [43] [44] [45]

Соотношение полов человека

[ редактировать ]

Самое раннее использование проверки статистических гипотез обычно связано с вопросом о том, одинаково ли вероятны рождения мальчиков и девочек (нулевая гипотеза), который был рассмотрен в 1700-х годах Джоном Арбутнотом (1710). [46] а позже Пьер-Симон Лаплас (1770-е). [47]

Арбутнот изучил записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год и применил знаковый тест — простой непараметрический критерий . [48] [49] [50] Ежегодно количество мужчин, рожденных в Лондоне, превышало количество женщин. Учитывая, что большее количество рождений мальчиков и девочек одинаково вероятно, вероятность наблюдаемого исхода равна 0,5. 82 , или примерно 1 из 4 836 000 000 000 000 000 000 000; говоря современным языком, это p -значение. Арбутнот пришел к выводу, что это слишком мало, чтобы быть результатом случайности, и вместо этого должно быть связано с божественным провидением: «Отсюда следует, что правит Искусство, а не Случай». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мальчиков и девочек при p = 1/2. 82 уровень значимости.

Лаплас рассмотрел статистику почти полумиллиона рождений. Статистика показала преобладание мальчиков над девочками. [5] [51] он пришел к выводу Путем расчета значения p , что превышение было реальным, но необъяснимым эффектом. [52]

Леди дегустирует чай

[ редактировать ]

В известном примере проверки гипотез, известном как « Леди, дегустирующая чай» , [53] Доктор Мюриэл Бристоль , коллега Фишера, утверждала, что может определить, чай или молоко было добавлено в чашку первым. Фишер предложил подарить ей восемь чашек, по четыре каждого сорта, в случайном порядке. Тогда можно было бы спросить, какова вероятность того, что она назовет правильное число, но это просто случайно. Нулевая гипотеза заключалась в том, что у Леди не было такой способности. Статистика теста представляла собой простой подсчет количества успешных попыток выбрать 4 чашки. Критическая область представляла собой единственный случай 4 успехов из 4 возможных, основанных на общепринятом критерии вероятности (< 5%). Паттерн из 4 успехов соответствует 1 из 70 возможных комбинаций (р≈ 1,4%). Фишер утверждал, что никакая альтернативная гипотеза (никогда) не требовалась. Дама правильно определила каждую чашку, [54] что можно было бы считать статистически значимым результатом.

Судебный процесс

[ редактировать ]

Процедура статистического тестирования сравнима с уголовным судом ; Подсудимый считается невиновным, пока его вина не доказана. Прокурор пытается доказать вину подсудимого. Только тогда, когда имеется достаточно доказательств для обвинения, обвиняемый признается виновным.

В начале процедуры есть две гипотезы. : «подсудимый не виновен», и : «Подсудимый виновен». Первый, , называется нулевой гипотезой . Второй, , называется альтернативной гипотезой . Это альтернативная гипотеза, которую мы надеемся поддержать.

Гипотеза о невиновности отвергается только тогда, когда ошибка очень маловероятна, поскольку нежелательно осуждать невиновного обвиняемого. Такая ошибка называется ошибкой первого рода (т. е. осуждением невиновного лица), и возникновение этой ошибки контролируется, чтобы быть редким. Вследствие такого асимметричного поведения чаще встречается ошибка второго рода (оправдание лица, совершившего преступление).

H 0 верно
Действительно не виноват
H 1 верно
Действительно виновен
Не отвергайте нулевую гипотезу
Оправдание
Правильное решение Неправильное решение
Ошибка типа II
Отклонить нулевую гипотезу
Убеждение
Неправильное решение
Ошибка типа I
Правильное решение

Уголовный процесс можно рассматривать как один или оба из двух процессов принятия решений: виновен против невиновности или доказательства против порога («вне разумного сомнения»). С одной точки зрения, обвиняемого судят; с другой точки зрения, оценивается деятельность обвинения (которое несет бремя доказывания). Проверка гипотезы может рассматриваться либо как оценка гипотезы, либо как оценка доказательств.

Философские бобы

[ редактировать ]

Следующий пример был приведен философом, описывающим научные методы за несколько поколений до того, как появилась проверка гипотез.формализована и популяризирована. [55]

Лишь немногие зерна из этой горстки белые.
Большинство зерен в этом мешке белые.
Следовательно: Вероятно, эти бобы были взяты из другого мешка.
Это гипотетический вывод.

Бобы в мешке — это население. Горстка — это образец. Нулевая гипотеза состоит в том, что выборка возникла из генеральной совокупности. Критерием отклонения нулевой гипотезы является «очевидная» разница во внешнем виде (неформальная разница в среднем). Интересный результат заключается в том, что при рассмотрении реальной популяции и реальной выборки получился воображаемый мешок. Философ рассматривал логику, а не вероятность. Чтобы быть настоящей статистической проверкой гипотезы, этот пример требует формальностей расчета вероятности и сравнения этой вероятности со стандартом.

Простое обобщение примера рассматривает смешанный мешок фасоли и горсть, содержащую либо очень мало, либо очень много белой фасоли. Обобщение учитывает обе крайности. Для получения формального ответа требуется больше расчетов и сравнений, но основная философия остается неизменной; Если состав горсти сильно отличается от состава мешка, то, вероятно, образец был взят из другого мешка. Исходный пример называется односторонним или односторонним тестом, а обобщение называется двусторонним или двусторонним тестом.

Это утверждение также основано на выводе о том, что выборка была случайной. Если бы кто-то рылся в мешке в поисках белой фасоли, это объяснило бы, почему в горстке было так много белой фасоли, а также объяснило бы, почему количество белой фасоли в мешке исчерпалось (хотя предполагается, что в мешке предполагается, что намного больше ладони).

Ясновидящая карточная игра

[ редактировать ]

Человек (субъект) проверяется на ясновидение . Им 25 раз показывают обратную сторону случайно выбранной игральной карты и спрашивают, к какой из четырех мастей она принадлежит. Количество попаданий или правильных ответов X. называется

Пока мы пытаемся найти доказательства их ясновидения, на данный момент нулевая гипотеза состоит в том, что этот человек не является ясновидящим. [56] Альтернатива такова: человек (более или менее) ясновидящий.

Если нулевая гипотеза верна, единственное, что может сделать испытуемый, — это догадаться. Для каждой карты вероятность (относительная частота) появления одной масти равна 1/4. Если альтернатива верна, испытуемый правильно предскажет масть с вероятностью больше 1/4. Вероятность правильного угадывания будем называть p . Итак, гипотезы таковы:

  • нулевая гипотеза (просто предполагаю)

и

  • альтернативная гипотеза (истинный ясновидящий).

Когда испытуемый правильно угадает все 25 карт, мы будем считать его ясновидящим и отвергнем нулевую гипотезу. Таким образом, также с 24 или 23 попаданиями. С другой стороны, при наличии всего лишь 5 или 6 попаданий нет оснований считать их таковыми. А как насчет 12 или 17 попаданий? Каково критическое число попаданий c , при котором мы считаем субъекта ясновидящим? Как определить критическое значение c ? При выборе c =25 (т.е. мы принимаем ясновидение только тогда, когда все карты предсказаны правильно) мы более критичны, чем при c =10. В первом случае ясновидящими не признаются почти ни один испытуемый, во втором - определенное количество пройдет тест. На практике каждый решает, насколько критичным он будет. То есть каждый решает, как часто он допускает ошибку первого рода – ложное срабатывание или ошибку I рода. При c = 25 вероятность такой ошибки равна:

,

и, следовательно, очень маленький. Вероятность ложного срабатывания — это вероятность случайного угадывания правильно все 25 раз.

Менее критичный вариант с c = 10 дает:

.

Таким образом, c = 10 дает гораздо большую вероятность ложного срабатывания.

Перед фактическим проведением испытания максимально допустимая вероятность ошибки I рода ( α определяется ). Обычно выбираются значения в диапазоне от 1% до 5%. (Если максимально допустимая частота ошибок равна нулю, требуется бесконечное количество правильных предположений.) В зависимости от этой частоты ошибок типа 1 критическое значение c рассчитывается . Например, если мы выберем коэффициент ошибок 1%, c рассчитывается следующим образом:

.

Из всех чисел с, обладающих этим свойством, выбираем наименьшее, чтобы минимизировать вероятность ошибки II рода, ложноотрицательный результат . Для приведенного выше примера мы выбираем: .

Вариации и подклассы

[ редактировать ]

Статистическая проверка гипотез является ключевым методом как частотного вывода, так и байесовского вывода , хотя эти два типа вывода имеют заметные различия. Статистические проверки гипотез определяют процедуру, которая контролирует (исправляет) вероятность неправильного решения о том, что позиция по умолчанию ( нулевая гипотеза ) неверна. Процедура основана на том, насколько вероятно было бы появление набора наблюдений, если бы нулевая гипотеза была верной. Эта вероятность принятия неправильного решения не является вероятностью того, что нулевая гипотеза верна или верна какая-либо конкретная альтернативная гипотеза. Это контрастирует с другими возможными методами теории принятия решений , в которых нулевая и альтернативная гипотезы рассматриваются на более равной основе.

Один из наивных байесовских подходов к проверке гипотез состоит в том, чтобы основывать решения на апостериорной вероятности . [57] [58] но это не удается при сравнении точечных и непрерывных гипотез. Другие подходы к принятию решений, такие как байесовская теория принятия решений , пытаются сбалансировать последствия неправильных решений по всем возможностям, а не концентрироваться на одной нулевой гипотезе. Ряд других подходов к принятию решения на основе данных доступен через теорию принятия решений и оптимальные решения , некоторые из которых обладают желаемыми свойствами. Однако проверка гипотез является доминирующим подходом к анализу данных во многих областях науки. Расширение теории проверки гипотез включает изучение силы тестов , т.е. вероятности правильного отклонения нулевой гипотезы при условии, что она ложна. Такие соображения можно использовать для определения размера выборки до сбора данных.

Проверка гипотезы Неймана – Пирсона

[ редактировать ]

Пример проверки гипотезы Неймана-Пирсона (или проверки статистической значимости нулевой гипотезы) можно представить, изменив пример с радиоактивным чемоданом. Если «чемодан» на самом деле представляет собой экранированный контейнер для перевозки радиоактивного материала, то можно использовать тест для выбора одной из трех гипотез: радиоактивный источник отсутствует, присутствует один, присутствуют два (все). Испытание может потребоваться в целях безопасности, при этом действия необходимы в каждом случае. Лемма Неймана -Пирсона о проверке гипотез гласит, что хорошим критерием выбора гипотез является отношение их вероятностей ( отношение правдоподобия ). Простой метод решения — выбрать гипотезу с наибольшей вероятностью наблюдаемых чисел Гейгера. Типичный результат соответствует интуиции: небольшое количество подсчетов подразумевает отсутствие источника, большое количество подсчетов предполагает наличие двух источников, а промежуточные подсчеты подразумевают один источник. Обратите также внимание, что обычно возникают проблемы с доказательством отрицательного результата . Нулевые гипотезы должны быть как минимум фальсифицируемы .

Теория Неймана-Пирсона может учитывать как априорные вероятности, так и стоимость действий, следующих из решений. [59] Первый позволяет каждому тесту учитывать результаты предыдущих тестов (в отличие от тестов значимости Фишера). Последнее позволяет учитывать экономические вопросы (например), а также вероятности. Отношение правдоподобия остается хорошим критерием выбора гипотез.

Две формы проверки гипотез основаны на разных формулировках задач. Исходный тест аналогичен вопросу «верно/неверно»; тест Неймана-Пирсона больше похож на множественный выбор. По мнению Тьюки [60] первый делает вывод только на основе веских доказательств, а второй принимает решение на основе имеющихся доказательств. Хотя эти два теста кажутся совершенно разными как с математической, так и с философской точки зрения, более поздние разработки привели к противоположному утверждению. Рассмотрим множество крошечных радиоактивных источников. Гипотезы становятся 0,1,2,3... песчинками радиоактивного песка. Существует небольшая разница между отсутствием радиации или некоторым количеством радиации (Фишер) и нулевым количеством песчинок радиоактивного песка по сравнению со всеми альтернативами (Нейман-Пирсон). Основная статья Неймана – Пирсона 1933 года. [11] также рассматриваются составные гипотезы (те, распределение которых включает неизвестный параметр). На примере доказана оптимальность t -критерия (Студента), «лучшего теста для рассматриваемой гипотезы не может быть» (стр. 321). Теория Неймана-Пирсона с самого начала доказывала оптимальность методов Фишера.

Проверка значимости Фишера оказалась популярным гибким статистическим инструментом с небольшим математическим потенциалом роста. Проверка гипотез Неймана-Пирсона считается основой математической статистики. [61] создание новой парадигмы в этой области. Это также стимулировало новые применения в статистическом управлении процессами , теории обнаружения , теории принятия решений и теории игр . Обе формулировки оказались успешными, но успехи носили разный характер.

Спор по формулировкам не разрешен. Наука в основном использует формулировку Фишера (слегка измененную), как она преподается во вводной статистике. Статистики изучают теорию Неймана-Пирсона в аспирантуре. Математики гордятся объединением формулировок. Философы рассматривают их отдельно. Ученые считают, что эти формулировки по-разному конкурируют (Фишер против Неймана), несовместимы. [9] или дополняющий. [13] Спор стал более сложным, поскольку байесовский вывод приобрел респектабельность.

Терминология противоречива. Проверка гипотезы может означать любую смесь двух формулировок, каждая из которых изменилась со временем. Любое обсуждение проверки значимости и проверки гипотез вдвойне подвержено путанице.

Фишер считал, что проверка гипотез является полезной стратегией для осуществления промышленного контроля качества, однако он категорически не соглашался с тем, что проверка гипотез может быть полезна для ученых. [10] Проверка гипотез предоставляет средства поиска статистики тестирования, используемой при проверке значимости. [13] Концепция мощности полезна для объяснения последствий корректировки уровня значимости и широко используется при определении размера выборки . Эти два метода остаются философски разными. [15] Обычно (но не всегда ) они дают один и тот же математический ответ. Предпочтительный ответ зависит от контекста. [13] Хотя существующее слияние теорий Фишера и Неймана-Пирсона подверглось резкой критике, рассматривалась возможность изменения слияния для достижения байесовских целей. [62]

Критика проверки статистических гипотез заполняет тома. [63] [64] [65] [66] [67] [68] Большую часть критики можно резюмировать следующими вопросами:

  • Интерпретация значения p зависит от правила остановки и определения множественного сравнения. Первое часто меняется в ходе исследования, а второе неизбежно неоднозначно. (т.е. «значения p зависят как от наблюдаемых (данных), так и от других возможных (данных), которые могли бы наблюдаться, но не наблюдались»). [69]
  • Путаница, возникающая (частично) из-за объединения концептуально различных методов Фишера и Неймана-Пирсона. [60]
  • Акцент на статистической значимости, исключая оценку и подтверждение повторными экспериментами. [70]
  • Жесткое требование статистической значимости в качестве критерия публикации, что приводит к предвзятости публикации . [71] Большая часть критики носит косвенный характер. Тестирование статистических гипотез не является ошибочным, а неправильно понимается, злоупотребляется и используется неправильно.
  • При использовании для определения наличия различий между группами возникает парадокс. Поскольку в план эксперимента вносятся улучшения (например, повышается точность измерений и размер выборки), тест становится более мягким. Если не принять абсурдное предположение, что все источники шума в данных полностью компенсируются, вероятность найти статистическую значимость в любом направлении приближается к 100%. [72] Однако это абсурдное предположение о том, что средняя разница между двумя группами не может быть нулевой, подразумевает, что данные не могут быть независимыми и одинаково распределенными (iid), поскольку ожидаемая разница между любыми двумя подгруппами случайных величин iid равна нулю; следовательно, предположение iid также абсурдно.
  • Слои философских проблем. Вероятность статистической значимости является функцией решений, принятых экспериментаторами/аналитиками. [73] Если решения основаны на условностях, их называют произвольными или бессмысленными. [74] в то время как те, которые не основаны на этом, можно назвать субъективными. Чтобы свести к минимуму ошибки второго рода, рекомендуется использовать большие выборки. В психологии практически все нулевые гипотезы считаются ложными для достаточно больших выборок, поэтому «... обычно бессмысленно проводить эксперимент с единственной целью отвергнуть нулевую гипотезу». [75] «Статистически значимые результаты часто вводят в заблуждение» в психологии. [76] Статистическая значимость не подразумевает практическую значимость, а корреляция не подразумевает причинно-следственную связь . Ставить под сомнение нулевую гипотезу, таким образом, далеко от прямой поддержки исследовательской гипотезы.
  • «[Я] не говорит нам того, что мы хотим знать». [77] Доступны списки из десятков жалоб. [67] [78] [79]

Критики и сторонники в основном сходятся во мнении относительно характеристик проверки значимости нулевой гипотезы (NHST): хотя она может предоставить критическую информацию, она неадекватна в качестве единственного инструмента статистического анализа . Успешное отклонение нулевой гипотезы может не поддержать исследовательскую гипотезу. Продолжающиеся споры касаются выбора лучших статистических практик на ближайшую перспективу с учетом существующих практик. Однако адекватный дизайн исследования может свести к минимуму эту проблему. Критики предпочли бы полностью запретить NHST, вынудив полностью отказаться от этой практики. [80] в то время как сторонники предлагают менее абсолютные изменения. [ нужна ссылка ]

Споры по поводу проверки значимости и ее влияния на предвзятость публикаций, в частности, привели к нескольким результатам. Американская психологическая ассоциация ужесточила свои требования к статистической отчетности после проверки. [81] издатели медицинских журналов признали обязанность публиковать некоторые результаты, которые не являются статистически значимыми, для борьбы с предвзятостью публикаций, [82] журнал ( Журнал статей в поддержку нулевой гипотезы ) исключительно для публикации таких результатов. и был создан [83] В учебники добавлены некоторые предостережения, [84] и более широкий охват инструментов, необходимых для оценки размера выборки, необходимой для получения значимых результатов. Лишь немногие крупные организации отказались от использования тестов значимости, хотя некоторые обсуждали это. [81] Например, в 2023 году редакторы журнала « Физиология » «настоятельно рекомендуют использовать методы оценки тем, кто публикуется в журнале» (имеется в виду величина эффекта ( чтобы позволить читателям судить, имеет ли вывод практическое, физиологическое, или клиническая значимость) и доверительные интервалы, чтобы передать точность этой оценки), говоря: «В конечном счете, тех, кто публикует в «Журнале физиологии», должна больше всего интересовать физиологическая важность данных, а не статистическая значимость». [85]

Альтернативы

[ редактировать ]

Объединяющая позиция критиков заключается в том, что статистика должна приводить не к выводу или решению «принять-отклонить», а к оценочному значению с интервальной оценкой ; Эта философия анализа данных широко называется оценочной статистикой . Статистика оценки может быть получена с помощью частотного [1] или байесовского метода. [86] [87]

Критики проверки значимости выступают за то, чтобы выводы основывались не столько на p-значениях, сколько на доверительных интервалах для размеров эффекта по важности, интервалах прогнозирования для уверенности, повторениях и расширениях для воспроизводимости, метаанализе для общности: [88] Но ни одна из этих предложенных альтернатив по своей сути не приводит к решению. Леманн сказал, что теория проверки гипотез может быть представлена ​​в терминах выводов/решений, вероятностей или доверительных интервалов: «Различие между... подходами во многом заключается в сообщении и интерпретации». [25]

Байесовский вывод является одной из предлагаемых альтернатив проверке значимости. (Никерсон процитировал 10 источников, предполагающих это, включая Розебума (1960)). [78] Например, оценка байесовских параметров может предоставить обширную информацию о данных, из которой исследователи могут сделать выводы, используя при этом неопределенные априорные данные , которые оказывают лишь минимальное влияние на результаты, когда доступно достаточно данных. Психолог Джон К. Крушке предложил байесовскую оценку в качестве альтернативы t -тесту. [86] а также сравнил байесовскую оценку для оценки нулевых значений со сравнением байесовской модели для проверки гипотез. [87] Две конкурирующие модели/гипотезы можно сравнить с использованием факторов Байеса . [89] Байесовские методы можно критиковать за то, что они требуют информации, которая редко доступна в тех случаях, когда проверка значимости используется наиболее интенсивно. Ни априорные вероятности, ни распределение вероятностей тестовой статистики согласно альтернативной гипотезе часто недоступны в социальных науках. [78]

Сторонники байесовского подхода иногда утверждают, что целью исследователя чаще всего является объективная оценка вероятности того, что гипотеза верна, на основе собранных им данных. [90] [91] Ни проверка проверка значимости Фишера, ни гипотезы Неймана-Пирсона не могут предоставить эту информацию и не претендуют на нее. Вероятность того, что гипотеза верна, может быть получена только на основе использования теоремы Байеса , которая была неудовлетворительной как для лагеря Фишера, так и для лагеря Неймана-Пирсона из-за явного использования субъективности в форме априорной вероятности . [11] [92] Стратегия Фишера состоит в том, чтобы обойти это с помощью p -значения (объективного индекса, основанного только на данных) с последующим индуктивным выводом , в то время как Нейман-Пирсон разработали свой подход индуктивного поведения .

См. также

[ редактировать ]
  1. ^ Льюис, Нэнси Д.; Льюис, Найджел Да Коста; Льюис, Северная Дакота (2013). 100 статистических тестов в R: что выбрать, как легко посчитать, с более чем 300 иллюстрациями и примерами . Хизер Хиллз Пресс. ISBN  978-1-4840-5299-0 .
  2. ^ Канджи, Гопал К. (18 июля 2006 г.). 100 статистических тестов . МУДРЕЦ. ISBN  978-1-4462-2250-8 .
  3. ^ Беллхаус, П. (2001), «Джон Арбутнот», в книге «Статистики столетий» К. К. Хейда и Э. Сенеты , Springer, стр. 39–42, ISBN  978-0-387-95329-8
  4. ^ Мил, П. (1990). «Оценка и изменение теорий: стратегия защиты Лакатоса и два принципа, которые ее оправдывают» (PDF) . Психологический опрос . 1 (2): 108–141. дои : 10.1207/s15327965pli0102_1 .
  5. ^ Перейти обратно: а б Лаплас, П. (1778). «Вероятностная диссертация» (PDF) . Мемуары Парижской королевской академии наук . 9 : 227–332. Архивировано из оригинала (PDF) 27 апреля 2015 г. Проверено 5 сентября 2013 г.
  6. ^ Пирсон, К. (1900). «О том критерии, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал . 5 (50): 157–175. дои : 10.1080/14786440009463897 .
  7. ^ Пирсон, К. (1904). «О теории непредвиденных обстоятельств и ее связи с ассоциацией и нормальной корреляцией» . Серия биометрических мемуаров об исследованиях компании Drapers . 1 :1–35.
  8. ^ Забелл, С. (1989). «РА Фишер по истории обратной вероятности» . Статистическая наука . 4 (3): 247–256. дои : 10.1214/ss/1177012488 . JSTOR   2245634 .
  9. ^ Перейти обратно: а б Рэймонд Хаббард, М. Дж. Баярри , Значения P не являются вероятностью ошибки. Архивировано 4 сентября 2013 г. в Wayback Machine . Рабочий документ, объясняющий разницу между доказательным значением p Фишера и частотой ошибок Неймана-Пирсона типа I. .
  10. ^ Перейти обратно: а б Фишер, Р. (1955). «Статистические методы и научная индукция» (PDF) . Журнал Королевского статистического общества, серия B. 17 (1): 69–78. дои : 10.1111/j.2517-6161.1955.tb00180.x .
  11. ^ Перейти обратно: а б с д Нейман, Дж; Пирсон, Э.С. (1 января 1933 г.). «К проблеме наиболее эффективной проверки статистических гипотез» . Философские труды Королевского общества А. 231 (694–706): 289–337. Бибкод : 1933RSPTA.231..289N . дои : 10.1098/rsta.1933.0009 .
  12. ^ Гудман, С.Н. (15 июня 1999 г.). «К медицинской статистике, основанной на фактических данных. 1: Ошибка значения P». Энн интерн Мед . 130 (12): 995–1004. дои : 10.7326/0003-4819-130-12-199906150-00008 . ПМИД   10383371 . S2CID   7534212 .
  13. ^ Перейти обратно: а б с д Леманн, Э.Л. (декабрь 1993 г.). «Теории Фишера, Неймана-Пирсона о проверке гипотез: одна теория или две?». Журнал Американской статистической ассоциации . 88 (424): 1242–1249. дои : 10.1080/01621459.1993.10476404 .
  14. ^ Фишер, Р.Н. (1958). «Природа вероятности» (PDF) . Столетний обзор . 2 : 261–274. Мы рискуем отправить в мир высококвалифицированных и очень умных молодых людей с таблицами ошибочных чисел под мышкой и с густым туманом в том месте, где должны быть их мозги. В этом столетии, конечно, они будут работать над управляемыми ракетами и консультировать медиков по вопросам борьбы с болезнями, и нет предела тому, до какой степени они могут препятствовать любым национальным усилиям.
  15. ^ Перейти обратно: а б с Ленхард, Йоханнес (2006). «Модели и статистические выводы: противоречие между Фишером и Нейманом-Пирсоном». Бр. Дж. Филос. Наука . 57 : 69–91. дои : 10.1093/bjps/axi152 . S2CID   14136146 .
  16. ^ Нейман, Ежи (1967). «РА Фишер (1890–1962): Признательность». Наука . 156 (3781): 1456–1460. Бибкод : 1967Sci...156.1456N . дои : 10.1126/science.156.3781.1456 . ПМИД   17741062 . S2CID   44708120 .
  17. ^ Лосавич, Дж.Л.; Нейман, Дж.; Скотт, Эл.; Уэллс, Массачусетс (1971). «Гипотетические объяснения очевидных негативных последствий засева облаков в эксперименте с Белой вершиной» . Труды Национальной академии наук Соединенных Штатов Америки . 68 (11): 2643–2646. Бибкод : 1971PNAS...68.2643L . дои : 10.1073/pnas.68.11.2643 . ПМЦ   389491 . ПМИД   16591951 .
  18. ^ Перейти обратно: а б Халпин, П.Ф.; Стам, HJ (зима 2006 г.). «Индуктивный вывод или индуктивное поведение: Фишер и Нейман: подходы Пирсона к статистическому тестированию в психологических исследованиях (1940–1960)». Американский журнал психологии . 119 (4): 625–653. дои : 10.2307/20445367 . JSTOR   20445367 . ПМИД   17286092 .
  19. ^ Гигеренцер, Герд; Зено Свитинк; Теодор Портер; Лоррейн Дастон; Джон Битти; Лоренц Крюгер (1989). «Часть 3: Эксперты по выводам». Империя случая: как вероятность изменила науку и повседневную жизнь . Издательство Кембриджского университета. стр. 70–122. ISBN  978-0-521-39838-1 .
  20. ^ Мэйо, генеральный директор; Спанос, А. (2006). «Строгое тестирование как основная концепция индукционной философии Неймана-Пирсона». Британский журнал философии науки . 57 (2): 323–357. CiteSeerX   10.1.1.130.8131 . дои : 10.1093/bjps/axl003 . S2CID   7176653 .
  21. ^ Математика > Средняя школа: статистика и вероятность > Введение. Архивировано 28 июля 2012 г., в archive.today Инициатива по общим основным государственным стандартам (касается студентов из США).
  22. ^ Тесты Совета колледжа> AP: Предметы> Статистика Совет колледжа (относится к студентам из США)
  23. ^ Хафф, Даррелл (1993). Как лгать со статистикой . Нью-Йорк: Нортон. п. 8 . ISBN  978-0-393-31072-6 . «Статистические методы и статистические термины необходимы при сообщении массовых данных о социальных и экономических тенденциях, условиях предпринимательской деятельности, опросах общественного мнения, переписи населения. Но без писателей, которые честно используют эти слова, и читателей, которые знают, что они означают, результатом может стать только смысловая чепуха».
  24. ^ Снедекор, Джордж В.; Кокран, Уильям Г. (1967). Статистические методы (6-е изд.). Эймс, Айова: Издательство Университета штата Айова. п. 3. «...основные идеи статистики помогают нам ясно размышлять над проблемой, дают некоторые указания относительно условий, которые должны быть удовлетворены, чтобы можно было сделать правильные выводы, и позволяют нам обнаруживать многие выводы, которые не имеют хорошей логики. фундамент."
  25. ^ Перейти обратно: а б Э. Л. Леманн (1997). «Проверка статистических гипотез: история книги» . Статистическая наука . 12 (1): 48–52. дои : 10.1214/ss/1029963261 .
  26. ^ Сотос, Ана Элиза Кастро; Ванхоф, Стейн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2007). «Заблуждения студентов о статистических выводах: обзор эмпирических данных исследований в области статистического образования» (PDF) . Обзор образовательных исследований . 2 (2): 98–113. дои : 10.1016/j.edurev.2007.04.001 .
  27. ^ Мур, Дэвид С. (1997). «Новая педагогика и новый контент: пример статистики» (PDF) . Международный статистический обзор . 65 (2): 123–165. дои : 10.2307/1403333 . JSTOR   1403333 .
  28. ^ Хаббард, Раймонд; Армстронг, Дж. Скотт (2006). «Почему мы на самом деле не знаем, что означает статистическая значимость: последствия для преподавателей». Журнал маркетингового образования . 28 (2): 114–120. дои : 10.1177/0273475306288399 . hdl : 2092/413 . S2CID   34729227 .
  29. ^ Сотос, Ана Элиза Кастро; Ванхоф, Стейн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2009). «Насколько студенты уверены в своих заблуждениях о проверке гипотез?» . Журнал статистического образования . 17 (2). дои : 10.1080/10691898.2009.11889514 .
  30. ^ Гигеренцер, Г. (2004). «Нулевой ритуал. Что вы всегда хотели знать о важных тестах, но боялись спросить» (PDF) . Справочник SAGE по количественной методологии для социальных наук . стр. 391–408. дои : 10.4135/9781412986311 . ISBN  9780761923596 .
  31. ^ «Проверка статистических гипотез» . Спрингеровские тексты в статистике . 2005. doi : 10.1007/0-387-27605-x . ISBN  978-0-387-98864-1 . ISSN   1431-875X .
  32. ^ Хинкельманн, Клаус; Кемпторн, Оскар (2008). Планирование и анализ экспериментов . Том. I и II (Второе изд.). Уайли. ISBN  978-0-470-38551-7 .
  33. ^ Монтгомери, Дуглас (2009). Планирование и анализ экспериментов . Хобокен, Нью-Джерси: Уайли. ISBN  978-0-470-12866-4 .
  34. ^ Р. А. Фишер (1925). Статистические методы для научных работников , Эдинбург: Оливер и Бойд, 1925, стр. 43.
  35. ^ Перейти обратно: а б Леманн, Эль; Романо, Джозеф П. (2005). Проверка статистических гипотез (изд. 3E). Нью-Йорк: Спрингер. ISBN  978-0-387-98864-1 .
  36. ^ Нуццо, Регина (2014). «Научный метод: Статистические ошибки» . Природа . 506 (7487): 150–152. Бибкод : 2014Natur.506..150N . дои : 10.1038/506150a . ПМИД   24522584 .
  37. ^ Ричард Дж. Ларсен; Донна Фокс Строуп (1976). Статистика в реальном мире: книга примеров . Макмиллан. ISBN  978-0023677205 .
  38. ^ Хаббард, Р.; Парса, Арканзас; Люти, MR (1997). «Распространение тестирования статистической значимости в психологии: на примере журнала прикладной психологии». Теория и психология . 7 (4): 545–554. дои : 10.1177/0959354397074006 . S2CID   145576828 .
  39. ^ Мур, Дэвид (2003). Введение в практику статистики . Нью-Йорк: WH Freeman and Co., с. 426. ИСБН  9780716796572 .
  40. ^ Ранганатан, Прия; Прамеш, К.С.; Буйс, Марк (апрель – июнь 2016 г.). «Распространенные ошибки статистического анализа: опасности множественного тестирования» . Перспектива Клин Рес . 7 (2): 106–107. дои : 10.4103/2229-3485.179436 . ПМЦ   4840791 . ПМИД   27141478 .
  41. ^ Хьюз, Энн Дж.; Гравойг, Деннис Э. (1971). Статистика: основа анализа . Ридинг, Массачусетс: Аддисон-Уэсли. п. 191 . ISBN  0-201-03021-7 .
  42. ^ Холл П. и Уилсон С.Р., 1991. Два руководства по проверке гипотез начальной загрузки. Биометрия, стр.757-762.
  43. ^ Тибширани, Р.Дж. и Эфрон, Б., 1993. Введение в бутстрап. Монографии по статистике и прикладной вероятности, 57(1).
  44. ^ Мартин, Массачусетс, 2007. Проверка гипотезы начальной загрузки для некоторых распространенных статистических проблем: критическая оценка свойств размера и мощности. Вычислительная статистика и анализ данных, 51 (12), стр. 6321-6342.
  45. ^ Горовиц, Дж. Л., 2019. Бутстрап-методы в эконометрике. Ежегодный обзор экономики, 11, стр. 193–224.Я
  46. ^ Джон Арбутнот (1710 г.). «Аргумент в пользу Божественного Провидения, основанный на постоянной регулярности рождаемости у представителей обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. дои : 10.1098/rstl.1710.0011 . S2CID   186209819 .
  47. ^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Изменение соотношения полов при рождении . Springer Science & Business Media. стр. 1–25 . ISBN  978-1-4020-6036-6 .
  48. ^ Коновер, WJ (1999), «Глава 3.4: Знаковый тест», Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN  978-0-471-16068-7
  49. ^ Срент, П. (1989), Прикладные непараметрические статистические методы (второе изд.), Chapman & Hall, ISBN  978-0-412-44980-2
  50. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. стр. 225–226 . ISBN  978-0-67440341-3 .
  51. ^ Лаплас, П. (1778). «Память о вероятности (XIX, XX)» . Полное собрание сочинений Лапласа . Полет. 9.стр. 429–438. {{cite book}}: |journal= игнорируется ( помогите )
  52. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж, Массачусетс: Belknap Press издательства Гарвардского университета. п. 134 . ISBN  978-0-674-40340-6 .
  53. ^ Фишер, сэр Рональд А. (1956) [1935]. «Математика дамы, дегустирующей чай» . В Джеймсе Рое Ньюмане (ред.). Мир математики, том 3 [ Планирование экспериментов ]. Публикации Courier Dover. ISBN  978-0-486-41151-4 . Первоначально из книги Фишера «Планирование экспериментов» .
  54. ^ Коробка, Джоан Фишер (1978). Р.А. Фишер, Жизнь учёного . Нью-Йорк: Уайли. п. 134. ИСБН  978-0-471-09300-8 .
  55. ^ К.С. Пирс (август 1878 г.). «Иллюстрации логики науки VI: дедукция, индукция и гипотеза» . Научно-популярный ежемесячник . 13 . Проверено 30 марта 2012 г.
  56. ^ Джейнс, ET (2007). Теория вероятностей: логика науки (5-е печатное изд.). Кембридж [ua]: Cambridge Univ. Нажимать. ISBN  978-0-521-59271-0 .
  57. ^ Шервиш, М. (1996) Теория статистики , с. 218. Спрингер ISBN   0-387-94546-6
  58. ^ Кэй, Дэвид Х.; Фридман, Дэвид А. (2011). «Справочник по статистике» . Справочное руководство по научным данным (3-е изд.). Иган, Миннесота Вашингтон, округ Колумбия: Издательство Западных национальных академий. п. 259. ИСБН  978-0-309-21421-6 .
  59. ^ Эш, Роберт (1970). Основная теория вероятностей . Нью-Йорк: Уайли. ISBN  978-0471034506 . Раздел 8.2
  60. ^ Перейти обратно: а б Тьюки, Джон В. (1960). «Выводы против решений». Технометрика . 26 (4): 423–433. дои : 10.1080/00401706.1960.10489909 . «Пока мы не пройдемся по отчетам о проверке гипотез, отделяя элементы решения [Неймана-Пирсона] от элементов заключения [Фишера], тесная смесь несопоставимых элементов будет постоянным источником путаницы». ... «Есть место и для того, чтобы «делать все, что в твоих силах», и для того, чтобы «говорить только то, что достоверно», но важно знать в каждом случае и то, что делается, и то, что следует делать. "
  61. ^ Стиглер, Стивен М. (август 1996 г.). «История статистики в 1933 году» . Статистическая наука . 11 (3): 244–252. дои : 10.1214/ss/1032280216 . JSTOR   2246117 .
  62. ^ Бергер, Джеймс О. (2003). «Могли ли Фишер, Джеффрис и Нейман договориться о тестировании?» . Статистическая наука . 18 (1): 1–32. дои : 10.1214/ss/1056397485 .
  63. ^ Моррисон, Дентон; Хенкель, Рамон, ред. (2006) [1970]. Споры о тесте значимости . Альдинская сделка. ISBN  978-0-202-30879-1 .
  64. ^ Оукс, Майкл (1986). Статистический вывод: комментарий для социальных и поведенческих наук . Чичестер, Нью-Йорк: Уайли. ISBN  978-0471104438 .
  65. ^ Чоу, Сиу Л. (1997). Статистическая значимость: обоснование, достоверность и полезность . Публикации SAGE. ISBN  978-0-7619-5205-3 .
  66. ^ Харлоу, Лиза Лавуа; Стэнли А. Мулайк; Джеймс Х. Стайгер, ред. (1997). Что, если бы не было никаких тестов значимости? . Лоуренс Эрлбаум Ассошиэйтс. ISBN  978-0-8058-2634-0 .
  67. ^ Перейти обратно: а б Клайн, Рекс (2004). За пределами тестирования значимости: реформирование методов анализа данных в поведенческих исследованиях . Вашингтон, округ Колумбия: Американская психологическая ассоциация. ISBN  9781591471189 .
  68. ^ Макклоски, Дейдра Н.; Стивен Т. Зилиак (2008). Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней . Издательство Мичиганского университета. ISBN  978-0-472-05007-9 .
  69. ^ Корнфилд, Джером (1976). «Последний методологический вклад в клинические исследования» (PDF) . Американский журнал эпидемиологии . 104 (4): 408–421. doi : 10.1093/oxfordjournals.aje.a112313 . ПМИД   788503 .
  70. ^ Йейтс, Фрэнк (1951). «Влияние статистических методов для научных работников на развитие статистической науки». Журнал Американской статистической ассоциации . 46 (253): 19–34. дои : 10.1080/01621459.1951.10500764 . «Акцент, уделяемый формальным тестам значимости в «Статистических методах» [Р.А. Фишера]... заставил научных работников уделять чрезмерное внимание результатам тестов значимости, которые они выполняют над своими данными, особенно данными, полученными в результате экспериментов, а также мало что соответствует оценкам масштабов эффектов, которые они исследуют». ... «Акцент на проверках значимости и рассмотрение результатов каждого эксперимента в отдельности имели печальные последствия: научные работники часто считали выполнение проверки значимости эксперимента конечной целью».
  71. ^ Бегг, Колин Б.; Берлин, Джесси А. (1988). «Предвзятость публикации: проблема интерпретации медицинских данных». Журнал Королевского статистического общества, серия А. 151 (3): 419–463. дои : 10.2307/2982993 . JSTOR   2982993 . S2CID   121054702 .
  72. ^ Мил, Пол Э. (1967). «Проверка теорий в психологии и физике: методологический парадокс» (PDF) . Философия науки . 34 (2): 103–115. дои : 10.1086/288135 . S2CID   96422880 . Архивировано из оригинала (PDF) 3 декабря 2013 года . Тридцать лет спустя Мил признал теорию статистической значимости математически обоснованной, продолжая при этом подвергать сомнению выбор нулевой гипотезы по умолчанию, обвиняя вместо этого «плохое понимание логических отношений учеными-социологами». между теорией и фактом» в «Проблема в эпистемологии, а не в статистике: заменить критерии значимости доверительными интервалами и количественно оценить точность рискованных числовых прогнозов» (глава 14 в Harlow (1997)).
  73. ^ Бакан, Дэвид (1966). «Тест значимости в психологических исследованиях». Психологический вестник . 66 (6): 423–437. дои : 10.1037/h0020412 . ПМИД   5974619 .
  74. ^ Гигеренцер, Г. (ноябрь 2004 г.). «Бессмысленная статистика». Журнал социально-экономики . 33 (5): 587–606. doi : 10.1016/j.socec.2004.09.033 .
  75. ^ Нанналли, Джам (1960). «Место статистики в психологии». Образовательные и психологические измерения . 20 (4): 641–650. дои : 10.1177/001316446002000401 . S2CID   144813784 .
  76. ^ Ликкен, Дэвид Т. (1991). «А что не так с психологией?». Думая ясно о психологии . 1 :3–39.
  77. ^ Джейкоб Коэн (декабрь 1994 г.). «Земля круглая (p < 0,05)». Американский психолог . 49 (12): 997–1003. дои : 10.1037/0003-066X.49.12.997 . S2CID   380942 . Эта статья привела к обзору статистической практики, проведенному APA. Коэн был членом оперативной группы, проводившей проверку.
  78. ^ Перейти обратно: а б с Никерсон, Раймонд С. (2000). «Проверка значимости нулевой гипотезы: обзор старого и продолжающегося спора». Психологические методы . 5 (2): 241–301. дои : 10.1037/1082-989X.5.2.241 . ПМИД   10937333 . S2CID   28340967 .
  79. ^ Бранч, Марк (2014). «Злокачественные побочные эффекты проверки значимости нулевой гипотезы». Теория и психология . 24 (2): 256–277. дои : 10.1177/0959354314525282 . S2CID   40712136 .
  80. ^ Хантер, Джон Э. (январь 1997 г.). «Необходимо: запрет на тест на значимость». Психологическая наука . 8 (1): 3–7. дои : 10.1111/j.1467-9280.1997.tb00534.x . S2CID   145422959 .
  81. ^ Перейти обратно: а б Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах: рекомендации и пояснения». Американский психолог . 54 (8): 594–604. дои : 10.1037/0003-066X.54.8.594 . S2CID   428023 . «Проверка гипотез. Трудно представить ситуацию, в которой дихотомическое решение принять-отклонить лучше, чем сообщать фактическое значение p или, еще лучше, доверительный интервал». (стр. 599). Комитет использовал предостерегающий термин «терпимость», описывая свое решение против запрета проверки гипотез в психологических репортажах. (стр. 603)
  82. ^ «ICMJE: Обязательство публиковать отрицательные исследования» . Архивировано из оригинала 16 июля 2012 года . Проверено 3 сентября 2012 г. Редакторы должны серьезно рассматривать возможность публикации любого тщательно проведенного исследования важного вопроса, интересующего читателей, независимо от того, являются ли результаты основного или любого дополнительного результата статистически значимыми. Неспособность представить или опубликовать результаты из-за отсутствия статистической значимости является важной причиной предвзятости публикации.
  83. ^ Веб-сайт журнала статей в поддержку нулевой гипотезы : домашняя страница JASNH . Том 1 номер 1 был опубликован в 2002 году, и все статьи посвящены темам, связанным с психологией.
  84. ^ Хауэлл, Дэвид (2002). Статистические методы психологии (5-е изд.). Даксбери. п. 94 . ISBN  978-0-534-37770-0 .
  85. ^ Уильямс С., Карсон Р., Тот К. (10 октября 2023 г.). «Выход за пределы значений P в Журнале физиологии: введение в значение величины эффекта и доверительных интервалов» . Дж Физиол . 601 (23): 5131–5133. дои : 10.1113/JP285575 . ПМИД   37815959 . S2CID   263827430 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  86. ^ Перейти обратно: а б Крушке, Ю.К. (9 июля 2012 г.). «Байесовская оценка заменяет T-тест» (PDF) . Журнал экспериментальной психологии: Общие сведения . 142 (2): 573–603. дои : 10.1037/a0029146 . ПМИД   22774788 . S2CID   5610231 .
  87. ^ Перейти обратно: а б Крушке, Ю.К. (8 мая 2018 г.). «Отклонение или принятие значений параметров в байесовской оценке» (PDF) . Достижения в методах и практике психологической науки . 1 (2): 270–280. дои : 10.1177/2515245918771304 . S2CID   125788648 .
  88. ^ Армстронг, Дж. Скотт (2007). «Проверка значимости вредит прогрессу в прогнозировании» . Международный журнал прогнозирования . 23 (2): 321–327. CiteSeerX   10.1.1.343.9516 . doi : 10.1016/j.ijforecast.2007.03.004 . S2CID   1550979 .
  89. ^ Касс, Р.Э. (1993). Факторы Байеса и неопределенность модели (PDF) (Отчет). Департамент статистики Вашингтонского университета.
  90. ^ Розбум, Уильям В. (1960). «Ошибочность теста значимости нулевой гипотезы» (PDF) . Психологический вестник . 57 (5): 416–428. CiteSeerX   10.1.1.398.9002 . дои : 10.1037/h0042040 . ПМИД   13744252 . «... правильное применение статистики для научных выводов неизбежно связано с широким рассмотрением обратных [так называемых байесовских] вероятностей...» Было с сожалением признано, что априорные распределения вероятностей были доступны «только как субъективное ощущение, отличаться от одного человека к другому, «по крайней мере, в ближайшем будущем».
  91. ^ Бергер, Джеймс (2006). «Аргументы в пользу объективного байесовского анализа» . Байесовский анализ . 1 (3): 385–402. дои : 10.1214/06-ba115 . Перечисляя конкурирующие определения «объективного» байесовского анализа, «основная цель статистики (на самом деле науки) состоит в том, чтобы найти полностью последовательную объективную байесовскую методологию обучения на основе данных». Автор высказал мнение, что эта цель «недостижима».
  92. ^ Олдрич, Дж (2008). «Р. А. Фишер о Байесе и теореме Байеса» . Байесовский анализ . 3 (1): 161–170. дои : 10.1214/08-BA306 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]

Онлайн калькуляторы

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a44797e5aaaadd5e7773b271eb4b6957__1719010980
URL1:https://arc.ask3.ru/arc/aa/a4/57/a44797e5aaaadd5e7773b271eb4b6957.html
Заголовок, (Title) документа по адресу, URL1:
Statistical hypothesis test - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)