Перейти к содержимому

8. Статистика

Проверка гипотез: одновыборочные критерии

Ранее была изложена концепция выборочных распределений, которая позднее была использована для построения доверительных интервалов. В настоящей заметке основное внимание уделяется методам проверки гипотез, которые представляют собой часть теории статистического вывода, использующую информацию, содержащуюся в выборке. [1]

Применение статистики в этой заметке будет показано на сквозном примере «Процесс расфасовки кукурузных хлопьев». Будучи управляющим компании Oxford Cereal Company, вы отвечаете за процесс расфасовки кукурузных хлопьев по коробкам. Необходимо убедиться, что конвейер работает нормально, и каждая коробка содержит в среднем 368 г зерна. Для этого вы извлекаете из генеральной совокупности 25 коробок, взвешиваете их и оцениваете отклонение реального веса от номинального. Коробки из этой выборки могут содержать либо слишком мало, либо слишком много хлопьев. В этом случае следует остановить производство и определить причину неполадок. Анализируя разности между реальным весом и номинальным, необходимо решить, равно ли математическое ожидание генеральной совокупности 368 г или нет. Если равно, процесс расфасовки не требует вмешательства, если нет — следует остановить конвейер.

Нулевая и альтернативная гипотеза

Проверка гипотез обычно начинается с некоего утверждения, касающегося конкретного параметра генеральной совокупности. Например, при статистическом анализе процесса расфасовки кукурузных хлопьев естественно предположить, что конвейер работает нормально, и, следовательно, средний вес коробок равен 368 г. Гипотеза о том, что параметр генеральной совокупности равен ожидаемому, называется нулевой и обозначается как Н0. В нашем примере нулевая гипотеза заключается в том, что заполнение коробок осуществляется правильно и средний вес коробок равен 368 г. Сформулируем это следующим образом: Н0: μ = 368.

Подробнее »Проверка гипотез: одновыборочные критерии

Применение доверительных интервалов в аудиторском деле

Описывая доверительные интервалы, мы сосредоточили внимание на математическом ожидании и доле признака в генеральной совокупности. Эти средства статистического анализа нашли весьма широкое применение в аудиторском деле. [1] Аудит — это сбор и оценка информации, позволяющей оценить состояние экономического объекта, например, компании, акционерного общества, корпорации или правительственного агентства. Цель аудита — оценить, насколько деятельность проверяемого объекта соответствует установленным критериям.

Основных преимуществ выборочного исследования, применяемого при аудите.

  • Результаты выборочного исследования объективны и обоснованы. Поскольку определение объема выборки основано на точно сформулированных статистических принципах, результаты аудиторской проверки можно защищать в суде.
  • Метод выборочного исследования позволяет заранее определить объем выборки.
  • Метод позволяет оценить ошибку выборочного исследования.
  • Этот подход можно применять для более точной оценки параметров, поскольку исследование большой генеральной совокупности может занять много времени и даже сопровождаться значительными ошибками нестатистического характера.
  • Метод выборочного исследования могут применять сразу несколько аудиторов. Поскольку этот метод является научно обоснованным, можно считать, что в параллельной проверке принимает участие один аудитор.
  • Метод выборочного исследования позволяет объективно оценить результаты проверки, поскольку его точность известна заранее.

Подробнее »Применение доверительных интервалов в аудиторском деле

Определение объема выборки

Ранее мы рассмотрели методы построения доверительного интервала для математического ожидания генеральной совокупности. В каждом из рассмотренных случаев мы заранее фиксировали объем выборки, не учитывая ширину доверительного интервала. В реальных задачах определить объем выборки довольно сложно. Это зависит от наличия финансовых ресурсов, времени и легкости создания выборки. [1] Например, если нам необходимо оценить среднюю сумму накладных или долю ошибочных накладных в информационной системе компании, сначала следует выяснить, насколько точной должна быть оценка. Иначе говоря, следует задать ошибку выборочного исследования, допускаемую при оценке каждого из параметров. Кроме того, необходимо заранее определить доверительный уровень оценки истинного параметра генеральной совокупности.

Определение объема выборки для оценки математического ожидания

Чтобы определить объем выборки, необходимый для оценки математического ожидания генеральной совокупности, следует учесть величину ошибки выборочного исследования и доверительный уровень. Кроме того, необходима дополнительная информация о величине стандартного отклонения. Для того чтобы вывести формулу, позволяющую вычислить объем выборки, начнем с формулы (1) (о происхождении этой формулы см. Построение доверительного интервала для математического ожидания генеральной совокупности):

где – среднее значение выборки, Z — значение стандартизованной нормально распределенной случайной величины, соответствующее интегральной вероятности, равной 1 – α/2, σ — стандартное отклонение генеральной совокупности, n – объем выборки

Подробнее »Определение объема выборки

Построение доверительного интервала для математического ожидания генеральной совокупности

В статистике существует два вида оценок: точечные и интервальные. Точечная оценка представляет собой отдельную выборочную статистику, которая используется для оценки параметра генеральной совокупности.[1] Например, выборочное среднее — это точечная оценка математического ожидания генеральной совокупности, а выборочная дисперсия S2 — точечная оценка дисперсии генеральной совокупности σ2. Ранее было показано, что выборочное среднее является несмещенной оценкой математического ожидания генеральной совокупности. Выборочное среднее называется несмещенным, поскольку среднее значение всех выборочных средних (при одном и том же объеме выборки n) равно математическому ожиданию генеральной совокупности.

Для того чтобы выборочная дисперсия S2 стала несмещенной оценкой дисперсии генеральной совокупности σ2, знаменатель выборочной дисперсии следует положить равным n – 1, а не n. Иначе говоря, дисперсия генеральной совокупности является средним значением всевозможных выборочных дисперсий.

При оценке параметров генеральной совокупности следует иметь в виду, что выборочные статистики, такие как , зависят от конкретных выборок. Чтобы учесть этот факт, для получения интервальной оценки математического ожидания генеральной совокупности анализируют распределение выборочных средних (подробнее см. Выборочные распределения). Построенный интервал характеризуется определенным доверительным уровнем, который представляет собой вероятность того, что истинный параметр генеральной совокупности оценен правильно. Аналогичные доверительные интервалы можно применять для оценки доли признака р и основной распределенной массы генеральной совокупности.

Подробнее »Построение доверительного интервала для математического ожидания генеральной совокупности

Выборочные распределения

Основной целью анализа данных являются статистические выводы, т.е. применение выборочных показателей для оценки параметров генеральной совокупности. Статистические выводы относятся к генеральным совокупностям, а не к выборкам из них. Например, социологи изучают результаты выборочных обследований только для того, чтобы оценить шансы кандидатов получить голоса из всей генеральной совокупности избирателей в целом. Выборочное среднее, полученное при обследовании конкретной выборки, само по себе интереса не представляет. [1]

На практике из генеральной совокупности извлекается выборка заранее установленного объема. Элементы, принадлежащие данной выборке, выбираются случайным образом, например, с помощью датчика случайных чисел. Распределения выборочных параметров называют выборочными.

Выборочное распределение средних значений

Ранее мы рассмотрели несколько оценок математического ожидания распределения. Чаще всего для этого используется арифметическое среднее. Это наилучшая оценка математического ожидания, если распределение является нормальным.

Арифметическое среднее называется несмещенным, поскольку среднее значение всех выборочных средних (при заданном объеме выборки n) равно математическому ожиданию генеральной совокупности. Продемонстрируем это свойство на примере. Предположим, что генеральная совокупность машинисток в секретариате компании состоит из четырех сотрудниц. Каждую из них попросили напечатать один и тот же текст. Количество опечаток, сделанных каждой машинисткой: Энн – Х1 = 3, Кэт – Х2 = 2, Карла – Х3 = 1, Ширли – Х4 = 4. Распределение ошибок приведено на рис. 1.

Рис. 1. Количество опечаток, сделанных четырьмя машинистками

Подробнее »Выборочные распределения

Равномерное и экспоненциальное распределения

Ранее мы изучили нормальное распределение (см. панель А на рис. 1). Рассмотрим теперь два других непрерывных распределения: равномерное и экспоненциальное. [1] Случайная величина имеет равномерное распределение, если вероятность того, что она принимает любое значение в интервале, ограниченном минимальным числом а и максимальным числом b, постоянна. Поскольку график плотности этого распределения имеет вид прямоугольника, равномерное распределение иногда называют прямоугольным (см. панель Б на рис. 1).

Рис. 1. Три непрерывных распределения

Подробнее »Равномерное и экспоненциальное распределения

Проверка гипотезы о нормальном распределении

Ранее мы обсудили свойства нормального распределения. Рассмотрим теперь весьма важную практическую проблему. Насколько естественным является предположение о том, что конкретные данные представляют собой значения нормально… Подробнее »Проверка гипотезы о нормальном распределении

Нормальное распределение

Числовые случайные величины могут быть либо дискретными, либо непрерывными (подробнее см. Типы данных). Дискретные случайные величины (т.е. величины, возникающие в результате подсчета событий) были рассмотрены ранее (см. Биномиальное распределение, Гипергеометрическое распределение, Распределение Пуассона). В этой и нескольких следующих заметках мы изучим непрерывные случайные величины, которые возникают в результате измерений. Непрерывная случайная величина может принимать любое значение, принадлежащее числовой оси или интервалу. [1] Примером такой случайной величины может служить вес какой-нибудь коробки, время загрузки Web-страницы, расходы на рекламу, доходы от продаж, время обслуживания клиента и время между двумя приходами клиентов в банк.

Математическое выражение, описывающее распределение значений непрерывной случайной величины, называется плотностью непрерывного распределения вероятностей (рис. 1). На панели А представлена плотность нормального распределения. Эта функция является симметричной и колоколообразной. Следовательно, большинство значений такой случайной величины концентрируется вокруг математического ожидания, которое совпадает с медианой. Несмотря на то что нормально распределенная случайная величина может принимать любые числовые значения, вероятность очень больших положительных или отрицательных значений крайне мала. На панели Б изображена плотность равномерного распределения. Значения случайной величины, равномерно распределенной на интервале от а до b, равновероятны. Иногда это распределение называют прямоугольным. Оно является симметричным, и, следовательно, его математическое ожидание равно медиане. На панели В показана плотность экспоненциального распределения. Это распределение имеет ярко выраженную положительную асимметрию, и, следовательно, его математическое ожидание больше медианы. Экспоненциально распределенные случайные величины изменяются от нуля до плюс бесконечности, однако очень большие значения крайне мало вероятны.

Рис. 1. Три непрерывных распределения

Подробнее »Нормальное распределение

Распределение Пуассона

Ранее мы рассмотрели два типа дискретных числовых распределений: биномиальное и гипергеометрическое. Во многих практически важных приложениях большую роль играет распределение Пуассона. Многие из числовых дискретных величин являются реализациями пуассоновского процесса, обладающего следующими свойствами:[1]

  • Нас интересует, сколько раз происходит некое событие в заданной области возможных исходов случайного эксперимента. Область возможных исходов может представлять собой интервал времени, отрезок, поверхность и т.п.
  • Вероятность данного события одинакова для всех областей возможных исходов.
  • Количество событий, происходящих в одной области возможных исходов, не зависит от количества событий, происходящих в других областях.
  • Вероятность того, что в одной и той же области возможных исходов данное событие происходит больше одного раза, стремится к нулю по мере уменьшения области возможных исходов.

Подробнее »Распределение Пуассона

Гипергеометрическое распределение

Гипергеометрическое распределение, как и биномиальное, позволяет оценить количество успехов в серии из n испытаний. Разница между ними заключается в способе получения исходных данных. В биномиальной модели данные выбираются либо из конечной генеральной совокупности с возвращением либо из бесконечной генеральной совокупности без возвращения. В гипергеометрической модели данные извлекаются только из конечной генеральной совокупности без возвращения. [1] Таким образом, в то время как в биномиальной модели вероятность успеха р остается постоянной, а испытания не зависят друг от друга, в гипергеометрической модели эти условия не выполняются. Наоборот, в гипергеометрической модели каждый исход зависит от предыдущих исходов.

Гипергеометрическое распределение, описывающее вероятность X успехов при заданных параметрах n, N и А:

где Р(Х) — вероятность X успехов при заданных n, N и А, n — объем выборки, N — объем генеральной совокупности, А — количество успешных исходов в генеральной совокупности, N – A — количество неудачных исходов в генеральной совокупности, X — количество успехов в выборке, N – X — количество неудачных исходов в выборке.

Подробнее »Гипергеометрическое распределение