Перейти к содержимому

8. Статистика

Применение χ2-критерия для проверки гипотезы о равенстве двух или нескольких долей

В предыдущих заметках были описаны процедуры проверки гипотез о числовых и категорийных данных: одновыборочные критери, несколько двухвыборочных, а также основы дисперсионного анализа, позволяющего изучать один или два интересующих нас фактора. В настоящей заметке мы рассмотрим методы проверки гипотез о различиях между долями признака в генеральных совокупностях на основе нескольких независимых выборок. [1]

Для иллюстрации применяемых методов используется сценарий, в котором оценивается степень удовлетворенности постояльцев отелей, принадлежащих компании Т. С. Resort Properties. Представьте себе, что вы — менеджер компании, владеющей пятью отелями, расположенными на двух курортных островах. Если гости удовлетворены обслуживанием, велика вероятность, что они вернутся на следующий год и порекомендуют своим друзьям остановиться именно в вашем отеле. Чтобы оценить качество обслуживания, постояльцев просят заполнить анкету и указать, довольны ли они гостеприимством. Вам необходимо проанализировать данные опроса, определить общую степень удовлетворенности запросов постояльцев, оценить вероятность того, что гости приедут вновь в следующем году, а также установить причины возможного недовольства некоторых клиентов. Например, на одном из островов компании принадлежат отели Beachcomber и Windsurfer. Одинаково ли обслуживание в этих отелях? Если нет, как эту информацию можно использовать для улучшения качества работы компании? Более того, если некоторые постояльцы заявили, что больше к вам не приедут, какие причины они указывают чаще других? Можно ли утверждать, что эти причины касаются лишь конкретной гостиницы и не относятся ко всей компании в целом?

Ранее был описан Z-критерий для сравнения двух долей. Сейчас мы рассмотрим способ, основанный на сравнении количества успехов в двух группах, а не их долей в генеральных совокупностях. В этой процедуре тестовая χ2-статистика аппроксимируется χ2-распределением с одной степенью свободы. Результат, полученный с помощью χ2-критерия эквивалентен результату применения Z-критерия.

Для сравнения количества успехов в двух независимых группах необходимо заполнить таблицу перекрестной классификации с двумя входами, содержащую количество успехов и неудач в каждой из групп (рис. 1). Такую таблицу часто называют таблицей сопряженности признаков или факторной (ранее мы уже приводили примеры таких таблиц; см. Представление категорийных данных в виде таблиц и диаграмм, а в заметке Основные понятия теории вероятностей мы использовали ее для определения понятия вероятности).

Рис. 1. Шаблон факторной таблицы 2х2

Подробнее »Применение χ2-критерия для проверки гипотезы о равенстве двух или нескольких долей

Блочный рандомизированный эксперимент

Ранее был рассмотрен F-критерий однофакторного дисперсионного анализа для оценки разностей между математическими ожиданиями с групп. Этот критерий применяется в ситуациях, когда n однородных элементов (так называемых экспериментальных объектов) случайным образом распределяются по с уровням исследуемого фактора (так называемые группы условий факторного эксперимента. Такие эксперименты называются полностью рандомизированными. [1]

Кроме того, в заметке Проверка гипотез: двухвыборочные критерии был описан t-критерий для оценки разностей между математическими ожиданиями, который используется в ситуациях, связанных с повторяющимися измерениями или согласованными выборками. Этот критерий позволяет оценить различия между условиями проведения двух экспериментов. Предположим, что мы исследуем несколько групп условий или уровней исследуемого фактора. В таких ситуациях совокупности неоднородных объектов или индивидуумов, подлежащих сравнению (или повторным измерениям), называются блоками. Допустим, мы получили числовые результаты измерений для каждой группы условий и комбинаций блоков.

Подробнее »Блочный рандомизированный эксперимент

Двухфакторный дисперсионный анализ

Ранее был рассмотрен полностью рандомизированный эксперимент и связанный с ним однофакторный дисперсионный анализ. В настоящей заметке будет изучен двухфакторный дисперсионный анализ, в ходе которого одновременно оцениваются два фактора. Мы рассмотрим лишь ситуации, в которых выборки имеют одинаковый объем n. [1]

Применение статистики в этой заметке будет показано на сквозном примере. Предположим, что вы — руководитель производства в компании Perfect Parachute («Идеальный парашют»). Парашюты изготавливаются из синтетических волокон, поставляемых четырьмя разными поставщиками. Совершенно очевидно, что одной из основных характеристик парашюта является его прочность. Вам необходимо убедиться, что все поставляемые волокна обладают одинаковой прочностью. Более того, на фабрике используется два вида ткацких станков: Jetta и Turk. Можно ли утверждать, что парашюты, изготовленные на станке фирмы Jetta, так же прочны, как и парашюты, произведенные на станках компании Turk? Существует ли разница между прочностью парашютов, сотканных из синтетических волокон разных поставщиков на разных станках? Чтобы ответить на этот вопрос, следует разработать схему эксперимента, в ходе которого измеряется прочность парашютов, сотканных из синтетических волокон разных поставщиков на разных станках. Информация, полученная в ходе этого эксперимента, позволит определить, какой поставщик и какой тип станка обеспечивают наибольшую прочность парашютов.

Вследствие сложности вычислений, особенно при большом количестве уровней каждого фактора и реплик, для двухфакторного анализа следует применять либо Excel, либо специализированное программное обеспечение. В двухфакторном эксперименте факторы А и В считаются взаимодействующими, если эффект фактора А зависит от уровня фактора В. Напомним, что в полностью рандомизированном плане полная сумма квадратов (SST) подразделяется на межгрупповую сумму квадратов (SSA) и внутригрупповую сумму квадратов (SSW). В двухфакторном эксперименте с одинаковым количеством реплик в каждой ячейке полная вариация (SST) подразделяется на сумму квадратов, соответствующую фактору A (SSA), сумму квадратов, соответствующую фактору В (SSB), сумму квадратов, учитывающую взаимодействие факторов А и В (SSAB), и сумму квадратов, возникающую вследствие случайной ошибки (SSE) (рис. 1).

Рис. 1. Разделение полной вариации в двухфакторном эксперименте

Подробнее »Двухфакторный дисперсионный анализ

Однофакторный дисперсионный анализ

В предыдущей заметке были рассмотрены методы проверки гипотез, применяемые для анализа возможных разностей между параметрами двух групп. Однако зачастую необходимо оценить разности между параметрами нескольких групп. Например, может возникнуть необходимость сравнить альтернативные материалы, методы или условия проведения эксперимента на основе заранее установленных критериев. Настоящая заметка посвящена полностью рандомизированному плану эксперимента, в котором рассматривается только один фактор и несколько групп (например, тип шины, рыночная стратегия, марка лекарства или разные поставщики). [1]

Применение статистики в этой заметке будет показано на сквозном примере. Предположим, что вы — руководитель производства в компании Perfect Parachute («Идеальный парашют»). Парашюты изготавливаются из синтетических волокон, поставляемых четырьмя разными поставщиками. Одной из основных характеристик парашюта является его прочность. Вам необходимо убедиться, что все поставляемые волокна обладают одинаковой прочностью. Чтобы ответить на этот вопрос, следует разработать схему эксперимента, в ходе которого измеряется прочность парашютов, сотканных из синтетических волокон разных поставщиков. Информация, полученная в ходе этого эксперимента, позволит определить, какой поставщик обеспечивают наибольшую прочность парашютов.

Многие приложения связаны с экспериментами, в которых рассматривается несколько групп или уровней одного фактора. Некоторые факторы, например, температура обжига керамики, могут иметь несколько числовых уровней (т.е. 300°, 350°, 400° и 450°). Другие факторы, например, местоположение товаров в супермаркете, могут иметь категориальные уровни (например, первый поставщик, второй поставщик, третий поставщик, четвертый поставщик). Однофакторные эксперименты, в ходе которых экспериментальные единицы случайным образом распределяются по группам или уровням фактора, называются полностью рандомизированными.

Использование F-критерия для оценки разностей между несколькими математическими ожиданиями

Если числовые измерения фактора в группах являются непрерывными и выполняются некоторые дополнительные условия, для сравнения математических ожиданий нескольких групп применяется дисперсионный анализ (ANOVA — Analysis of Variance). Дисперсионный анализ, использующий полностью рандомизированные планы, называется однофакторной процедурой ANOVA. В некотором смысле термин дисперсионный анализ является неточным, поскольку при этом анализе сравниваются разности между математическими ожиданиями групп, а не между дисперсиями. Однако сравнение математических ожиданий осуществляется именно на основе анализа вариации данных. В процедуре ANOVA полная вариация результатов измерений подразделяется на межгрупповую и внутригрупповую (рис. 1). Внутригрупповая вариация объясняется ошибкой эксперимента, а межгрупповая — эффектами условий эксперимента. Символ с обозначает количество групп.

Рис. 1. Разделение вариации в полностью рандомизированном эксперименте

Подробнее »Однофакторный дисперсионный анализ

Проверка гипотез: двухвыборочные критерии

Проверка гипотез основана на подтверждающем подходе к анализу данных. В предыдущей заметке рассмотрены широко распространенные процедуры проверки гипотез на основе одной выборки, извлеченной из одной генеральной совокупности. В этой заметке описываются процедуры проверки гипотез на основе двух числовых выборок, извлеченных из двух генеральных совокупностей. Например, равны ли средние недельные объемы продаж BLK-колы, размещенной на специализированных стеллажах и на обычных полках? [1]

Применение статистики в этой заметке будет показано на сквозном примере «Зависит ли объем продаж от вида полок в магазине?» Представьте себе, что вы — региональный менеджер по продажам компании BLK Foods и хотите сравнить объемы продаж BLK-колы, выставленной на обычных полках и на специализированных стеллажах. Для этого вы создаете выборку, состоящую из 20 магазинов компании BLK Foods, в которых объявлена полная распродажа товаров. Затем вы случайным образом делите эту выборку пополам: 10 магазинов относите к первой группе, а остальные 10 — ко второй. Менеджеры магазинов из первой группы размещают бутылки с BLK-колой на обычных полках среди других прохладительных напитков. В то же время менеджеры магазинов из второй группы должны расположить бутылки с BLK-колой на специализированных стеллажах и разместить на них рекламу. Как определить, одинаковы ли объемы продаж BLK-колы в магазинах из этих двух групп? Совпадает ли изменчивость объемов продаж в этих магазинах? Как использовать ответы на эти вопросы, чтобы повысить объемы продаж BLK-колы?

Использование Z-критерия для оценки разности между двумя математическими ожиданиями

Предположим, что из первой генеральной совокупности извлекается случайная выборка, имеющая объем n1 а из второй — случайная выборка, объем которой равен n2. Требуется проанализировать данные, принадлежащие каждой выборке. Обозначим математическое ожидание первой генеральной совокупности через μ1, а стандартное отклонение — через σ1. Аналогично математическое ожидание второй генеральной совокупности обозначим символом μ1, а стандартное отклонение — σ2. Статистика, положенная в основу критерия для проверки равенства математических ожиданий двух генеральных совокупностей, основана на разности между выборочными средними 12. По центральной предельной теореме, сформулированной ранее, при достаточно больших объемах выборок эта статистика имеет стандартизованное нормальное распределение. Следовательно, для оценки разности между двумя математическими ожиданиями можно сформулировать следующий Z-критерий:

где 1 — среднее значение выборки из первой генеральной совокупности, μ1 — математическое ожидание первой генеральной совокупности, — дисперсия первой генеральной совокупности, n1 — объем выборки, извлеченной из первой генеральной совокупности, 2 — среднее значение выборки из второй генеральной совокупности, μ2 — математическое ожидание второй генеральной совокупности, — дисперсия второй генеральной совокупности, n2 — объем выборки, извлеченной из второй генеральной совокупности. Статистика Z имеет стандартизованное нормальное распределение.

Подробнее »Проверка гипотез: двухвыборочные критерии

Проверка гипотез: одновыборочные критерии

Ранее была изложена концепция выборочных распределений, которая позднее была использована для построения доверительных интервалов. В настоящей заметке основное внимание уделяется методам проверки гипотез, которые представляют собой часть теории статистического вывода, использующую информацию, содержащуюся в выборке. [1]

Применение статистики в этой заметке будет показано на сквозном примере «Процесс расфасовки кукурузных хлопьев». Будучи управляющим компании Oxford Cereal Company, вы отвечаете за процесс расфасовки кукурузных хлопьев по коробкам. Необходимо убедиться, что конвейер работает нормально, и каждая коробка содержит в среднем 368 г зерна. Для этого вы извлекаете из генеральной совокупности 25 коробок, взвешиваете их и оцениваете отклонение реального веса от номинального. Коробки из этой выборки могут содержать либо слишком мало, либо слишком много хлопьев. В этом случае следует остановить производство и определить причину неполадок. Анализируя разности между реальным весом и номинальным, необходимо решить, равно ли математическое ожидание генеральной совокупности 368 г или нет. Если равно, процесс расфасовки не требует вмешательства, если нет — следует остановить конвейер.

Нулевая и альтернативная гипотеза

Проверка гипотез обычно начинается с некоего утверждения, касающегося конкретного параметра генеральной совокупности. Например, при статистическом анализе процесса расфасовки кукурузных хлопьев естественно предположить, что конвейер работает нормально, и, следовательно, средний вес коробок равен 368 г. Гипотеза о том, что параметр генеральной совокупности равен ожидаемому, называется нулевой и обозначается как Н0. В нашем примере нулевая гипотеза заключается в том, что заполнение коробок осуществляется правильно и средний вес коробок равен 368 г. Сформулируем это следующим образом: Н0: μ = 368.

Подробнее »Проверка гипотез: одновыборочные критерии

Применение доверительных интервалов в аудиторском деле

Описывая доверительные интервалы, мы сосредоточили внимание на математическом ожидании и доле признака в генеральной совокупности. Эти средства статистического анализа нашли весьма широкое применение в аудиторском деле. [1] Аудит — это сбор и оценка информации, позволяющей оценить состояние экономического объекта, например, компании, акционерного общества, корпорации или правительственного агентства. Цель аудита — оценить, насколько деятельность проверяемого объекта соответствует установленным критериям.

Основных преимуществ выборочного исследования, применяемого при аудите.

  • Результаты выборочного исследования объективны и обоснованы. Поскольку определение объема выборки основано на точно сформулированных статистических принципах, результаты аудиторской проверки можно защищать в суде.
  • Метод выборочного исследования позволяет заранее определить объем выборки.
  • Метод позволяет оценить ошибку выборочного исследования.
  • Этот подход можно применять для более точной оценки параметров, поскольку исследование большой генеральной совокупности может занять много времени и даже сопровождаться значительными ошибками нестатистического характера.
  • Метод выборочного исследования могут применять сразу несколько аудиторов. Поскольку этот метод является научно обоснованным, можно считать, что в параллельной проверке принимает участие один аудитор.
  • Метод выборочного исследования позволяет объективно оценить результаты проверки, поскольку его точность известна заранее.

Подробнее »Применение доверительных интервалов в аудиторском деле

Определение объема выборки

Ранее мы рассмотрели методы построения доверительного интервала для математического ожидания генеральной совокупности. В каждом из рассмотренных случаев мы заранее фиксировали объем выборки, не учитывая ширину доверительного интервала. В реальных задачах определить объем выборки довольно сложно. Это зависит от наличия финансовых ресурсов, времени и легкости создания выборки. [1] Например, если нам необходимо оценить среднюю сумму накладных или долю ошибочных накладных в информационной системе компании, сначала следует выяснить, насколько точной должна быть оценка. Иначе говоря, следует задать ошибку выборочного исследования, допускаемую при оценке каждого из параметров. Кроме того, необходимо заранее определить доверительный уровень оценки истинного параметра генеральной совокупности.

Определение объема выборки для оценки математического ожидания

Чтобы определить объем выборки, необходимый для оценки математического ожидания генеральной совокупности, следует учесть величину ошибки выборочного исследования и доверительный уровень. Кроме того, необходима дополнительная информация о величине стандартного отклонения. Для того чтобы вывести формулу, позволяющую вычислить объем выборки, начнем с формулы (1) (о происхождении этой формулы см. Построение доверительного интервала для математического ожидания генеральной совокупности):

где – среднее значение выборки, Z — значение стандартизованной нормально распределенной случайной величины, соответствующее интегральной вероятности, равной 1 – α/2, σ — стандартное отклонение генеральной совокупности, n – объем выборки

Подробнее »Определение объема выборки

Построение доверительного интервала для математического ожидания генеральной совокупности

В статистике существует два вида оценок: точечные и интервальные. Точечная оценка представляет собой отдельную выборочную статистику, которая используется для оценки параметра генеральной совокупности.[1] Например, выборочное среднее — это точечная оценка математического ожидания генеральной совокупности, а выборочная дисперсия S2 — точечная оценка дисперсии генеральной совокупности σ2. Ранее было показано, что выборочное среднее является несмещенной оценкой математического ожидания генеральной совокупности. Выборочное среднее называется несмещенным, поскольку среднее значение всех выборочных средних (при одном и том же объеме выборки n) равно математическому ожиданию генеральной совокупности.

Для того чтобы выборочная дисперсия S2 стала несмещенной оценкой дисперсии генеральной совокупности σ2, знаменатель выборочной дисперсии следует положить равным n – 1, а не n. Иначе говоря, дисперсия генеральной совокупности является средним значением всевозможных выборочных дисперсий.

При оценке параметров генеральной совокупности следует иметь в виду, что выборочные статистики, такие как , зависят от конкретных выборок. Чтобы учесть этот факт, для получения интервальной оценки математического ожидания генеральной совокупности анализируют распределение выборочных средних (подробнее см. Выборочные распределения). Построенный интервал характеризуется определенным доверительным уровнем, который представляет собой вероятность того, что истинный параметр генеральной совокупности оценен правильно. Аналогичные доверительные интервалы можно применять для оценки доли признака р и основной распределенной массы генеральной совокупности.

Подробнее »Построение доверительного интервала для математического ожидания генеральной совокупности

Выборочные распределения

Основной целью анализа данных являются статистические выводы, т.е. применение выборочных показателей для оценки параметров генеральной совокупности. Статистические выводы относятся к генеральным совокупностям, а не к выборкам из них. Например, социологи изучают результаты выборочных обследований только для того, чтобы оценить шансы кандидатов получить голоса из всей генеральной совокупности избирателей в целом. Выборочное среднее, полученное при обследовании конкретной выборки, само по себе интереса не представляет. [1]

На практике из генеральной совокупности извлекается выборка заранее установленного объема. Элементы, принадлежащие данной выборке, выбираются случайным образом, например, с помощью датчика случайных чисел. Распределения выборочных параметров называют выборочными.

Выборочное распределение средних значений

Ранее мы рассмотрели несколько оценок математического ожидания распределения. Чаще всего для этого используется арифметическое среднее. Это наилучшая оценка математического ожидания, если распределение является нормальным.

Арифметическое среднее называется несмещенным, поскольку среднее значение всех выборочных средних (при заданном объеме выборки n) равно математическому ожиданию генеральной совокупности. Продемонстрируем это свойство на примере. Предположим, что генеральная совокупность машинисток в секретариате компании состоит из четырех сотрудниц. Каждую из них попросили напечатать один и тот же текст. Количество опечаток, сделанных каждой машинисткой: Энн – Х1 = 3, Кэт – Х2 = 2, Карла – Х3 = 1, Ширли – Х4 = 4. Распределение ошибок приведено на рис. 1.

Рис. 1. Количество опечаток, сделанных четырьмя машинистками

Подробнее »Выборочные распределения