Проверка гипотезы о нормальном распределении

Рубрика: 8. Статистика

Ранее мы обсудили свойства нормального распределения. Рассмотрим теперь весьма важную практическую проблему. Насколько естественным является предположение о том, что конкретные данные представляют собой значения нормально распределенной случайной величины? [1] Для ответа на этот вопрос используется один из следующих исследовательских методов:

  1. Сравнение характеристик набора данных со свойствами нормального распределения.
  2. Построение специального графика на основе набора данных.

Оценка свойств

Напомним, что нормальное распределение является симметричным и колоколообразным, так что все характеристики его среднего значения — математическое ожидание, мода и медиана — совпадают друг с другом. Межквартильный размах нормального распределения равен 1,33 стандартного отклонения. Нормальное распределение является непрерывным, причем нормально распределенная случайная величина принимает произвольные значения, лежащие на всей числовой оси.

Скачать заметку в формате Word или pdf, примеры в формате Excel2013

На практике характеристики набора данных могут немного отличаться от теоретических, либо потому, что случайная величина является лишь приближенно нормальной, либо потому, что ее реальные свойства отличаются от предполагаемых. В таких ситуациях кривая распределения оказывается не совсем симметричной и колоколообразной. Оценки математического ожидания могут слегка отличаться от теоретических, а межквартильный размах может не быть равным 1,33 стандартного отклонения. Кроме того, на практике диапазон изменения данных не может быть бесконечным — как правило, он ограничен шестью стандартными отклонениями. Такие распределения являются приближенно нормальными.

Многие непрерывные случайные величины не являются ни точно, ни приближенно нормальными. Свойства таких величин довольно сильно отличаются от свойств нормального распределения, перечисленных выше. Рассмотрим, например, оценки, полученные студентами при сдаче четырех тестов (рис. 1). Excel справляется с обработкой данных, не требуя их упорядочения. Вычислим описательные статистики результатов каждого теста в отдельности с помощью надстройки Анализ данных (как это сделать, см., например, Представление числовых данных в виде таблиц и диаграмм).

Рис. 1. Оценки, полученные студентами при сдаче четырех тестов; мода зачеркнута, так как не имеет смысла

Приблизительно нормальным является распределение оценок только по первому тесту: математическое ожидание равно медиане, доля наблюдений в пределах окрестности ±1σ от математического ожидания составляет 68% (в точности, как и для нормального распределения), асимметричность = 0.

Построение графика нормального распределения

Второй подход к проверке гипотезы о нормальном распределении использует график. Напомню, что для оценки смещения распределения были введены квартили. Кроме квартилей, для оценки нормальности распределения можно вычислять децили (разбивающие диапазон изменения данных на десятые доли), процентили (разбивающие диапазон изменения данных на сотые доли) и квантили (от слова квант), разбивающие всю совокупность данных на n диапазонов.

Для вычисления квантилей используется следующее правило (рис. 2): i-ый квантиль стандартизованного нормального распределения Qi представляет собой стандартизованную нормально распределенную величину Z, которой соответствует площадь фигуры, лежащей под кривой плотности вероятностей, равная i/(n+1).

Рис. 2. Расчет квантилей в Excel

График нормального распределения строится в Excel на основе точечного графика, на вертикальной оси которого отложены значения наблюдаемых данных, а на горизонтальной оси — соответствующие квантили стандартизованного нормального распределения (рис. 3). В отличие от описательных статистик, для построения графиков данные должны быть упорядочены по возрастанию. Если точки, соответствующие наблюдаемым данным, образуют прямую, проведенную из левого нижнего угла в правый верхний угол, значит, данные распределены приближенно нормально. С другой стороны, если эти точки отклоняются от прямой линии, распределение данных отличается от нормального.

Рис. 3. Графики распределений для четырех тестов

График «Тест 1» свидетельствует, что наблюдаемые точки лежат очень близко к прямой линии, поэтому можно считать, что оценки, полученные студентами при сдаче первого теста, распределены практически нормально. Обратите внимание на полигон (кривую плотности распределения) и блочную диаграмму, изображенные на рис. 4, панель А.

Рис. 4. Четыре распределения, исследованные с помощью блочных диаграмм

«Тест 2» (рис. 3): точки значительно отклоняются от прямой линии. Значения случайной переменной сначала возрастают довольно резко, а затем их рост становится умеренным. Этот рисунок соответствует распределению с отрицательной асимметрией, о чем свидетельствует более длинный левый хвост распределения. Обратите внимание на соответствующие полигон и блочную диаграмму, изображенные на рис. 4, панель Б. «Тест 3»: наблюдается противоположная картина. Значения случайной переменной сначала возрастают довольно медленно, а затем их рост становится более заметным. Этот рисунок соответствует распределению с положительной асимметрией, о чем свидетельствует более длинный правый хвост распределения. Обратите внимание на соответствующие полигон и блочную диаграмму, изображенные на рис. 4, панель В. «Тест 4»: изображен симметричный график, средняя часть которого почти линейна. Значения случайной переменной сначала довольно медленно возрастают, затем их рост прекращается, а в третьей части — ускоряется. Этот рисунок не совпадает ни с панелью Б, ни с панелью В. Это распределение не имеет хвостов. Следовательно, оно является равномерным (или прямоугольным). Обратите внимание на соответствующие полигон и блочную диаграмму, изображенные на рис. 4, панель Г.

Предыдущая заметка Нормальное распределение

Следующая заметка

К оглавлению Статистика для менеджеров с использованием Microsoft Excel


[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 368–375

Комментарии: 4 комментария

Добрый день,

Рис. 1. — Как рассчитать «Доля наблюдений в окресности…»?

М, открой файл Excel, на который ссылка в начале заметки, и посмотри формулу. Например, в ячейке G22: =СЧЁТЕСЛИМН(A2:A20;">"&(G4-G8);A2:A20;"<";&(G4+G8))/G16

Спасибо.

Добрый день! Как методику Гаусса (или Вашу)) можно применять в оценке персонала?


Прокомментировать