Избранное

Сортировка листов книги Excel... В настоящей заметке описана разработка утилиты VBA для Excel. Показан процесс анализа задачи и последующего ее решения....

Далее

Пол Экман. Психология лжи. Обмани... Правда ли, что современный человек в среднем лжет трижды за десять минут разговора? Как реагировать на то, что...

Далее

Работа с процедурами VBA Процедура — это последовательность операторов VBA, расположенная в модуле VBA, доступ к которому можно получить...

Далее

Джон Теннент. Управление денежными... Это пособие имеет целью ознакомить вас с основными принципами управления денежными средствами и денежным потоком,...

Далее

Основы программирования на... Для начала в качестве примера рассмотрим простую процедуру VBA типа Sub. Она хранится в модуле VBA и вычисляет сумму...

Далее

Определение объема выборки

Рубрика: 8. Статистика

Ранее мы рассмотрели методы построения доверительного интервала для математического ожидания генеральной совокупности. В каждом из рассмотренных случаев мы заранее фиксировали объем выборки, не учитывая ширину доверительного интервала. В реальных задачах определить объем выборки довольно сложно. Это зависит от наличия финансовых ресурсов, времени и легкости создания выборки. [1] Например, если нам необходимо оценить среднюю сумму накладных или долю ошибочных накладных в информационной системе компании, сначала следует выяснить, насколько точной должна быть оценка. Иначе говоря, следует задать ошибку выборочного исследования, допускаемую при оценке каждого из параметров. Кроме того, необходимо заранее определить доверительный уровень оценки истинного параметра генеральной совокупности.

Определение объема выборки для оценки математического ожидания

Чтобы определить объем выборки, необходимый для оценки математического ожидания генеральной совокупности, следует учесть величину ошибки выборочного исследования и доверительный уровень. Кроме того, необходима дополнительная информация о величине стандартного отклонения. Для того чтобы вывести формулу, позволяющую вычислить объем выборки, начнем с формулы (1) (о происхождении этой формулы см. Построение доверительного интервала для математического ожидания генеральной совокупности):

где – среднее значение выборки, Z — значение стандартизованной нормально распределенной случайной величины, соответствующее интегральной вероятности, равной 1 – α/2, σ — стандартное отклонение генеральной совокупности, n – объем выборки

Далее

Построение доверительного интервала для математического ожидания генеральной совокупности

Рубрика: 8. Статистика

В статистике существует два вида оценок: точечные и интервальные. Точечная оценка представляет собой отдельную выборочную статистику, которая используется для оценки параметра генеральной совокупности.[1] Например, выборочное среднее — это точечная оценка математического ожидания генеральной совокупности, а выборочная дисперсия S2 — точечная оценка дисперсии генеральной совокупности σ2. Ранее было показано, что выборочное среднее является несмещенной оценкой математического ожидания генеральной совокупности. Выборочное среднее называется несмещенным, поскольку среднее значение всех выборочных средних (при одном и том же объеме выборки n) равно математическому ожиданию генеральной совокупности.

Для того чтобы выборочная дисперсия S2 стала несмещенной оценкой дисперсии генеральной совокупности σ2, знаменатель выборочной дисперсии следует положить равным n – 1, а не n. Иначе говоря, дисперсия генеральной совокупности является средним значением всевозможных выборочных дисперсий.

При оценке параметров генеральной совокупности следует иметь в виду, что выборочные статистики, такие как , зависят от конкретных выборок. Чтобы учесть этот факт, для получения интервальной оценки математического ожидания генеральной совокупности анализируют распределение выборочных средних (подробнее см. Выборочные распределения). Построенный интервал характеризуется определенным доверительным уровнем, который представляет собой вероятность того, что истинный параметр генеральной совокупности оценен правильно. Аналогичные доверительные интервалы можно применять для оценки доли признака р и основной распределенной массы генеральной совокупности.

Далее

Выборочные распределения

Рубрика: 8. Статистика

Основной целью анализа данных являются статистические выводы, т.е. применение выборочных показателей для оценки параметров генеральной совокупности. Статистические выводы относятся к генеральным совокупностям, а не к выборкам из них. Например, социологи изучают результаты выборочных обследований только для того, чтобы оценить шансы кандидатов получить голоса из всей генеральной совокупности избирателей в целом. Выборочное среднее, полученное при обследовании конкретной выборки, само по себе интереса не представляет. [1]

На практике из генеральной совокупности извлекается выборка заранее установленного объема. Элементы, принадлежащие данной выборке, выбираются случайным образом, например, с помощью датчика случайных чисел. Распределения выборочных параметров называют выборочными.

Выборочное распределение средних значений

Ранее мы рассмотрели несколько оценок математического ожидания распределения. Чаще всего для этого используется арифметическое среднее. Это наилучшая оценка математического ожидания, если распределение является нормальным.

Арифметическое среднее называется несмещенным, поскольку среднее значение всех выборочных средних (при заданном объеме выборки n) равно математическому ожиданию генеральной совокупности. Продемонстрируем это свойство на примере. Предположим, что генеральная совокупность машинисток в секретариате компании состоит из четырех сотрудниц. Каждую из них попросили напечатать один и тот же текст. Количество опечаток, сделанных каждой машинисткой: Энн – Х1 = 3, Кэт – Х2 = 2, Карла – Х3 = 1, Ширли – Х4 = 4. Распределение ошибок приведено на рис. 1.

Рис. 1. Количество опечаток, сделанных четырьмя машинистками

Далее

Равномерное и экспоненциальное распределения

Рубрика: 8. Статистика

Ранее мы изучили нормальное распределение (см. панель А на рис. 1). Рассмотрим теперь два других непрерывных распределения: равномерное и экспоненциальное. [1] Случайная величина имеет равномерное распределение, если вероятность того, что она принимает любое значение в интервале, ограниченном минимальным числом а и максимальным числом b, постоянна. Поскольку график плотности этого распределения имеет вид прямоугольника, равномерное распределение иногда называют прямоугольным (см. панель Б на рис. 1).

Рис. 1. Три непрерывных распределения

Далее

Проверка гипотезы о нормальном распределении

Рубрика: 8. Статистика

Ранее мы обсудили свойства нормального распределения. Рассмотрим теперь весьма важную практическую проблему. Насколько естественным является предположение о том, что конкретные данные представляют собой значения нормально распределенной случайной величины? [1] Для ответа на этот вопрос используется один из следующих исследовательских методов:

  1. Сравнение характеристик набора данных со свойствами нормального распределения.
  2. Построение специального графика на основе набора данных.

Оценка свойств

Напомним, что нормальное распределение является симметричным и колоколообразным, так что все характеристики его среднего значения — математическое ожидание, мода и медиана — совпадают друг с другом. Межквартильный размах нормального распределения равен 1,33 стандартного отклонения. Нормальное распределение является непрерывным, причем нормально распределенная случайная величина принимает произвольные значения, лежащие на всей числовой оси.

Скачать заметку в формате Word или pdf, примеры в формате Excel2013

На практике характеристики набора данных могут немного отличаться от теоретических, либо потому, что случайная величина является лишь приближенно нормальной, либо потому, что ее реальные свойства отличаются от предполагаемых. В таких ситуациях кривая распределения оказывается не совсем симметричной и колоколообразной. Оценки математического ожидания могут слегка отличаться от теоретических, а межквартильный размах может не быть равным 1,33 стандартного отклонения. Кроме того, на практике диапазон изменения данных не может быть бесконечным — как правило, он ограничен шестью стандартными отклонениями. Такие распределения являются приближенно нормальными.

Многие непрерывные случайные величины не являются ни точно, ни приближенно нормальными. Свойства таких величин довольно сильно отличаются от свойств нормального распределения, перечисленных выше. Рассмотрим, например, оценки, полученные студентами при сдаче четырех тестов (рис. 1). Excel справляется с обработкой данных, не требуя их упорядочения. Вычислим описательные статистики результатов каждого теста в отдельности с помощью надстройки Анализ данных (как это сделать, см., например, Представление числовых данных в виде таблиц и диаграмм).

Рис. 1. Оценки, полученные студентами при сдаче четырех тестов; мода зачеркнута, так как не имеет смысла

Приблизительно нормальным является распределение оценок только по первому тесту: математическое ожидание равно медиане, доля наблюдений в пределах окрестности ±1σ от математического ожидания составляет 68% (в точности, как и для нормального распределения), асимметричность = 0.

Построение графика нормального распределения

Второй подход к проверке гипотезы о нормальном распределении использует график. Напомню, что для оценки смещения распределения были введены квартили. Кроме квартилей, для оценки нормальности распределения можно вычислять децили (разбивающие диапазон изменения данных на десятые доли), процентили (разбивающие диапазон изменения данных на сотые доли) и квантили (от слова квант), разбивающие всю совокупность данных на n диапазонов.

Для вычисления квантилей используется следующее правило (рис. 2): i-ый квантиль стандартизованного нормального распределения Qi представляет собой стандартизованную нормально распределенную величину Z, которой соответствует площадь фигуры, лежащей под кривой плотности вероятностей, равная i/(n+1).

Рис. 2. Расчет квантилей в Excel

График нормального распределения строится в Excel на основе точечного графика, на вертикальной оси которого отложены значения наблюдаемых данных, а на горизонтальной оси — соответствующие квантили стандартизованного нормального распределения (рис. 3). В отличие от описательных статистик, для построения графиков данные должны быть упорядочены по возрастанию. Если точки, соответствующие наблюдаемым данным, образуют прямую, проведенную из левого нижнего угла в правый верхний угол, значит, данные распределены приближенно нормально. С другой стороны, если эти точки отклоняются от прямой линии, распределение данных отличается от нормального.

Рис. 3. Графики распределений для четырех тестов

График «Тест 1» свидетельствует, что наблюдаемые точки лежат очень близко к прямой линии, поэтому можно считать, что оценки, полученные студентами при сдаче первого теста, распределены практически нормально. Обратите внимание на полигон (кривую плотности распределения) и блочную диаграмму, изображенные на рис. 4, панель А.

Рис. 4. Четыре распределения, исследованные с помощью блочных диаграмм

«Тест 2» (рис. 3): точки значительно отклоняются от прямой линии. Значения случайной переменной сначала возрастают довольно резко, а затем их рост становится умеренным. Этот рисунок соответствует распределению с отрицательной асимметрией, о чем свидетельствует более длинный левый хвост распределения. Обратите внимание на соответствующие полигон и блочную диаграмму, изображенные на рис. 4, панель Б. «Тест 3»: наблюдается противоположная картина. Значения случайной переменной сначала возрастают довольно медленно, а затем их рост становится более заметным. Этот рисунок соответствует распределению с положительной асимметрией, о чем свидетельствует более длинный правый хвост распределения. Обратите внимание на соответствующие полигон и блочную диаграмму, изображенные на рис. 4, панель В. «Тест 4»: изображен симметричный график, средняя часть которого почти линейна. Значения случайной переменной сначала довольно медленно возрастают, затем их рост прекращается, а в третьей части — ускоряется. Этот рисунок не совпадает ни с панелью Б, ни с панелью В. Это распределение не имеет хвостов. Следовательно, оно является равномерным (или прямоугольным). Обратите внимание на соответствующие полигон и блочную диаграмму, изображенные на рис. 4, панель Г.

Предыдущая заметка Нормальное распределение

Следующая заметка

К оглавлению Статистика для менеджеров с использованием Microsoft Excel


[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 368–375

Нормальное распределение

Рубрика: 8. Статистика

Числовые случайные величины могут быть либо дискретными, либо непрерывными (подробнее см. Типы данных). Дискретные случайные величины (т.е. величины, возникающие в результате подсчета событий) были рассмотрены ранее (см. Биноминальное распределение, Гипергеометрическое распределение, Распределение Пуассона). В этой и нескольких следующих заметках мы изучим непрерывные случайные величины, которые возникают в результате измерений. Непрерывная случайная величина может принимать любое значение, принадлежащее числовой оси или интервалу. [1] Примером такой случайной величины может служить вес какой-нибудь коробки, время загрузки Web-страницы, расходы на рекламу, доходы от продаж, время обслуживания клиента и время между двумя приходами клиентов в банк.

Математическое выражение, описывающее распределение значений непрерывной случайной величины, называется плотностью непрерывного распределения вероятностей (рис. 1). На панели А представлена плотность нормального распределения. Эта функция является симметричной и колоколообразной. Следовательно, большинство значений такой случайной величины концентрируется вокруг математического ожидания, которое совпадает с медианой. Несмотря на то что нормально распределенная случайная величина может принимать любые числовые значения, вероятность очень больших положительных или отрицательных значений крайне мала. На панели Б изображена плотность равномерного распределения. Значения случайной величины, равномерно распределенной на интервале от а до b, равновероятны. Иногда это распределение называют прямоугольным. Оно является симметричным, и, следовательно, его математическое ожидание равно медиане. На панели В показана плотность экспоненциального распределения. Это распределение имеет ярко выраженную положительную асимметрию, и, следовательно, его математическое ожидание больше медианы. Экспоненциально распределенные случайные величины изменяются от нуля до плюс бесконечности, однако очень большие значения крайне мало вероятны.

Рис. 1. Три непрерывных распределения

Далее

Распределение Пуассона

Рубрика: 8. Статистика

Ранее мы рассмотрели два типа дискретных числовых распределений: биномиальное и гипергеометрическое. Во многих практически важных приложениях большую роль играет распределение Пуассона. Многие из числовых дискретных величин являются реализациями пуассоновского процесса, обладающего следующими свойствами:[1]

  • Нас интересует, сколько раз происходит некое событие в заданной области возможных исходов случайного эксперимента. Область возможных исходов может представлять собой интервал времени, отрезок, поверхность и т.п.
  • Вероятность данного события одинакова для всех областей возможных исходов.
  • Количество событий, происходящих в одной области возможных исходов, не зависит от количества событий, происходящих в других областях.
  • Вероятность того, что в одной и той же области возможных исходов данное событие происходит больше одного раза, стремится к нулю по мере уменьшения области возможных исходов.

Далее

Гипергеометрическое распределение

Рубрика: 8. Статистика

Гипергеометрическое распределение, как и биномиальное, позволяет оценить количество успехов в серии из n испытаний. Разница между ними заключается в способе получения исходных данных. В биномиальной модели данные выбираются либо из конечной генеральной совокупности с возвращением либо из бесконечной генеральной совокупности без возвращения. В гипергеометрической модели данные извлекаются только из конечной генеральной совокупности без возвращения. [1] Таким образом, в то время как в биномиальной модели вероятность успеха р остается постоянной, а испытания не зависят друг от друга, в гипергеометрической модели эти условия не выполняются. Наоборот, в гипергеометрической модели каждый исход зависит от предыдущих исходов.

Гипергеометрическое распределение, описывающее вероятность X успехов при заданных параметрах n, N и А:

где Р(Х) — вероятность X успехов при заданных n, N и А, n — объем выборки, N — объем генеральной совокупности, А — количество успешных исходов в генеральной совокупности, N – A — количество неудачных исходов в генеральной совокупности, X — количество успехов в выборке, N – X — количество неудачных исходов в выборке.

Далее

Биноминальное распределение

Рубрика: 8. Статистика

В настоящей и нескольких следующих заметках мы рассмотрим математические модели случайных событий. Математическая модель — это математическое выражение, представляющее случайную величину. Для дискретных случайных величин это математическое выражение известно под названием функция распределения. [1]

Если задача позволяет явно записать математическое выражение, представляющее случайную величину, можно вычислить точную вероятность любого ее значения. В этом случае можно вычислить и перечислить все значения функции распределения. В деловых, социологических и медицинских приложениях встречаются разнообразные распределения случайных величин. Одним из наиболее полезных распределений является биномиальное.

Биномиальное распределение используется для моделирования ситуаций, характеризующихся следующими особенностями.

  • Выборка состоит из фиксированного числа элементов n, представляющих собой исходы некоего испытания.
  • Каждый элемент выборки принадлежит одной из двух взаимоисключающих категорий, исчерпывающих все выборочное пространство. Как правило, эти две категории называют успех и неудача.
  • Вероятность успеха р является постоянной. Следовательно, вероятность неудачи равна 1 – р.
  • Исход (т.е. удача или неудача) любого испытания не зависит от результата другого испытания. Чтобы гарантировать независимость исходов, элементы выборки, как правило, получают с помощью двух разных методов. Каждый элемент выборки случайным образом извлекается из бесконечной генеральной совокупности без возвращения или из конечной генеральной совокупности с возвращением.

Далее

Ковариация и ее применение в финансовом деле

Рубрика: 8. Статистика

В предыдущей заметке мы рассмотрели понятия математического ожидания, дисперсии и стандартного отклонения дискретной случайной величины. В настоящей заметке вводится понятие ковариации между двумя переменными и его применение для управления портфелем активов. Эта задача вызывает большой интерес у финансовых аналитиков. [1]

Ковариация σXY между двумя дискретными случайными величинами X и Y определяется формулой

где Xii-e значение дискретной случайной величины X, Р(Хi) — вероятность i-гo значения дискретной случайной величины X, Yii-e значение дискретной случайной величины Y, Р(Yi) — вероятность i-гo значения дискретной случайной величины Y, Р(ХiYi) — вероятность i-гo значения дискретной случайной величины X и i-гo значения дискретной случайной величины Y, i = 1, 2, … , N.

Далее