Перейти к содержимому

8. Статистика

Принятие решений

Ранее мы изучили различные правила вычисления вероятностей, а также применили теорему Байеса для уточнения вероятностей с учетом новой информации. Кроме того, было введено понятие дискретного распределения. Теперь мы используем эти правила и теоремы для выбора конкретного плана действий. Процесс принятия решений характеризуется четырьмя основными свойствами. [1]

  1. Альтернативные планы действий. Прежде чем сделать окончательный выбор, лицо, принимающее решение, должно оценить несколько вариантов. Например, менеджер взаимного фонда в описанном ниже сценарии должен решить, покупать акцию А или Б.
  2. События или экономическое положение. Лицо, принимающее решение, должно перечислить возможные события и вычислить их вероятность. Например, для того, чтобы правильно выбрать компанию при покупке акций, экономист взаимного фонда перечислил четыре возможных сценария развития экономики в течение следующего года и указал их вероятность.
  3. Таблица выигрышей. Для того чтобы оценить план действий, лицо, принимающее решение, должно сопоставить каждому событию возможный выигрыш или проигрыш. В деловых приложениях выигрыш и проигрыш обычно выражаются в терминах прибыли или убытка, хотя существуют и другие формы, например, моральное удовлетворение или польза. При покупке акций выигрыш выражается в виде доходности инвестиций.
  4. Критерий принятия решения. Лицо, принимающее решение, должно установить критерий выбора наилучшего плана действий. В заметке рассмотрено несколько таких критериев.

Подробнее »Принятие решений

Анализ временных рядов

В трех предыдущих заметках описаны регрессионные модели, позволяющие прогнозировать отклик по значениям объясняющих переменных. В настоящей заметке мы покажем, как с помощью этих моделей и других статистических методов анализировать данные, собранные на протяжении последовательных временных интервалов. В соответствии с особенностями каждой компании, упомянутой в сценарии, мы рассмотрим три альтернативных подхода к анализу временных рядов. [1]

Материал будет проиллюстрирован сквозным примером: прогнозирование доходов трех компаний. Представьте себе, что вы работаете аналитиком в крупной финансовой компании. Чтобы оценить инвестиционные перспективы своих клиентов, вам необходимо предсказать доходы трех компаний. Для этого вы собрали данные о трех интересующих вас компаниях — Eastman Kodak, Cabot Corporation и Wal-Mart. Поскольку компании различаются по виду деловой активности, каждый временной ряд обладает своими уникальными особенностями. Следовательно, для прогнозирования необходимо применять разные модели. Как выбрать наилучшую модель прогнозирования для каждой компании? Как оценить инвестиционные перспективы на основе результатов прогнозирования?

Обсуждение начинается с анализа ежегодных данных. Демонстрируются два метода сглаживания таких данных: скользящее среднее и экспоненциальное сглаживание. Затем демонстрируется процедура вычисления тренда с помощью метода наименьших квадратов и более сложные методы прогнозирования. В заключение, эти модели распространяются на временные ряды, построенные на основе ежемесячных или ежеквартальных данных.

Подробнее »Анализ временных рядов

Построение модели множественной регрессии

Исследуя модели простой и множественной регрессии, предполагалось, что зависимость между откликом Y и каждой из объясняющих переменных является линейной. Однако существуют и другие виды взаимосвязи. Одной из наиболее распространенных нелинейных взаимосвязей между двумя переменными является квадратичная зависимость. Для ее анализа предназначена модель квадратичной регрессии. [1]

Материал будет проиллюстрирован сквозным примером: прогнозирование продолжительности простоя художников, входящих в профсоюз. Представьте себе, что вы — директор телевизионной станции и стремитесь сократить производственные расходы. В частности, художники, входящие в профсоюз, получают почасовую оплату, даже когда они ничего не делают. Эти часы называют часами простоя. Считается, что общее количество часов простоя за неделю зависит от общего количества времени, проведенного в офисе, общего количества часов, проведенных на выезде, времени, затраченного на озвучивание, и общей продолжительности работы. Постройте модель множественной регрессии, позволяющую наиболее точно предсказать количество часов простоя. Она позволит выявить причины возникающих простоев и уменьшить их количество в будущем. Как построить наиболее подходящую модель? С чего начать?

Модель квадратичной регрессии:

где β0 — сдвиг, β1 — коэффициент линейного эффекта, β2 — коэффициент квадратичного эффекта, εi – случайная ошибка переменной Y в i-ом наблюдении.

Подробнее »Построение модели множественной регрессии

Введение в множественную регрессию

Рассматривая простую регрессию, мы сосредоточили внимание на модели, в которой для предсказания значения зависимой переменной, или отклика Y, использовалась лишь одна независимая, или объясняющая, переменная X. Однако во многих случаях можно разработать более точную модель, если учесть не одну, а несколько объясняющих переменных. По этой причине мы рассмотрим в этой заметке модели множественной регрессии, в которых для предсказания значения зависимой переменной используется несколько независимых переменных. [1]

Материал будет проиллюстрирован сквозным примером: прогнозирование объемов продаж компании OmniPower. Представьте себе, что вы — менеджер по маркетингу в крупной национальной сети бакалейных магазинов. В последние годы на рынке появились питательные батончики, содержащие большое количество жиров, углеводов и калорий. Они позволяют быстро восстановить запасы энергии, потраченной бегунами, альпинистами и другими спортсменами на изнурительных тренировках и соревнованиях. За последние годы объем продаж питательных батончиков резко вырос, и руководство компании OmniPower пришло к выводу, что этот сегмент рынка весьма перспективен. Прежде чем предлагать новый вид батончика на общенациональном рынке, компания хотела бы оценить влияние его стоимости и рекламных затрат на объем продаж. Для маркетингового исследования были отобраны 34 магазина. Вам необходимо создать регрессионную модель, позволяющую проанализировать данные, полученные в ходе исследования. Можно ли применить для этого модель простой линейной регрессии, рассмотренную в предыдущей заметке? Как ее следует изменить?

Модель множественной регрессии

Для маркетингового исследования в компании OmniPower была создана выборка, состоящая из 34 магазинов с приблизительно одинаковыми объемами продаж. Рассмотрим две независимые переменные — цена батончика OmniPower в центах (Х1) и месячный бюджет рекламной кампании, проводимой в магазине, выраженный в долларах (Х2). В этот бюджет входят расходы на оформление вывесок и витрин, а также на раздачу купонов и бесплатных образцов. Зависимая переменная Y представляет собой количество батончиков OmniPower, проданных за месяц (рис. 1).

Рис. 1. Месячный объем продажа батончиков OmniPower, их цена и расходы на рекламу

Подробнее »Введение в множественную регрессию

Простая линейная регрессия

В предыдущих заметках предметом анализа часто становилась отдельная числовая переменная, например, доходность взаимных фондов, время загрузки Web-страницы или объем потребления безалкогольных напитков. В настоящей и следующих заметках мы рассмотрим методы предсказания значений числовой переменной в зависимости от значений одной или нескольких других числовых переменных. [1]

Материал будет проиллюстрирован сквозным примером. Прогнозирование объема продаж в магазине одежды. Сеть магазинов уцененной одежды Sunflowers на протяжении 25 лет постоянно расширялась. Однако в настоящее время у компании нет систематического подхода к выбору новых торговых точек. Место, в котором компания собирается открыть новый магазин, определяется на основе субъективных соображений. Критериями выбора являются выгодные условия аренды или представления менеджера об идеальном местоположении магазина. Представьте, что вы — руководитель отдела специальных проектов и планирования. Вам поручили разработать стратегический план открытия новых магазинов. Этот план должен содержать прогноз годового объема продаж во вновь открываемых магазинах. Вы полагаете, что торговая площадь непосредственно связана с объемом выручки, и хотите учесть этот факт в процессе принятия решения. Как разработать статистическую модель, позволяющую прогнозировать годовой объем продаж на основе размера нового магазина?

Как правило, для предсказания значений переменной используется регрессионный анализ. Его цель — разработать статистическую модель, позволяющую предсказывать значения зависимой переменной, или отклика, по значениям, по крайней мере одной, независимой, или объясняющей, переменной. В настоящей заметке мы рассмотрим простую линейную регрессию — статистический метод, позволяющий предсказывать значения зависимой переменной Y по значениям независимой переменной X. В последующих заметках будет описана модель множественной регрессии, предназначенная для предсказания значений независимой переменной Y по значениям нескольких зависимых переменных (Х1, Х2, …, Xk). [2]

Подробнее »Простая линейная регрессия

Критерий согласия «хи-квадрат»

В настоящей заметке χ2-распределение используется для проверки согласованности набора данных с фиксированным распределением вероятностей. В критерии согласия частоты, принадлежащие определенной категории, сравниваются с частотами, которые являются теоретически ожидаемыми, если бы данные действительно имели указанное распределение. [1]

Проверка с помощью критерия согласия χ2 выполняется в несколько этапов. Во-первых, определяется конкретное распределение вероятностей, которое сравнивается с исходными данными. Во-вторых, выдвигается гипотеза о параметрах выбранного распределения вероятностей (например, о ее математическом ожидании) или проводится их оценка. В-третьих, на основе теоретического распределения определяется теоретическая вероятность, соответствующая каждой категории. В заключение, для проверки согласованности данных и распределения применяется тестовая χ2-статистика:

где f0 — наблюдаемая частота, fе — теоретическая, или ожидаемая частота, k — количество категорий, оставшихся после объединения, р — количество оцениваемых параметров.

Подробнее »Критерий согласия «хи-квадрат»

Критерий «хи-квадрат» для дисперсий

При анализе числовых данных иногда бывает важно оценить не только их среднее значение, но и изменчивость. Для примера вернемся к задаче о расфасовке кукурузных хлопьев, описанной ранее. Будучи управляющим компании Oxford Cereal Company, вы отвечаете за процесс расфасовки кукурузных хлопьев по коробкам. Необходимо убедиться, что конвейер работает нормально, и каждая коробка содержит в среднем 368 г зерна. Предполагалось, что стандартное отклонение σ равно 15 г. Предположим теперь, что нам необходимо определить, отличается ли стандартное отклонение от заданного уровня, равного 15 г. [1]

Пытаясь оценить изменчивость генеральной совокупности, мы должны сначала определить, какой статистический критерий можно использовать, чтобы представить распределение изменчивости выборочных данных. Если случайная переменная имеет нормальное распределение, для ответа на вопрос, равны ли дисперсия или стандартное отклонение заданной величине, применяется тестовая χ2-статистика:

где n — объем выборки, S2 — выборочная дисперсия, σ2 — гипотетическая дисперсия генеральной совокупности. Тестовая χ2-статистика имеет распределение χ2 с n – 1 степенями свободы.

Подробнее »Критерий «хи-квадрат» для дисперсий

Ранговый критерий Крускала-Уоллиса. Непараметрический метод для полностью рандомизированного эксперимента

Ранговый критерий Крускала-Уоллиса для оценки разностей между с медианами (с > 2) представляет собой обобщение рангового критерия Уилкоксона для двух независимых выборок (см. также Однофакторный дисперсионный анализ). Таким образом, критерий Крускала-Уоллиса является непараметрической альтернативой F-критерию в однофакторном дисперсионном анализе, аналогично тому, как критерий Уилкоксона представляет собой непараметрическую альтернативу t-критерию, использующему суммарную дисперсию при сравнении двух независимых выборок. Если выполняются условия, необходимые для применения F-критерия в однофакторном дисперсионном анализе, критерий Крускала-Уоллиса обладает той же мощностью. [1]

Ранговый критерий Крускала-Уоллиса применяется для проверки гипотезы, что с независимых выборок извлечены из генеральных совокупностей, имеющих одинаковые медианы. Иначе говоря, нулевая и альтернативная гипотезы формулируются следующим образом:

Н0: М1 = М2 = … =Mc

H1: не все Mj (j = 1, 2, …, с) являются одинаковыми

Подробнее »Ранговый критерий Крускала-Уоллиса. Непараметрический метод для полностью рандомизированного эксперимента

Непараметрические критерии. Ранговый критерий Уилкоксона

Ранее был изложен метод оценки разности между средними значениями выборок, извлеченных из двух независимых генеральных совокупностей. Если объемы выборок малы или генеральные совокупности не являются нормально распределенными, возникают две альтернативы: 1) можно применить непараметрическую процедуру, не зависящую от предположения о нормальном распределении генеральных совокупностей; 2) можно выполнить предварительную нормализацию данных, а затем применить t-критерий, использующий объединенную дисперсию. [1]

В данном заметке рассматривается критерий Уилкоксона, позволяющий оценить разность между медианами двух генеральных совокупностей. Этот критерий является весьма популярной непараметрической процедурой. По своей мощности критерий Уилкоксона мало отличается от t-критериев, использующих раздельную или суммарную дисперсии. В то же время для его использования нет необходимости предполагать, что генеральные совокупности распределены нормально. Кроме того, критерий Уилкоксона можно применять даже тогда, когда исследователю доступны лишь ранговые показатели. Эта ситуация довольно часто встречается в маркетинговых исследованиях, когда отсутствие числовых данных не позволяет применять t-критерии.

Подробнее »Непараметрические критерии. Ранговый критерий Уилкоксона

Применение χ2-критерия независимости

В предыдущей заметке χ2-критерий применялся для оценки разностей между несколькими долями признака. Если таблица сопряженности признаков состоит из r строк и с столбцов, χ2-критерий можно использовать для проверки независимости двух категорийных величин. [1] В этом случае нулевая и альтернативная гипотезы формулируются следующим образом: Н0: две категорийные величины независимы (т.е. между ними нет взаимосвязи), Н1: две категорийные величины зависят друг от друга (т.е. между ними есть взаимосвязь).

Для иллюстрации применяемых методов используется сценарий, в котором оценивается степень удовлетворенности постояльцев отелей, принадлежащих компании Т. С. Resort Properties. Если гости удовлетворены обслуживанием, велика вероятность, что они вернутся на следующий год и порекомендуют своим друзьям остановиться именно в вашем отеле. Чтобы оценить качество обслуживания, постояльцев просят заполнить анкету и указать, довольны ли они гостеприимством.

Для проверки независимости, как и прежде, применяется тестовая χ2-статистика:

Подробнее »Применение χ2-критерия независимости