Перейти к содержимому

Построение модели множественной регрессии

Исследуя модели простой и множественной регрессии, предполагалось, что зависимость между откликом Y и каждой из объясняющих переменных является линейной. Однако существуют и другие виды взаимосвязи. Одной из наиболее распространенных нелинейных взаимосвязей между двумя переменными является квадратичная зависимость. Для ее анализа предназначена модель квадратичной регрессии. [1]

Материал будет проиллюстрирован сквозным примером: прогнозирование продолжительности простоя художников, входящих в профсоюз. Представьте себе, что вы — директор телевизионной станции и стремитесь сократить производственные расходы. В частности, художники, входящие в профсоюз, получают почасовую оплату, даже когда они ничего не делают. Эти часы называют часами простоя. Считается, что общее количество часов простоя за неделю зависит от общего количества времени, проведенного в офисе, общего количества часов, проведенных на выезде, времени, затраченного на озвучивание, и общей продолжительности работы. Постройте модель множественной регрессии, позволяющую наиболее точно предсказать количество часов простоя. Она позволит выявить причины возникающих простоев и уменьшить их количество в будущем. Как построить наиболее подходящую модель? С чего начать?

Модель квадратичной регрессии:

где β0 — сдвиг, β1 — коэффициент линейного эффекта, β2 — коэффициент квадратичного эффекта, εi – случайная ошибка переменной Y в i-ом наблюдении.

Подробнее »Построение модели множественной регрессии

Введение в множественную регрессию

Рассматривая простую регрессию, мы сосредоточили внимание на модели, в которой для предсказания значения зависимой переменной, или отклика Y, использовалась лишь одна независимая, или объясняющая, переменная X. Однако во многих случаях можно разработать более точную модель, если учесть не одну, а несколько объясняющих переменных. По этой причине мы рассмотрим в этой заметке модели множественной регрессии, в которых для предсказания значения зависимой переменной используется несколько независимых переменных. [1]

Материал будет проиллюстрирован сквозным примером: прогнозирование объемов продаж компании OmniPower. Представьте себе, что вы — менеджер по маркетингу в крупной национальной сети бакалейных магазинов. В последние годы на рынке появились питательные батончики, содержащие большое количество жиров, углеводов и калорий. Они позволяют быстро восстановить запасы энергии, потраченной бегунами, альпинистами и другими спортсменами на изнурительных тренировках и соревнованиях. За последние годы объем продаж питательных батончиков резко вырос, и руководство компании OmniPower пришло к выводу, что этот сегмент рынка весьма перспективен. Прежде чем предлагать новый вид батончика на общенациональном рынке, компания хотела бы оценить влияние его стоимости и рекламных затрат на объем продаж. Для маркетингового исследования были отобраны 34 магазина. Вам необходимо создать регрессионную модель, позволяющую проанализировать данные, полученные в ходе исследования. Можно ли применить для этого модель простой линейной регрессии, рассмотренную в предыдущей заметке? Как ее следует изменить?

Модель множественной регрессии

Для маркетингового исследования в компании OmniPower была создана выборка, состоящая из 34 магазинов с приблизительно одинаковыми объемами продаж. Рассмотрим две независимые переменные — цена батончика OmniPower в центах (Х1) и месячный бюджет рекламной кампании, проводимой в магазине, выраженный в долларах (Х2). В этот бюджет входят расходы на оформление вывесок и витрин, а также на раздачу купонов и бесплатных образцов. Зависимая переменная Y представляет собой количество батончиков OmniPower, проданных за месяц (рис. 1).

Рис. 1. Месячный объем продажа батончиков OmniPower, их цена и расходы на рекламу

Подробнее »Введение в множественную регрессию

Простая линейная регрессия

В предыдущих заметках предметом анализа часто становилась отдельная числовая переменная, например, доходность взаимных фондов, время загрузки Web-страницы или объем потребления безалкогольных напитков. В настоящей и следующих заметках мы рассмотрим методы предсказания значений числовой переменной в зависимости от значений одной или нескольких других числовых переменных. [1]

Материал будет проиллюстрирован сквозным примером. Прогнозирование объема продаж в магазине одежды. Сеть магазинов уцененной одежды Sunflowers на протяжении 25 лет постоянно расширялась. Однако в настоящее время у компании нет систематического подхода к выбору новых торговых точек. Место, в котором компания собирается открыть новый магазин, определяется на основе субъективных соображений. Критериями выбора являются выгодные условия аренды или представления менеджера об идеальном местоположении магазина. Представьте, что вы — руководитель отдела специальных проектов и планирования. Вам поручили разработать стратегический план открытия новых магазинов. Этот план должен содержать прогноз годового объема продаж во вновь открываемых магазинах. Вы полагаете, что торговая площадь непосредственно связана с объемом выручки, и хотите учесть этот факт в процессе принятия решения. Как разработать статистическую модель, позволяющую прогнозировать годовой объем продаж на основе размера нового магазина?

Как правило, для предсказания значений переменной используется регрессионный анализ. Его цель — разработать статистическую модель, позволяющую предсказывать значения зависимой переменной, или отклика, по значениям, по крайней мере одной, независимой, или объясняющей, переменной. В настоящей заметке мы рассмотрим простую линейную регрессию — статистический метод, позволяющий предсказывать значения зависимой переменной Y по значениям независимой переменной X. В последующих заметках будет описана модель множественной регрессии, предназначенная для предсказания значений независимой переменной Y по значениям нескольких зависимых переменных (Х1, Х2, …, Xk). [2]

Подробнее »Простая линейная регрессия

Критерий согласия «хи-квадрат»

В настоящей заметке χ2-распределение используется для проверки согласованности набора данных с фиксированным распределением вероятностей. В критерии согласия частоты, принадлежащие определенной категории, сравниваются с частотами, которые являются теоретически ожидаемыми, если бы данные действительно имели указанное распределение. [1]

Проверка с помощью критерия согласия χ2 выполняется в несколько этапов. Во-первых, определяется конкретное распределение вероятностей, которое сравнивается с исходными данными. Во-вторых, выдвигается гипотеза о параметрах выбранного распределения вероятностей (например, о ее математическом ожидании) или проводится их оценка. В-третьих, на основе теоретического распределения определяется теоретическая вероятность, соответствующая каждой категории. В заключение, для проверки согласованности данных и распределения применяется тестовая χ2-статистика:

где f0 — наблюдаемая частота, fе — теоретическая, или ожидаемая частота, k — количество категорий, оставшихся после объединения, р — количество оцениваемых параметров.

Подробнее »Критерий согласия «хи-квадрат»

Критерий «хи-квадрат» для дисперсий

При анализе числовых данных иногда бывает важно оценить не только их среднее значение, но и изменчивость. Для примера вернемся к задаче о расфасовке кукурузных хлопьев, описанной ранее. Будучи управляющим компании Oxford Cereal Company, вы отвечаете за процесс расфасовки кукурузных хлопьев по коробкам. Необходимо убедиться, что конвейер работает нормально, и каждая коробка содержит в среднем 368 г зерна. Предполагалось, что стандартное отклонение σ равно 15 г. Предположим теперь, что нам необходимо определить, отличается ли стандартное отклонение от заданного уровня, равного 15 г. [1]

Пытаясь оценить изменчивость генеральной совокупности, мы должны сначала определить, какой статистический критерий можно использовать, чтобы представить распределение изменчивости выборочных данных. Если случайная переменная имеет нормальное распределение, для ответа на вопрос, равны ли дисперсия или стандартное отклонение заданной величине, применяется тестовая χ2-статистика:

где n — объем выборки, S2 — выборочная дисперсия, σ2 — гипотетическая дисперсия генеральной совокупности. Тестовая χ2-статистика имеет распределение χ2 с n – 1 степенями свободы.

Подробнее »Критерий «хи-квадрат» для дисперсий

Ранговый критерий Крускала-Уоллиса. Непараметрический метод для полностью рандомизированного эксперимента

Ранговый критерий Крускала-Уоллиса для оценки разностей между с медианами (с > 2) представляет собой обобщение рангового критерия Уилкоксона для двух независимых выборок (см. также Однофакторный дисперсионный анализ). Таким образом, критерий Крускала-Уоллиса является непараметрической альтернативой F-критерию в однофакторном дисперсионном анализе, аналогично тому, как критерий Уилкоксона представляет собой непараметрическую альтернативу t-критерию, использующему суммарную дисперсию при сравнении двух независимых выборок. Если выполняются условия, необходимые для применения F-критерия в однофакторном дисперсионном анализе, критерий Крускала-Уоллиса обладает той же мощностью. [1]

Ранговый критерий Крускала-Уоллиса применяется для проверки гипотезы, что с независимых выборок извлечены из генеральных совокупностей, имеющих одинаковые медианы. Иначе говоря, нулевая и альтернативная гипотезы формулируются следующим образом:

Н0: М1 = М2 = … =Mc

H1: не все Mj (j = 1, 2, …, с) являются одинаковыми

Подробнее »Ранговый критерий Крускала-Уоллиса. Непараметрический метод для полностью рандомизированного эксперимента

Непараметрические критерии. Ранговый критерий Уилкоксона

Ранее был изложен метод оценки разности между средними значениями выборок, извлеченных из двух независимых генеральных совокупностей. Если объемы выборок малы или генеральные совокупности не являются нормально распределенными, возникают две альтернативы: 1) можно применить непараметрическую процедуру, не зависящую от предположения о нормальном распределении генеральных совокупностей; 2) можно выполнить предварительную нормализацию данных, а затем применить t-критерий, использующий объединенную дисперсию. [1]

В данном заметке рассматривается критерий Уилкоксона, позволяющий оценить разность между медианами двух генеральных совокупностей. Этот критерий является весьма популярной непараметрической процедурой. По своей мощности критерий Уилкоксона мало отличается от t-критериев, использующих раздельную или суммарную дисперсии. В то же время для его использования нет необходимости предполагать, что генеральные совокупности распределены нормально. Кроме того, критерий Уилкоксона можно применять даже тогда, когда исследователю доступны лишь ранговые показатели. Эта ситуация довольно часто встречается в маркетинговых исследованиях, когда отсутствие числовых данных не позволяет применять t-критерии.

Подробнее »Непараметрические критерии. Ранговый критерий Уилкоксона

Применение χ2-критерия независимости

В предыдущей заметке χ2-критерий применялся для оценки разностей между несколькими долями признака. Если таблица сопряженности признаков состоит из r строк и с столбцов, χ2-критерий можно использовать для проверки независимости двух категорийных величин. [1] В этом случае нулевая и альтернативная гипотезы формулируются следующим образом: Н0: две категорийные величины независимы (т.е. между ними нет взаимосвязи), Н1: две категорийные величины зависят друг от друга (т.е. между ними есть взаимосвязь).

Для иллюстрации применяемых методов используется сценарий, в котором оценивается степень удовлетворенности постояльцев отелей, принадлежащих компании Т. С. Resort Properties. Если гости удовлетворены обслуживанием, велика вероятность, что они вернутся на следующий год и порекомендуют своим друзьям остановиться именно в вашем отеле. Чтобы оценить качество обслуживания, постояльцев просят заполнить анкету и указать, довольны ли они гостеприимством.

Для проверки независимости, как и прежде, применяется тестовая χ2-статистика:

Подробнее »Применение χ2-критерия независимости

Применение χ2-критерия для проверки гипотезы о равенстве двух или нескольких долей

В предыдущих заметках были описаны процедуры проверки гипотез о числовых и категорийных данных: одновыборочные критери, несколько двухвыборочных, а также основы дисперсионного анализа, позволяющего изучать один или два интересующих нас фактора. В настоящей заметке мы рассмотрим методы проверки гипотез о различиях между долями признака в генеральных совокупностях на основе нескольких независимых выборок. [1]

Для иллюстрации применяемых методов используется сценарий, в котором оценивается степень удовлетворенности постояльцев отелей, принадлежащих компании Т. С. Resort Properties. Представьте себе, что вы — менеджер компании, владеющей пятью отелями, расположенными на двух курортных островах. Если гости удовлетворены обслуживанием, велика вероятность, что они вернутся на следующий год и порекомендуют своим друзьям остановиться именно в вашем отеле. Чтобы оценить качество обслуживания, постояльцев просят заполнить анкету и указать, довольны ли они гостеприимством. Вам необходимо проанализировать данные опроса, определить общую степень удовлетворенности запросов постояльцев, оценить вероятность того, что гости приедут вновь в следующем году, а также установить причины возможного недовольства некоторых клиентов. Например, на одном из островов компании принадлежат отели Beachcomber и Windsurfer. Одинаково ли обслуживание в этих отелях? Если нет, как эту информацию можно использовать для улучшения качества работы компании? Более того, если некоторые постояльцы заявили, что больше к вам не приедут, какие причины они указывают чаще других? Можно ли утверждать, что эти причины касаются лишь конкретной гостиницы и не относятся ко всей компании в целом?

Ранее был описан Z-критерий для сравнения двух долей. Сейчас мы рассмотрим способ, основанный на сравнении количества успехов в двух группах, а не их долей в генеральных совокупностях. В этой процедуре тестовая χ2-статистика аппроксимируется χ2-распределением с одной степенью свободы. Результат, полученный с помощью χ2-критерия эквивалентен результату применения Z-критерия.

Для сравнения количества успехов в двух независимых группах необходимо заполнить таблицу перекрестной классификации с двумя входами, содержащую количество успехов и неудач в каждой из групп (рис. 1). Такую таблицу часто называют таблицей сопряженности признаков или факторной (ранее мы уже приводили примеры таких таблиц; см. Представление категорийных данных в виде таблиц и диаграмм, а в заметке Основные понятия теории вероятностей мы использовали ее для определения понятия вероятности).

Рис. 1. Шаблон факторной таблицы 2х2

Подробнее »Применение χ2-критерия для проверки гипотезы о равенстве двух или нескольких долей

Блочный рандомизированный эксперимент

Ранее был рассмотрен F-критерий однофакторного дисперсионного анализа для оценки разностей между математическими ожиданиями с групп. Этот критерий применяется в ситуациях, когда n однородных элементов (так называемых экспериментальных объектов) случайным образом распределяются по с уровням исследуемого фактора (так называемые группы условий факторного эксперимента. Такие эксперименты называются полностью рандомизированными. [1]

Кроме того, в заметке Проверка гипотез: двухвыборочные критерии был описан t-критерий для оценки разностей между математическими ожиданиями, который используется в ситуациях, связанных с повторяющимися измерениями или согласованными выборками. Этот критерий позволяет оценить различия между условиями проведения двух экспериментов. Предположим, что мы исследуем несколько групп условий или уровней исследуемого фактора. В таких ситуациях совокупности неоднородных объектов или индивидуумов, подлежащих сравнению (или повторным измерениям), называются блоками. Допустим, мы получили числовые результаты измерений для каждой группы условий и комбинаций блоков.

Подробнее »Блочный рандомизированный эксперимент