На рубеже веков я работал в издательстве. Планирование в рекламном отделе строилось «от достигнутого»:
- устанавливали план продаж на отдел,
- рассчитывали коэффициент, равный плану на 2001 г., деленному на факт 2000 г.,
- каждому менеджеру устанавливали план на год, равный его продажам за прошлый год, умноженным на коэффициент.
На 2001 г. запланировали продать на 30% больше, чем в 2000 г. Реально продали на 28% больше. При этом по менеджерам картина выглядела разнонаправленной. Точка на диаграмме – продажи одного менеджера: по оси Х – в 2000 г., по оси Y – в 2001 г. Сплошная прямая соответствует динамике продаж всего отдела – рост с коэффициентом 1,28. Пунктирная прямая – линия тренда всех точек, иначе называемая регрессионной прямой. Она растет существенно медленнее, с коэффициентом 0,9.
Рис. 1. Продажи рекламы отдельными менеджерами
Предыдущая глава Оглавление Следующая глава
Скачать заметку в формате Word или pdf, примеры в формате Excel
Корреляция и регрессия к среднему
Такие диаграммы строят редко, потому что феномен регрессии чужд человеческому разуму. Зато мы любим вычислять корреляцию. Ниже я ранжировал менеджеров по объему продаж в 2000 г., а затем отдельной кривой показал их продажи в 2001 г. Коэффициент корреляции довольно высокий – 86%.
Рис. 2. Менеджеры ранжированы по продажам в 2000 г.
Т.е., на 86% продажи 2001 г. могут быть объяснены результатами прошлого года. Отлично! Хорошая предсказательная сила! Наш мозг автоматически выстраивает причинные связи: успешные менеджеры делают больше звонков, лучше рассказывают о преимуществах рекламы в газете, качественнее обслуживают клиентов. Но… если сделать обратное, и ранжировать менеджеров по продажам 2001 г., картина будет похожей:
Рис. 3. Те же данные, то менеджеры ранжированы по продажам 2001 г.
Теперь мы видим, что лучшие продавцы 2001 г. были не столь успешны в 2000 г. Но объяснить неудачи прошлого года несколько сложнее. Каузальные связи от следствий к причинам легко демонстрировать разве что в кино, включая движение ленты в обратном направлении))
Впервые явление регрессии к среднему описал сэр Фрэнсис Гальтон, троюродный брат Чарльза Дарвина. В статье 1886 г. он сообщил об измерениях нескольких последовательных поколений семян: «Эксперименты показали, что потомство не походило на родителей размером, но всегда оказывалось более заурядным, то есть меньше крупных родителей или больше мелких».
Корреляция и регрессия – это не две разные концепции, а две точки зрения на одну. Когда коэффициент корреляции меньше единицы, наблюдается регрессия к среднему.
Понимание регрессии
Наверное, вы сталкивались с высказыванием, что корреляция не говорит о наличии причинно-следственных связей. Даниел Канеман считает, что наш разум склонен к каузальным объяснениям и плохо справляется с простой статистикой. Если какое-то событие привлекает наше внимание, ассоциативная память начинает искать его причину, а точнее, активируется любая причина, уже хранящаяся в памяти. При обнаружении регрессии подыскиваются каузальные объяснения, но они будут неверными, потому что на самом деле у регрессии к среднему объяснение есть, а причин нет.
Мне относительно легко далось понимание регрессии к среднему благодаря опыту участия в бриджевых соревнованиях. Крупные турниры включают несколько сессий. Победители отдельных сессий набирают довольно много очков: 65% или даже 70% от максимально возможного. В то же время победитель турнира из четырех сессий, как правило набирает «лишь» 55–57%.
Для понимания регрессии к среднему Канеман предложил формулу:
- наблюдаемый успех = талант + удача
- большой успех = такой же или чуть больший талант + очень много удачи
Каузальный подход не учитывает второе слагаемое, которое оказывает постоянное давление в направлении среднего.
Шутка юмора. Распространено утверждение, что умные женщины выходят замуж за менее умных мужчин. Поскольку корреляция между умом женщин и мужчин неидеальна, математически неизбежен регресс к среднему. Не сомневайтесь, верно и обратное утверждение))
Строгий научный эксперимент
Трехмесячное применение энергетических напитков для лечения депрессии у детей дает значительные улучшения состояния.
Канеман выдумал этот заголовок, но описанный в нем факт – технически справедлив: если какое-то время поить энергетическими напитками детей, страдающих депрессией, наблюдается клинически значимое улучшение. Аналогичным образом дети с депрессией, которые будут ежедневно по пять минут стоять на голове или по двадцать минут гладить кошек, также покажут улучшение состояния.
Однако считать, что улучшение наступило из-за энергетического напитка или поглаживания кошки – совершенно необоснованный вывод. Дети в депрессии – это экстремальная группа, а такие группы с течением времени регрессируют к среднему. Детям с депрессией со временем станет легче, даже если они не будут гладить кошек и пить «Ред Булл». Для вывода об эффективности способа лечения необходимо сравнить группу пациентов, получающих его, с контрольной группой, получающей плацебо. Ожидается, что контрольная группа покажет улучшение только за счет регрессии, а цель эксперимента состоит в выяснении, улучшается ли состояние пациентов, получающих лечение, больше, чем объясняется регрессией.
В медицине для установления действенности лекарств используют двойной слепой рандомизированный плацебо-контролируемый метод:
- слепой – означает, что испытуемые не посвящаются в детали исследования,
- двойной заключается в том, что врачи, назначающие лечение, тоже остаются в неведении о деталях эксперимента до его окончания,
- рандомизированный – означает, что отбор испытуемых в основную и контрольную группы проводится случайным образом,
- если в основной группе давать лекарство, а в контрольной – нет, то сам факт отсутствия лечения может привести к ухудшению состояния, поэтому контрольной группе дают плацебо.
Литература
Дэниэль Канеман. Думай медленно… решай быстро. – М.: АСТ, 2013. – 656 с. Конспект: https://baguzin.ru/wp/?p=7840
Эффект Даннинга-Крюгера и регрессия к среднему: https://medium.com/@flavorchemist/dunning-kruger-regression-7d747eecb806