Перейти к содержимому

8. Статистика

Оценка прогноза. Количественное измерение неопределенности

Недавно я прочитал книгу Филипа Тетлока и Дэна Гарднера. Думай медленно – предсказывай точно. Она посвящена различным аспектам прогнозирования. Для оценки точности прогнозов используется критерий Брайера. На русском языке статей по теме довольно мало, зато попалась любопытная заметка на английском – Ryan McGeehan. Scoring a risk forecast. Quantitative measurement of wrong-ness. Перед вами ее перевод от первого лица.

Я опишу несколько подходов, используемых для оценки прогнозов. Для простоты использую самый знакомый нам прогноз… – погода на завтра.

Пойдет ли дождь в центре Сан-Франциско завтра 19 июня 2019 г.?

Допустим, ваш прогноз, сделанный 18 июня, был 1% за то, что дождь пойдет. 19-го дождя не было. И мы оцениваем прогноз от 18-го, зная результат.

Ris. 1. Otsenka Brajera 550

Рис. 1. Оценка Брайера

Подробнее »Оценка прогноза. Количественное измерение неопределенности

t-статистика Стьюдента в Excel

Большинству из нас хорошо знакома колоколообразная кривая нормального распределения. Она отлично работает, когда выборки большие, но занижает значения на «хвостах», когда выборки малые. Для описания статистики малых выборок была разработана t-статистика Стьюдента. Она также симметрична и подчиняется колоколообразному распределению, но дает лучшую оценку для малых выборок. В отличие от нормального распределения t-статистика не одна, а представлена целым семейством распределений. Дополнительный параметр – размер выборки или число степеней свободы.

Рис. 1. Нормальная кривая и кривые t-распределения; df – число степеней свободы (от англ. degrees of freedom); gif-файл создан с помощью бесплатного сервиса ezgif.com, на который меня навела Евгения Крюкова

Подробнее »t-статистика Стьюдента в Excel

Комбинаторика в Excel

Комбинаторика в Excel

Комбинаторика — раздел математики, изучающий дискретные объекты, множества (сочетания, перестановки, размещения элементов) и отношения на них. Термин комбинаторика был введён в математический обиход Лейбницем, который в 1666 году опубликовал свой труд «Рассуждения о комбинаторном искусстве». Excel поддерживает ряд функций комбинаторики. Чтобы разобраться, какую формулу использовать, следует ответить на ряд вопросов:

  1. Исходное множество содержит только уникальные элементы, или некоторые из них могут повторяться?
  2. Операция выполняется со всеми элементами множества, или только с некоторой выборкой из них?
  3. Важен ли порядок элементов в выборке?
  4. После выбора элемента мы его возвращаем назад?

Рис. 1. Дерево решений, какую формулу комбинаторики использовать

Подробнее »Комбинаторика в Excel

Конрад Карлберг. Регрессионный анализ в Microsoft Excel

Регрессионный анализ в Microsoft Excel – наиболее полное руководств по использованию MS Excel для решения задач регрессионного анализа в области бизнес-аналитики. Конрад Карлберг доступно объясняет теоретические вопросы, знание которых поможет вам избежать многих ошибок как при самостоятельном проведении регрессионного анализа, так и при оценке результатов анализа, выполненного другими людьми. Весь материал, от простых корреляций и t-тестов до множественного ковариационного анализа, основан на реальных примерах и сопровождается подробным описанием соответствующих пошаговых процедур.

В книге обсуждаются особенности и противоречия, связанные с функциями Excel для работы с регрессией, рассматриваются последствия использования каждой их опции и каждого аргумента и объясняется, как надежно применять регрессионные методы в самых разных областях, от медицинских исследований до финансового анализа.

Ранее я опубликовал Левин. Статистика для менеджеров с использованием Microsoft Excel.

Конрад Карлберг. Регрессионный анализ в Microsoft Excel. – М.: Диалектика, 2017. – 400 с.

Подробнее »Конрад Карлберг. Регрессионный анализ в Microsoft Excel

Визуализация статистических данных с помощью диаграммы ящик с усами

Предыстория. В связи с холодными днями в мае и июне 2017 г. я изучил климатические данные многолетних наблюдений, и хотел опубликовать заметку о статистическом взгляде на всё это безобразие. В качестве иллюстрации одной из своих идей я построил блочную диаграмму. Во время ее форматирования я обнаружил, что не вполне понимаю, по каким алгоритмам Excel рисует на ней границы квартилей. Углубившись в вопрос, я узнал много нового, о чем захотел поделиться с читателями блога. Но подумал, что описание тонких алгоритмов как бы повисает в воздухе, и поэтому решил начать с небольшого теоретического введения.

Рис. 1. Визуальное представление выборки: (а) диаграмма разброса показывает все элементы выборки; (б) 5-числовая сводка в виде графика ящик с усами

Подробнее »Визуализация статистических данных с помощью диаграммы ящик с усами

КВАРТИЛЬ: какие формулы расчета использует Excel

Квартиль — одна из статистик, используемая при описании выборок (подробнее о различных статистиках см. Определение среднего значения, вариации и формы распределения. Описательные статистики). В то время как медиана разделяет упорядоченный массив пополам, квартили разбивают набор данных на четыре части. Первый квартиль – это число, разделяющее выборку на две части: 25% элементов меньше, а 75% — больше значения первого квартиля. Третий квартиль — это число, разделяющее выборку также на две части: 75% элементов меньше, а 25% — больше третьего квартиля.

Рис. 1. 5-числовые сводки: М – медиана, Н1 и Н2 – сгибы (они же квартили)

Подробнее »КВАРТИЛЬ: какие формулы расчета использует Excel

Естественная частота против байесовского подхода

Начну с того, что мне очень интересен байесовский подход. Много читал, чтобы осмыслить его (см. литературу в конце заметки), и могу засвидетельствовать, что постигнуть его непросто… А недавно, прочитав книгу Герд Гигеренцер. Понимать риски. Как выбирать правильный курс, обнаружил, что байесовский подход можно дополнить более интуитивным (хотя и менее строгим) методом, который автор назвал естественной частотой.

Рис. 1. Иллюстрация суждений в стиле естественной частоты

Подробнее »Естественная частота против байесовского подхода

Введение в теорию статистического вывода

Недавно прочитал замечательную книгу Хитосе Кумэ. Статистические методы повышения качества. Книга в первую очередь адресована практикам, причем не только менеджерам, но и рабочим. В книге раскрыты методы сбора и обработки данных для управления качеством (см. также Семь основных инструментов контроля качества). В книге содержится одна глава, посвященная статистическому выводу. С одной стороны, она несколько выбивается из общей канвы книги, с другой стороны, в ней содержится краткий обзор по теме, причем изложенный весьма доходчиво (более подробно см. Левин. Статистика для менеджеров с использованием Microsoft Excel). Собственно, перед вами эта глава с небольшими сокращениями и моими комментариями.

Рис. 1. Место статистического вывода в наблюдениях и вычислениях

Подробнее »Введение в теорию статистического вывода

Формула Байеса

Начнем с примера. В урне, стоящей перед вами, с равной вероятностью могут быть (1) два белых шара, (2) один белый и один черный, (3) два черных. Вы тащите шар, и он оказывается белым. Как теперь вы оцените вероятность этих трех вариантов (гипотез)? Очевидно, что вероятность гипотезы (3) с двумя черными шарами = 0. А вот как подсчитать вероятности двух оставшихся гипотез!? Это позволяет сделать формула Байеса, которая в нашем случае имеет вид (номер формулы соответствует номеру проверяемой гипотезы):

%d1%84%d0%be%d1%80%d0%bc%d1%83%d0%bb%d1%8b-1-3

Подробнее »Формула Байеса

СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г: в чем различие?

Я уже несколько раз сталкивался с тем, что существуют две статистики, обе называемые стандартное отклонение, для описания меры рассеивания случайной величины. Недавно это произошло при чтении книги Дональд Уилер, Дэвид Чамберс. Статистическое управление процессами. Чтобы эти статистики различать, в книге они названы по-разному. Корень из среднего квадрата отклонения sn, определен для ряда, состоящего из n элементов формулой:

%d1%84%d0%be%d1%80%d0%bc%d1%83%d0%bb%d0%b0-1

Стандартное отклонение рассчитывается по формуле:

%d1%84%d0%be%d1%80%d0%bc%d1%83%d0%bb%d0%b0-2

Подробнее »СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г: в чем различие?