Перейти к содержимому

8. Статистика

Центральная предельная теорема

Я часто сталкиваюсь с ситуацией, когда интересные научные концепции не используются на практике из-за сложности их представления. Одним из таких понятий является Центральная предельная теорема. Вот, что сказано в Википедии:

Центральные предельные теоремы – класс теорем в теории вероятностей, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.

Звучит абстрактно… по крайней мере для меня. Переформулирую:

Центральная предельная теорема: независимо от формы распределения случайной величины средние выборок достаточного размера распределены нормально.

Если и эта формулировка мало что вам прояснила, не отчаивайтесь, изучите два примера.

Рис. 1. Равномерное распределение случайной величины и распределение средних значений выборок разного размера

Подробнее »Центральная предельная теорема

Эксцесс распределения случайной величины

Я подписан на рассылку издательства ДМК Пресс. Оно специализируется на литературе по программированию, но не только. Меня, в частности, интересует статистика. И книг по этой теме в издательстве немало. В недавней рассылке была анонсирована книга японских авторов Статистика в рисунках. Просматриваю оглавление и обнаруживаю раздел Форма распределения. Асимметрия и куртозис. Как же так – использовать куртозис вместо общеупотребимого русскоязычного термина эксцесс!? Гуглю, и второй ссылкой в выдаче появляется Википедия со статьей Коэффициент эксцесса. А первой – ссылка на работу Александра Цыплакова.[1] Читаю и понимаю, что не всё так однозначно))

Рис. 1. Некоторые распределения и их эксцесс: а) эталонное нормальное распределение, эксцесс = 0, б) t-распределение Стьюдента, df = 5, эксцесс > 0, в) равномерное распределение, эксцесс < 0

Подробнее »Эксцесс распределения случайной величины

Каковы шансы поймать нечестную монету?

Возможно, вы слышали про парадокс дней рождения. Ответьте на вопрос: сколько человек должно быть в группе, чтобы вероятность совпадения дней рождения (число и месяц) хотя бы у двух людей превысила 50%? Прежде чем читать далее, дайте быстрый приблизительный ответ.

Подробнее »Каковы шансы поймать нечестную монету?

Статистические симуляции в Excel

Эта продолжение перевода книги Джерарда Вершурена. 100 симуляций в Excel

Предыдущий раздел      К содержанию       Следующий раздел

Глава 9. Честная монета

Что делает симуляция. Имитирует шестикратное подбрасывание монеты. В диапазоне С2:F8 подсчитывается теоретическая вероятность выпадения нуля решек, одной решки, и т.д. Подсчеты делаются для честной монеты с вероятностью выпадения решки в одном броске = 50%, и для нечестных монет, с вероятностью выпадения решки при однократном бросании = 20%, 30%, 40%. График для честной монеты представляет собой колоколообразную кривую. Максимум приходится на 3 решки и его теоретическая вероятность составляет 31% (ячейка F5). Для нечестных монет графики плотности вероятности имеют положительную асимметрию: пик сдвинут влево, а правый хвост более длинный, чем левый.

Рис. 2.1. Является ли монет честной? Чтобы увеличить изображение кликните на нем правой кнопкой мыши и выберите Открыть картинку в новой вкладке

Подробнее »Статистические симуляции в Excel

SPSS Statistics быстрый старт

Основным инструментом анализа и визуализации статистических данных для меня всегда был Excel. Я работаю с ним ежедневно. По нему написал больше всего заметок и прочитал наибольшее число книг. Пожалуй, лучшее сочетание статистики и Excel я нашел в книге Левин. Статистика для менеджеров с использованием Microsoft Excel. Вторым инструментом, к которому я только прикоснулся, был R (см., например, Алексей Шипунов. Наглядная статистика. Используем R!). А недавно прочитал любопытную книгу Нил Дж. Салкинд. Статистика для тех, кто (думает, что) ненавидит статистику. В ней автор все примеры иллюстрирует в программе SPSS. Так что я решил попробовать и этот продукт.

На сайте IBM доступна пробная версия, которая будет работать на вашем ПК 14 дней. Регистрируетесь и скачиваете программу SPSS Statistics. При регистрации запомните пароль. Он вам пригодится для входа в программу. После запуска появляется приветственное окно:

Рис. 1. Приветственное окно SPSS; чтобы увеличить изображение кликните на нем правой кнопкой мыши и выберите Открыть картинку в новой вкладке

Подробнее »SPSS Statistics быстрый старт

Оценка прогноза. Количественное измерение неопределенности

Недавно я прочитал книгу Филипа Тетлока и Дэна Гарднера. Думай медленно – предсказывай точно. Она посвящена различным аспектам прогнозирования. Для оценки точности прогнозов используется критерий Брайера. На русском языке статей по теме довольно мало, зато попалась любопытная заметка на английском – Ryan McGeehan. Scoring a risk forecast. Quantitative measurement of wrong-ness. Перед вами ее перевод от первого лица.

Я опишу несколько подходов, используемых для оценки прогнозов. Для простоты использую самый знакомый нам прогноз… – погода на завтра.

Пойдет ли дождь в центре Сан-Франциско завтра 19 июня 2019 г.?

Допустим, ваш прогноз, сделанный 18 июня, был 1% за то, что дождь пойдет. 19-го дождя не было. И мы оцениваем прогноз от 18-го, зная результат.

Ris. 1. Otsenka Brajera 550

Рис. 1. Оценка Брайера

Подробнее »Оценка прогноза. Количественное измерение неопределенности

t-статистика Стьюдента в Excel

Большинству из нас хорошо знакома колоколообразная кривая нормального распределения. Она отлично работает, когда выборки большие, но занижает значения на «хвостах», когда выборки малые. Для описания статистики малых выборок была разработана t-статистика Стьюдента. Она также симметрична и подчиняется колоколообразному распределению, но дает лучшую оценку для малых выборок. В отличие от нормального распределения t-статистика не одна, а представлена целым семейством распределений. Дополнительный параметр – размер выборки или число степеней свободы.

Рис. 1. Нормальная кривая и кривые t-распределения; df – число степеней свободы (от англ. degrees of freedom); gif-файл создан с помощью бесплатного сервиса ezgif.com, на который меня навела Евгения Крюкова

Подробнее »t-статистика Стьюдента в Excel

Комбинаторика в Excel

Комбинаторика в Excel

Комбинаторика — раздел математики, изучающий дискретные объекты, множества (сочетания, перестановки, размещения элементов) и отношения на них. Термин комбинаторика был введён в математический обиход Лейбницем, который в 1666 году опубликовал свой труд «Рассуждения о комбинаторном искусстве». Excel поддерживает ряд функций комбинаторики. Чтобы разобраться, какую формулу использовать, следует ответить на ряд вопросов:

  1. Исходное множество содержит только уникальные элементы, или некоторые из них могут повторяться?
  2. Операция выполняется со всеми элементами множества, или только с некоторой выборкой из них?
  3. Важен ли порядок элементов в выборке?
  4. После выбора элемента мы его возвращаем назад?

Рис. 1. Дерево решений, какую формулу комбинаторики использовать

Подробнее »Комбинаторика в Excel

Конрад Карлберг. Регрессионный анализ в Microsoft Excel

Регрессионный анализ в Microsoft Excel – наиболее полное руководств по использованию MS Excel для решения задач регрессионного анализа в области бизнес-аналитики. Конрад Карлберг доступно объясняет теоретические вопросы, знание которых поможет вам избежать многих ошибок как при самостоятельном проведении регрессионного анализа, так и при оценке результатов анализа, выполненного другими людьми. Весь материал, от простых корреляций и t-тестов до множественного ковариационного анализа, основан на реальных примерах и сопровождается подробным описанием соответствующих пошаговых процедур.

В книге обсуждаются особенности и противоречия, связанные с функциями Excel для работы с регрессией, рассматриваются последствия использования каждой их опции и каждого аргумента и объясняется, как надежно применять регрессионные методы в самых разных областях, от медицинских исследований до финансового анализа.

Ранее я опубликовал Левин. Статистика для менеджеров с использованием Microsoft Excel.

Конрад Карлберг. Регрессионный анализ в Microsoft Excel. – М.: Диалектика, 2017. – 400 с.

Подробнее »Конрад Карлберг. Регрессионный анализ в Microsoft Excel

Визуализация статистических данных с помощью диаграммы ящик с усами

Предыстория. В связи с холодными днями в мае и июне 2017 г. я изучил климатические данные многолетних наблюдений, и хотел опубликовать заметку о статистическом взгляде на всё это безобразие. В качестве иллюстрации одной из своих идей я построил блочную диаграмму. Во время ее форматирования я обнаружил, что не вполне понимаю, по каким алгоритмам Excel рисует на ней границы квартилей. Углубившись в вопрос, я узнал много нового, о чем захотел поделиться с читателями блога. Но подумал, что описание тонких алгоритмов как бы повисает в воздухе, и поэтому решил начать с небольшого теоретического введения.

Рис. 1. Визуальное представление выборки: (а) диаграмма разброса показывает все элементы выборки; (б) 5-числовая сводка в виде графика ящик с усами

Подробнее »Визуализация статистических данных с помощью диаграммы ящик с усами