Введение в теорию статистического вывода

Рубрика: 8. Статистика

Недавно прочитал замечательную книгу Хитосе Кумэ. Статистические методы повышения качества. Книга в первую очередь адресована практикам, причем не только менеджерам, но и рабочим. В книге раскрыты методы сбора и обработки данных для управления качеством (см. также Семь основных инструментов контроля качества). В книге содержится одна глава, посвященная статистическому выводу. С одной стороны, она несколько выбивается из общей канвы книги, с другой стороны, в ней содержится краткий обзор по теме, причем изложенный весьма доходчиво (более подробно см. Левин. Статистика для менеджеров с использованием Microsoft Excel). Собственно, перед вами эта глава с небольшими сокращениями и моими комментариями.

Рис. 1. Место статистического вывода в наблюдениях и вычислениях

Читать полностью

Формула Байеса

Рубрика: 8. Статистика

Начнем с примера. В урне, стоящей перед вами, с равной вероятностью могут быть (1) два белых шара, (2) один белый и один черный, (3) два черных. Вы тащите шар, и он оказывается белым. Как теперь вы оцените вероятность этих трех вариантов (гипотез)? Очевидно, что вероятность гипотезы (3) с двумя черными шарами = 0. А вот как подсчитать вероятности двух оставшихся гипотез!? Это позволяет сделать формула Байеса, которая в нашем случае имеет вид (номер формулы соответствует номеру проверяемой гипотезы):

%d1%84%d0%be%d1%80%d0%bc%d1%83%d0%bb%d1%8b-1-3

Читать полностью

Пьер Симон Лаплас. Опыт философии теории вероятностей

Рубрика: 8. Статистика

В книге выдающегося французского математика, физика и астронома Пьера Лапласа (1749–1827) представлено популярное изложение основ теории вероятностей и ее приложений. Совершенно без формул дается свод почти всех главных вопросов этой теории; приводятся общие принципы исчисления вероятностей, описываются аналитические методы и законы вероятностей. Особое внимание в работе уделяется приложению теории вероятностей к различным вопросам жизни, большинство которых, по мнению Лапласа, есть не что иное, как задачи теории вероятностей. Рассматривается приложение этой теории к натуральной философии и нравственным наукам; исследуется вероятность свидетельских показаний и судебных приговоров, анализируются результаты выборов и решения собраний с точки зрения теории вероятностей, затрагивается вопрос об иллюзиях в оценке вероятностей. Работа широко цитируется в современной литературе. Я решил оставить русский перевод 1908-го года, и снабдить его комментариями.

Пьер Симон Лаплас. Опыт философии теории вероятностей. – М.: Книжный дом «ЛИБРОКОМ», 2011. — 208 с. (книга впервые опубликована в 1814 г.; на старорусский язык книга переведена в 1908 г.; настоящее издание является репринтным).

%d0%bf%d1%8c%d0%b5%d1%80-%d1%81%d0%b8%d0%bc%d0%be%d0%bd-%d0%bb%d0%b0%d0%bf%d0%bb%d0%b0%d1%81-%d0%be%d0%bf%d1%8b%d1%82-%d1%84%d0%b8%d0%bb%d0%be%d1%81%d0%be%d1%84%d0%b8%d0%b8-%d1%82%d0%b5%d0%be%d1%80

Читать полностью

Джон Тьюки. Анализ результатов наблюдений. Разведочный анализ

Рубрика: 8. Статистика

В книге, написанной в 1977 г. известным американским специалистом по математической статистике, изложены основы разведочного анализа данных, т.е. первичной обработки результатов наблюдений, осуществляемой посредством простейших средств — карандаша, бумаги и логарифмической линейки. На многочисленных примерах автор показывает, как представление наблюдений в наглядной форме с помощью схем, таблиц и графиков облегчает выявление закономерностей и подбор способов более глубокой статистической обработки. Изложение сопровождается многочисленными упражнениями с привлечением богатого материала из практики. Живой, образный язык облегчает понимание излагаемого материала.

Джон Тьюки. Анализ результатов наблюдений. Разведочный анализ. – М.: Мир, 1981. – 696 с.

%d0%b4%d0%b6%d0%be%d0%bd-%d1%82%d1%8c%d1%8e%d0%ba%d0%b8-%d0%b0%d0%bd%d0%b0%d0%bb%d0%b8%d0%b7-%d1%80%d0%b5%d0%b7%d1%83%d0%bb%d1%8c%d1%82%d0%b0%d1%82%d0%be%d0%b2-%d0%bd%d0%b0%d0%b1%d0%bb%d1%8e%d0%b4

Читать полностью

Нейт Сильвер. Сигнал и шум

Рубрика: 8. Статистика

Мы считаем, что наш мир во многом логичен и предсказуем, а потому делаем прогнозы, высчитываем вероятность землетрясений, эпидемий, экономических кризисов, пытаемся угадать результаты торгов на бирже и спортивных матчей. В этом безбрежном океане данных важно уметь правильно распознать настоящий сигнал и не отвлекаться на бесполезный информационный шум.

О том, как этому научиться, рассказывает гуру статистики Нейт Сильвер, разработавший систему прогнозов, позволившую дважды максимально точно предсказать результаты президентских выборов почти во всех штатах Америки. Его книга во многом близка исследованиям Нассима Талеба и столь же значима для всех, кто имеет дело с большими объемами данных и просчитывает различные варианты развития событий. И если Талеб говорит о законах зарождения «черных лебедей», Сильвер исследует модели и способы, позволяющие поймать этих птиц в расставленные нами сети. Он обобщает опыт экспертов практиков, изучает различные модели и подходы, позволяющие делать более точные прогнозы. Как и Даниэль Канеман, автор бестселлера Думай медленно… Решай быстро, наблюдая за поведением и мышлением людей, оценивающих неопределенные события, Сильвер утверждает: да, компьютеры незаменимы при работе с огромными массивами данных, но для максимальной точности результатов необходим гибкий человеческий ум и опыт, ведь прогнозирование – это планирование в условиях неопределенности.

Нейт Сильвер. Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет. – М.: КоЛибри, Азбука Аттикус, 2015. – 608 с.

%d0%bd%d0%b5%d0%b9%d1%82-%d1%81%d0%b8%d0%bb%d1%8c%d0%b2%d0%b5%d1%80-%d1%81%d0%b8%d0%b3%d0%bd%d0%b0%d0%bb-%d0%b8-%d1%88%d1%83%d0%bc-%d0%be%d0%b1%d0%bb%d0%be%d0%b6%d0%ba%d0%b0

Читать полностью

Фишер. Статистический вывод

Рубрика: 8. Статистика

Рональд Фишер — ученый, снабдивший статистику инструментами, благодаря которым она обрела то огромное значение, которое имеет сегодня. Его основной вклад — статистический вывод, инновационный подход, связанный с понятием вероятности, который дал статистике, состоявшей прежде на службе других дисциплин, необходимый импульс для того, чтобы она стала полноправной наукой. Этому британскому математику и биологу мы обязаны статистическим методом, который применяется в планировании научных экспериментов. Он был ярым сторонником евгеники, зародившейся в первой половине XX века, и в этом контексте его исследования касались также генетики и современной эволюционной теории.

По теме см. также Левин. Статистика для менеджеров с использованием Microsoft Excel

Наука. Величайшие теории: выпуск 47: Возможно да, возможно нет. Фишер. Статистический вывод. — М.: Де Агостини, 2015. — 176 с.

%d1%84%d0%b8%d1%88%d0%b5%d1%80-%d1%81%d1%82%d0%b0%d1%82%d0%b8%d1%81%d1%82%d0%b8%d1%87%d0%b5%d1%81%d0%ba%d0%b8%d0%b9-%d0%b2%d1%8b%d0%b2%d0%be%d0%b4-%d0%be%d0%b1%d0%bb%d0%be%d0%b6%d0%ba%d0%b0

Читать полностью

СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г: в чем различие?

Рубрика: 8. Статистика

Я уже несколько раз сталкивался с тем, что существуют две статистики, обе называемые стандартное отклонение, для описания меры рассеивания случайной величины. Недавно это произошло при чтении книги Дональд Уилер, Дэвид Чамберс. Статистическое управление процессами. Чтобы эти статистики различать, в книге они названы по-разному. Корень из среднего квадрата отклонения sn, определен для ряда, состоящего из n элементов формулой:

%d1%84%d0%be%d1%80%d0%bc%d1%83%d0%bb%d0%b0-1

Стандартное отклонение рассчитывается по формуле:

%d1%84%d0%be%d1%80%d0%bc%d1%83%d0%bb%d0%b0-2

Читать полностью

Определение выбросов

Рубрика: 8. Статистика

Выбросы — точки, сильно выбивающиеся из последовательности, не вписывающиеся в модель по какой-либо причине. Люди озаботились выбросами, желая избавиться от них. Выбросы оттягивают на себя средние значения и сдвигают распределение данных. [1] Иногда выбросы – просто ошибка ввода. Поэтому первая причина обращать внимание на выбросы — это обеспечение чистоты анализа данных и моделирования. Но есть и другая – определение выбросов интересно само по себе!

Рис. 1. Вероятность 349-дневной беременности

Рис. 1. Вероятность 349-дневной беременности

Читать полностью

Прогнозирование на основе экспоненциального сглаживания

Рубрика: 8. Статистика

Задачи прогнозирования построены на изменении неких данных во времени (продаж, спроса, поставок, ВВП, выбросов углерода, численности населения…) и проецировании этих изменений на будущее. К сожалению, выявленные на исторических данных, тренды могут нарушаться множеством непредвиденных обстоятельств. Так что данные в будущем могут существенно отличаться от произошедшего в прошлом. [1] В этом и состоит проблема прогнозирования.

Однако, существуют методики (под названием экспоненциальное сглаживание), позволяющие не только попытаться предсказать будущее, но и выразить численно неопределенность всего, что связано с прогнозом. Численное выражение неопределенности с помощью создания интервалов прогнозирования поистине неоценимо, но часто игнорируется в прогностическом мире.

Рис. 1. Временной ряд данных

Рис. 1. Временной ряд данных

Читать полностью

Педро Домингос. Верховный алгоритм

Рубрика: 8. Статистика

Машинное обучение преображает науку, технологию, бизнес и позволяет глубже узнать природу и человеческое поведение. Программирующие сами себя компьютеры — одна из самых важных современных технологий, и она же — одна из самых таинственных. Ученый-практик Педро Домингос приоткрывает завесу и впервые доступно рассказывает о машинном обучении и о поиске универсального обучающегося алгоритма, который сможет выуживать любые знания из данных и решать любые задачи (он называет его Верховный алгоритм). Чтобы заглянуть в будущее и узнать, как машинное обучение изменит наш мир, не нужно специального технического образования — достаточно прочитать эту книгу. См. также. Джон Форман. Много цифр: Анализ больших данных при помощи Excel, Идеи Байеса для менеджеров.

Педро Домингос. Верховный алгоритм. Как машинное обучение изменит наш мир. – М.: Манн, Иванов и Фербер, 2016. — 336 с.

Педро Домингос. Верховный алгоритм. Обложка

Читать полностью