Комплексное моделирование или бэггинг (bagging)

Рубрика: 8. Статистика

Ранее мы построили весьма точную регрессионную модель для определения беременных покупателей супермаркета на основе данных об их покупках. А что, если построить несколько заведомо неказистых моделей и затем устроить голосование по поводу беременности покупательницы — а процент голосов использовать как единичный прогноз? Такой подход называется комплексным моделированием. Мы рассмотрим бэггинговые (bagging) одноуровневые деревья принятия решений. [1]

Excel-файл содержит обучающие данные из предыдущей заметки (это позволит сравнить модели). Фиктивными переменными (пол покупателей) уже настроенными. Отличительные признаки пронумерованы от 0 до 18 в строке 2 (рис. 1).

Рис. 1. Исходный набор обучающих данных

Рис. 1. Исходный набор обучающих данных; чтобы увеличить картинку, кликните на ней правой кнопкой мыши и выберите опцию Открыть картинку в новой вкладке

Читать полностью

Регрессия, как инструмент контролируемого искусственного интеллекта

Рубрика: 8. Статистика

В одной из статей Forbes рассказывается о том, что компания Target создала модель искусственного интеллекта (ИИ). Модель способна определить, является ли покупательница беременной, чтобы затем использовать эту информацию для целевого маркетинга товаров и предложений, связанных с ожиданием и рождением ребенка. [1] ИИ способен найти применение практически в любой современной отрасли. Компания, выпустившая вашу кредитку, использует его, чтобы определить несвойственные вам операции. Враг в вашей любимой «стрелялке» на Xbox работает на ИИ. Фильтрация спама, обнаружение налогового мошенничества, автокоррекция орфографии и рекомендации друзей в социальных сетях — все это тоже ИИ.

Рис. 1. Исходные данные для обучения

Рис. 1. Исходные данные для обучения (чтобы увеличить изображение, кликните на нем правой кнопкой мыши, и выберите Открыть картинку в новой вкладке)

Читать полностью

Кластерный анализ: сетевые графы и определение сообществ

Рубрика: 8. Статистика

Кластерный анализ используется для многих целей, но в этой заметке основное внимание будет уделено сегментации рынка. Ранее был рассмотрен кластерный анализ с использованием метода k-средних. Одна из проблем метода заключалась в выборе «правильного» k. Теперь задачу определения заинтересованных групп покупателей, основываясь на их заказах, мы будем решать с помощью сетевого графа, и значение k появится само собой. [1]

Сетевой граф — это набор предметов, называемых вершинами графа, которые соединены друг с другом ребрами (или связями). Социальные сети, такие как Facebook, содержат много данных, которые легко можно объединить в сетевой граф. Чтобы лицезреть классический сетевой граф, достаточно зайти на сайт любой авиакомпании (рис. 1). Удобный интерфейс для построения графов предоставляют, например, бесплатные сервисы DocGraph и NodeXL.

Рис. 1. Авиамаршруты компании Delta

Рис. 1. Авиамаршруты компании Delta

Читать полностью

Линейное программирование в Excel

Рубрика: 8. Статистика

Оптимизационные модели используются, чтобы найти ответы на вопросы типа:

  • как составить расписание для сотрудников колл-центра, чтобы оно соответствовало их отпускным запросам, сбалансировало переработки и исключало круглосуточные дежурства?
  • какие возможности бурения нефтяных скважин использовать для получения максимального дохода, держа при этом под контролем все риски?
  • когда следует делать новые заказы в Китае и как их доставлять, чтобы минимизировать стоимость и соответствовать ожидаемому спросу?

Рис. 1. Бюджетное ограничение делает область допустимых значений треугольной

Рис. 1. Бюджетное ограничение делает область допустимых значений треугольной

Читать полностью

Наивный байесовский классификатор документов в Excel

Рубрика: 8. Статистика

Самое распространенное применение наивного Байеса — классификация документов. Является ли это электронное письмо спамом или наоборот, долгожданной новостью? Эта запись в Twitter — благодушная или сердитая? Нужно ли передавать этот перехваченный звонок по сотовому для дальнейшего исследования федеральным агентам? Вы предоставляете «данные для обучения», например, классифицированные примеры документов, обучающему алгоритму, который в дальнейшем сможет «разбить» новые документы на те же категории, используя имеющиеся знания. [1]

Самый распространенный подход к классификации документов — это использование модели набор слов в сочетании с наивным байесовским классификатором. Модель набор слов воспринимает документ как беспорядочное множество слов. «Джонни съел сыр» для него то же самое, что «сыр съел Джонни» — и то и другое состоит из одного и того же множества слов: {«Джонни», «съел», «сыр»}.

Читать полностью

Альфред Реньи. Письма о вероятности: письма Паскаля к Ферма

Рубрика: 8. Статистика

Альфред Реньи (1921–1970) – выдающийся венгерский математик, прекрасный рассказчик и популяризатор науки. Ранее я уже представил две его работы: Записки студента по теории информации и Числа Фибоначчи. В настоящем эссе Реньи представляет письма французского ученого XVII века Блеза Паскаля к Пьеру Ферма. Первый наиболее известен своими трудами в области гидростатики. Его именем названа единица измерения давления в системе СИ. Второй прославился великой теоремой Ферма. Письма датируются 1654 г. и наряду с трудами Джироламо Кордано и Галилео Галилея считаются первыми работами в области теории вероятностей (подробнее см. Джироламо Кардано. О моей жизни).

Альфред Реньи. Письма о вероятности // Трилогия о математике. – М.: Мир, 1980. – С. 121–198

Реньи. Трилогия о математике. Обложка

Читать полностью

Дарелл Хафф. Как лгать при помощи статистики

Рубрика: 8. Статистика

В этой всемирно известной книге автор рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Каждый день на вас пытаются повлиять, чтобы сподвигнуть на покупку какого-то «нужного» продукта или на выбор «правильного» кандидата: «Благодаря пасте “Чистые зубы” образование кариеса снижается на 23%!»; «Политика N поддерживает 85% граждан»… Как понять, насколько достоверны те или иные данные? Каким образом происходят подсчеты? Что учитывается, а что остается за кадром? Автор раскрывает секретные инструменты статистиков и вооружает читателя знаниями, которые помогут разобраться во всех хитросплетениях этой науки и не позволят ввести в заблуждение. На английском языке книга впервые вышла в 1954 г.

Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015. — 168 с.

Хафф. Как лгать при помощи статистики. Обложка

Читать полностью

Идеи Байеса для менеджеров

Рубрика: 8. Статистика

Кто такой Байес? и какое отношение он имеет к менеджменту? – может последовать вполне справедливый вопрос. Пока поверьте мне на слово: это очень важно!.. и интересно (по крайней мере, мне).

Томас Байес – английский пресвитерианский священник и по совместительству математик, живший в XVIII веке (1702–1761). Он развивал теорию вероятностей. Основная (и как я понимаю, единственная) его работа была опубликована уже после смерти в 1764 г. Байес предложил теорему, в последствии названную в его честь.

На самом деле, Байес не просто предложил формулу, позволяющую вычислять вероятность одного события на основании знания вероятностей других событий. Он изменил парадигму (к слову, и мою тоже). Люди (практически все, даже математически подкованные) довольно плохо обращаются с вероятностями. Все мы преувеличиваем значение конкретного наблюдения, преуменьшая априорное знание (то есть, знание имевшееся у нас до наблюдения).

Хорошей иллюстрацией такого подхода служит детская загадка: «Допустим ты капитан. Тебе нужно… (затем следует рассказ на несколько минут, и наконец вопрос…) Сколько лет капитану?» Всё наше внимание сосредоточено на рассказе, и мы пытаемся найти в нем подсказку, но, увы, тщетно. Мы совершенно забыли об априорном знании – установке, что капитан то я сам. Так и Байес учит нас не забывать о том, что было известно с самого начала. Последующие наблюдения (эксперименты) могут уточнить наше априорное знание, могут поколебать его, но не могут полностью затмить.

Читать полностью

Статистические методы управления качеством и производительностью труда

Рубрика: 8. Статистика

В этой главе мы сосредоточимся на управлении качеством и производительностью труда. Компании, производящие товары и оказывающие услуги, понимают, что качество и производительность труда становятся жизненно важными в глобальной экономике. Начнем изучение методов управления качеством и производительностью труда с исторического обзора. Сформулируем 14 принципов Деминга, которые образуют основу для применения карт качества. Кроме того, изложим весьма поучительную притча о красных шарах, которая иллюстрирует изменчивость, присущую наборам данных, и подчеркивает ответственность менеджера за постоянное улучшение работы. [1]

Материал будет проиллюстрирован сквозным примером: управление качеством обслуживания в отеле Beachcomber. Поставьте себя на место управляющего отелем Beachcomber, прошедшего курс обучения методу Six Sigma. Стремясь улучшить качество обслуживания постояльцев, вы желаете произвести на них приятное первое впечатление. Существуют два важных фактора, характеризующих качество обслуживания — готовность комнат к приему гостей и скорость доставки багажа. Значит, в номерах должны быть все необходимые аксессуары (мыло, полотенца и т.п.). Не менее важно, чтобы в номерах исправно работали телевизор, радиоприемник и телефон. Кроме того, постояльцы, как правило, требуют, чтобы их багаж был доставлен в номер достаточно быстро. Для того чтобы удовлетворить потребности клиентов, администрация отеля должна собирать данные о степени готовности номеров и времени доставки багажа. Управляющий отелем должен постоянно анализировать эти данные и принимать необходимые решения. Например, вовремя ли доставляется багаж? Не изменяется ли время доставки багажа от случая к случаю? Если изменяется, то в какую сторону: увеличивается или уменьшается? Чем объясняются причины задержки — случайным стечением обстоятельств или серьезными недостатками в обслуживании? Если причины коренятся в плохой организации труда, необходимо принять экстренные меры, сократив время доставки багажа и улучшив качество обслуживания клиентов.

Читать полностью

Принятие решений

Рубрика: 8. Статистика

Ранее мы изучили различные правила вычисления вероятностей, а также применили теорему Байеса для уточнения вероятностей с учетом новой информации. Кроме того, было введено понятие дискретного распределения. Теперь мы используем эти правила и теоремы для выбора конкретного плана действий. Процесс принятия решений характеризуется четырьмя основными свойствами. [1]

  1. Альтернативные планы действий. Прежде чем сделать окончательный выбор, лицо, принимающее решение, должно оценить несколько вариантов. Например, менеджер взаимного фонда в описанном ниже сценарии должен решить, покупать акцию А или Б.
  2. События или экономическое положение. Лицо, принимающее решение, должно перечислить возможные события и вычислить их вероятность. Например, для того, чтобы правильно выбрать компанию при покупке акций, экономист взаимного фонда перечислил четыре возможных сценария развития экономики в течение следующего года и указал их вероятность.
  3. Таблица выигрышей. Для того чтобы оценить план действий, лицо, принимающее решение, должно сопоставить каждому событию возможный выигрыш или проигрыш. В деловых приложениях выигрыш и проигрыш обычно выражаются в терминах прибыли или убытка, хотя существуют и другие формы, например, моральное удовлетворение или польза. При покупке акций выигрыш выражается в виде доходности инвестиций.
  4. Критерий принятия решения. Лицо, принимающее решение, должно установить критерий выбора наилучшего плана действий. В заметке рассмотрено несколько таких критериев.

Читать полностью