Кластерный анализ: сетевые графы и определение сообществ

Рубрика: 8. Статистика

Кластерный анализ используется для многих целей, но в этой заметке основное внимание будет уделено сегментации рынка. Ранее был рассмотрен кластерный анализ с использованием метода k-средних. Одна из проблем метода заключалась в выборе «правильного» k. Теперь задачу определения заинтересованных групп покупателей, основываясь на их заказах, мы будем решать с помощью сетевого графа, и значение k появится само собой. [1]

Сетевой граф — это набор предметов, называемых вершинами графа, которые соединены друг с другом ребрами (или связями). Социальные сети, такие как Facebook, содержат много данных, которые легко можно объединить в сетевой граф. Чтобы лицезреть классический сетевой граф, достаточно зайти на сайт любой авиакомпании (рис. 1). Удобный интерфейс для построения графов предоставляют, например, бесплатные сервисы DocGraph и NodeXL.

Рис. 1. Авиамаршруты компании Delta

Рис. 1. Авиамаршруты компании Delta

Читать полностью

Линейное программирование в Excel

Рубрика: 8. Статистика

Оптимизационные модели используются, чтобы найти ответы на вопросы типа:

  • как составить расписание для сотрудников колл-центра, чтобы оно соответствовало их отпускным запросам, сбалансировало переработки и исключало круглосуточные дежурства?
  • какие возможности бурения нефтяных скважин использовать для получения максимального дохода, держа при этом под контролем все риски?
  • когда следует делать новые заказы в Китае и как их доставлять, чтобы минимизировать стоимость и соответствовать ожидаемому спросу?

Рис. 1. Бюджетное ограничение делает область допустимых значений треугольной

Рис. 1. Бюджетное ограничение делает область допустимых значений треугольной

Читать полностью

Наивный байесовский классификатор документов в Excel

Рубрика: 8. Статистика

Самое распространенное применение наивного Байеса — классификация документов. Является ли это электронное письмо спамом или наоборот, долгожданной новостью? Эта запись в Twitter — благодушная или сердитая? Нужно ли передавать этот перехваченный звонок по сотовому для дальнейшего исследования федеральным агентам? Вы предоставляете «данные для обучения», например, классифицированные примеры документов, обучающему алгоритму, который в дальнейшем сможет «разбить» новые документы на те же категории, используя имеющиеся знания. [1]

Самый распространенный подход к классификации документов — это использование модели набор слов в сочетании с наивным байесовским классификатором. Модель набор слов воспринимает документ как беспорядочное множество слов. «Джонни съел сыр» для него то же самое, что «сыр съел Джонни» — и то и другое состоит из одного и того же множества слов: {«Джонни», «съел», «сыр»}.

Читать полностью

Джон Форман. Много цифр: Анализ больших данных при помощи Excel

Рубрика: 8. Статистика

Казалось бы, термин «большие данные» понятен и доступен только специалистам. Но автор этой книги доказывает, что анализ данных можно организовать и в простом, понятном, очень эффективном и знакомом многим Excel. Причем не важно, насколько велик ваш массив данных. Техники, предложенные в этой книге, будут полезны и владельцу небольшого интернет-магазина, и аналитику крупной торговой компании. Вы перестанете бояться больших данных, научитесь видеть в них нужную вам информацию и сможете проанализировать предпочтения ваших клиентов и предложить им новые продукты, оптимизировать денежные потоки и складские запасы, другими словами, повысите эффективность работы вашей организации.

Джон Форман. Много цифр: Анализ больших данных при помощи Excel. – М.: Альпина Паблишер, 2016. – 464 с.

Джон Форман. Много цифр. Обложка

Читать полностью

Альфред Реньи. Письма о вероятности: письма Паскаля к Ферма

Рубрика: 8. Статистика

Альфред Реньи (1921–1970) – выдающийся венгерский математик, прекрасный рассказчик и популяризатор науки. Ранее я уже представил две его работы: Записки студента по теории информации и Числа Фибоначчи. В настоящем эссе Реньи представляет письма французского ученого XVII века Блеза Паскаля к Пьеру Ферма. Первый наиболее известен своими трудами в области гидростатики. Его именем названа единица измерения давления в системе СИ. Второй прославился великой теоремой Ферма. Письма датируются 1654 г. и наряду с трудами Джироламо Кордано и Галилео Галилея считаются первыми работами в области теории вероятностей (подробнее см. Джироламо Кардано. О моей жизни).

Альфред Реньи. Письма о вероятности // Трилогия о математике. – М.: Мир, 1980. – С. 121–198

Реньи. Трилогия о математике. Обложка

Читать полностью

Дарелл Хафф. Как лгать при помощи статистики

Рубрика: 8. Статистика

В этой всемирно известной книге автор рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Каждый день на вас пытаются повлиять, чтобы сподвигнуть на покупку какого-то «нужного» продукта или на выбор «правильного» кандидата: «Благодаря пасте “Чистые зубы” образование кариеса снижается на 23%!»; «Политика N поддерживает 85% граждан»… Как понять, насколько достоверны те или иные данные? Каким образом происходят подсчеты? Что учитывается, а что остается за кадром? Автор раскрывает секретные инструменты статистиков и вооружает читателя знаниями, которые помогут разобраться во всех хитросплетениях этой науки и не позволят ввести в заблуждение. На английском языке книга впервые вышла в 1954 г.

Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015. — 168 с.

Хафф. Как лгать при помощи статистики. Обложка

Читать полностью

Идеи Байеса для менеджеров

Рубрика: 8. Статистика

Кто такой Байес? и какое отношение он имеет к менеджменту? – может последовать вполне справедливый вопрос. Пока поверьте мне на слово: это очень важно!.. и интересно (по крайней мере, мне).

Томас Байес – английский пресвитерианский священник и по совместительству математик, живший в XVIII веке (1702–1761). Он развивал теорию вероятностей. Основная (и как я понимаю, единственная) его работа была опубликована уже после смерти в 1764 г. Байес предложил теорему, в последствии названную в его честь.

На самом деле, Байес не просто предложил формулу, позволяющую вычислять вероятность одного события на основании знания вероятностей других событий. Он изменил парадигму (к слову, и мою тоже). Люди (практически все, даже математически подкованные) довольно плохо обращаются с вероятностями. Все мы преувеличиваем значение конкретного наблюдения, преуменьшая априорное знание (то есть, знание имевшееся у нас до наблюдения).

Хорошей иллюстрацией такого подхода служит детская загадка: «Допустим ты капитан. Тебе нужно… (затем следует рассказ на несколько минут, и наконец вопрос…) Сколько лет капитану?» Всё наше внимание сосредоточено на рассказе, и мы пытаемся найти в нем подсказку, но, увы, тщетно. Мы совершенно забыли об априорном знании – установке, что капитан то я сам. Так и Байес учит нас не забывать о том, что было известно с самого начала. Последующие наблюдения (эксперименты) могут уточнить наше априорное знание, могут поколебать его, но не могут полностью затмить.

Читать полностью

Статистические методы управления качеством и производительностью труда

Рубрика: 8. Статистика

В этой главе мы сосредоточимся на управлении качеством и производительностью труда. Компании, производящие товары и оказывающие услуги, понимают, что качество и производительность труда становятся жизненно важными в глобальной экономике. Начнем изучение методов управления качеством и производительностью труда с исторического обзора. Сформулируем 14 принципов Деминга, которые образуют основу для применения карт качества. Кроме того, изложим весьма поучительную притча о красных шарах, которая иллюстрирует изменчивость, присущую наборам данных, и подчеркивает ответственность менеджера за постоянное улучшение работы. [1]

Материал будет проиллюстрирован сквозным примером: управление качеством обслуживания в отеле Beachcomber. Поставьте себя на место управляющего отелем Beachcomber, прошедшего курс обучения методу Six Sigma. Стремясь улучшить качество обслуживания постояльцев, вы желаете произвести на них приятное первое впечатление. Существуют два важных фактора, характеризующих качество обслуживания — готовность комнат к приему гостей и скорость доставки багажа. Значит, в номерах должны быть все необходимые аксессуары (мыло, полотенца и т.п.). Не менее важно, чтобы в номерах исправно работали телевизор, радиоприемник и телефон. Кроме того, постояльцы, как правило, требуют, чтобы их багаж был доставлен в номер достаточно быстро. Для того чтобы удовлетворить потребности клиентов, администрация отеля должна собирать данные о степени готовности номеров и времени доставки багажа. Управляющий отелем должен постоянно анализировать эти данные и принимать необходимые решения. Например, вовремя ли доставляется багаж? Не изменяется ли время доставки багажа от случая к случаю? Если изменяется, то в какую сторону: увеличивается или уменьшается? Чем объясняются причины задержки — случайным стечением обстоятельств или серьезными недостатками в обслуживании? Если причины коренятся в плохой организации труда, необходимо принять экстренные меры, сократив время доставки багажа и улучшив качество обслуживания клиентов.

Читать полностью

Принятие решений

Рубрика: 8. Статистика

Ранее мы изучили различные правила вычисления вероятностей, а также применили теорему Байеса для уточнения вероятностей с учетом новой информации. Кроме того, было введено понятие дискретного распределения. Теперь мы используем эти правила и теоремы для выбора конкретного плана действий. Процесс принятия решений характеризуется четырьмя основными свойствами. [1]

  1. Альтернативные планы действий. Прежде чем сделать окончательный выбор, лицо, принимающее решение, должно оценить несколько вариантов. Например, менеджер взаимного фонда в описанном ниже сценарии должен решить, покупать акцию А или Б.
  2. События или экономическое положение. Лицо, принимающее решение, должно перечислить возможные события и вычислить их вероятность. Например, для того, чтобы правильно выбрать компанию при покупке акций, экономист взаимного фонда перечислил четыре возможных сценария развития экономики в течение следующего года и указал их вероятность.
  3. Таблица выигрышей. Для того чтобы оценить план действий, лицо, принимающее решение, должно сопоставить каждому событию возможный выигрыш или проигрыш. В деловых приложениях выигрыш и проигрыш обычно выражаются в терминах прибыли или убытка, хотя существуют и другие формы, например, моральное удовлетворение или польза. При покупке акций выигрыш выражается в виде доходности инвестиций.
  4. Критерий принятия решения. Лицо, принимающее решение, должно установить критерий выбора наилучшего плана действий. В заметке рассмотрено несколько таких критериев.

Читать полностью

Анализ временных рядов

Рубрика: 8. Статистика

В трех предыдущих заметках описаны регрессионные модели, позволяющие прогнозировать отклик по значениям объясняющих переменных. В настоящей заметке мы покажем, как с помощью этих моделей и других статистических методов анализировать данные, собранные на протяжении последовательных временных интервалов. В соответствии с особенностями каждой компании, упомянутой в сценарии, мы рассмотрим три альтернативных подхода к анализу временных рядов. [1]

Материал будет проиллюстрирован сквозным примером: прогнозирование доходов трех компаний. Представьте себе, что вы работаете аналитиком в крупной финансовой компании. Чтобы оценить инвестиционные перспективы своих клиентов, вам необходимо предсказать доходы трех компаний. Для этого вы собрали данные о трех интересующих вас компаниях — Eastman Kodak, Cabot Corporation и Wal-Mart. Поскольку компании различаются по виду деловой активности, каждый временной ряд обладает своими уникальными особенностями. Следовательно, для прогнозирования необходимо применять разные модели. Как выбрать наилучшую модель прогнозирования для каждой компании? Как оценить инвестиционные перспективы на основе результатов прогнозирования?

Обсуждение начинается с анализа ежегодных данных. Демонстрируются два метода сглаживания таких данных: скользящее среднее и экспоненциальное сглаживание. Затем демонстрируется процедура вычисления тренда с помощью метода наименьших квадратов и более сложные методы прогнозирования. В заключение, эти модели распространяются на временные ряды, построенные на основе ежемесячных или ежеквартальных данных.

Читать полностью