Перейти к содержимому

8. Статистика

Извлечение данных с web-страниц с помощью кода на языке Python

Если необходимые вам данные разбросаны по разным HTML-страницам для их извлечения применяется скрапинг. Вы создаете код для автоматического посещения определенного перечня страниц, получения конкретного контента с этих страниц и сохранения его в базе данных или в текстовом файле. [1]

Скажем, вы хотите скачать данные по температуре за прошедший год, но у вас не получается найти источник, который предоставил бы вам все сведения за нужный отрезок времени или по нужному городу. К счастью, сайт Weather Underground предоставляет исторические данные о погоде. И плохая новость: на одной странице сведения можно получить только за один день (рис. 1).

Рис. 1. Температура в Москве по данным Weather Underground

Рис. 1. Температура в Москве по данным Weather Underground; чтобы увеличить картинку, кликните на ней правой кнопкой мыши и выберите опцию Открыть картинку в новой вкладке

Подробнее »Извлечение данных с web-страниц с помощью кода на языке Python

Комплексное моделирование или бэггинг (bagging)

Ранее мы построили весьма точную регрессионную модель для определения беременных покупателей супермаркета на основе данных об их покупках. А что, если построить несколько заведомо неказистых моделей и затем устроить голосование по поводу беременности покупательницы — а процент голосов использовать как единичный прогноз? Такой подход называется комплексным моделированием. Мы рассмотрим бэггинговые (bagging) одноуровневые деревья принятия решений. [1]

Excel-файл содержит обучающие данные из предыдущей заметки (это позволит сравнить модели). Фиктивными переменными (пол покупателей) уже настроенными. Отличительные признаки пронумерованы от 0 до 18 в строке 2 (рис. 1).

Рис. 1. Исходный набор обучающих данных

Рис. 1. Исходный набор обучающих данных; чтобы увеличить картинку, кликните на ней правой кнопкой мыши и выберите опцию Открыть картинку в новой вкладке

Подробнее »Комплексное моделирование или бэггинг (bagging)

Регрессия, как инструмент контролируемого искусственного интеллекта

В одной из статей Forbes рассказывается о том, что компания Target создала модель искусственного интеллекта (ИИ). Модель способна определить, является ли покупательница беременной, чтобы затем использовать эту информацию для целевого маркетинга товаров и предложений, связанных с ожиданием и рождением ребенка. [1] ИИ способен найти применение практически в любой современной отрасли. Компания, выпустившая вашу кредитку, использует его, чтобы определить несвойственные вам операции. Враг в вашей любимой «стрелялке» на Xbox работает на ИИ. Фильтрация спама, обнаружение налогового мошенничества, автокоррекция орфографии и рекомендации друзей в социальных сетях — все это тоже ИИ.

Рис. 1. Исходные данные для обучения

Рис. 1. Исходные данные для обучения (чтобы увеличить изображение, кликните на нем правой кнопкой мыши, и выберите Открыть картинку в новой вкладке)

Подробнее »Регрессия, как инструмент контролируемого искусственного интеллекта

Кластерный анализ: сетевые графы и определение сообществ

Кластерный анализ используется для многих целей, но в этой заметке основное внимание будет уделено сегментации рынка. Ранее был рассмотрен кластерный анализ с использованием метода k-средних. Одна из проблем метода заключалась в выборе «правильного» k. Теперь задачу определения заинтересованных групп покупателей, основываясь на их заказах, мы будем решать с помощью сетевого графа, и значение k появится само собой. [1]

Сетевой граф — это набор предметов, называемых вершинами графа, которые соединены друг с другом ребрами (или связями). Социальные сети, такие как Facebook, содержат много данных, которые легко можно объединить в сетевой граф. Чтобы лицезреть классический сетевой граф, достаточно зайти на сайт любой авиакомпании (рис. 1). Удобный интерфейс для построения графов предоставляют, например, бесплатные сервисы DocGraph и NodeXL.

Рис. 1. Авиамаршруты компании Delta

Рис. 1. Авиамаршруты компании Delta

Подробнее »Кластерный анализ: сетевые графы и определение сообществ

Линейное программирование в Excel

Оптимизационные модели используются, чтобы найти ответы на вопросы типа:

  • как составить расписание для сотрудников колл-центра, чтобы оно соответствовало их отпускным запросам, сбалансировало переработки и исключало круглосуточные дежурства?
  • какие возможности бурения нефтяных скважин использовать для получения максимального дохода, держа при этом под контролем все риски?
  • когда следует делать новые заказы в Китае и как их доставлять, чтобы минимизировать стоимость и соответствовать ожидаемому спросу?

Рис. 1. Бюджетное ограничение делает область допустимых значений треугольной

Рис. 1. Бюджетное ограничение делает область допустимых значений треугольной

Подробнее »Линейное программирование в Excel

Наивный байесовский классификатор документов в Excel

Самое распространенное применение наивного Байеса — классификация документов. Является ли это электронное письмо спамом или наоборот, долгожданной новостью? Эта запись в Twitter — благодушная или сердитая? Нужно ли передавать этот перехваченный звонок по сотовому для дальнейшего исследования федеральным агентам? Вы предоставляете «данные для обучения», например, классифицированные примеры документов, обучающему алгоритму, который в дальнейшем сможет «разбить» новые документы на те же категории, используя имеющиеся знания. [1]

Самый распространенный подход к классификации документов — это использование модели набор слов в сочетании с наивным байесовским классификатором. Модель набор слов воспринимает документ как беспорядочное множество слов. «Джонни съел сыр» для него то же самое, что «сыр съел Джонни» — и то и другое состоит из одного и того же множества слов: {«Джонни», «съел», «сыр»}.

Подробнее »Наивный байесовский классификатор документов в Excel

Альфред Реньи. Письма о вероятности: письма Паскаля к Ферма

Альфред Реньи (1921–1970) – выдающийся венгерский математик, прекрасный рассказчик и популяризатор науки. Ранее я уже представил две его работы: Записки студента по теории информации и Числа Фибоначчи. В настоящем эссе Реньи представляет письма французского ученого XVII века Блеза Паскаля к Пьеру Ферма. Первый наиболее известен своими трудами в области гидростатики. Его именем названа единица измерения давления в системе СИ. Второй прославился великой теоремой Ферма. Письма датируются 1654 г. и наряду с трудами Джироламо Кордано и Галилео Галилея считаются первыми работами в области теории вероятностей (подробнее см. Джироламо Кардано. О моей жизни).

Альфред Реньи. Письма о вероятности // Трилогия о математике. – М.: Мир, 1980. – С. 121–198

Реньи. Трилогия о математике. Обложка

Подробнее »Альфред Реньи. Письма о вероятности: письма Паскаля к Ферма

Дарелл Хафф. Как лгать при помощи статистики

В этой всемирно известной книге автор рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Каждый день на вас пытаются повлиять, чтобы сподвигнуть на покупку какого-то «нужного» продукта или на выбор «правильного» кандидата: «Благодаря пасте “Чистые зубы” образование кариеса снижается на 23%!»; «Политика N поддерживает 85% граждан»… Как понять, насколько достоверны те или иные данные? Каким образом происходят подсчеты? Что учитывается, а что остается за кадром? Автор раскрывает секретные инструменты статистиков и вооружает читателя знаниями, которые помогут разобраться во всех хитросплетениях этой науки и не позволят ввести в заблуждение. На английском языке книга впервые вышла в 1954 г.

Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015. — 168 с.

Хафф. Как лгать при помощи статистики. Обложка

Подробнее »Дарелл Хафф. Как лгать при помощи статистики

Идеи Байеса для менеджеров

Кто такой Байес? и какое отношение он имеет к менеджменту? – может последовать вполне справедливый вопрос. Пока поверьте мне на слово: это очень важно!.. и интересно (по крайней мере, мне).

Томас Байес – английский пресвитерианский священник и по совместительству математик, живший в XVIII веке (1702–1761). Он развивал теорию вероятностей. Основная (и как я понимаю, единственная) его работа была опубликована уже после смерти в 1764 г. Байес предложил теорему, в последствии названную в его честь.

На самом деле, Байес не просто предложил формулу, позволяющую вычислять вероятность одного события на основании знания вероятностей других событий. Он изменил парадигму (к слову, и мою тоже). Люди (практически все, даже математически подкованные) довольно плохо обращаются с вероятностями. Все мы преувеличиваем значение конкретного наблюдения, преуменьшая априорное знание (то есть, знание имевшееся у нас до наблюдения).

Хорошей иллюстрацией такого подхода служит детская загадка: «Допустим ты капитан. Тебе нужно… (затем следует рассказ на несколько минут, и наконец вопрос…) Сколько лет капитану?» Всё наше внимание сосредоточено на рассказе, и мы пытаемся найти в нем подсказку, но, увы, тщетно. Мы совершенно забыли об априорном знании – установке, что капитан то я сам. Так и Байес учит нас не забывать о том, что было известно с самого начала. Последующие наблюдения (эксперименты) могут уточнить наше априорное знание, могут поколебать его, но не могут полностью затмить.

Подробнее »Идеи Байеса для менеджеров

Статистические методы управления качеством и производительностью труда

В этой главе мы сосредоточимся на управлении качеством и производительностью труда. Компании, производящие товары и оказывающие услуги, понимают, что качество и производительность труда становятся жизненно важными в глобальной экономике. Начнем изучение методов управления качеством и производительностью труда с исторического обзора. Сформулируем 14 принципов Деминга, которые образуют основу для применения карт качества. Кроме того, изложим весьма поучительную притча о красных шарах, которая иллюстрирует изменчивость, присущую наборам данных, и подчеркивает ответственность менеджера за постоянное улучшение работы. [1]

Материал будет проиллюстрирован сквозным примером: управление качеством обслуживания в отеле Beachcomber. Поставьте себя на место управляющего отелем Beachcomber, прошедшего курс обучения методу Six Sigma. Стремясь улучшить качество обслуживания постояльцев, вы желаете произвести на них приятное первое впечатление. Существуют два важных фактора, характеризующих качество обслуживания — готовность комнат к приему гостей и скорость доставки багажа. Значит, в номерах должны быть все необходимые аксессуары (мыло, полотенца и т.п.). Не менее важно, чтобы в номерах исправно работали телевизор, радиоприемник и телефон. Кроме того, постояльцы, как правило, требуют, чтобы их багаж был доставлен в номер достаточно быстро. Для того чтобы удовлетворить потребности клиентов, администрация отеля должна собирать данные о степени готовности номеров и времени доставки багажа. Управляющий отелем должен постоянно анализировать эти данные и принимать необходимые решения. Например, вовремя ли доставляется багаж? Не изменяется ли время доставки багажа от случая к случаю? Если изменяется, то в какую сторону: увеличивается или уменьшается? Чем объясняются причины задержки — случайным стечением обстоятельств или серьезными недостатками в обслуживании? Если причины коренятся в плохой организации труда, необходимо принять экстренные меры, сократив время доставки багажа и улучшив качество обслуживания клиентов.

Подробнее »Статистические методы управления качеством и производительностью труда