Форматирование данных с помощью кода на языке Python

Рубрика: 8. Статистика

Excel и другие программы, работающие по методу «указал и щелкнул», относительно просты в освоении и покрывают большинство потребностей. Однако, если вы хотите создавать выдающиеся диаграммы и инфографику, вам не обойтись без написания кода для форматирования данных. [1] Посмотрите, как можно легко переключаться с одного формата данных на другой с помощью всего нескольких строчек кода Python.

В качестве исходных данных возьмем файл, полученный путем скрапинга сайта Weather Underground (подробнее см. Извлечение данных с web-страниц с помощью кода на языке Python). Файл wunder-data.txt содержит данные о максимальных ежедневных температурах в Москве за 2015 год (рис. 1).

Рис. 5. Извлеченные данные в файле с разделителем табуляцией

Рис. 1. Максимальные ежедневные температуры в Москве за 2015 год

Читать полностью

Извлечение данных с web-страниц с помощью кода на языке Python

Рубрика: 8. Статистика

Если необходимые вам данные разбросаны по разным HTML-страницам для их извлечения применяется скрапинг. Вы создаете код для автоматического посещения определенного перечня страниц, получения конкретного контента с этих страниц и сохранения его в базе данных или в текстовом файле. [1]

Скажем, вы хотите скачать данные по температуре за прошедший год, но у вас не получается найти источник, который предоставил бы вам все сведения за нужный отрезок времени или по нужному городу. К счастью, сайт Weather Underground предоставляет исторические данные о погоде. И плохая новость: на одной странице сведения можно получить только за один день (рис. 1).

Рис. 1. Температура в Москве по данным Weather Underground

Рис. 1. Температура в Москве по данным Weather Underground; чтобы увеличить картинку, кликните на ней правой кнопкой мыши и выберите опцию Открыть картинку в новой вкладке

Читать полностью

Комплексное моделирование или бэггинг (bagging)

Рубрика: 8. Статистика

Ранее мы построили весьма точную регрессионную модель для определения беременных покупателей супермаркета на основе данных об их покупках. А что, если построить несколько заведомо неказистых моделей и затем устроить голосование по поводу беременности покупательницы — а процент голосов использовать как единичный прогноз? Такой подход называется комплексным моделированием. Мы рассмотрим бэггинговые (bagging) одноуровневые деревья принятия решений. [1]

Excel-файл содержит обучающие данные из предыдущей заметки (это позволит сравнить модели). Фиктивными переменными (пол покупателей) уже настроенными. Отличительные признаки пронумерованы от 0 до 18 в строке 2 (рис. 1).

Рис. 1. Исходный набор обучающих данных

Рис. 1. Исходный набор обучающих данных; чтобы увеличить картинку, кликните на ней правой кнопкой мыши и выберите опцию Открыть картинку в новой вкладке

Читать полностью

Регрессия, как инструмент контролируемого искусственного интеллекта

Рубрика: 8. Статистика

В одной из статей Forbes рассказывается о том, что компания Target создала модель искусственного интеллекта (ИИ). Модель способна определить, является ли покупательница беременной, чтобы затем использовать эту информацию для целевого маркетинга товаров и предложений, связанных с ожиданием и рождением ребенка. [1] ИИ способен найти применение практически в любой современной отрасли. Компания, выпустившая вашу кредитку, использует его, чтобы определить несвойственные вам операции. Враг в вашей любимой «стрелялке» на Xbox работает на ИИ. Фильтрация спама, обнаружение налогового мошенничества, автокоррекция орфографии и рекомендации друзей в социальных сетях — все это тоже ИИ.

Рис. 1. Исходные данные для обучения

Рис. 1. Исходные данные для обучения (чтобы увеличить изображение, кликните на нем правой кнопкой мыши, и выберите Открыть картинку в новой вкладке)

Читать полностью

Кластерный анализ: сетевые графы и определение сообществ

Рубрика: 8. Статистика

Кластерный анализ используется для многих целей, но в этой заметке основное внимание будет уделено сегментации рынка. Ранее был рассмотрен кластерный анализ с использованием метода k-средних. Одна из проблем метода заключалась в выборе «правильного» k. Теперь задачу определения заинтересованных групп покупателей, основываясь на их заказах, мы будем решать с помощью сетевого графа, и значение k появится само собой. [1]

Сетевой граф — это набор предметов, называемых вершинами графа, которые соединены друг с другом ребрами (или связями). Социальные сети, такие как Facebook, содержат много данных, которые легко можно объединить в сетевой граф. Чтобы лицезреть классический сетевой граф, достаточно зайти на сайт любой авиакомпании (рис. 1). Удобный интерфейс для построения графов предоставляют, например, бесплатные сервисы DocGraph и NodeXL.

Рис. 1. Авиамаршруты компании Delta

Рис. 1. Авиамаршруты компании Delta

Читать полностью

Линейное программирование в Excel

Рубрика: 8. Статистика

Оптимизационные модели используются, чтобы найти ответы на вопросы типа:

  • как составить расписание для сотрудников колл-центра, чтобы оно соответствовало их отпускным запросам, сбалансировало переработки и исключало круглосуточные дежурства?
  • какие возможности бурения нефтяных скважин использовать для получения максимального дохода, держа при этом под контролем все риски?
  • когда следует делать новые заказы в Китае и как их доставлять, чтобы минимизировать стоимость и соответствовать ожидаемому спросу?

Рис. 1. Бюджетное ограничение делает область допустимых значений треугольной

Рис. 1. Бюджетное ограничение делает область допустимых значений треугольной

Читать полностью

Наивный байесовский классификатор документов в Excel

Рубрика: 8. Статистика

Самое распространенное применение наивного Байеса — классификация документов. Является ли это электронное письмо спамом или наоборот, долгожданной новостью? Эта запись в Twitter — благодушная или сердитая? Нужно ли передавать этот перехваченный звонок по сотовому для дальнейшего исследования федеральным агентам? Вы предоставляете «данные для обучения», например, классифицированные примеры документов, обучающему алгоритму, который в дальнейшем сможет «разбить» новые документы на те же категории, используя имеющиеся знания. [1]

Самый распространенный подход к классификации документов — это использование модели набор слов в сочетании с наивным байесовским классификатором. Модель набор слов воспринимает документ как беспорядочное множество слов. «Джонни съел сыр» для него то же самое, что «сыр съел Джонни» — и то и другое состоит из одного и того же множества слов: {«Джонни», «съел», «сыр»}.

Читать полностью

Альфред Реньи. Письма о вероятности: письма Паскаля к Ферма

Рубрика: 8. Статистика

Альфред Реньи (1921–1970) – выдающийся венгерский математик, прекрасный рассказчик и популяризатор науки. Ранее я уже представил две его работы: Записки студента по теории информации и Числа Фибоначчи. В настоящем эссе Реньи представляет письма французского ученого XVII века Блеза Паскаля к Пьеру Ферма. Первый наиболее известен своими трудами в области гидростатики. Его именем названа единица измерения давления в системе СИ. Второй прославился великой теоремой Ферма. Письма датируются 1654 г. и наряду с трудами Джироламо Кордано и Галилео Галилея считаются первыми работами в области теории вероятностей (подробнее см. Джироламо Кардано. О моей жизни).

Альфред Реньи. Письма о вероятности // Трилогия о математике. – М.: Мир, 1980. – С. 121–198

Реньи. Трилогия о математике. Обложка

Читать полностью

Дарелл Хафф. Как лгать при помощи статистики

Рубрика: 8. Статистика

В этой всемирно известной книге автор рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Каждый день на вас пытаются повлиять, чтобы сподвигнуть на покупку какого-то «нужного» продукта или на выбор «правильного» кандидата: «Благодаря пасте “Чистые зубы” образование кариеса снижается на 23%!»; «Политика N поддерживает 85% граждан»… Как понять, насколько достоверны те или иные данные? Каким образом происходят подсчеты? Что учитывается, а что остается за кадром? Автор раскрывает секретные инструменты статистиков и вооружает читателя знаниями, которые помогут разобраться во всех хитросплетениях этой науки и не позволят ввести в заблуждение. На английском языке книга впервые вышла в 1954 г.

Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015. — 168 с.

Хафф. Как лгать при помощи статистики. Обложка

Читать полностью

Идеи Байеса для менеджеров

Рубрика: 8. Статистика

Кто такой Байес? и какое отношение он имеет к менеджменту? – может последовать вполне справедливый вопрос. Пока поверьте мне на слово: это очень важно!.. и интересно (по крайней мере, мне).

Томас Байес – английский пресвитерианский священник и по совместительству математик, живший в XVIII веке (1702–1761). Он развивал теорию вероятностей. Основная (и как я понимаю, единственная) его работа была опубликована уже после смерти в 1764 г. Байес предложил теорему, в последствии названную в его честь.

На самом деле, Байес не просто предложил формулу, позволяющую вычислять вероятность одного события на основании знания вероятностей других событий. Он изменил парадигму (к слову, и мою тоже). Люди (практически все, даже математически подкованные) довольно плохо обращаются с вероятностями. Все мы преувеличиваем значение конкретного наблюдения, преуменьшая априорное знание (то есть, знание имевшееся у нас до наблюдения).

Хорошей иллюстрацией такого подхода служит детская загадка: «Допустим ты капитан. Тебе нужно… (затем следует рассказ на несколько минут, и наконец вопрос…) Сколько лет капитану?» Всё наше внимание сосредоточено на рассказе, и мы пытаемся найти в нем подсказку, но, увы, тщетно. Мы совершенно забыли об априорном знании – установке, что капитан то я сам. Так и Байес учит нас не забывать о том, что было известно с самого начала. Последующие наблюдения (эксперименты) могут уточнить наше априорное знание, могут поколебать его, но не могут полностью затмить.

Читать полностью