Перейти к содержимому

Извлечение данных с web-страниц с помощью кода на языке Python

Если необходимые вам данные разбросаны по разным HTML-страницам для их извлечения применяется скрапинг. Вы создаете код для автоматического посещения определенного перечня страниц, получения конкретного контента с этих страниц и сохранения его в базе данных или в текстовом файле. [1]

Скажем, вы хотите скачать данные по температуре за прошедший год, но у вас не получается найти источник, который предоставил бы вам все сведения за нужный отрезок времени или по нужному городу. К счастью, сайт Weather Underground предоставляет исторические данные о погоде. И плохая новость: на одной странице сведения можно получить только за один день (рис. 1).

Рис. 1. Температура в Москве по данным Weather Underground

Рис. 1. Температура в Москве по данным Weather Underground; чтобы увеличить картинку, кликните на ней правой кнопкой мыши и выберите опцию Открыть картинку в новой вкладке

Подробнее »Извлечение данных с web-страниц с помощью кода на языке Python

Религия и богатство народов

Когда я в 2012 г. и 2013 г. прочитал книги Макса Вебера Протестантская этика и дух капитализма, и Адама Смита Суперденьги. Поучительная история об инвестировании и рыночных пузырях, то «загорелся» подтвердить выводы авторов о том, что протестантизм благоволит рыночным отношениям. Я задумал показать, что в современном мире, люди, населяющие страны, где протестантское вероисповедание является доминирующим, самые богатые.

В качестве меры богатства решил взять размер внутреннего валового продукта на душу населения в пересчете на паритет покупательной способности (ВВП ППС). Я использовал список Международного валютного фонда (МВФ) ровно по одной причине – он самый «свежий». Далее я последовательно заходил на страницу каждой страны в Википедии, и фиксировал доминирующую религию. А если таковой не наблюдалось, то писал «много конфессий» (рис. 1).

Рис. 1. ВВП ППС 2015 г. и основные религии

Рис. 1. ВВП ППС 2015 г. и основные религии

Подробнее »Религия и богатство народов

Майк МакГрат. Программирование на Python для начинающих

Некоторое время тому назад я начал читать книгу Нейтана Яу. Искусство визуализации в бизнесе. Я думал еще более усовершенствовать свои знания в области визуализации с помощью Excel, но оказалось, что автор довольно невысокого мнения об Excel, и почти все его методы основаны на программировании. Почти сразу же я столкнулся с небольшой программой, написанной на языке Python, извлекающей данные из Интернета. Я установил на своем ПК свободно распространяющуюся версию программы, но код не заработал. Коллега подсказал, что код был написан в 2009 г., так что современная версия Python 3.5.1 его не поддерживает… И я решил немного больше узнать о языке программирования Python: либо после прочтения книги я смогу запустить этот код, либо обращусь к сообществу, и уже не буду полным профаном.

Майк МакГрат. Программирование на Python для начинающих. – М.: Эксмо, 2015. – 192 с.

Майк МакГрат. Программирование на Python для начинающих. Обложка

Подробнее »Майк МакГрат. Программирование на Python для начинающих

Настройка сервера под Windows 10 для Python

Некоторое время тому назад я начал читать книгу Нейтана Яу. Искусство визуализации в бизнесе. Я думал усовершенствовать свои знания Excel, но оказалось, что автор больше ориентирован не на Excel, а на программирование, и его любимым языком является Python. Решив немного больше узнать об этом языке, я взялся за книгу Майка МакГрата Программирование на Python для начинающих. В одной из глав Майк предложил запустить web-сервер на локальном ПК и сконфигурировать его для интерпретации скриптов на Python. С ходу у меня это не получилось, и помощи от форумчан также не дождался. Выручили коллеги по работе. Один рекомендовал материал на форуме Stack Overflow, а второй помог, когда возникли проблемы. Итак…

Кликните правой кнопкой мыши на меню Пуск, и выберите Программы и компоненты –> Включение или отключение компонентов Windows. В открывшемся окне раскройте строку Службы IIS, и поставьте галочки напротив Службы Интернета. Убедитесь, что интерфейс CGI включен (рис. 1). Включите также Консоль управления ISS (рис. 2). Нажмите Ok. Windows применит изменения. Это может занять несколько минут.

Рис. 1. Подключение CGI

Рис. 1. Подключение CGI

Подробнее »Настройка сервера под Windows 10 для Python

Габор Секей. Парадоксы в теории вероятностей и математической статистике

Книга венгерского математика, содержащая собрание неожиданных выводов и утверждений из теории вероятностей, математической статистики и теории случайных процессов. Написана живо и увлекательно. Рассматриваются как классические парадоксы, двигавшие развитие науки, начиная с XVI в., так и современные проблемы теории вероятностей. Большинство аспектов вполне доступно, но отдельные вопросы требуют серьезной математической подготовки.

Габор Секей. Парадоксы в теории вероятностей и математической статистике. – М.: Мир, 1990. – 240.

Габор Секей. Парадоксы в теории вероятностей и математической статистике. Обложка

Подробнее »Габор Секей. Парадоксы в теории вероятностей и математической статистике

Ханна Арендт. О революции

Войны и революции по сей день определяют облик ХХ столетия. В политической ситуации нашего времени, чреватой угрозой тотального истребления в войне и вместе с тем не дающей угаснуть надежде на эмансипацию человечества путем революции – и поныне нет важного вопроса, с самого начала нашей истории определявшего основное содержание политики: свобода или тирания? Автор основное внимание уделяет анализу американской и французской революций конца XVIII в.

Ханна Арендт. О революции. – М.: Европа, 2011, 464 с.

Ханна Арендт. О революции. Обложка

Подробнее »Ханна Арендт. О революции

Формат на основе содержимого ячейки

В апреле 2014 г. я написал заметку Пользовательский формат числа в Excel. (Кстати, она довольно популярна – более 50 посетителей в день.) Несколько неожиданным для меня было большое число вопросов о возможности изменения формата в зависимости от содержимого ячейки. И я решил описать эту ситуацию подробнее.

Напомню, что числовые форматы могут иметь до четырех разделов кода, разделенных точкой с запятой. Эти разделы определяют формат положительных, отрицательных, нулевых значений и текста. При этом использование формул внутри формата не предусмотрено. Нельзя, например, вставить функцию ЕСЛИ в код формата, и попытаться применить разные форматы в случае различного содержимого ячеек. Однако…

…для этих целей можно применить условное форматирование на основе формул.

Рис. 1. Условное форматирование на основе формул

Рис. 1. Условное форматирование на основе формул

Подробнее »Формат на основе содержимого ячейки

Комплексное моделирование или бэггинг (bagging)

Ранее мы построили весьма точную регрессионную модель для определения беременных покупателей супермаркета на основе данных об их покупках. А что, если построить несколько заведомо неказистых моделей и затем устроить голосование по поводу беременности покупательницы — а процент голосов использовать как единичный прогноз? Такой подход называется комплексным моделированием. Мы рассмотрим бэггинговые (bagging) одноуровневые деревья принятия решений. [1]

Excel-файл содержит обучающие данные из предыдущей заметки (это позволит сравнить модели). Фиктивными переменными (пол покупателей) уже настроенными. Отличительные признаки пронумерованы от 0 до 18 в строке 2 (рис. 1).

Рис. 1. Исходный набор обучающих данных

Рис. 1. Исходный набор обучающих данных; чтобы увеличить картинку, кликните на ней правой кнопкой мыши и выберите опцию Открыть картинку в новой вкладке

Подробнее »Комплексное моделирование или бэггинг (bagging)

Типы решений и эксперимент с чистыми носками

Недавно прочитал книгу Питера ван ден Берга Склад как конкурентное преимущество, и мне очень понравилась классификация типов решений, основанная на эксперименте с чистыми носками. Вот, что пишет автор… Моя жена, два наших сына и я — мы все носим носки, которые необходимо постирать и разложить по ящикам. Для этой цели наша семья использует обычное бытовое оборудование: стиральную машину, сушилку, бельевую верёвку и несколько корзин для белья. Мы носим различные виды носков (обычные носки, спортивные носки, носки для езды на велосипеде, походные носки и т.д.) в различных цветовых гаммах и стилях. Каждый член семьи хранит свои чистые носки, красиво сложенными в пары в своем специальном ящике для носков.

Эксперимент с чистыми носками

Подробнее »Типы решений и эксперимент с чистыми носками

Берг. Склад как конкурентное преимущество

Главная идея этой книги состоит в том, что склад может и, главное, должен быть равноправным партнером в цепочке поставок. Он должен стать местом, где рождаются и реализуются идеи по улучшению не только самого склада, но и бизнеса компании в целом.

Йерун Питер ван ден Берг. Склад как конкурентное преимущество. – М.: Альпина Паблишер, 2016. – 336 с.

Берг. Склад как конкурентное преимущество. Обложка

Подробнее »Берг. Склад как конкурентное преимущество