Перейти к содержимому

Определение среднего значения, вариации и формы распределения. Описательные статистики

Способы представления числовых и категорийных данных в виде таблиц и диаграмм являются существенной, но не основной частью анализа данных. Ведущая роль принадлежит методам исследования числовых данных и их свойств. В этой заметке рассмотрены способы определения среднего значения, вариации и формы распределения генеральной совокупности. [1]

В большинстве случаев данные концентрируются вокруг некоей центральной точки. Таким образом, чтобы описать любой набор данных, достаточно указать средне значение. Рассмотрим последовательно три числовые характеристики, которые используются для оценки среднего значения распределения: среднее арифметическое, медиана и мода.

Среднее арифметическое

Среднее арифметическое (часто называемое просто средним) — наиболее распространенная оценка среднего значения распределения. Она является результатом деления суммы всех наблюдаемых числовых величин на их количество. Для выборки, состоящей из чисел Х1, Х2, …, Хn, выборочное среднее (обозначаемое символом ) равно = (Х1 + Х2 + … + Хn) / n, или

 

где — выборочное среднее, n — объем выборки, Xi – i-й элемент выборки.

Подробнее »Определение среднего значения, вариации и формы распределения. Описательные статистики

Искусство графического представления данных

Наиболее простыми и эффективными способами представления статистических данных являются графические изображения. [1] Хороший рисунок позволяет сразу выявить основные закономерности, скрытые в массиве информации. Для улучшения анализа данных необходимы ясные и точные таблицы и графики. Излишние украшения и вычурность лишь мешают. В последние годы широкое распространение электронных таблиц и графических пакетов привело к интенсивному использованию рисунков для иллюстрации статистических данных. Несмотря на то что графические изображения довольно часто приносят пользу, злоупотребление графикой создает впечатление, что единственной целью статистики является наукообразный обман.

Вероятно, одним из наиболее известных пропагандистов правильного представления данных с помощью графических средств является Эдвард Р. Тафти. Ранее я уже излагал его идеи в заметках Принцип Эдварда Тафти минимизации количества элементов диаграммы и Как с помощью диаграммы приукрасить действительность? или о факторе лжи Эдварда Тафти.

Подробнее »Искусство графического представления данных

Представление категорийных данных в виде таблиц и диаграмм

В предыдущей заметке таблицы и диаграммы применялись для представления числовых данных. Однако часто данные носят не числовой, а категориальный характер. В этой заметке изучаются способы организации и представления категорийных данных в виде таблиц и диаграмм. [1]

Вернемся к анализу доходности взаимных фондов. Кроме среднегодовой доходности фонды характеризуются риском, связанном с инвестированием в эти фонды. Взаимные фонды могут иметь очень низкий, низкий, средний, высокий и очень высокий риск. При работе с категорийными переменными данные сначала заносятся в сводную таблицу, а затем графически представляются в виде гистограмм, круговых диаграмм или диаграмм Парето.

Сводная таблица

По внешнему виду сводная таблица для категорийных данных напоминает распределение частот для числовых данных. Чтобы проиллюстрировать процесс ее построения, рассмотрим данные о классификации взаимных фондов по уровню риска (рис. 1).

Рис. 1. Уровень риска 259 взаимных фондов. Частоты и процентные доли

Подробнее »Представление категорийных данных в виде таблиц и диаграмм

Представление числовых данных в виде таблиц и диаграмм

Распределение частот [1]

При увеличении объема выборки ни упорядоченный массив, ни диаграмма «ствол и листья» уже не позволяют легко представлять, анализировать и интерпретировать результаты. Для больших наборов данных следует создавать сводные таблицы, распределяя данные по группам (или категориям). Такой способ представления данных называется распределением частот. Распределение частот представляет собой сводную таблицу, в которой данные распределены по группам или категориям. Если данные сгруппированы в виде распределения частот, процесс их анализа и интерпретации становится более управляемым и осмысленным. При распределении частот следует внимательно выбирать интервал группирования, или размах групп, а также вычислять границы каждой группы, не допуская их перекрытия.

Выбор количества групп

Количество групп, выбранных для группировки данных, непосредственно зависит от объема исходной выборки. Чем больше элементов содержит выборка, тем больше групп можно создать. Как правило, распределение частот должно содержать не менее 5 и не более 15 групп. Если групп слишком мало или слишком много, новую информацию получить сложно. Выделение групп процесс творческий, и я бы рекомендовал в качестве первого подхода использовать формулу Стерджесcа:

(1) k = 1 + log2n

где k – число групп, n – объем выборки; далее визуально определить по графику, насколько удачным получилось разбиение и, если требуется, скорректировать число групп на величину ± 1.

Подробнее »Представление числовых данных в виде таблиц и диаграмм

Как упорядочить массив данных

Чем больше массив анализируемых данных, тем труднее сконцентрировать внимание на их основных характеристиках. [1] Чтобы лучше воспринять информацию, содержащуюся в наборе данных, их необходимо правильно организовать. Для этого используют либо упорядоченный массив, либо диаграмму «ствол и листья». [2]

Упорядоченный массив

Упорядоченный массив (не обязательно одномерный) состоит из последовательности данных, расположенных по возрастанию. Например, таблица (рис. 1) содержит показатели о пятилетней среднегодовой доходности 158 фондов. Упорядоченные массивы позволяют сразу определить минимальное и максимальное значения, типичные величины, а также диапазон, которому принадлежит основная масса значений.

Рис. 1. Упорядоченный массив, содержащий данные о пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала, за период с 1 января 1997 до 31 декабря 2001

Подробнее »Как упорядочить массив данных

Типы данных

Существуют две разновидности случайных переменных, [1] значения которых образуют наборы данных: категорийные и числовые (рис. 1).

Рис. 1. Разновидности данных

Категорийные случайные величины возникают в результате ответов на заданные вопросы, скажем, да или нет. Например, ответить на вопрос «Владеете ли Вы в настоящее время какими-либо акциями или облигациями?» можно лишь положительно или отрицательно. Другим примером подобных данных являются ответы на вопрос о качестве услуг, предоставляемых компанией: «Хотели бы Вы приобрести еще какие-нибудь товары в нашей компании в течение следующих 12 месяцев?». Категорийные переменные могут иметь не только два возможных значения. Например, существуют несколько вариантов ответа на вопрос: «В какой день недели вы предпочитаете обедать в ресторане?».

Подробнее »Типы данных

Методы выборки

Для начала несколько определений: [1] выборка — часть генеральной совокупности, извлекаемая для анализа; генеральная совокупность — множество всех рассматриваемых объектов. Вместо того, чтобы изучать всю совокупность объектов, изучают выборку, а затем результаты, полученные на выборке, распространяют на всю совокупность. Выборочные исследования занимают меньше времени, они дешевле, проще и практичнее, чем полное исследование. Например, вместо осуществления полной переписи населения, статистические процедуры выборочного исследования концентрируют внимание на сборе информации о малой репрезентативной группе, взятой из большой генеральной совокупности. Выборка, полученная в результате этих процедур, содержит информацию, которую можно использовать для оценки свойств всей генеральной совокупности.

Процедура выбора начинается с определения основы, представляющей собой полное или частичное перечисление объектов, содержащихся в генеральной совокупности. Основой могут служить источники данных, например, списки населения, каталоги или карты. Затем из основы извлекаются выборки. Если основа является неадекватной, например, вследствие того, что лица или объекты, принадлежащие генеральной совокупности, выбраны неправильно, то выборки будут неточными и тенденциозными.

Существует два вида выборок: детерминированные и вероятностные (рис. 1).

Рис. 1. Разновидности выборок

Подробнее »Методы выборки

Левин. Статистика для менеджеров с использованием Microsoft Excel

Книгу я приобрел давно, и довольно часто обращался к ней, как к справочнику по отдельным вопросам (см., например, Excel. Биржевая диаграмма, она же блочная, она же ящичная). По роду занятий мне постоянно приходится обрабатывать большие массивы информации, так что я поднаторел в этом. 🙂 Мне показалось интересным изложить некоторые темы книги отдельными заметками, дополнив материал издания собственным опытом в статистике и использовании Excel.

Левин, Дэвид М., Стефан, Дэвид, Кребиль, Тимоти С., Беренсон, Марк Л. Статистика для менеджеров с использованием Microsoft Excel, 4-е изд. — М.: Издательский дом «Вильямс», 2004. — 1312 с.

Подробнее »Левин. Статистика для менеджеров с использованием Microsoft Excel

Ицхак Калдерон Адизес. Стили менеджмента. Эффективные и неэффективные

Гуру менеджмента Ицхак Адизес считает, что один человек не способен выполнять все четыре роли, необходимые для эффективного руководства организацией: быть и производителем результатов, и администратором, и предпринимателем, и интегратором. Место несуществующего «идеального руководителя» должна занять взаимодополняющая команда менеджеров, каждый член которой умеет выполнять одну из ролей в совершенстве, а остальными владеет на приемлемом уровне. При этом важно, чтобы в команде не было руководителей, которые концентрируются только на одной роли, полностью забывая про остальные. Такие перекосы делают менеджмент неэффективным и ставят под угрозу судьбу организации. Книга научит оценивать и совершенствовать свой стиль управления, стили менеджмента коллег и подчиненных и понимать, как формировать взаимодополняющую команду лидеров.

Адизес И. Стили менеджмента — эффективные и неэффективные. — М.: Альпина Бизнес Букс, 2009. — 200 с.

Подробнее »Ицхак Калдерон Адизес. Стили менеджмента. Эффективные и неэффективные

Макс Вебер. Протестантская этика и дух капитализма

Ссылки на работу Макса Вебера ранее мне встречались неоднократно, так что, располагая свободным временем на отдыхе, я с удовольствием ознакомился с относительно небольшим произведением (надо заметить, что около 100 страниц занимают примечания, которые хоть и представляют интерес, но я всё же их пропустил :)).

Основную мысль (как я ее понял) книги можно выразить в одном абзаце. Католицизм с его исповедью провоцировал людей на вседозволенность: согрешил – исповедался… В этих условиях люди жили одним днем. Реформаторство (в первую очередь кальвинизм, в меньшей степени лютеранство) отмело возможность «заслужить» райскую жизнь земными делами. Только избранные попадут в рай; земные дела лишь позволяют при жизни определить, является ли человек избранным. Никакие прегрешения не прощаются, то есть человек должен методично (рационально) управлять своей жизнью, планируя будущее… аскетическое будущее. Такая религиозная установка привела со временем к рационализации всей мирской жизни с акцентом на занятия богоугодными делами, в том числе верность профессии и предпринимательство…

Макс Вебер. Протестантская этика и дух капитализма. – М.: Ист-Вью, 2002. – 352 с.

Подробнее »Макс Вебер. Протестантская этика и дух капитализма