Основные характеристики выборки (среднее значение, разброс и форма распределения) позволяют описать свойства данных и перейти к более глубоким исследованиям. Довольно часто для анализа данных применяется подход, основанный на пятерке базовых показателей и построении точечных и/или блочных диаграмм. [1]
Пятерка базовых показателей, обеспечивающих наиболее точную оценку вида распределения, состоит из следующих характеристик:
- Минимальное значение – Хmin,
- Первый квартиль – Q1,
- Медиана,
- Третий квартиль – Q3,
- Максимальное значение – Xmax.
Скачать заметку в формате Word или pdf, примеры в формате Excel2013
Если данные распределены совершенно симметрично, между пятью базовыми показателями наблюдаются следующие зависимости:
- Расстояние от Хmin до медианы равно расстоянию от медианы до Xmax.
- Расстояние от Хmin до Q1 равно расстоянию от Q3 до Xmax.
- Расстояние от Q1 до медианы равно расстоянию от медианы до Q3.
Когда данные распределены несимметрично, между элементами пятерки показателей возникают следующие зависимости:
- Если распределение имеет положительную асимметрию, расстояние от Хmin до медианы меньше расстояния от медианы до Xmax.
- Если распределение имеет положительную асимметрию, расстояние от Q3 до Xmax больше, чем от Хmin до Q1.
- Если распределение имеет отрицательную асимметрию, расстояние от Хmin до медианы больше расстояния от медианы до Xmax.
- Если распределение имеет отрицательную асимметрию, расстояние от Q3 до Хmin меньше, чем от Xmax до Q1.
Пятерка базовых показателей, характеризующих распределение доходности 15 взаимных фондов с очень высоким уровнем риска представлены на рис. 1.
Рис. 1. Пятерка базовых показателей, характеризующих распределение доходности 15 взаимных фондов с очень высоким уровнем риска
Исследуем на их основе симметричность распределения. Расстояние от медианы до Xmax (18,5 – 6,5 = 12) приблизительно равно расстоянию от Хmin до медианы (6,5 – (–6,1) = 12,6). Однако расстояние от Q3 до Xmax (18,5 – 9,8 = 8,7) превышает расстояние от Хmin до Q1 (–0,7 – (–6,1) = 5,4). Следовательно, распределение пятилетней среднегодовой доходности фондов с очень высоким уровнем риска имеет слабую положительную асимметрию.
Точечная диаграмма
Точечная диаграмма позволяет наглядно представить саму выборку, пятерку базовых показателей и интервалы ± S,
± 2S, где
– среднее арифметическое выборки, S – стандартное отклонение выборки (рис. 2).
Рис. 2. Точечная диаграмма для доходности 15 фондов
В Excel нет стандартной возможности построить точечную масштабированную диаграмму. Наверное, этим и объясняется ее более редкое использование, чем, например, блочной диаграммы. Хотя, как видно из рис. 2, информативность такой диаграммы весьма высока. Кратко опишу шаги построения диаграммы:
- Для начала постройте обычную точечную диаграмму для диапазона А1:В16 (диапазон В1:В16 добавлен в качестве координаты Y; в нем не просто забиты единицы, а используется формула, позволяющая разместить несколько точек по высоте, если бы в наших данных по доходности встретилось несколько одинаковых чисел, см. Excel-файл).
- Далее создайте несколько групп данных для значений среднего, первого квартиля, медианы и третьего квартиля; на рис. 2 – это D2:F16.
- Используя прием со специальной вставкой поместите указатели этих четырех статистик на диаграмму; подробнее см. Как добавить линию на гистограмму.
- Повторите пп. 2 и 3, чтобы отобразить на диаграмме интервалы
± S и
± 2S.
- Пройдите по меню Вставка → Надпись и добавьте текстовое описание дополнительных элементов диаграммы.
- Отформатируйте диаграмму, чтобы повысить её читаемость; подробнее см. Принцип Эдварда Тафти минимизации количества элементов диаграммы и Искусство графического представления данных.
Блочная диаграмма
Блочная диаграмма (box-and-whisker diagram) представляет собой удобное средство для изображения пяти базовых показателей (рис. 3).
Рис. 3. Блочная диаграмма, иллюстрирующая показатели среднегодовой доходности 15 фондов с очень высоким уровнем риска; сравните этот рисунок и рис. 2; какое представление вам кажется более информативным?
Вертикальная линия, проведенная внутри прямоугольника, отмечает медиану. Левая сторона прямоугольника соответствует первому квартилю, Q1 а правая сторона — третьему квартилю, Q3. Таким образом, прямоугольник содержит средние 50% элементов выборки. Младшие 25% данных изображаются в виде линии (так называемый ус), соединяющей левую сторону прямоугольника с наименьшим выборочным значением Хmin. Старшим 25% данных соответствует линия, соединяющая правую сторону прямоугольника с наибольшим выборочным значением Хmax. Подробнее о том, как строить блочные диаграммы см. Excel. Биржевая диаграмма, она же блочная, она же ящичная.
Предыдущая заметка Определение среднего значения, вариации и формы распределения. Описательные статистики
Следующая заметка Ковариация и коэффициент корреляции
К оглавлению Статистика для менеджеров с использованием Microsoft Excel
[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 213–217