Чем больше массив анализируемых данных, тем труднее сконцентрировать внимание на их основных характеристиках. [1] Чтобы лучше воспринять информацию, содержащуюся в наборе данных, их необходимо правильно организовать. Для этого используют либо упорядоченный массив, либо диаграмму «ствол и листья». [2]
Упорядоченный массив
Упорядоченный массив (не обязательно одномерный) состоит из последовательности данных, расположенных по возрастанию. Например, таблица (рис. 1) содержит показатели о пятилетней среднегодовой доходности 158 фондов. Упорядоченные массивы позволяют сразу определить минимальное и максимальное значения, типичные величины, а также диапазон, которому принадлежит основная масса значений.
Рис. 1. Упорядоченный массив, содержащий данные о пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала, за период с 1 января 1997 до 31 декабря 2001
Скачать заметку в формате Word или pdf, примеры в формате Excel2007
Видно, что наименьший уровень пятилетней среднегодовой доходности равен –6,1% в год, а наивысший достигает 26,3%. Кроме того, среднегодовые показатели большинства фондов колеблются в диапазоне от 5 до 15%. И всё же представление данных в виде двумерного массива (как на рис. 1) не является оптимальным, так как не позволяет быстро и легко создать сводную таблицу. Поэтому я рекомендую создавать одномерные вертикальные упорядоченные массивы. Excel предоставляет несколько возможностей для этого.
Рассмотрим в качестве сквозного примера среднемесячные температуры июля в Москве за 130 лет наблюдений (рис. 2).
Рис. 2. Среднемесячная температура июля в Москве; исходные данные
Простейший способ упорядочения массива данных предоставляется опцией Excel Сортировать. Выделите столбцы А и В; пройдите по меню Данные → Сортировка (рис. 3). Откроется меню Сортировка. В поле Сортировать по выберите Средняя температура июля, °C, в поле Порядок – По возрастанию. Нажмите Ok.
Рис. 3. Сортировка данных
Вы получите отсортированный (упорядоченный) по температуре список (рис. 4). Сразу видно, что минимальная среднемесячная температура в июле была зафиксирована в Москве в 1904 г. – 14,6°С, а самая высокая – в 2010 г. – 26,1°С. Наверное, вы помните этот ужасный год!? Обратите внимание, что предыдущий рекорд был превышен более, чем на 10%.
Рис. 4. Упорядоченный список
Диаграмма «ствол и листья»
Диаграмма «ствол и листья» представляет собой инструмент для наглядной организации набора данных и анализа их распределения. Данные в диаграмме распределены в соответствии с первыми цифрами, или стволами, и замыкающими цифрами, или листьями. Например, число 18,9 в диаграмме «ствол и листья» состоит из ствола 18 и листа 9 (рис. 5). К сожалению, Excel не умеет автоматически строить диаграмму «ствол и листья». Поэтому воспользуемся ручной процедурой. В качестве ствола используем целую часть температуры, а в качестве листьев – десятичную (см. формулы на листе «Ствол и листья» Excel-файла; сначала я выделил дробную часть, затем перенес дроби из столбцов в строки, и, наконец, отформатировал диаграмму для придания ей большей наглядности).
Рис. 5. Диаграмма «ствол и листья»
Диаграмма «ствол и листья» визуализирует большой массив информации. Например, по ней непосредственно можно определить минимальное (14,6) и максимальное (26,1) значения. Видно, что большинство значений попадают в диапазон 16…20°С, а сами значения образуют нормальное распределение со средним около 18°С. Также наблюдается довольно широкий хвост в области больших значений.
Контрольные задания
- Данные, приведенные ниже, содержат количество чеков, возвращенных 23 банками своим вкладчикам ввиду отсутствия средств на счете. (Минимальный размер вклада не должен быть ниже 100 долл.): 26 28 20 20 21 22 25 25 18 25 15 20 18 20 25 25 22 30 30 30 15 20 29.
- Создайте упорядоченный массив, содержащий указанные данные.
- Постройте диаграмму «ствол и листья», содержащую указанные данные.
- Какой способ представления данных более информативен? Обоснуйте свой ответ.
- Определите значение, вокруг которого концентрируется распределение количества возвращенных чеков.
- Данные, приведенные ниже, содержат величину ежемесячной платы за услуги (в долларах), взимаемой 26 банками со своих клиентов, если сумма на счету клиента не превышает установленного минимума, равного 1500 долл.: 12 8 5 5 6 6 10 10 9 7 10 7 7 5 0 10 6 9 12 0 5 10 8 5 5 9.
- Создайте упорядоченный массив, содержащий указанные данные.
- Постройте диаграмму «ствол и листья, содержащую указанные данные.
- Какой способ представления данных более информативен? Обоснуйте свой ответ.
- Определите значение, вокруг которого концентрируется распределение ежемесячной оплаты банковских услуг.
Ответы на контрольные задания
1. См. лист «КонтрЗад1» Excel-файла и рис. 6. Диаграмма «ствол и листья» более информативна, чем упорядоченный массив, так как лучше визуализирует данные. Среднее значение составляет приблизительно 22. Хитрость задания заключается в выборе шага для значений ствола. Если в качества шага выбрать число десятков (10, 20, 30), диаграмма «ствол и листья» потеряет в своей наглядности. [3]
Рис. 6. Диаграмма «ствол и листья» для возвращенных чеков
2. См. лист «КонтрЗад2» Excel-файла и рис. 7. Здесь также важно выбрать шаг для значений ствола, чтобы придать диаграмме больше наглядности. Среднее значение около 9.
Рис. 7. Диаграмма «ствол и листья» для платы за услуги
Предыдущая заметка Типы данных
Следующая заметка Представление числовых данных в виде таблиц и диаграмм
К оглавлению Статистика для менеджеров с использованием Microsoft Excel
[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 98–104
[2] Еще одно, наверное, наиболее мощное средство – сводные таблицы (и, соответствующие им, сводные диаграммы) будет рассмотрено позже.
[3] Данные, приведенные в задании, на мой взгляд говорят о применении округления в работе банков. Из 23 значений 15 кратны 5, т.е. 65%. В то время, как в среднем таких значений должно быть около 20%…
Спасибо. Я просто счастлива, что нашла ваш блог. А есть какой-то YouTube-канал? Я бы тоже с удовольствием подписалась.
Рина, спасибо)) YouTube-канала пока нет…