Как упорядочить массив данных

Рубрика: 8. Статистика

Чем больше массив анализируемых данных, тем труднее сконцентрировать внимание на их основных характеристиках. [1] Чтобы лучше воспринять информацию, содержащуюся в наборе данных, их необходимо правильно организовать. Для этого используют либо упорядоченный массив, либо диаграмму «ствол и листья». [2]

Упорядоченный массив

Упорядоченный массив (не обязательно одномерный) состоит из последовательности данных, расположенных по возрастанию. Например, таблица (рис. 1) содержит показатели о пятилетней среднегодовой доходности 158 фондов. Упорядоченные массивы позволяют сразу определить минимальное и максимальное значения, типичные величины, а также диапазон, которому принадлежит основная масса значений.

Рис. 1. Упорядоченный массив, содержащий данные о пятилетней среднегодовой доходности 158 фондов, ориентированных на быстрый рост капитала, за период с 1 января 1997 до 31 декабря 2001

Скачать заметку в формате Word или pdf, примеры в формате Excel2007

Видно, что наименьший уровень пятилетней среднегодовой доходности равен –6,1% в год, а наивысший достигает 26,3%. Кроме того, среднегодовые показатели большинства фондов колеблются в диапазоне от 5 до 15%. И всё же представление данных в виде двумерного массива (как на рис. 1) не является оптимальным, так как не позволяет быстро и легко создать сводную таблицу. Поэтому я рекомендую создавать одномерные вертикальные упорядоченные массивы. Excel предоставляет несколько возможностей для этого.

Рассмотрим в качестве сквозного примера среднемесячные температуры июля в Москве за 130 лет наблюдений (рис. 2).

Рис. 2. Среднемесячная температура июля в Москве; исходные данные

Простейший способ упорядочения массива данных предоставляется опцией Excel Сортировать. Выделите столбцы А и В; пройдите по меню Данные → Сортировка (рис. 3). Откроется меню Сортировка. В поле Сортировать по выберите Средняя температура июля, °C, в поле ПорядокПо возрастанию. Нажмите Ok.

Рис. 3. Сортировка данных

Вы получите отсортированный (упорядоченный) по температуре список (рис. 4). Сразу видно, что минимальная среднемесячная температура в июле была зафиксирована в Москве в 1904 г. – 14,6°С, а самая высокая – в 2010 г. – 26,1°С. Наверное, вы помните этот ужасный год!? Обратите внимание, что предыдущий рекорд был превышен более, чем на 10%.

Рис. 4. Упорядоченный список

Диаграмма «ствол и листья»

Диаграмма «ствол и листья» представляет собой инструмент для наглядной организации набора данных и анализа их распределения. Данные в диаграмме распределены в соответствии с первыми цифрами, или стволами, и замыкающими цифрами, или листьями. Например, число 18,9 в диаграмме «ствол и листья» состоит из ствола 18 и листа 9 (рис. 5). К сожалению, Excel не умеет автоматически строить диаграмму «ствол и листья». Поэтому воспользуемся ручной процедурой. В качестве ствола используем целую часть температуры, а в качестве листьев – десятичную (см. формулы на листе «Ствол и листья» Excel-файла; сначала я выделил дробную часть, затем перенес дроби из столбцов в строки, и, наконец, отформатировал диаграмму для придания ей большей наглядности).

Рис. 5. Диаграмма «ствол и листья»

Диаграмма «ствол и листья» визуализирует большой массив информации. Например, по ней непосредственно можно определить минимальное (14,6) и максимальное (26,1) значения. Видно, что большинство значений попадают в диапазон 16…20°С, а сами значения образуют нормальное распределение со средним около 18°С. Также наблюдается довольно широкий хвост в области больших значений.

Контрольные задания

  1. Данные, приведенные ниже, содержат количество чеков, возвращенных 23 банками своим вкладчикам ввиду отсутствия средств на счете. (Минимальный размер вклада не должен быть ниже 100 долл.): 26 28 20 20 21 22 25 25 18 25 15 20 18 20 25 25 22 30 30 30 15 20 29.
    1. Создайте упорядоченный массив, содержащий указанные данные.
    2. Постройте диаграмму «ствол и листья», содержащую указанные данные.
    3. Какой способ представления данных более информативен? Обоснуйте свой ответ.
    4. Определите значение, вокруг которого концентрируется распределение количества возвращенных чеков.
  2. Данные, приведенные ниже, содержат величину ежемесячной платы за услуги (в долларах), взимаемой 26 банками со своих клиентов, если сумма на счету клиента не превышает установленного минимума, равного 1500 долл.: 12 8 5 5 6 6 10 10 9 7 10 7 7 5 0 10 6 9 12 0 5 10 8 5 5 9.
    1. Создайте упорядоченный массив, содержащий указанные данные.
    2. Постройте диаграмму «ствол и листья, содержащую указанные данные.
    3. Какой способ представления данных более информативен? Обоснуйте свой ответ.
    4. Определите значение, вокруг которого концентрируется распределение ежемесячной оплаты банковских услуг.

Ответы на контрольные задания

1. См. лист «КонтрЗад1» Excel-файла и рис. 6. Диаграмма «ствол и листья» более информативна, чем упорядоченный массив, так как лучше визуализирует данные. Среднее значение составляет приблизительно 22. Хитрость задания заключается в выборе шага для значений ствола. Если в качества шага выбрать число десятков (10, 20, 30), диаграмма «ствол и листья» потеряет в своей наглядности. [3]

Рис. 6. Диаграмма «ствол и листья» для возвращенных чеков

2. См. лист «КонтрЗад2» Excel-файла и рис. 7. Здесь также важно выбрать шаг для значений ствола, чтобы придать диаграмме больше наглядности. Среднее значение около 9.

Рис. 7. Диаграмма «ствол и листья» для платы за услуги

Предыдущая заметка Типы данных

Следующая заметка Представление числовых данных в виде таблиц и диаграмм

К оглавлению Статистика для менеджеров с использованием Microsoft Excel


[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 98–104

[2] Еще одно, наверное, наиболее мощное средство – сводные таблицы (и, соответствующие им, сводные диаграммы) будет рассмотрено позже.

[3] Данные, приведенные в задании, на мой взгляд говорят о применении округления в работе банков. Из 23 значений 15 кратны 5, т.е. 65%. В то время, как в среднем таких значений должно быть около 20%…


Прокомментировать