8. Статистика

Ковариация и ее применение в финансовом деле

Рубрика: 8. Статистика

В предыдущей заметке мы рассмотрели понятия математического ожидания, дисперсии и стандартного отклонения дискретной случайной величины. В настоящей заметке вводится понятие ковариации между двумя переменными и его применение для управления портфелем активов. Эта задача вызывает большой интерес у финансовых аналитиков. [1]

Ковариация σXY между двумя дискретными случайными величинами X и Y определяется формулой

где Xii-e значение дискретной случайной величины X, Р(Хi) — вероятность i-гo значения дискретной случайной величины X, Yii-e значение дискретной случайной величины Y, Р(Yi) — вероятность i-гo значения дискретной случайной величины Y, Р(ХiYi) — вероятность i-гo значения дискретной случайной величины X и i-гo значения дискретной случайной величины Y, i = 1, 2, … , N.

Читать полностью

Распределение дискретной случайной величины

Рубрика: 8. Статистика

В одной из предыдущих заметок указывалось, что исход испытания может представлять собой числовую переменную. В свою очередь, числовые переменные разделяются на дискретные и непрерывные. Дискретные переменные характерны для перечислений и подсчета, а непрерывные — для измерений. В этой и нескольких последующих заметках будут рассмотрены общие положения и наиболее распространенные распределения, описывающие дискретные случайные величины. [1]

Распределение дискретной случайной величины — это исчерпывающий список всех возможных значений случайной переменной, где каждому исходу поставлена в соответствие его вероятность. Например, на рис. 1 приведено распределение количества ипотечных займов, выданных в течение недели местным филиалом банка. Поскольку в таблице приведены все возможные исходы, сумма их вероятностей равна 1.

Рис. 1. Распределение количества ипотечных займов, выданных за неделю

Читать полностью

Условная вероятность. Теорема Байеса

Рубрика: 8. Статистика

В рассмотренных ранее примерах вычислялись вероятности элементарных событий. Возникает вопрос: как определить вероятность события, если известна некая информация о событиях, происшедших до него? [1] Вероятность события А, при вычислении которой учитывается информация о событии В, называется условной и обозначается как Р(А|В).

Вероятность события А при условии, что наступило событие В, равна вероятности события А и В, деленной на вероятность события В:

Вероятность события В при условии, что наступило событие А, равна вероятности события А и В, деленной на вероятность события А:

где Р(А и В) – вероятность события А и В, Р(А) – вероятность события А, Р(В) – вероятность события В.

Читать полностью

Основные понятия теории вероятностей

Рубрика: 8. Статистика

Предыдущие заметки (см. оглавление) были посвящены методам сбора данных, способам построения таблиц и диаграмм, а также исследованию описательных статистик. В настоящей заметке излагаются основы теории вероятностей, позволяющей распространять результаты, полученные при изучении выборок, на всю генеральную совокупность. [1]

Что означает слово вероятность? Вероятность — это возможность наступления некоторого события. Можно говорить о вероятности того, что из колоды карт будет вынута карта черной масти, что человек предпочтет один продукт другому или что новый продукт, появившийся на рынке, будет пользоваться спросом. В каждом из этих вариантов вероятность является числовой величиной, лежащей в интервале от 0 до 1 включительно. Вероятность события, которое никогда не может произойти (невозможное событие), равна 0, а вероятность события, которое происходит постоянно (достоверное событие), равна 1.

Существует три подхода к предмету теории вероятностей: априорная классическая вероятность, эмпирическая классическая вероятность и субъективная вероятность. В рамках априорного классического подхода вероятность события оценивается на основе априорной информации. В простейшем случае, когда все исходы испытаний равновероятны, их вероятность определяется в соответствии с формулой:

(1) вероятность события = Х / Т,

где X — количество испытаний, в которых произошло событие, Т — общее количество испытаний.

Читать полностью

Ковариация и коэффициент корреляции

Рубрика: 8. Статистика

Ранее была рассмотрена диаграмма разброса, иллюстрирующая распределение двумерных числовых данные (см. последний раздел Изображение двумерных числовых данных заметки Представление числовых данных в виде таблиц и диаграмм). В настоящей заметке мы изучим два количественных показателя, характеризующих силу зависимости между двумя переменными — ковариацию и коэффициент корреляции. [1] Ковариация оценивает силу линейной зависимости между двумя числовыми переменными X и Y. Выборочная ковариация:

Читать полностью

Анализ данных. Пять базовых показателей распределения случайной величины

Рубрика: 8. Статистика

Основные характеристики выборки (среднее значение, разброс и форма распределения) позволяют описать свойства данных и перейти к более глубоким исследованиям. Довольно часто для анализа данных применяется подход, основанный на пятерке базовых показателей и построении точечных и/или блочных диаграмм. [1]

Пятерка базовых показателей, обеспечивающих наиболее точную оценку вида распределения, состоит из следующих характеристик:

  • Минимальное значение – Хmin,
  • Первый квартиль – Q1,
  • Медиана,
  • Третий квартиль – Q3,
  • Максимальное значение – Xmax.

Читать полностью

Определение среднего значения, вариации и формы распределения. Описательные статистики

Рубрика: 8. Статистика

Способы представления числовых и категорийных данных в виде таблиц и диаграмм являются существенной, но не основной частью анализа данных. Ведущая роль принадлежит методам исследования числовых данных и их свойств. В этой заметке рассмотрены способы определения среднего значения, вариации и формы распределения генеральной совокупности. [1]

В большинстве случаев данные концентрируются вокруг некоей центральной точки. Таким образом, чтобы описать любой набор данных, достаточно указать средне значение. Рассмотрим последовательно три числовые характеристики, которые используются для оценки среднего значения распределения: среднее арифметическое, медиана и мода.

Среднее арифметическое

Среднее арифметическое (часто называемое просто средним) — наиболее распространенная оценка среднего значения распределения. Она является результатом деления суммы всех наблюдаемых числовых величин на их количество. Для выборки, состоящей из чисел Х1, Х2, …, Хn, выборочное среднее (обозначаемое символом ) равно = (Х1 + Х2 + … + Хn) / n, или

 

где — выборочное среднее, n — объем выборки, Xi – i-й элемент выборки.

Читать полностью

Искусство графического представления данных

Рубрика: 8. Статистика

Наиболее простыми и эффективными способами представления статистических данных являются графические изображения. [1] Хороший рисунок позволяет сразу выявить основные закономерности, скрытые в массиве информации. Для улучшения анализа данных необходимы ясные и точные таблицы и графики. Излишние украшения и вычурность лишь мешают. В последние годы широкое распространение электронных таблиц и графических пакетов привело к интенсивному использованию рисунков для иллюстрации статистических данных. Несмотря на то что графические изображения довольно часто приносят пользу, злоупотребление графикой создает впечатление, что единственной целью статистики является наукообразный обман.

Вероятно, одним из наиболее известных пропагандистов правильного представления данных с помощью графических средств является Эдвард Р. Тафти. Ранее я уже излагал его идеи в заметках Принцип Эдварда Тафти минимизации количества элементов диаграммы и Как с помощью диаграммы приукрасить действительность? или о факторе лжи Эдварда Тафти.

Читать полностью

Представление категорийных данных в виде таблиц и диаграмм

Рубрика: 8. Статистика

В предыдущей заметке таблицы и диаграммы применялись для представления числовых данных. Однако часто данные носят не числовой, а категориальный характер. В этой заметке изучаются способы организации и представления категорийных данных в виде таблиц и диаграмм. [1]

Вернемся к анализу доходности взаимных фондов. Кроме среднегодовой доходности фонды характеризуются риском, связанном с инвестированием в эти фонды. Взаимные фонды могут иметь очень низкий, низкий, средний, высокий и очень высокий риск. При работе с категорийными переменными данные сначала заносятся в сводную таблицу, а затем графически представляются в виде гистограмм, круговых диаграмм или диаграмм Парето.

Сводная таблица

По внешнему виду сводная таблица для категорийных данных напоминает распределение частот для числовых данных. Чтобы проиллюстрировать процесс ее построения, рассмотрим данные о классификации взаимных фондов по уровню риска (рис. 1).

Рис. 1. Уровень риска 259 взаимных фондов. Частоты и процентные доли

Читать полностью

Представление числовых данных в виде таблиц и диаграмм

Рубрика: 8. Статистика

Распределение частот [1]

При увеличении объема выборки ни упорядоченный массив, ни диаграмма «ствол и листья» уже не позволяют легко представлять, анализировать и интерпретировать результаты. Для больших наборов данных следует создавать сводные таблицы, распределяя данные по группам (или категориям). Такой способ представления данных называется распределением частот. Распределение частот представляет собой сводную таблицу, в которой данные распределены по группам или категориям. Если данные сгруппированы в виде распределения частот, процесс их анализа и интерпретации становится более управляемым и осмысленным. При распределении частот следует внимательно выбирать интервал группирования, или размах групп, а также вычислять границы каждой группы, не допуская их перекрытия.

Выбор количества групп

Количество групп, выбранных для группировки данных, непосредственно зависит от объема исходной выборки. Чем больше элементов содержит выборка, тем больше групп можно создать. Как правило, распределение частот должно содержать не менее 5 и не более 15 групп. Если групп слишком мало или слишком много, новую информацию получить сложно. Выделение групп процесс творческий, и я бы рекомендовал в качестве первого подхода использовать формулу Стерджесcа:

(1) k = 1 + log2n

где k – число групп, n – объем выборки; далее визуально определить по графику, насколько удачным получилось разбиение и, если требуется, скорректировать число групп на величину ± 1.

Читать полностью