Джонсон. Одномерные непрерывные распределения

В рамках подготовки заметки о генерировании случайных чисел в Excel обратил внимание на фундаментальный обзор Джонсона с соавторами. Первое издание книги вышло еще в 1970 г., а второе, переведенное на русский язык – в 1994. Это серьезный математический труд, но интересовавшие меня вопросы вполне доступны для понимания)) В книге подробно излагаются свойства большого числа семейств распределений. Часть I: нормальное, логнормальное, Коши, Вейбулла, χ²-, гамма-, обратное гауссовское, Парето, экспоненциальное. Часть II: логистическое, Лапласа, бета-, равномерное, экстремальных значений, F-, t-, нецентральное χ²-, нецентральное F-, нецентральное t-, распределение коэффициента корреляции, времени жизни. Издание снабжено обширной библиографией, таблицами и графиками, необходимыми для активной работы с соответствующими семействами распределений. Я представляю отдельные фрагменты, связанные с моими интересами. Дополнения Excel набраны с отступом.

Н. Л. Джонсон, С. Коц, Н. Балакришнан. Одномерные непрерывные распределения (в 2-х частях). — М.: БИНОМ. Лаборатория знаний, 2017. — 703 с. + 603 с.

Скачать заметку в формате Word или pdf, примеры в архиве (внутри 4 файла Excel)

Купить цифровую книгу в ЛитРес

ГЛАВА 12. Непрерывные распределения (общие сведения)[1]

В случае непрерывных распределений полезно нормирование, т.е. использование случайной величины

имеющей распределение с нулевым средним и единичным стандартным отклонением. В частности, форму распределения удобно описать заданием нормированных значений нескольких квантилей (т.е. значений случайной величины, в которых функция распределения принимает заданные значения). Следует различать нормированную и стандартную формы распределения. Последняя обычно удобна для получения формул, связанных с функцией плотности. Она может совпасть с нормированной формой, но это необязательно.

Кривая Лоренца

Кривая Лоренца для положительной случайной величины X является графиком отношения

в зависимости от значений F_X(x). Если случайная переменная X представляет годовой доход, то величина L(p) есть доля общего дохода, полученного индивидуумами, имеющими по крайней мере 100р%-й доход. Видно, что L(p) ≤ p, L(0) = 0, L(1) = 1.

Типичная кривая Лоренца показана на рис. 12.1. Если доход всех индивидуумов равномерен, то L(p) = p. Площадь фигуры, ограниченной прямой L(p) = p и кривой Лоренца, можно рассматривать как меру неравномерности дохода или, в более общем виде, как меру изменчивости распределения случайной величины X.

Рис. 12.1. Кривая Лоренца

Порядковые статистики

Порядковые статистики – это последовательность случайных величин, которая получается путем упорядочивания значений из выборки по их величине. Для понимания этого понятия полезно сначала вспомнить, что такое статистика и что такое выборка.

Статистика – это функция от выборки, которая используется для описания или вывода о генеральной совокупности. Примеры статистик: среднее значение, медиана, дисперсия. Выборка – набор наблюдений, полученных из генеральной совокупности.

Порядковые статистики являются функциями от выборки, которые представляют собой упорядоченные значения. Обычно они обозначаются как X₁, X₂, X_n, где n – размер выборки, а индекс указывает на порядковый номер в упорядоченной последовательности.

Примеры порядковых статистик:

Минимум выборки X₁: Это самое маленькое значение в выборке.

Максимум выборки X_n: Это самое большое значение в выборке.

Медиана выборки X₍_n_+1)/2: Это значение, которое делит упорядоченную выборку на две равные части.

Первый квартиль X₍_n_+1)/4 и третий квартиль X₃₍_n_+1)/4: Это значения, которые делят упорядоченную выборку на четыре равные части.

n-ый квантиль X_p_*_n: Это значение, которое делит упорядоченную выборку так, что доля p наблюдений меньше этого значения.

ГЛАВА 13. Нормальное распределение

Датчики случайных чисел

В последнее время были построены многие алгоритмы, порождающие псевдо-случайные числа из нормального распределения. Конечно же для того, чтобы порождать псевдослучайные нормальные числа, можно использовать любой датчик равномерно распределенных псевдослучайных чисел в сочетании с функцией, обратной функции распределения (или ее эффективной аппроксимацией). Но были разработаны и другие, более простые, эффективные и быстрые методы; некоторые из них мы опишем здесь.

Метод Бокса–Мюллера

Исходя из двух независимых стандартных нормальных случайных величин X₁ и X₂ Бокс и Мюллер рассмотрели преобразование

и показали, что случайные величины Y₁ и Y₂ независимы и равномерно распределены в интервале (0,1). С другой стороны, если мы рассмотрим полярное преобразование

то легко проверить, что плотность совместного распределения случайных величин r и θ имеет вид:[2]

Случайные величины r и θ статистически независимы. Далее, случайные величины

независимы и равномерно распределены на (0,1). Обратив преобразование, мы получаем, что величины

представляют собой пару псевдослучайных стандартных нормальных наблюдений.

Я использовал первую формулу из (13.126) и сгенерировал 1М случайных значений. Получилось идеальное стандартное нормальное распределение (см. Excel файл 01. Метод Бокса–Мюллера):

ГЛАВА 14. Логнормальное распределение

Случайную переменную X с логнормальным распределением можно задать соотношением

где U – стандартная нормальная случайная величина, а γ, δ и θ – параметры. Из равенства (14.1) следует, что плотность распределения вероятностей случайной величины X имеет вид

Можно перейти к другим обозначениям, заменив параметры γ и δ на математическое ожидание ζ и стандартное отклонение σ случайной величины Z = ln(X – θ). Эти два набора параметров связаны соотношениями

так что равенство (14.1) можно переписать в виде

а плотность (14.2) принимает форму

В большинстве приложений «известно», что параметр θ равен нулю (так что Pr[X≤0] = 0, или X есть «положительная случайная величина»). Этот важный случай получил название двухпараметрического логнормального распределения (с параметрами γ и δ или ζ и σ). При этом формула (14.1) приобретает вид

а равенство (14.1′) выглядит так:

Для случайной величины X, подчиненной логнормальному распределению, r-й момент относительно нуля имеет вид

Математическое ожидание случайной величины X равно

а ее дисперсия составляет

В Excel я воспользовался функцией ЛОГНОРМ.ОБР(p;μ;σ) и с помощью формулы…

=ЛОГНОРМ.ОБР(СЛМАССИВ(n;;0;1;ЛОЖЬ);μ;σ), n – число случайных значений, μ = 0 и σ = 1

…получил 1М случайных логнормальных значений. Разобрав их по карманам с шагом 0,1, получил (см. Excel файл 02. Логнормальное распределение):

ГЛАВА 16. Распределение Коши

Удобный метод получения выборок из распределения Коши основан на обращении функции распределения F(x). Если переменная U имеет равномерное распределение в интервале (0, 1), то случайная величина tg(π(U – 1/2) подчинена стандартному распределению Коши.

В Excel я воспользовался формулой (см. Excel файл 03. Распределение Коши)

=TAN(ПИ()*(СЛМАССИВ(n;;0;1;ЛОЖЬ)-0,5)), n – число случайных значений

ГЛАВА 21. Распределение Вейбулла

Плотность распределения вейбулловской случайной переменной X:

Если положить ξ₀ = 0 и α = 1, получим плотность стандартного распределения Вейбулла

и соответствующую функцию распределения

Математическое ожидание

Дисперсия

Так как функция распределения F случайной величины, подчиненной трехпараметрическому распределению Вейбулла, записывается в аналитической форме (21.4), то соответствующие псевдослучайные наблюдения легко моделировать посредством обращения этой функции распределения. А именно, положим

и, обратив это преобразование, получим

где U случайная величина равномерно распределенная в интервале (0; 1).

Другой способ моделирования наблюдения из распределения Вейбулла состоит в использовании любого эффективного датчика экспоненциально распределенных случайных чисел. В силу того что случайная величина (X – ξ₀)/α имеет стандартное экспоненциальное распределение, требуемое наблюдение X из распределения Вейбулла можно получить посредством преобразования

где через Z обозначено уже смоделированное псевдослучайное наблюдение со стандартным экспоненциальным распределением.

В Excel я воспользовался формулой (см. Excel файл 04. Распределение Вейбулла)

= α *-LN(1-СЛМАССИВ(n;;0;1;ЛОЖЬ))^(1/c), n – число случайных значений

[1] Главы нумеруются непрерывно. Первые 11 глав относятся к книге Одномерные дискретные распределения.

[2] В книге приведена иная формула, мне представляется, что она содержит ошибку, и я исправил.