Эта небольшая книжка ставит целью уберечь читателя от западни статистики (даже добросовестной), которая «демонстрирует» воображаемые (а часто и предвзятые) причинно-следственные связи. Она предназначена для широкой публики, поэтому математика присутствует в ней в строго терпимом объеме и вообще необязательна. Книгу рекомендовал мне читатель блога Владимир Кудринский.
Юбер Кривин. Маленький трактат о случае и случайностях. – Минск: Дискурс, 2019. – 160 с.
Скачать краткое содержание в формате Word или pdf (конспект составляет около % от объема книги)
Купить книгу в Лабиринте
Все события, как считается, происходят либо случайно, либо «неслучайно». Наука готова поставить под вопрос утверждение, будто «случай не более чем плод нашего неведения». Его считает естественным любой, кто подозревает, что за каждым событием стоит причина — опознанная или нет.
Глава 1. Как вычислить вероятности
Типичный пример случайности — игра в орлянку. Частное от деления количества раз, когда происходит событие (здесь — падение монеты решкой), на общее количество попыток называется частотой и может выражаться в виде процентов. Например, если при пяти бросаниях трижды выпадает решка, то частота выпадения решки составляет 3/5 (или 60%). При небольшом количестве бросаний эта частота сильно колеблется. В целом, если она стабилизируется вокруг некоего значения при существенном росте количества бросаний, то это конечное значение мы и назовем вероятностью события. На рис. 1 проиллюстрировано сближение частоты с вероятностью при игре в орлянку. Вероятность события есть число между 0 и 1.
Рис. 1. По горизонтали: n — количество бросаний монеты (компьютерная модель). По вертикали — частота падения решкой. Две кривые, выше и ниже частот, обрамляют колебания вокруг 0,5. Можно показать, что отклонения от 0,5 оцениваются примерно как 1/√n̅
Как перейти от частотности к вероятностям? Чтобы частота стабилизировалась и позволила установить вероятность, требуется достаточное количество «подходов». В принципе, лучше всего повторять эксперимент без конца, но на практике это, конечно, недостижимо. Поэтому существует опасность, что даже при самой представительной выборке найдется один ложный результат, то есть такой, который опровергается при еще более крупной выборке. Обычно степень доверия к оценке среднего значения обратно пропорциональна квадратному корню от размера выборки.
Выборка может быть неправильной (как говорят, предвзятой) даже при достаточном размере. Ненадежны телефонные опросы, когда выбор падает исключительно на людей, сидящих днем дома и располагающих стационарным номером телефону. Колюш призывал ни в коем случае не ложиться в больницу: мол, какую статистику ни возьми, вероятность смерти на больничной койке втрое превосходит вероятность летального исхода на дому. При этом Колюш коварно смешивал две группы населения, допуская вопиющую погрешность: людей вообще и больных.
Случаются и попросту смехотворные экстраполяции, когда понятие «усреднение» лишается всякого смысла. Например: «В Ватикане 2,3 паны на один квадратный километр»! Собственно, площадь этого государства — где папа всего один, – не достигает и одного квадратного километра: она равна 0,44 км2. Вот и выходит, что если на 0,44 км2 приходится 1 папа римский, то 1/0,44 ≈ 2,3 папы на 1 км2.
При игре в орлянку можно показать, что типовое отклонение частоты падения решкой равно:
где N — число повторов, и стремится к 0 при неограниченном увеличении N. Это – закон больших чисел. При N = 100 частота падения решкой записывается как 50% ± 10%, при N = 10 000 — как 50 % ± %; точность возросла только в десять раз, тогда как число повторов — в 100 раз.
Знание среднего значения на практике должно сопровождаться знанием типового отклонения. Например, если перед вторым туром президентских выборов при опросе 1000 человек кандидат получает 50,6% голосов избирателей, то делать выводы рано, потому что удвоенное типовое отклонение составляет порядка 3%, но если опросить 100 000 человек, то эта пропорция станет показательной, так как неуверенность снизится до 0,3%.
Не все распределения относятся к гауссовым. Например, распределение доходов – Это распределение Парето. Для таких распределений в качестве средней меры используют медианное значение.
Рис. 2. Распределение уровня жизни во Франции в 2004 г. (в месяц, в % от общего, с шагом 100 евро)
Регресс к среднему – это ситуация, когда чисто статистический результат объясняют внешней причиной. Дожди отказываются выпадать, грозит засуха. Многие крестьяне прибегают к молитве. При систематической безрезультатности это священнодействие не продержалось бы столько веков. Существует эффект регресса к среднему — и запоздалые осадки. Дождь все равно проливается, причем иногда это происходит вслед за молитвой.
Умножать или складывать вероятности? Если события А и В независимые, то вероятность их совместного наступления – обозначим его Р(А и В) – есть произведение вероятностей: Р(А)*Р(В). Если события зависимые, Р(А и В)=Р(А)×Р(В|А), где Р(В|А) обозначает вероятность события В при условии, что А уже произошло. Это называется условной вероятностью.
Так можно вычислить вероятность вытянуть из колоды, в которой 52 карты, подряд две карты красной масти. Здесь А и В — события «вытянуть карту красной масти». Если Р(А) = 26/52 = 1/2, то Р(В|А) = 25/51, поскольку если первая извлеченная карта красная, то в колоде остается 25 красных карт из 51. Поэтому совместная вероятность составляет 1/2 х 25/51 ≈ 0,2451, что немного меньше, чем 1/2 х 1/2 = 0,25, – вероятности вытянуть подряд две красные карты после возвращения в колоду первой карты, то есть когда результат первой попытки не влияет на вторую.
Не следует путать Р(А|В) с Р(В|А). Порой этой путаницей злоупотребляют. Например, в США около половины отбывающих тюремный срок – чернокожие:
Р(чернокожие|заключенные) ≈ 0,5 = 50%
При этом в тюрьме сидит «только» 1/23 чернокожих:
Р(заключенные|чернокожие) ≈ 0,043 = 4,3%
Значит, не надо путать вероятность попасть в тюрьму для чернокожего с вероятностью – гораздо более высокой – быть чернокожим, если ты в тюрьме. Намеренная подмена одного другим приводит некоторых расистов к утверждению, что половина чернокожих— правонарушители.
Когда два события исключают друг друга (если происходит одно, то другое невозможно), и только в этом случае, вероятность наступления одного или другого является суммой вероятностей каждого из двух этих событий.
В общем случае Р(А или В) = Р(А) + Р(В) – Р(А и В). Только когда два события несовместимы, то есть когда Р(А и В) = 0, вероятность можно просто суммировать.
Закон Бенфорда гласит, что если вы взглянете на первую цифру в статистических рядах, то увидите больше единиц, чем двоек, больше двоек, чем троек, и т.д., хотя считали их распределенными априори равномерно — с частотой 1/9, так как возможностей девять (ноль не в счет). Часто доля цифры 1 будет порядка 30%, 2 — 18%, 3 — 13%, и так до 5% у цифры 9. Можно показать, что вероятность найти значение с ≠ 0 для первой цифры подчиняется формуле:
Глава 2. Информация и вероятности
Между нехваткой информации и вероятностями существует неразрывная связь. Если вероятность того, что человек, о котором мы ничего не знаем, окажется блондином, составляет 1/3, то для шведа эта вероятность уже гораздо выше. Это называется условной вероятностью. Формула Байеса показывает, как меняются вероятности в зависимости от полученной информации. Она имеет большое практическое значение.
Рассмотрим две схожие с виду задачи, где уже присутствует кое-какая информация. Значима ли она? 1. Женщина произвела на свет девочку. Какова вероятность, что в следующий раз у нее родится мальчик? 2. У женщины два ребенка, один из них — девочка. Какова вероятность, что другой — мальчик? В первом случае вероятность, само собой, 1/2: первые роды не содержат никакой информации о том, какого пола будет следующий ребенок. Во втором — 2/3. Если вы ничего не знаете, то в равной степени возможны четыре варианта: ММ, МД, ДМ, ДД (с вероятностью ¼). Вероятность иметь одного мальчика равнялась бы 2 х 1/4 = 1/2. Но раз известно, что вариант ММ исключен, то остается три равновероятных варианта, два из которых благоприятны.
В формуле Байеса мы имеем дело не с «условными вероятностями», а с «вероятностями гипотез». Так называемая байесовская философия вероятностей определяет последнюю, как степень доверия к гипотезе. Мы не видим пользы в противопоставлении этого подхода и частотного. Покажем это на примере. Предположим, в некоей стране поровну мужчин и женщин. При отсутствии какой-либо еще информации вероятность того, что взятый наугад индивидуум окажется мужчиной, составляет 50%. Еще нам известен его рост — 160 сантиметров, а также распределение показателей роста среди мужчин и женщин, как на рис. 3. Сразу видно, что 160 сантиметров — маловато для мужчины, поэтому наш индивидуум, вероятнее, все же женщина. Формула Байеса позволяет выразить эту гипотезу количественно. Дополнительная информация довела вероятность того, что речь идет о женщине, от 50 до 60%. Этот подсчет подкрепляется уточнением о частотности: если отобрать наугад 100 человек с ростом 1,6 метра, то среди них окажется приблизительно 60 женщин.
Рис. 3. Схема распределения показателей роста. По горизонтали – рост людей, по вертикали – вероятность
Глава 3. Post hoc, ergo propter hoc[1]
Между двумя событиями может существовать корреляция (взаимосвязь), но при этом могут отсутствовать причинно-следственные связи. Существование корреляций может побуждать к исследованиям, но для уверенного перехода от корреляции к причинности нужно объяснение.
История с жирными кислотами омега-3 иллюстрирует как предвзятость — заинтересованность фармацевтической и пищевой отраслей, ободренных недостаточной статистикой, — так и путаницу между корреляцией и причинностью. Началось с малого: в 1970 году появились данные о том, что гренландские инуиты редко страдают сердечно-сосудистыми заболеваниями и что их рацион богат кислотами омега-3. То же самое наблюдалось у японцев с острова Кохама (еще можно было бы обратить внимание на то, что те и другие узкоглазы и малорослы). На этом «основании» разразилась омега-3-истерика. Достаточно мельком заглянуть в Интернет, чтобы убедиться, как много сайтов расхваливают эту «панацею». Только один ссылается на научное исследование, сворачивающее шею этой коммерческой легенде.
Глава 4. Редкое событие
Когда размер выборки n велик, а вероятность события р мала, так что произведение np близко к 1, мы имеем дело с так называемым распределением Пуассона.
Эволюции (и не только живых существ) возможна благодаря флуктуациям. Только они позволяют исследовать области, которые оставались бы недосягаемыми, если бы все величины были близки к средним значениям.
Глава 5. Мера нашего неведения
Я много говорил о случайности, но пока еще не дал ей точного определения. И это не случайно! Заменив время случаем, перефразируем Блаженного Августина: «Что же такое случай? Если никто не спрашивает меня об этом, я знаю. Если же меня спрашивают и я хочу объяснить, то не знаю».
Для моделирования случайности часто прибегают к последовательностям произвольных чисел. Она не должна быт периодической, каковой всегда является десятичная запись отношения двух целых чисел. Она должна иметь те же частотности появления, что у 0, 1, 2…9 и в целом у всех мультиплетов (пар, троек и т.д.). Математики называют это нормальным числом. Последовательность чисел произвольна, если любая программа, записывающая эту последовательность, имеет длину порядка величины этой последовательности (эту идею развил Колмогоров). В некотором смысле она несокращаема. Например, последовательность {0101010101…} можно сократить командой «повторять 01».
Счет Монте-Карло. Если произвольно выбрать точку на обширной площади А0, содержащей меньший участок А, то легко убедиться, что вероятность попасть на этот последний пропорциональна соотношению их площадей Возьмем, например, окружность радиусом R, вписанную в квадрат со стороной 2R. Вероятность попасть внутрь окружности при произвольных бросаниях в квадрат составляет: А/А0, или πR2/4R2 = π/4.
Не зная π, можно оценить его значение по соотношению точек внутри окружности. На рис. 4 показано, как меняется это соотношение в зависимости от числа попыток. Видно, как медленно происходит это схождение в направлении 3,141596…
Конечно, можно было бы взять любую замкнутую кривую, поместить ее на площади известного размера и так вычислить неизвестную площадь. Аналогичным образом можно, вставляя неизвестные объемы в известные (сферы, кубы и др.), определять объемы первых.
Рис. 4. Вероятностный подсчет π. Точки на рисунке слева — попадания при 15 произвольных бросаниях (13 внутри окружности, что приближало бы π к 4*12/15 = 3,2). На рисунке справа на оси абсцисс отложено количество попыток, на оси ординат — частота точек внутри окружности, стремящаяся (медленно) к 3,14
Эдвард Лоренц (1917–2008) показал, что крайняя неопределенность первоначальных условий приводит к хаотичности предсказательных моделей. Теория хаоса не исключает причинности, а просто вносит неочевидное раньше различие между детерминизмом (закон развития известен) и предвидением за пределами некоего периода. Этот период может составлять от нескольких микросекунд (диффузия частиц) до нескольких дней в метеорологии и сотни миллионов лет применительно к Солнечной системе. Такая длительность периода объясняет, почему Солнечная система может служить надежным эталоном при измерении времени; никакого парадокса здесь нет.
Этот хаос, называемый «детерминированным», не имеет ничего общего с каким-то плохо известным, слишком сложным или содержащим большое число параметров законом. Напротив, продемонстрировать хаотичность явлений можно как раз благодаря отличному знанию законов эволюции.
Пример детерминированного, но хаотичного развития – серия отскоков шара в бильярде Синая. Бильярд Синая – это квадратный стол с круглым препятствием в центре (рис. 5). Предполагается, что шар движется без трения. Закон движения шара прост: при каждом отскоке от бортика или от препятствия его угол падения i равен углу отражения i’. Выходит, движение шара можно предсказать? Ничуть не бывало. На рис. 5 изображены две крайне близкие траектории, выходящие из точки I: одна — сплошной линией, другая — пунктиром. Видно, что после трех отражений траектории полностью расходятся: один шар уходит в точку А, другой — в. Это расхождение вызвано мельчайшими различиями в угле, которое не измерить экспериментально. Если бы ценой огромных усилий удалось уменьшить начальную неопределенность в 10 раз, то можно было бы предвидеть, наверное, 8-й отскок, но не более.
Рис. 5. Бильярд Синая. Две очень схожие траектории, сплошной и пунктирной линиями, из I. После 3-го отскока они полностью разошлись: одна пошла в А, другая в.
Бильярд Синая символизирует детерминированный хаос. Шар движется непредсказуемо, так как невозможно с бесконечной точностью определить исходный угол (первоначальное условие), а не из-за избыточной сложности или неизвестности закона развития. Что может быть проще, чем i = i’? По той же причине, что и чувствительность к первоначальным условиям, малейшее искажение среды ломает траекторию. Это как если бы исчезновение одного электрона за пределами нашей Вселенной изменило 50-й отскок ввиду гравитационного эффекта!
Таким образом, существование детерминированного хаоса диктует противоречащую всякой интуиции мысль, в некоторых случаях диспропорция между причиной и ее следствиями настолько велика, что становится спорным само понятие причины. Развиваясь все дальше, наука опровергает заблуждение, что если у каждого события должна быть опознанная или неопознанная причина, то случай является всего лишь плодом нашего неведения.
Приложение 9. «Широкие» законы
Одно из свойств гауссовой функции — «доброкачественная» случайность, практическая невозможность получить значение, отстоящее более чем на 2σ от среднего значения распределения: вероятность такого события — менее 4,45%; для 5σ она вообще почти невозможна — менее 0,00006%.
Рис. 6. Сравнение широкого закона (пунктир) с гауссовым распределением
Гауссово распределение, описываемое уравнением:[2]
с центром в нулевой точке и с отклонением σ = , а с другой стороны — широкое распределение, задаваемое уравнением:
Последнее, называемое лоренцевым (или распределением Коши), тоже выглядит как колокол и в центральной части сходно с гауссовым. Тем не менее оно имеет существенное отличие от последнего: по краям уменьшается так медленно, что ни его среднее, ни дисперсия не определяются. Но, как и у гауссовой кривой, его наиболее вероятное значение — 0. Поэтому для сравнения двух этих распределений надо рассматривать отклонение от наиболее вероятного значения.
Таблица. Сравнение вероятностей получить результат, отстоящий от среднего значения на расстояние, превышающее nd (где d = , что соответствует гауссовому отклонению), в случаях гауссова и лоренцева распределений
В случае гауссова распределения вероятность отклонения от среднего значения, превышающего nσ (то есть здесь n), стремится по экспоненте к 0 с увеличением n, тогда как при лоренцевом распределении она медленно уменьшается к 0. Например, если мы сочтем, что факт отклонения результата от среднего более чем на 3d — недопустимый риск того, что результат не будет достигнут, то этот риск будет разным, в случаях если вероятность подчиняется закону Гаусса (0,27%) или Лоренца (16,6%).
Послесловие
Гийом Лекуэнтр
Наука об эволюции учит, что организмы функционируют без всякого предварительного плана. С другой стороны, мы инстинктивно наделяем природу своими мыслительными рефлексами. Сами наделенные разумом и волей, мы инстинктивно ведем себя так, будто схожие разум и воля присущи и природе. Нам кажется, что отладка желанного для всей нашей жизни порядка проистекает из упорядочения мельчайших наших поступков, отсюда становление правил, привычек, даже традиций. По той же самой логике мы воображаем, будто в природе — системе гигантского масштаба — властвует такой же порядок, как в мелких системах.
Случай из всего этого исключен. Мы поступаем не как попало, потому и случайность в природе для нас невыносима. В общем, мы не любим случайность — прежде всего потому, что элементарнейший человеческий рефлекс понимания мира состоит в том, чтобы проецировать в мир наши собственные психические рефлексы. А ведь наука учит нас прямо противоположному!
Некоторые науки, те, что не располагают законами, такие как биология и история, полностью принимают случайность, потому-то твердокаменные политические режимы и традиционалисты от религий и выступают против их преподавания. В физике и химии (располагающих законами), предметы изучения универсальны или считаются таковыми; вытекающие из них явления описываются законами. В биологии и в истории объясняемые темы уникальны именно потому, что наделены историчностью. В масштабе нашего наблюдения завихрения причинно-следственных цепочек в непостоянной среде, от которой они зависят, таковы, что вряд ли мы можем предвидеть, что произойдет дальше.
Что такое историчность
Обязательное явление, определяемое физическими и химическими законами, при всех обстоятельствах происходит в соответствии с тем, что мы определяем как законы. В тот момент, когда оно происходит, оно не может не произойти. История, напротив, определяется только необязательными и не уникальными законами. «Необязательность» означает, что события, послужившего причиной для следствия, вполне могло бы не происходить в этот момент. Момент реализации сообщает необязательному событию «единственность». Когда события, действующие на предмет или на общность, проистекают из необязательной причинности, они чаще всего становятся непредсказуемыми.
Таким образом, предмет может обладать историчностью исходя из трех свойств:
- Изменения, которые он претерпел, случайны и непредсказуемы. Например, получить удар по голове черепицей с крыши — случайное событие: черепица падает не потому, что я там иду, а я иду не для того, чтобы на меня упала черепица; ничто не «предписано», как принято говорить. Причина падения черепицы не имеет ничего общего с причиной моего движения в том самом месте в тот самый момент. Таким образом, случайность проявляется в событиях с множественной причинностью. Историчность частично проистекает из непредсказуемости.
- Процессы изменений необратимы.
- Возможность проследить результат. След не должен попросту исчезать. Не должно существовать возможности процесса, возвращающего к первоначальному состоянию.
Уточнения, помогающие понять случайность
Одна из причин нашей аллергии на случайность — ложные противопоставления. Самое расхожее противопоставление — между случайностью и детерминированностью. Вернее, между «произвольным» и «детерминированным».
У детерминированного события существует опознаваемая причина. Слово «детерминированный» — не антоним «произвольного» или «случайного». «Детерминированный» противоположен «недетерминированному», то есть «не имеющему познаваемой причины». У случайных событий много причин, и они детерминированы: встреча черепицы и прохожего — это плод не ведающих друг о друге причин. Детерминированность предполагает, что у всякого явления есть причина. Детерминированные и обязательные явления могут быть непредсказуемыми ввиду отсутствия достаточного знания о первоначальном состоянии системы (пример — игра в кости).
Другое расхожее ложное противопоставление — между детерминированностью и непредсказуемостью. Но эти два понятия не противоположны друг другу: явление, имеющее причину (детерминированное), может быть труднопредсказуемым.
Чтобы выявить и перечислить эти ложные противопоставления, можно рассмотреть отношения между детерминизмом, случаем и непредвиденностью следующим образом:
- ожидаемое явление любой причины, когда оно считается предначертанным, следствием сверхъестественной причины. Это сродни фатализму и упоминается здесь для полноты, так как находится за пределами науки
- недетерминированное, беспричинное явление (пример — квантовая недетерминированность, направленность спина электрона «вверх» или «вниз»);
- детерминированное явление, проистекающее из причинной схемы. В этом случае говорят о детерминизме.
Существуют различные варианты детерминированных явлений (рис. 7). 3.1. Следствие обязательно: оно не может не произойти в момент, когда происходит. При этом оно может быть (3.1.1) предсказуемым, например, траектория пушечного ядра, или (3.1.2) непредсказуемым по причине неведения, например, бросание костей. Отметим, что 3.1.1 и 3.1.2 различаются только степенью, но не сутью: это обязательные следствия, квалифицируемые то как предсказуемые благодаря некоторой степени точности, то как непредсказуемые из-за отсутствия таковой.
Рис. 7. Случайность (она же контингентность) и детерминированность не являются антонимами
3.2. Следствие необязательно, то есть случайно: оно может иметь место, а может и не иметь, в этот момент или не в этот; это означает непредсказуемость. Внутренняя случайность (3.2.1) отличается от внешней (3.2.2). Первую можно иллюстрировать намеренным поведением живых существ, проистекающим из непонятных нам «внутренних мотиваций».
Мой кот встает и тихо выходит в сад: он мог бы это сделать секундой раньше или секундой позже. Так или иначе, он рано или поздно вышел бы. Явление того же порядка — распад изолированного радиоизотопа. В сгустке радиоактивного вещества мы наблюдаем в большом масштабе закон, описывающий временное убывание распада в масштабе группы атомов: это закон уменьшения радиоактивности. Но на уровне одного нестабильного атома точно предсказать момент распада невозможно. Каждый атом мог бы распасться на микросекунду раньше соседнего атома или на микросекунду позже. Внешнюю случайность можно проиллюстрировать падением черепицы на голову прохожего.
Видно, что случайность нельзя противопоставлять детерминированным явлениям. Свидетельство этого — развитие вероятностного направления мысли. Сегодня оно завоевало все науки и сферы рациональных решений: политическую, экономическую, социальную, исследовательскую и промышленную. Тем не менее для широкой общественности это направление остается труднодоступным.
Юбер Кривин поднял будоражащую умы тему, находящуюся на стыке психологии, математики и эпистемологии, что не мешает ей быть очень сложной, потому что научное исследование случайности противоречит нашей интуиции, а у некоторых попросту вызывает скуку. Тем не менее подход автора отличается четкостью и юмором — не последними по важности качествами. Пускай его «маленький трактат» примирит нас со случаем!
[1] Латинская поговорка: «После этого — значит по причине этого».
[2] Гауссово или стандартное нормальное распределение задается формулой:
… а стандартное распределение Коши:
Возможно, я не разгадал мысль автора, но, даже, если он ошибся, это не влияет на основной вывод: нормальное распределение затухает на хвостах значительно быстрее лоренцева распределения.