Авинаш Диксит, Дэвид Рейли и Сьюзан Скит. Стратегические игры

Рубрика: 01. О системе

Стратегические игры – классический учебник по теории игр: четкие определения, вопросы, упражнения, глоссарий, доступное изложение. Стратегическое мышление – это способность анализировать взаимодействие с другими людьми, тогда как они точно так же анализируют ту же ситуацию. Теория игр – это наука о таком интерактивном принятии решений. Другими словами, – это наука о рациональном поведении в интерактивных ситуациях (то есть при наличии других игроков). После изучения книги вы будете понимать общие принципы анализа стратегических взаимодействий, что поможет вам принимать взвешенные и рациональные решения в бизнесе и жизни.

Ранее я опубликовал Авинаш Диксит, Барри Нейлбафф. Теория игр.

Авинаш Диксит, Дэвид Рейли и Сьюзан Скит. Стратегические игры. – М.: Манн, Иванов и Фербер, 2017. – 880 с.

Скачать конспект (краткое содержание) в формате Word или pdf (конспект составляет около 4% от объема книги)

Купить цифровую книгу в ЛитРес, бумажную книгу в Ozon или Лабиринте

Часть I. Общие принципы

Глава 1. Основные концепции и примеры

Стратегическое мышление — это способность анализировать взаимодействие с другими людьми, тогда как они, в свою очередь, делают то же самое. Вы должны учитывать планы соперника, точно так же, как и он учитывает ваши. Теория игр — это анализ или, если хотите, наука о таком интерактивном процессе принятия решений. Когда вы выбираете свои действия, чтобы добиться максимального успеха исходя из собственных критериев, считается, что вы ведете себя рационально. Теория игр привносит еще один аспект в понятие рационального поведения, а именно: взаимодействие с другими, в равной степени рациональными людьми, принимающими решения. Иными словами, теория игр — это наука о рациональном поведении в интерактивных ситуациях.

Хорошие стратеги используют теорию игр в сочетании со своим опытом; можно сказать, что ведение стратегических игр — в не меньшей степени искусство, чем наука.

Глава 2. Подход к анализу стратегических игр

Мы проводим различие, обозначая термином стратегические игры взаимодействие между взаимно осведомленными игроками и термином решения ситуации, в которых каждый человек волен делать выбор, не заботясь о реакции или ответных действиях окружающих. В действительности у теории игр гораздо более широкая область действий. Многие ситуации, которые начинаются как обезличенный рынок с тысячами участников, превращаются в стратегическое взаимодействие между двумя или несколькими участниками. Это происходит по одной из двух причин: взаимные обязательства или личная информация.

Классификация игр основана на ответах на следующие вопросы:

  • Ходы в игре выполняются последовательно или одновременно?
  • Означает ли выигрыш одного игрока проигрыш другого? Если да, ситуацию называют игрой с нулевой суммой. Торговля или экономическая деятельность предлагает широкие возможности для сделок, приносящих пользу всем.
  • Игра проводится разово или многократно, с одним и тем же или с меняющимися соперниками?
  • Присуща ли игре неопределенность во внешних условиях и/или стратегии соперника? Сложные стратегические ситуации складываются в случаях, когда одному игроку известно больше, чем другому, и называются играми с асимметричной информацией.
  • Являются ли правила игры фиксированными или ими можно манипулировать?
  • Можно ли обеспечить выполнение соглашений о сотрудничестве? Если да, то игры называются кооперативными.

Термины. Стратегии — это имеющиеся в распоряжении игроков варианты выбора. Стратегия должна включать исчерпывающий план действий. Стратегия – плана выполнения последовательности действий в ответ на меняющиеся обстоятельства, возникающие в результате действий, предпринятых другими целеустремленными игроками.

Выигрышем называется число, соответствующее каждому возможному исходу игры. Если игрок сталкивается со случайным множеством исходов игры, то говорят об ожидаемом выигрыше равном среднему от выигрышей по каждому отдельному исходу, взвешенных по их вероятности. Если включить в концептуальную модель теории игр отношение игроков к риску, можно говорить о методе ожидаемой полезности.

Рациональность. В большинстве случаев теория игр исходит из предположения о рациональном поведении, имеющем две составляющие: понимание собственных интересов и расчет действий, наилучшим образом им соответствующий. Рациональность не означает, что игроки эгоистичны, или, что игроки мыслят в краткосрочной перспективе. Быть рациональным не значит иметь такую же систему ценностей, как другие игроки. Как правило, игроки даже не знают о системах ценностей других игроков; это одна из причин того, почему многие игры относятся к категории игр с неполной или асимметричной информацией.

Общее знание правил. Мы полагаем, что на определенном уровне у игроков есть общее понимание правил игры, которые состоят: 1) из списка игроков; 2) стратегии, имеющейся в распоряжении каждого игрока; 3) выигрышей каждого игрока по всем возможным комбинациям стратегий, которых придерживаются все игроки; 4) предположения о том, что каждый игрок — это рациональный максимизатор.

Концепция равновесия подразумевает, что каждый игрок использует стратегию, которая является лучшим откликом на стратегии других игроков. Мы сформулируем теоретико-игровые концепции равновесия в главах 37, а затем используем их в последующих главах.

Динамические и эволюционные игры. Хорошие стратегии могут не выбираться сознательно с самого начала, но игроки будут учиться как на собственном опыте, так и наблюдая за другими игроками. Лучшие стратегии, использовавшиеся на предыдущих этапах игры, с большей долей вероятности будут выбраны и на следующих этапах. Именно это и делает эволюционный подход к играм. Во многих играх эволюционно устойчивый предел — это то же самое, что и равновесие, которое было бы достигнуто, если бы игроки сознательно вели себя как рациональные вычислители. Концепция эволюционных игр привнесла биологические идеи в теорию игр, хотя наблюдается и обратное влияние. Биологи поняли, что важные аспекты поведения животных сводятся к стратегическому взаимодействию с другими животными (подробнее см. Ричард Докинз. Эгоистичный ген).

Наблюдение и эксперимент. Любая теория должна соотноситься с реальностью двумя способами. Реальность должна помогать структурировать теорию и обеспечивать проверку ее результатов. Определить реальные характеристики стратегических взаимодействий позволяют два метода: 1) наблюдение за ними в естественных условиях и 2) проведение специальных экспериментов.

Мы предлагаем вашему вниманию три функции теории игр. Объяснение. Многие события и их последствия заставляют нас задаваться вопросом: почему это произошло? Прогнозирование. Консультации или рекомендации.

Часть II. Концепции и методы

Глава 3. Игры с последовательными ходами

Участникам игр с последовательными ходами необходимо проанализировать последствия своих текущих ходов, прежде чем выбирать действия. Как правило, анализ чистых игр с последовательными ходами требует построения дерева игры. Такое дерево состоит из узлов и ветвей, отображающих все вероятные действия каждого игрока при каждой возможности сделать ход, а также выигрыши для всех предполагаемых исходов игры (рис. 1). Стратегия каждого игрока представляет собой исчерпывающий план, описывающий его действия в каждом узле принятия решений в зависимости от всех возможных комбинаций действий, предпринятых другими игроками в предыдущих узлах. В концевых узлах выигрыши наших четырех героев перечислены в таком порядке: Энн, Боб, Крис, Деб.

Рис. 1. Пример дерева игры

Обратите ваше внимание на узел «Природа». В нем происходит случайное событие, например, подбрасывание монеты, и исход игры будет зависеть от того, выпадет орел или решка. Использование игрока под названием «Природа» позволяет ввести в игру фактор внешней неопределенности и предоставляет в наше распоряжение механизм, который делает возможным наступление событий, находящихся вне контроля реальных участников игры.

Размышления на дереве игры вы всегда должны начать с рассмотрения узлов действий, ведущих непосредственно к концевым узлам. Использование вариантов выбора в конце игры для прогнозирования последствий более ранних действий позволяет рассчитать выбор в узлах, предшествующих узлам окончательного принятия решений. Затем то же самое можно сделать с предыдущими узлами и т.д. Передвигаясь таким образом по дереву игры в обратном направлении, вы можете решить всю игру. Это метод обратных рассуждений.

Когда все участники игры для выбора оптимальных стратегий применяют метод обратных рассуждений, такая совокупность стратегий называется равновесием обратных рассуждений. В большинстве игр присутствует в точности одно такое равновесие.

Большинство людей, не имеющих опыта ведения стратегических игр, придерживаются мнения, будто преимущество первого хода должно присутствовать во всех играх. Однако это не так. Преимущество первого хода зависит от способности игрока взять на себя обязательство в связи с выгодной позицией и вынудить других игроков приспосабливаться к нему; преимущество второго хода обусловлено гибкостью адаптации игрока, делающего ход вторым, к выбору других игроков. Когда в игре есть преимущество первого или второго хода, каждый игрок может попытаться манипулировать порядком игры, чтобы обеспечить себе выгодную позицию.

Игра сороконожка. Экспериментатор кладет на стол монету в 10 центов. Игрок А может ее взять или пропустить ход. Если игрок А берет монету, игра закончена; при этом А получает 10 центов, а Б — ничего. Если игрок А пропускает ход, экспериментатор кладет на стол еще одну монету в 10 центов, и теперь игроку Б предстоит выбирать, взять ли ему обе монеты или пропустить ход. Игроки действуют по очереди, а стопка монет растет до тех пор, пока не достигнет одного доллара (рис. 2).

Рис. 2. Дерево игры Сороконожка

Проанализируем игру методом обратных рассуждений. Очевидно, что игрок Б возьмет один доллар на последнем этапе, поэтому игроку А следует взять 90 центов на предпоследнем этапе и т.д. Следовательно, игрок А должен взять монету в 10 центов в самом начале и закончить игру. Однако во время экспериментов такие игры длятся, как правило, несколько раундов. Благодаря иррациональному поведению игроки как группа получают больше денег, чем в случае, если бы они придерживались логики обратных рассуждений. В ходе аудиторного эксперимента, который проводил один из нас (Диксит), одна такая игра дошла до самого конца. Игрок Б забрал свой доллар и совершенно добровольно отдал 50 центов игроку А. Диксит спросил: «Вы сговорились? Вы с Б друзья?» На что игрок А ответил: «Нет, мы даже не были знакомы раньше. Но теперь он мой друг».

Игра указывает на возможную проблему с логикой обратных рассуждений в играх с ненулевой суммой. Обратите внимание, что, пропуская ход в первом раунде, игрок А уже показывает, что не опирается на метод обратных рассуждений. Так чего следует ожидать от него игроку Б в третьем раунде? Пропустив ход однажды, игрок А может снова это сделать, а значит, игроку Б было бы целесообразно пропустить ход во втором раунде. Игрок может сознательно пропустить ход в одном из начальных раундов игры, чтобы сигнализировать о готовности пропускать ходы в будущих раундах. Такая проблема не возникает в играх с нулевой суммой, в которых отсутствует стимул к сотрудничеству посредством ожидания.

Глава 4. Игры с одновременными ходами: дискретные стратегии

Игры с одновременными ходами и дискретными стратегиями удобно описывать с помощью таблицы игры (рис. 3). В случае игры с двумя участниками таблица имеет два измерения, а заголовки строк и столбцов в ней — это стратегии, находящиеся в распоряжении первого и второго игроков. В ячейках указываются выигрыши, которые получат игроки при подобающей конфигурации стратегий. Игры с тремя участниками требуют трехмерной таблицы. Принято считать, что из двух чисел, отображающих выигрыши, первое число отвечает выигрышу Строки, а второе — выигрышу Столбца.

Рис. 3. Представление игры с одновременными ходами в виде таблицы

Равновесие Нэша на рис. 3 соответствует строке Низко и столбцу Посредине. Строка не может увеличить свой выигрыш, двигаясь вверх или вниз по таблице. Аналогично Столбец не может увеличить свой выигрыш, двигаясь влево или вправо. Равновесие Нэша в игре представляет собой перечень стратегий (по одной на каждого участника), при котором ни один игрок не может увеличить выигрыш, выбрав другую стратегию из имеющихся в его распоряжении, если другие игроки придерживаются стратегий, оговоренных в этом перечне.

Равновесие Нэша не всегда оптимально для обоих игроков. На рис. 3 пара стратегий Внизу, Справа обеспечивает выигрыши 9, 7. Тем не менее, играя независимо друг от друга, игроки не смогут придерживаться именно этих стратегий. Получение выигрышей 9, 7 потребует кооперативного действия.

Если лучший выбор каждого игрока не зависит от правильности его убеждений в отношении другого игрока, говорят о доминирующих стратегиях у обоих игроков.

Некоторые стратегии игрока могут быть доминируемыми, даже если при этом ни одна стратегия не доминирует над остальными. Последовательное, или итеративное, исключение доминируемых стратегий сводится к их удалению и сокращению размера игры до тех пор, пока дальнейшее сокращение не станет невозможным. Например, на рис. 3 у Строки есть доминируемая стратегия Высоко, над которой доминирует стратегия Внизу (по всем столбцам). Это позволяет удалить строку Высоко.

Аналогично стратегия Столбца Слева доминируется стратегией Справа. Обратите внимание, что мы не могли сделать такой вывод раньше, до удаления стратегии Строки Высоко. В контексте оставшегося набора стратегий (Вверху, Низко и Внизу у Строки и Посредине и Справа у Столбца) стратегии Строки Вверху и Внизу доминируемы стратегией Низко. Когда у Строки остается только стратегия Низко, Столбец выберет свой наилучший ответ Посредине. Следовательно, эта игра разрешима по доминированию, а ее исход — Низко/Посредине с выигрышами 5, 4. Мы определили его как равновесие Нэша.

Другие игры могут быть не разрешимы по доминированию, а последовательное исключение доминируемых стратегий может не обеспечить уникальный исход игры.

Если исключение доминируемых стратегий не позволяет найти равновесие Нэша, можно применить анализ наилучших ответов. Какой лучший ответ данного игрока на каждый вариант выбора, который может сделать другой игрок? На рис. 4 мы обвели наилучшие ответы. В ячейке «низко» / «посредине» — два выделения. Следовательно, стратегии «низко» у Строки и «посредине» у Столбца будут лучшими ответами друг на друга. Мы нашли равновесие Нэша в этой игре еще раз.

Рис. 4. Анализ наилучших ответов

Когда анализ наилучших ответов в игре с дискретными стратегиями не обнаруживает равновесия Нэша, это означает, что в этой игре нет равновесия в чистых стратегиях.

В играх необязательно должно быть единственное равновесие Нэша. Существует класса игр, который можно обозначить как координационные игры. У их участников есть общие интересы, но поскольку игроки действуют независимо друг от друга, координация действий, необходимых для достижения общего предпочтительного исхода, проблематична. Для успешной координации действий необходимо, чтобы требуемый исход был фокальной точкой. Ожидания игроков должны сходиться в этой точке: все должны знать, что каждый знает, что … каждый делает этот выбор. Именно эту функцию выполняют многие общественные институты и договоренности.

В некоторых играх отсутствие равновесие Нэша в чистых стратегиях.

Глава 5. Игры с одновременными ходами: непрерывные стратегии, анализ и обсуждения

Рассмотрим пример ценовой конкуренция. Владельцы двух ресторанов должны установить цены на блюда так, чтобы максимизировать прибыль. Поскольку цены могут принимать любое значение в пределах (почти) бесконечного диапазона, найдем правила наилучших ответов и используем их для решения игры и определения равновесных цен. Обозначим цену ресторана 1 как Px, а 2, как Pу. Допустим, обслуживание одного клиента обходится каждому ресторатору в 8 долларов. Предположим, что опыт или исследования рынка показывают, что количество клиентов, Qx и Qy (в сотнях клиентов в месяц) задается уравнениями

Qx = 44 – 2Px + Pу

Qу = 44 – 2Pу + Px

Основная идея этих уравнений состоит в том, что, если один ресторан повысит цену на 1 доллар (скажем, Py вырастает на один доллар), его объем продаж сократится на 200 в месяц (Qy уменьшится на 2), а объем продаж другого ресторана увеличится на 100 в месяц (Qx увеличится на 1). Можно предположить, что 100 клиентов перейдут в другой ресторана, а еще 100 останутся дома.

Прибыль рассчитывается как произведение чистого дохода на одного клиента (цена за вычетом затрат на обслуживание, или Рх – 8) и количества обслуженных клиентов:

πх = (Px – 8)Qx = (Px – 8)(44 – 2Px + Py) = –8(44 + Ру) + (16 + 44 + Рух – 2(Рх)2 = –8(44 + Ру) + (60 + Рух – 2(Рх)2

Если взять первую производную, то мы найдем значение Рх, при котором πх достигает максимума. πх → max при 60 + Ру – 4Рх = 0. Или Рх = 15 + 0,25Ру. Аналогично Ру = 15 + 0,25Рх. На рис. 5 приведены графики этих двух правил наилучшего ответа.

Рис. 5. Графики наилучших ответов и равновесия в игре «ценообразование в ресторанах»

Точка пересечения двух графиков наилучшего ответа — это равновесие Нэша в игре в ценообразование между двумя ресторанами: Рх = Ру = 20. В равновесном состоянии каждый ресторан назначит цену 20 долларов на блюда в своем меню и получит 12 долларов прибыли на каждых 2400 клиентов (2400 = (44 – 2 х 20 +20) х 100), которых обслуживает за месяц, что обеспечит общий объем прибыли 28 800 долларов в месяц.

В рамках олигополии (малого количества продавцов) компании могут договориться о ценах. В этом случае Рх = Ру и

πх = πу = (P – 8) (44 – 2P + P) = (P – 8) (44 – P) = –352 + 52P – P2

Прибыль достигает максимума при Р = 26 (точка наилучшего выбора на рис. 5). При этом πх = πу = 32 400 долларов в месяц. На языке экономики соглашение о повышении цен до уровня, оптимального для обеих сторон, называется картелем. Высокие цены наносят ущерб потребителям, поэтому органы государственного регулирования обычно пытаются предотвратить образование картелей и заставить компании конкурировать друг с другом.

Кроме доминируемых можно исключить стратегии, которые не могут быть наилучшим ответом. Стратегии, оставшиеся после такой процедуры исключения, называются рационализируемыми, а сама концепция — рационализацией. В подобных случаях мы имеем более веское обоснование равновесия Нэша, опирающееся исключительно на рациональность, без предположений о правильности ожиданий. Рассмотрим игру на рис. 6.

Рис. 6. Рационализируемые стратегии

Может ли Строка исходить из убеждения, что Столбец выберет стратегию C4? В его основе должны лежать убеждения Столбца в отношении выбора Строки. Могут ли они сделать стратегию С4 наилучшим ответом Столбца? Нет. Если Столбец полагает, что Строка сыграет R1, его наилучший ответ С1. Если Столбец полагает, что Строка сыграет R2, его наилучший ответ С2. Если Столбец считает, что Строка предпочтет R3, то его наилучший ответ С3. А если Столбец убежден, что Строка выберет R4, тогда его наилучший ответ либо С1, либо С3.

Следовательно, С4 не может быть наилучшим ответом Столбца. Это означает, что Строка, зная о рациональности Столбца, ни в коем случае не припишет ему выбор стратегии С4. Стало быть, Строка не должна исходить из убеждения, что Столбец сыграет С4. Обратите внимание, что, хотя стратегия С4 не может быть наилучшим ответом, она не является доминируемой по отношению к стратегиям С1, С2 и С3. Таким образом, «стратегия, которая не может быть наилучшим ответом», — более общая концепция, чем «доминируемая стратегия».

В стратегической игре на угадывание каждому участнику предлагают выбрать число от 0 до 100. Игрокам выдают карточки, на которых они должны написать свое имя и выбранное число. После сбора карточек вычисляется среднее значение указанных чисел. Побеждает тот, чье число окажется ближе всего к двум третям от среднего значения (подробнее см. Нейт Сильвер. Сигнал и шум).

Равновесие Нэша в этой игре сводится к выбору каждым игроком числа 0. В действительности игра разрешима по доминированию. Даже если каждый ее участник укажет 100, половина от среднего значения не может превысить 67, поэтому для каждого игрока выбор числа больше 67 доминируемый по отношению к выбору числа 67. Однако это должно быть понятно всем рационально рассуждающим игрокам, а значит, среднее значение не может превышать 67, а две трети от него — 44, поэтому любой выбор числа больше 44 будет доминируемым по отношению к выбору числа 44. Данный процесс итеративного удаления доминируемых стратегий продолжается до тех пор, пока не останется только число 0.

Тем не менее, когда группа играет в такую игру впервые, побеждает не тот, кто выбрал число 0. Как правило, выигрышное число попадает в диапазон от 15 до 20. Чаще всего игроки указывают числа 33 и 22, из чего можно сделать вывод, что многие из них выполняют всего один-два цикла итеративного доминирования, не продолжая этот процесс дальше. Иначе говоря, игроки «уровня 1» считают, что все остальные участники игры будут выбирать числа случайным образом, со средним значением 50, поэтому в качестве наилучшего ответа указывают две трети от этого числа, то есть 33. Точно так же игроки «уровня 2» предполагают, что все остальные игроки рассуждают на «уровне 1», поэтому в качестве наилучшего ответа выбирают две трети от 33, или 22.

Одной из первых областей применения концепции равновесия Нэша по отношению к поведению субъектов реального мира стала сфера международных отношений. Томас Шеллинг первым использовал теорию игр для объяснения таких феноменов, как эскалация гонки вооружений (см. Томас Шеллинг. Микромотивы и макроповедение). Теоретико-игровые модели, построенные на концепции равновесия Нэша позволяют лучше понять основные факторы конкуренции по сравнению с более старыми моделями, исходящими из совершенной конкуренции и оценочных кривых спроса и предложения.

В книге Майкла Льюиса Moneyball (по которой впоследствии был снят фильм «Человек, который изменил все» с Брэдом Питтом в главной роли) приведен пример движения к равновесию в бейсболе. В книге рассказывается о решении главного менеджера команды Oakland Athletics использовать при найме игроков так называемую саберметрику, то есть уделять пристальное внимание бейсбольной статистике, основанной на теории максимизации засчитанных очков за пробежки и минимизации очков, проигранных сопернику. Считается, что именно эти решения сделали Oakland Athletics очень сильной командой, вышедшей в плей-офф в пяти из семи сезонов, несмотря на то что фонд ее заработной платы был меньше половины фонда заработной платы более богатых команд, таких как New York Yankees.

Однако, вскоре крупные команды также взяли на вооружение этот метод найма игроков. В реальных играх часто внедряются инновации, за которыми следует постепенное схождение к равновесию Нэша.

Глава 6. Сочетание последовательных и одновременных ходов

Анализ таких игр подразумевает использование дерева игры с равновесием обратных рассуждений, и таблицы выигрышей с равновесием Нэша. Рассмотрим две вымышленные телекоммуникационные компании CrossTalk и GlobalDialog. Каждая из них решает, стоит ли инвестировать 10 миллиардов долларов в покупку волоконно-оптической сети; решение обеими принимается одновременно. Если ни одна не выберет инвестиции, это конец игры. Если одна сделает инвестиции, а другая нет, то компания-инвестор должна установить цены на телекоммуникационные услуги. Она может назначить либо высокую цену, позволяющую привлечь 60 миллионов клиентов, каждый из которых принесет компании операционную прибыль в размере 400 долларов, либо низкую цену, позволяющую привлечь 80 миллионов клиентов, каждый из которых обеспечит компании операционную прибыль в размере 200 долларов (рис. 7).

Рис. 7. Двухэтапная игра, состоящая из последовательных и одновременных ходов, млрд. долл.

Если обе компании купят волоконно-оптические сети и выйдут на рынок, то ценообразование станет второй игрой с одновременными ходами. Каждая компания может установить либо высокую, либо низкую цену. Если обе предпочтут высокую цену, они разделят рынок поровну и каждая получит 30 миллионов клиентов и операционную прибыль 400 долларов на одного клиента. Если обе выберут низкую цену, они тоже разделят рынок поровну и каждая получит 40 миллионов клиентов и операционную прибыль 200 долларов на одного клиента. Если одна компания установит высокую цену, а другая низкую, то компания с низкой ценой получит все 80 миллионов клиентов, а компания с высокой ценой не получит ничего.

При выборе высокой цены операционная прибыль составит 400 долларов х 60 миллионов = 24 миллиарда долларов, и после вычитания 10 миллиардов инвестиционных затрат будет получен ее выигрыш — 14 миллиардов долларов. При выборе низкой цены операционная прибыль составит 200 долларов * 80 миллионов = 16 миллиардов долларов, что после вычитания первоначальных инвестиций даст выигрыш в размере 6 миллиардов долларов.

Игра с одновременными ходами могла бы стать игрой с последовательными ходами, если бы один игрок мог наблюдать за действиями другого игрока до выбора своего хода. В этом случае игроки могут получить преимущество первого или второго хода. Игрок может намеренно изменить правила игры, чтобы получить право первого хода. Это позволяет игрокам менять исход игры в свою пользу.

Если в игре присутствует стратегическая или внешняя неопределенность, на дереве решений несколько узлов объединяют овалом (рис. 8). Узлы, находящиеся в пределах этого овала или круга, называются информационным множеством игрока, делающего в них ходы. Такое множество указывает на наличие у этого игрока несовершенной информации: он не может провести различие между узлами множества на основании имеющейся информации (поскольку не может видеть ход другого игрока до того, как сделает свой ход). В соответствии с этим стратегический выбор, делаемый игроком в пределах одного информационного множества, должен подразумевать один и тот же ход во всех узлах, входящих в это множество. Иными словами, фермер должен выбрать рис или кактус для любой погоды.

Рис. 8. Природа и информационное множество

В игре присутствует совершенная информация, если в ней нет ни стратегической, ни внешней неопределенности, что происходит в случае отсутствия в игре информационных множеств, содержащих два или более узла. Иными словами, в игре имеется совершенная информация, если все ее информационные множества содержат единичные узлы.

Глава 7. Игры с одновременными ходами: смешанные стратегии

Рассмотрим игру в теннис. Это игра с нулевой суммой. Эверт стремится направить обводящий удар по линии (ПЛ) или по диагонали (ПД), тогда как Навратилова старается прикрыть именно ту сторону, в которую Эверт сделает удар. Спортсменки смогут использовать любой системный выбор себе на пользу. Для того чтобы этого избежать, каждая теннисистка пытается держать соперницу в неведении с помощью бессистемных или случайных действий. Однако хаотичность действий не означает выбора каждого типа удара в половине случаев. Случайная комбинация действий в соотношении 60 на 40 или 75 на 25 может быть лучше, чем 50 на 50.

Мы называем случайную комбинацию стратегий ПЛ и ПД смешанной стратегией. Выигрыши, полученные в результате применения смешанной стратегии, определяются как соответствующие значения взвешенного по вероятности среднего выигрышей от чистых стратегий, входящих в состав данной смешанной стратегии. Равновесие Нэша в смешанных стратегиях существует всегда.

На рис. 9 воспроизведена матрица выигрышей. Если Эверт будет всегда выбирать удар по линии (ПЛ), Навратилова будет прикрывать ПЛ и удерживать выигрыш Эверт на уровне 50. Точно так же, если Эверт будет всегда выбирать удар по диагонали (ПД), Навратилова будет удерживать выигрыш Эверт на уровне 20.

Рис. 9. Отсутствие равновесия в чистых стратегиях

Обозначим вероятность выбора Эверт ПЛ р, тогда вероятность выбора ПД будет 1 – р. Ожидаемые выигрыши Навратиловой:

50р + 10(1 – р), если она прикроет ПЛ,

20р + 80(1 – р), если она прикроет ПД.

Чтобы выбор Эверт был защищен от использования Навратиловой в свою пользу, эти два значения должны быть равны, то есть 50р + 10(1 – р) = 20р + 80(1 – р), или 30р = 70(1 – р), или 100р = 70, или р = 0,7. При таких вероятностях, заданных смешанной стратегией Эверт, Навратилова получит один и тот же ожидаемый выигрыш за счет каждой из своих чистых стратегий, а значит, не сможет использовать ни одну из них с выгодой для себя (или в ущерб Эверт в игре с нулевой суммой). Ожидаемый выигрыш Эверт от смешанной стратегии составит:

50 х 0,7 + 90 х 0,3 = 35 + 27 = 62, если Навратилова прикроет ПЛ,

80 х 0,7 + 20 х 0,3 = 56 + 6 = 62, если Навратилова прикроет ПД.

Этот ожидаемый выигрыш лучше выигрыша 50, который Эверт получила бы при использовании чистой стратегии ПЛ.

Если аналогичный расчет выполнить для Навратиловой, то наилучшая ее комбинация стратегий будет в пропорции 60% ПЛ и 40% ПД. Это и есть значения равновесия Нэша.

В играх с ненулевой суммой равновесия в смешанных стратегиях имеют слабое логическое обоснование или не имеют его вообще. Дело в том, что игроки способны лучше координировать свои действия, если каждый из них может полагаться на системные действия другого, поскольку случайный выбор действий только повышает риск неудачи с их координацией.

Победитель Мировой серии покера Дэниел Харрингтон, написавший в соавторстве с Биллом Роберти ряд замечательных книг, отмечает важность рандомизации стратегии в покере, позволяющей помешать сопернику угадать, какие карты у вас на руках, и использовать ваше поведение с выгодой для себя. Поскольку людям зачастую трудно вести себя непредсказуемо, Харрингтон дает следующий совет относительно того, как применять комбинацию таких чистых стратегий, «поднять ставку» и «ответить»:

Очень трудно точно вспомнить, что ты делал в последних четырех или пяти случаях при возникновении похожей ситуации. К счастью, это и не надо. Просто используй тот маленький генератор случайных чисел, который ты носишь в течение дня с собой. Что это? Ты и не знаешь, что у тебя такое есть? Да это секундная стрелка на твоих часах. Если ты знаешь, что в ранней позиции и при наличии на руках старшей пары ты должен повышать ставку в 80% случаев и отвечать в остальных 20%, то просто посмотри на часы и обрати внимание на положение секундной стрелки. Поскольку 80% от 60 составляют 48, ты должен повышать ставку, если секундная стрелка находится между делениями от 0 до 48, и только отвечать, если между 48 и 60. Этот метод хорош тем, что даже если бы кто-то точно знал, что ты делаешь, он бы все равно не смог предсказать твоих дальнейших действий!

Часть III. Большие классы игр и стратегий

Глава 8. Неопределенность и информация

Информация в игре считается полной только тогда, когда все правила игры (стратегии игроков и выигрыши каждого из них как функции стратегий всех игроков) полностью известны всем игрокам и, более того, являются их общим знанием. При столь строгом стандарте в большинстве игр присутствует неполная информация. Кроме того, зачастую неполнота информации асимметрична: каждый игрок знает собственные возможности и выигрыши гораздо лучше, чем возможности других игроков.

Участники многих игр хотели бы иметь возможность манипулировать действиями других игроков. Руководители хотели бы, чтобы подчиненные усердно трудились и качественно выполняли свою работу; страховые компании хотели бы, чтобы держатели страховых полисов проявляли осторожность, чтобы снизить страховой риск. Если бы информация была совершенной, действия игроков поддавались бы наблюдению.

Оплату труда сотрудников можно было бы поставить в зависимость от качества и количества их усилий; страховое возмещение держателям страховых полисов можно было бы выплачивать только в случае, если они предпринимают необходимые меры предосторожности. Но в действительности все эти действия трудно отслеживать, что создает ситуацию с несовершенной асимметричной информацией, обычно обозначаемую термином моральный риск. В связи с этим участники таких игр вынуждены изобретать различные непрямые способы создания стимулов, позволяющих влиять на действия других игроков в нужном направлении.

В 2001 году пионеры теории асимметричной информации в экономике Джордж Акерлоф, Майкл Спенс и Джозеф Стиглиц получили Нобелевскую премию по экономике за вклад в изучение этих вопросов (см. Джордж Акерлоф и Роберт Шиллер. Охота на простака).

Представьте, что вы фермер и ваша работа зависит от прихотей погоды. Если погода способствует хорошему урожаю, вы получите доход 160 000 долларов. Если сложатся неблагоприятные метеорологические условия, ваш доход составит всего 40 000 долларов. Вы могли бы попытаться снизить риск, предложив кому-то принять на себя его часть. Безусловно, в обмен вам придется что-то этому человеку дать. Такой равноценный обмен обычно принимает две формы: денежный платеж или взаимный обмен либо разделение риска.

Идея о существовании цены за риск и рынка риска лежит в основе почти всех финансовых механизмов в современной экономике. Например, деривативы, — лишь способ распределения риска среди тех, кто готов его нести за минимальную цену (см. Стефан Бернстейн. Деривативы за день). Финансовые рынки стимулируют предпринимательство, содействуя торговле рисками.

Асимметричная информация. Манипулирование информацией о ваших способностях и предпочтениях, известной другим игрокам, позволяет влиять на равновесный исход игры. В результате такое манипулирование асимметричной информацией само по себе становится стратегической игрой. Более информированный игрок может предпринять следующие действия: скрыть или дать ложную информацию, раскрыть часть правдивой информации. Менее информированный игрок может: получить необходимую информацию или отделить правду от лжи; оставаться в неведении (незнание о стратегическом ходе соперника может оградить вас от его обязательств и угроз).

Вы знаете, что окружающие составят о вас мнение на основании ваших действий, и в связи с этим попытаетесь придумать и предпринять шаги, которые заставят их решить, что ваша информация заслуживает доверия. Такие действия называются сигналами, а стратегия их использования — сигнализированием.

Если другие игроки знают больше вас или совершают действия, которые нельзя непосредственно наблюдать, вы можете использовать стратегии, которые сократят такое информационное отставание. Стратегия, вынуждающая другого игрока раскрыть свою информацию, называется скринингом.

Во многих играх один из участников знает об исходе игры нечто такое, что неизвестно другим. Например, продавец подержанного автомобиля многое о нем знает благодаря длительной эксплуатации, а потенциальный покупатель может в лучшем случае получить минимум информации в ходе осмотра авто. В таких ситуациях непосредственная коммуникация не обеспечивает достоверной передачи информации.

Если страховая компания предлагает страховой полис, который обходится в 5 центов за каждый доллар страхового покрытия, он будет особенно привлекателен для людей, которые знают, что их собственный риск (болезни или автомобильной аварии) превышает 5%. Безусловно, некоторые люди, знающие о том, что их риск ниже 5%, все равно купят такой страховой полис ввиду нерасположенности к риску. Однако в общей совокупности лиц, претендующих на оформление этого страхового полиса, доля лиц с более высокой степенью риска превысит долю лиц с аналогичным риском в общей численности населения. Таким образом, страховая компания выборочно привлекает невыгодную, или неблагоприятную, группу клиентов. Данный феномен известен как неблагоприятный отбор и характерен для сделок с асимметричной информацией.

Потенциальные последствия неблагоприятного отбора для рыночных сделок весьма наглядно продемонстрировал Джордж Акерлоф в статье, которая положила начало экономическому анализу ситуаций с асимметричной информацией и обеспечила ему Нобелевскую премию в 2001 году (см. Джордж Акерлоф. Рынок «лимонов»: неопределенность качества и рыночный механизм). Преодолеть асимметричность информации позволяют стратегии сигнализирования и скрининга.

Страховая компания может предложить два полиса страхования. Первый предусматривает более низкий страховой взнос, но обеспечивает покрытие меньшего процента от понесенных клиентом убытков. Второй полис предусматривает более высокий страховой взнос, но обеспечивает и более высокий процент страхового покрытия убытков. Клиенты более высокой категории риска выбирают полисы с высокими взносами и высоким покрытием, а клиенты более низкой категории риска — полисы с более низкими взносами и низким страховым покрытием.

Компания, которая знает, что ее продукт отличается высоким качеством, может подать об этом потенциальным покупателям достоверный сигнал — дать гарантию. Например, Hyundai на рынке США в середине 1990-х предложила гарантию на свои автомобили, рассчитанную на 10 лет и 100 000 миль пробега.

Компании могут успешно устанавливать разные цены для разных групп потребителей с помощью инструментов скрининга. Такие стратегии известны в экономической литературе как ценовая дискриминация. Например, авиаперевозчики устанавливают разные цены на билеты, подлежащие и не подлежащие возврату, и предоставляют путешественникам самим выбирать тип тарифа. Такая стратегия ценообразования представляет собой пример скрининга посредством самоотбора.

Определение характеристик и поиск равновесий в играх с сигнализированием и скринингом предполагает использование ряда достаточно тонких концепций и вычислений. Однако, существует немало доказательств того, что люди очень плохо справляются с вычислениями, включающими вероятности, и еще хуже — с вычислением вероятностей с учетом новой информации (байесовский подход; подробнее см. Идеи Байеса для менеджеров).

Когда простой постановки вопросов для получения правдивой информации недостаточно, может понадобиться схема скрининга. Скрининг обеспечивает требуемые результаты, только когда инструмент скрининга стимулирует других игроков раскрыть правдивую информацию о своем типе; разделение типов возможно лишь при наличии совместимости стимулов. Иногда достоверное сигнализирование или скрининг могут оказаться невозможны; в таком случае равновесие может повлечь за собой объединение типов или вероятен полный крах рынка или сделки для одного из типов.

В равновесии игры с асимметричной информацией игроки должны не только использовать свои наилучшие действия с учетом имеющейся информации, но и делать правильные выводы (обновлять информацию) в процессе наблюдения за действиями других игроков. Этот тип равновесия известен как байесовское равновесие Нэша.

Глава 9. Стратегические ходы

Если правила игры не зафиксированы извне, у каждого игрока есть стимул манипулировать ими, с тем чтобы обеспечить более выгодный для себя результат. Инструменты, позволяющие манипулировать игрой таким способом, называются стратегическими ходами.

Стратегический ход меняет правила исходной игры в целях создания новой двухэтапной игры. Различные действия, выполняемые на первом этапе, соответствуют разным стратегическим ходам; мы их разделим на три категории: обязательства, угрозы и обещания. Цель всех трех — изменить исход второго этапа игры в свою пользу.

Обязательство — это простое использование преимущества первого хода в случае, если таковое существует. Конечно, для этого обязательство должно быть достоверным. Для того чтобы ваш стратегический ход оказался эффективным, вы еще на первом этапе игры должны что-то предпринять для обеспечения достоверности — то, что покажет сопернику: вы ни при каких обстоятельствах не отступите от оговоренного действия.

Обратите внимание, что угрозы и обещания — это правила ответа: ваше будущее фактическое действие зависит от того, что сделают другие игроки, но ваша свобода действий в дальнейшем ограничена обязательным соблюдением установленного правила. Цель — изменить ожидания (а значит, и действия) других игроков с выгодой для себя. Угроза — это правило ответа, приводящее к негативным последствиям для других игроков, если они действуют вопреки вашим интересам. Обещание — правило ответа, в соответствии с которым вы предлагаете обеспечить другим игрокам положительный исход, если их действия согласуются с вашими интересами.

Пример угрозы: торговые отношения между США и Японией. Каждая страна может держать свои рынки либо открытыми, либо закрытыми для товаров другой страны. Но предпочтения двух стран относительно исходов этой игры несколько разнятся (рис. 10).

Рис. 10. Таблица выигрышей в торговой игре между США и Японией

Равновесный исход — «открытый американский рынок» / «закрытый японский рынок», а выигрыши 3, 4. Но допустим, США выберут следующее условное правило ответа: «Мы закроем свой рынок, если вы закроете свой». В результате мы получим двухэтапную игру (рис. 11). Она приведет к открытию Японией рынка, а США получат самый лучший исход.

Рис. 11. Дерево торговой игры между США и Японией с применением угрозы; выделено равновесие Нэша

Выполнение угрозы в истинном стратегическом смысле обязательно должно дорого обходиться тому, кто ее выдвигает, а действие, составляющее суть угрозы, наносить взаимный вред.

Мы выделяем два подхода к обеспечению достоверности стратегических ходов: 1) ограничить вашу собственную свободу действий в будущем таким образом, чтобы у вас не было иного выбора, кроме выполнения действий, предписываемых вашим стратегическим ходом; 2) изменить ваши собственные выигрыши в будущем таким образом, чтобы выполнение действий, предписываемых стратегическим ходом, было для вас оптимальным. Например, в сфере торговой политики широко распространены автоматические процедуры введения ответных пошлин на импорт в случае попыток другой страны субсидировать свой экспорт в вашу страну.

Вы можете создать себе репутацию человека (компании, страны), который всегда выполняет угрозы и обещания. Репутация объясняется тот факт, что, находясь вдалеке от дома, вы предпочитаете питаться в известной вам сети ресторанов, вместо того чтобы рисковать и идти в незнакомый местный ресторан. На практике достоверность — это не ситуация «все или ничего», а вопрос степени.

Тактика салями — это инструмент, позволяющий уменьшить размер угрозы соперника так же, как нарезается салями: по одному ломтику за раз. Вы не выполняете пожеланий другого игрока в настолько малой степени (будь то в случае сдерживания или принуждения), что предпринимать в ответ какие-то радикальные действия для него не имеет никакого смысла. Если ваш шаг оказывается эффективным, вы совершаете еще одно небольшое нарушение, затем еще одно и т.д.

Глава 10. Дилемма заключенных и повторяющиеся игры

Супругов подозревают в убийстве. Их допрашивают отдельно, при этом каждый из них может либо признаться в совершении преступления, либо полностью отрицать свою причастность к нему (рис. 12). Выигрыши исчисляются в годах тюремного заключения; следовательно, низкие значения более выгодны обоим игрокам.

Рис. 12. Таблица выигрышей в стандартной игре «дилемма заключенных»

Дилемма заключенных относится к числу некооперативных игр; игроки принимают решения и реализуют их отдельно друг от друга. При этом, существуют механизмы, позволяющие поддерживать сотрудничество. Наиболее часто последнего можно добиться в повторяющаяся игра. Каждый игрок может опасаться, что один случай отказа от сотрудничества приведет к его прекращению в будущем. Если ценность будущего сотрудничества достаточно велика и превышает выгоду, получаемую от отказа от него в краткосрочной перспективе, то долгосрочные личные интересы игроков могут автоматически удержать их от обмана без какой-либо необходимости в дополнительных мерах наказания или давления со стороны третьих лиц.

В повторяющихся играх игроки могут выбирать стратегии в зависимости от поведения в предыдущих раундах игры. Такие стратегии известны как условные стратегии. Большинство последних относятся к категории триггерных стратегий, в которых игрок поддерживает сотрудничество до тех пор, пока соперник тоже это делает, но любой обман со стороны последнего «запускает» наказание. Например, в стратегии «око за око» игрок выбирает сотрудничество в первом раунде игры, а затем в каждом очередном раунде выбирает действия, выбранные соперником в предыдущем раунде.

Триггерные стратегии определяются числом раундов игры: конечное оно или бесконечное, и известно ли это число заранее. Например, в плохие времена, когда целая отрасль оказывается на грани краха и компании чувствуют, что у них нет будущего, конкурентная борьба может существенно ожесточиться (реже может наблюдаться кооперативное поведение). С другой стороны, когда меняется мода на продукты, выпускаемые неизменной группой компаний, поддерживающих долгосрочные отношения, партнерство сохраняется.

Кроме повторения существуют и иные инструменты решения дилеммы заключенных. Можно наложить на игроков прямое взыскание в случае отказа от сотрудничества. В этом случае вариант «сдать подельника» теряет свою привлекательность. Еще один метод решения дилеммы заключенных относится к ситуациям, в которых один игрок берет на себя роль лидера во взаимодействии. В реальных стратегических ситуациях один игрок может быть относительно «крупным» (лидером). Например, Саудовская Аравия много лет играла в ОПЕК стабилизирующую роль: для поддержания высокой цены на нефть она сокращала ее добычу, в то время как один из более мелких производителей (таких как Ливия) увеличивал.

В ходе лабораторных экспериментов выяснилось, что стратегия равноценных ответных действий, обладающая такими свойствами, как предсказуемость, доброжелательность, возмездие и прощение, в среднем обеспечивает очень хорошие результаты в повторяющейся дилемме заключенных.

Глава 11. Коллективные игры

Игры с участием множества игроков касаются проблем коллективного действия. Их три типа: дилемма заключенных, игра в труса и игра в доверие. Выигрыши в таких играх относятся к категории неисключаемых благ: человеку, который не внес вклад в его реализацию, нельзя помешать извлекать из него выгоду. Часто игры со многими участниками правильнее было бы назвать играми с коллективным бездействием.

Общая характеристика всех этих игр состоит в том, что их участники должны решить, пользоваться ли им тем или иным общим ресурсом, будь то автомагистраль, высокодоходный инвестиционный фонд или водоем с большим количеством рыбы. Такие коллективные игры с «бездействием» больше известны как игры с распределением общих ресурсов: суммарный выигрыш всех участников достигает максимума, когда они воздерживаются от чрезмерного использования общих ресурсов. Проблема, связанная с неспособностью достичь социального оптимума в таких играх, известна как трагедия общин.

Опишем воздействие решений каждого человека на других людей и группу в целом. 8000 жителей пригорода ежедневно ездят в город на работу. Вы можете выбрать для поездки либо скоростную магистраль (действие P), либо сеть местных дорог (действие S). Поездка по местным дорогам неизменно занимает 45 минут, сколько бы автомобилей по ним ни перемещалось. На поездку по скоростной автомагистрали уходит всего 15 минут при условии отсутствия заторов. Однако каждый водитель, выбирающий скоростную магистраль, увеличивает время в пути любого другого водителя, который поедет по этому маршруту, на 0,005 минуты.

Выигрыши в игре исчисляются в минутах сэкономленного времени — например, на сколько минут время поездки меньше одного часа. Следовательно, выигрыш водителей, обозначаемый как S(n), выбравших маршрут по местным дорогам, — постоянная величина: 60 – 45 = 15, независимо от значения n. Выигрыш водителей, выбравших скоростную автомагистраль, P(n) = 45 – 0,005n (рис. 13).

Рис. 13. Игра в выбор маршрута

Предположим на автомагистрали находится 4000 автомобилей. При таком количестве машин на дороге каждому водителю требуется 15 + 4000 х 0,005 = 15 + 20 = 35 минут, чтобы добраться на работу; при этом каждый из них получает выигрыш P(n) = 25. Вы можете принять решение переключиться с поездки по местным дорогам на поездку по скоростной автомагистрали. Выбор нового маршрута увеличит значение n на 1. Теперь количество водителей, выбравших автомагистраль, составляет 4001 (в том числе и вы), а время поездки каждого равно 35 + 5 / 200, или 35,005 минуты. При этом каждый водитель получит выигрыш P(n + 1) = P(4001) = 24,995, по-прежнему превышающий выигрыш от поездки по местным дорогам. Следовательно, у вас есть личный стимул изменить маршрут, поскольку P(n + 1) > S(n) (24,995 > 15).

Выбор другого маршрута приносит вам личную выгоду (которую получаете только вы), эквивалентную разности между вашими выигрышами до и после такого перехода; она составляет P(n + 1) – S(n) = 9,995 минуты. Мы называем ее маржинальной (дополнительной) личной выгодой. Однако теперь из-за вашего решения изменить маршрут каждому из 4000 других водителей, выбравших автомагистраль, придется тратить на поездку на 0,005 минуты больше. Суммарное воздействие вашего решения на всех остальных водителей составляет 4000 х (0,005) = 20. Ваше действие, то есть переход с местных дорог на скоростную автомагистраль, повлияло на выигрыши других игроков. Всякий раз, когда действие одного человека оказывает подобное влияние на других людей, наблюдается сопутствующий эффект, или внешний эффект, или экстерналия.

Совокупность маржинальной личной выгоды и экстерналии мы называем маржинальной социальной выгодой. Последняя в нашем примере составляет 9,995 – 20 = –10,005 минуты. Следовательно, общий социальный эффект вашего перехода на другой маршрут носит негативный характер. Однако человек, меняющий маршрут поездки на работу, не учитывает сопутствующий эффект (экстерналию); его мотивируют только собственные выигрыши.

Как обеспечить оптимальное распределение водителей с точки зрения общества в целом? В разных культурах и политических группах используются различные системы, каждая со своими преимуществами и недостатками. Общество может просто запретить 3000 водителям доступ на скоростную автомагистраль. Но по каким критериям их отбирать? Бюрократическое общество могло бы установить критерии, основанные на выполненных чиновниками сложных расчетах потребностей и заслуг, и тогда каждый водитель стал бы предпринимать затратные действия, чтобы удовлетворять этим критериям. Политизированное общество может отдать предпочтение важным «независимым избирателям», или организованным группам активистов, или лицам, делающим пожертвования. В коррумпированном обществе привилегии могли бы получить те, кто дает взятки чиновникам или политикам.

Можно привести схему, согласно которой вы получаете право ездить по автомагистрали только в определенные дни, в зависимости от последней цифры на номерном знаке вашего автомобиля. Однако такая схема не столь демократична, как может показаться поначалу, поскольку богатые люди могут купить два автомобиля и выбирать номерные знаки так, чтобы это позволяло им пользоваться автомагистралью ежедневно.

Многие экономисты предпочитают вводить плату за проезд. Это наглядно демонстрирует каждому водителю дополнительные издержки, которые влекут за собой его действия, что, в свою очередь, побуждает его выбрать социально оптимальное действие. Экономисты в таком случае говорят, что отдельный человек вынужден перенять экстерналию.

Существуют также положительные сопутствующие эффекты. Например, вакцинация. Каждый человек, сделавший прививку, снижает как собственный риск подхватить болезнь (маржинальная личная выгода), так и риск окружающих заразиться ею от него (сопутствующий эффект).

В играх, проходящих в крупных группах, имеет место диффузия ответственности, которая может обусловить поведение, когда отдельно взятый человек ждет, чтобы другие выполнили необходимое действие, а он взял на себя роль «безбилетника», то есть извлек выгоду из этого действия. Когда кому-то требуется помощь, вероятность ее предоставления снижается по мере увеличения размера группы людей, которые могут ее оказать.

Глава 12. Эволюционные игры

До сих пор мы исходили из предположения, что каждый игрок делает осознанный и продуманный выбор из имеющихся в его распоряжении стратегий. Однако появившиеся в последнее время теории ставят это предположение под сомнение. Наиболее обоснованная и убедительная критика исходит от психолога и лауреата Нобелевской премии по экономике 2002 года Даниэля Канемана (см. Даниэль Канеман. Думай медленно… решай быстро). По его мнению, у людей есть две различные системы принятия решений. Система 1 — инстинктивная и быстрая, система 2 — расчетливая и медленная.

Это подразумевает совершенно иной способ ведения и анализа игр. Игроки вступают в игру с инстинктивной системой 1 и разыгрывают стратегию, которую она им подсказывает, хотя эта стратегия может и не быть оптимальной. Положительный результат подкрепляет инстинкт, тогда как отрицательный способствует его постепенному изменению. Куда ведет такой процесс интерактивной динамики инстинктов?

Биологическая теория эволюции основана на трех фундаментальных принципах: гетерогенность (неоднородность), приспособленность и отбор. Поведение животных генетически предопределено: комплекс из одного или более генов (генотип) обусловливает схему поведения (поведенческий фенотип). Естественное разнообразие генофонда обеспечивает гетерогенность фенотипов в популяции. Одни модели поведения в большей степени соответствуют сложившимся условиям, чем другие; успех фенотипа выражается в виде количественного показателя под названием приспособленность.

Репродуктивный успех позволяет животному передавать свои гены следующему поколению и сохранять свой фенотип. Затем более приспособленные фенотипы становятся относительно более многочисленными в следующем поколении, чем менее приспособленные. Именно этот динамический процесс отбора меняет комбинацию генотипов и фенотипов.

Время от времени спонтанно возникают новые генетические мутации. Многие из них создают модели поведения (фенотипы), которые плохо сочетаются с окружающей средой и поэтому вымирают. Однако иногда мутация приводит к образованию нового фенотипа, более приспособленного к окружающей среде. Такой мутантный ген может захватить популяцию, то есть образовать значительную ее долю. Биологи называют конфигурацию популяции и ее текущих фенотипов эволюционно устойчивой, если ни один мутантный фенотип не может успешно ее захватить.

Во взаимодействии между людьми стратегия может быть заложена в разуме человека по разным причинам, среди которых не только генетика, но и социализация, культурное воспитание, образование или эмпирический опыт, основанный на прошлых событиях. Все это может охватывать инстинктивная, быстрая система 1 Канемана. Популяция может состоять из совокупности разных людей с разным происхождением или опытом, под влиянием которого они придерживаются различных стратегий системы 1.

Постепенный процесс изменений с учетом исходов, опыта, наблюдений и экспериментов образует динамику расчетливой, медленной системы 2. Существует два типа эволюционно устойчивых конфигураций биологических игр. Во-первых, один фенотип может оказаться более приспособленным, чем другие, и популяция может состоять только из него. Такой эволюционно устойчивый результат обозначается термином мономорфизм. В этом случае одна преобладающая стратегия называется эволюционно устойчивой стратегией.

Во-вторых, у двух или более фенотипов может быть одинаковый уровень приспособленности, поэтому они могут сосуществовать в определенных пропорциях. Тогда говорят, что популяция демонстрирует полиморфизм. Полиморфизм очень близок к такому понятию теории игр, как смешанная стратегия. Однако есть одно важное отличие. При полиморфизме различные игроки придерживаются различных чистых стратегий, но популяция в целом демонстрирует смешивание стратегий. Если в игре есть строго доминирующая стратегия, она обязательно будет эволюционно устойчивой.

Эволюционно устойчивая стратегия должна быть равновесием Нэша в игре, которую ведут осознанно рациональные игроки, с такой же структурой выигрышей. Таким образом, эволюционный подход обеспечивает косвенное обоснование рационального подхода.

Некоторые интерпретаторы теории Дарвина понимают «выживание самых приспособленных» в буквальном смысле и создали образ «природы с ее законом когтей и клыков». На самом деле в природе немало примеров сотрудничества (когда отдельные животные ведут себя таким образом, что это приносит пользу всей группе) и даже альтруизма (когда отдельные животные несут значительные издержки ради других членов группы).

Глава 13. Разработка механизмов для задачи «принципал-агент»

Обычно менее информированного игрока называют принципалом, а более информированного — агентом. Процесс, используемый принципалом для создания правильного набора стимулов для агента, известен как разработка механизмов.

Многие рестораны предлагают меню из трех блюд по фиксированной цене и недорогие комплексные блюда наряду с обычными блюдами на выбор. Такая стратегия позволяет ресторану выделить различные типы клиентов, отдающих предпочтение разным супам, салатам, основным блюдам, десертам и т. д. Книжные издательства, как правило, сначала продают новые книги в твердых переплетах, а версию в мягкой обложке издают только через год. Зачастую разница в цене между двумя версиями гораздо больше, чем разница между себестоимостью двух видов книг. Такая схема ценообразования рассчитана на два типа покупателей: тех, кто хочет прочитать книгу как можно быстрее и готов заплатить за это больше, и тех, кто согласен ждать более выгодной цены. Примеров подобных скрининговых механизмов ценовой дискриминации множество.

Второй тип проблем разработки механизмов связан с моральным риском. Предположим, вы владелец компании, начинающей новый проект, и должны нанять менеджера, который будет контролировать его выполнение. Если у вас нет возможности отслеживать усилия менеджера, вам необходимо заинтересовать его в успешном выполнении проекта, например, посредством выплаты премии по его завершении.

Моральному риску подвержены также рынки страховых услуг. Страховым компаниям необходимо решить, как составить приемлемые договоры страхования, стимулирующие клиентов предпринимать действия, снижающие вероятность подачи ими иска о страховом возмещении. Например, страховые компании хотели бы, чтобы люди, которым они продают полисы медицинского страхования, регулярно проходили профилактические медицинские осмотры, а люди, которым они продают полисы автострахования, продолжали практиковать безопасный стиль вождения. Большинство страховых полисов оставляют часть риска держателя полиса незастрахованным в целях снижения морального риска.

Может ли оптимальная система стимулирования усилий менеджера всегда определяться базовой заработной платой и участием в прибылях? Нет. При наличии трех возможных исходов (провал проекта, умеренный успех и большой успех) выраженная в процентах премия за переход от провала к умеренному успеху может не совпадать с премией за переход от умеренного к большому успеху. Следовательно, оптимальная система стимулирования может быть нелинейной. Но и такая система стимулирования не лишена недостатков.

Например, управляющие взаимных фондов часто получают вознаграждение за высокую эффективность на протяжении календарного года. Оно выплачивается за счет компании в виде премий, а также за счет инвесторов, вкладывающих деньги в соответствующий фонд. Если эти схемы вознаграждения нелинейные, управляющие повысят уровень риска инвестиционного портфеля своего фонда.

Когда заработок одного работника зависит от прибыли всей компании, каждый отдельно взятый сотрудник видит только слабую связь между своими усилиями и совокупной прибылью, при этом каждый получает в ней лишь небольшую долю. А эта доля — весьма слабый стимул прилагать повышенные усилия к выполнению своих обязанностей. Даже в небольших командах у каждого члена может возникнуть соблазн увильнуть от работы и воспользоваться плодами труда своих коллег.

Исход каждой задачи агента отчасти зависит от его усилий и отчасти от случая. Именно поэтому схема стимулирования, основанная на полученных результатах, зачастую подвергает риску выигрыш агента.

Еще один способ обеспечить мотивацию работников – компания платит работнику заработную плату, превышающую общепринятый уровень, а разница между двумя ставками представляет собой излишек, или экономическую ренту работника. Работник получает ее при условии добросовестного выполнения обязанностей, но, если он начнет филонить, это может быть обнаружено и его уволят. В итоге ему придется вернуться на общий рынок труда, где он сможет получать только общепринятую заработную плату.

Часть IV. Применение теории игр в конкретных стратегических ситуациях

Глава 14. Балансирование на грани: Карибский кризис

Балансирование на грани – вид стратегического хода. Вам необходимо заранее предпринять действие, создающее вероятность (но не неизбежность) того, что, если соперник проигнорирует вашу угрозу, это повлечет за собой последствия, пагубные для обеих сторон. Формальное описание Карибского кризиса можно получить посредством построения дерева игры (рис. 14).

Рис. 14. Модель преодоления Карибского кризиса с использованием простой угрозы

Мы можем найти совершенное равновесие. Столкнувшись с угрозой США, СССР получит выигрыш –4 в случае вывода ракет и –8 в случае отказа это сделать, поэтому СССР выберет первое. Заранее проанализировав такой исход, Соединенные Штаты рассчитывают получить выигрыш 1, если угроза будет выдвинута, и –2, если нет; следовательно, США выгоднее выдвинуть угрозу, поскольку данный исход обеспечивает им выигрыш 1, а Советскому Союзу –4. Однако подобная интерпретация кризиса неудовлетворительна: зачем тогда Советскому Союзу вообще нужно было размещать ракеты на Кубе, если он мог предвидеть такое развитие игры и понять, чем она закончится?

Почти всем играм присущ элемент неопределенности. Вы не можете знать наверняка систему ценностей соперника и не можете быть полностью уверены, что он точно выполнит требуемые действия. Следовательно, угроза содержит в себе двойной риск. Ваш оппонент может проигнорировать ее, и вам придется выполнить действие, составляющее суть угрозы; или он может подчиниться, но угроза все равно будет приведена в исполнение по ошибке. При наличии таких рисков последствия угрозы для игрока, который ее выдвигает, становятся важным фактором.

Карибский кризис изобилует подобными неопределенностями. Грэм Аллисон раскрывает все эти трудности и неопределенности в своей замечательной книге «Сущность решения». Проанализировав их, Аллисон приходит к выводу, что Кубинский ракетный кризис нельзя объяснить с точки зрения теории игр, и предлагает два альтернативных варианта толкования: один основан на том, что у бюрократии есть свои устоявшиеся правила и процедуры, а другой строится на внутренней политике США и советском государственном и военном аппарате. По мнению Аллисона, политическое объяснение наиболее приемлемо.

Балансирование на грани — это стратегия, посредством которой вы подвергаете соперника и себя постепенно возрастающему риску обоюдного ущерба. Фактическое наступление пагубного исхода не полностью контролируется тем, кто выдвигает угрозу. В большинстве противостояний (например, между компанией и профсоюзом, мужем и женой, родителем и ребенком, президентом и Конгрессом и т.д.) одна сторона не может быть уверена в целях и возможностях другой. Следовательно, большинство угроз сопряжены с риском ошибки, и каждая угроза должна содержать элемент балансирования на грани.

Глава 15. Стратегии и голосование

Методы агрегирования голосов можно разделить на категории по числу вариантов, или кандидатов, рассматриваемых избирателями в любой момент времени. Бинарные методы подразумевают выбор одной из двух альтернатив за один раз. Во время выборов с участием ровно двух кандидатов побеждает кандидат, получивший большинство голосов. При наличии более двух альтернатив можно применить парное голосование — голосование по парам альтернатив в ходе нескольких туров по принципу относительного большинства для определения наиболее предпочтительной альтернативы (см. Парадокс Кондорсе, теорема Эрроу, или Как мы принимаем решения).

Множественные методы позволяют избирателям рассматривать три и более альтернативы одновременно. Одна группа множественных методов голосования подразумевает использование информации о позиции альтернатив в бюллетене для определения количества баллов, учитываемых при подсчете результатов голосования; такие методы голосования известны как позиционные методы. Принцип относительного большинства голосов — особый случай позиционного метода, когда каждый участник голосования отдает один голос за самую предпочтительную для него альтернативу. При подсчете голосов ей присваивается одно очко; победителем становится альтернатива, получившая наибольшее количество голосов (баллов).

Парадокс Кондорсе — один из самых известных и важных парадоксов голосования. Как уже отмечалось ранее, согласно методу Кондорсе, победителем становится кандидат, получающий большинство голосов в каждом раунде парных сравнений. Парадокс Кондорсе возникает, когда этот процесс не позволяет определить победителя.

Даже если ранжирование индивидуальных предпочтений транзитивно, нет никаких гарантий, что ранжирование социальных предпочтений, сформированное путем голосования по методу Кондорсе, также будет транзитивным. Этот результат имеет далеко идущие последствия для государственных служащих и широкой общественности, поскольку ставит под сомнение такую основополагающую концепцию, как «интересы общества», так как их не всегда легко определить или их может даже не быть вовсе (подробнее см. Джордан Элленберг. Как не ошибаться. Сила математического мышления).

Анализ парадоксов голосования позволяет предположить, что методам голосования присущ ряд недостатков. Существует ли система голосования, удовлетворяющая определенным условиям регулярности, в том числе условию транзитивности, которая является самой «справедливой», то есть наиболее точно учитывает предпочтения электората? Теорема о невозможности Кеннета Эрроу говорит нам, что ответ на этот вопрос — нет.

Многие избиратели считают выборы по принципу относительного большинства самыми справедливыми, тем не менее такие выборы открывают немало возможностей для стратегического поведения. Например, на президентских выборах, как правило, есть только два реальных кандидата на победу, и когда между ними относительно небольшой разрыв, третий кандидат может включиться в предвыборную гонку, чтобы лишить части голосов избирателей ведущего кандидата; если третий кандидат действительно снижает шансы лидера на победу, его называют спойлером.

В политике спойлером называют кандидата или партию на выборах, который не имеет шансов победить, но оттягивает на себя часть голосов за другого кандидата со сходной программой, повышая тем самым шансы на победу кандидата или партии с противоположной позицией по главным вопросам. Росс Перо сыграл такую роль во время выборов президента США в 1992 году.

Стратегический анализ поведения двух кандидатов, участвующих в выборах, гласит, что оба кандидата будут позиционировать себя в политическом спектре там же, где и медианный избиратель. Можно отметить три характеристики равновесия в игре с позиционированием кандидатов. Во-первых, они оба располагаются в равновесии в одной и той же позиции. Это иллюстрирует принцип минимальной дифференциации — общий результат всех игр с двумя участниками, которые сводятся к соперничеству за местоположение, будь то выбор кандидатами в президенты политической платформы, или выбор уличными торговцами местоположения тележки для продажи хот-догов, или выбор характеристик продукта производителями электронных устройств.

Во-вторых, оба кандидата находятся в позиции медианного избирателя. В-третьих, положение медианного избирателя не всегда совпадает с геометрическим центром политического спектра. Эти две позиции совпадают, если распределение избирателей симметрично, но медианный избиратель может располагаться слева от геометрического центра, если распределение смещено влево, и справа, если распределение смещено вправо.

Еще один парадоксальный результат состоит в том, что итоги любых отдельно взятых выборов при заданной совокупности предпочтений избирателей могут меняться в зависимости от используемой процедуры голосования.

Избиратели могут использовать стратегическое поведение в игре, которая обеспечивает выбор процедуры голосования, или в самих выборах посредством искажения своих предпочтений. Избиратели могут стратегически искажать свои предпочтения ради получения наиболее желаемого или предотвращения нежелательного результата. При наличии несовершенной информации избиратели могут принимать решение о целесообразности стратегического голосования исходя из своих убеждений в отношении поведения других избирателей и знания о распределении их предпочтений.

Глава 16. Стратегия участия в торгах и структура аукционов

Термином «аукцион» обозначается любая операция, в ходе которой окончательная цена выставленного на продажу объекта определяется посредством конкурентных торгов. Для аукционов характерно наличие асимметричности информации между продавцом и покупателем, а также между покупателями, участвующими в торгах. В связи с этим сигнализирование и скрининг могут стать важными элементами стратегии как покупателей, так и продавцов.

Аукционы разнятся по методам подачи заявок и определения окончательной цены, которую платит победитель. Эти аспекты аукциона, заранее устанавливаемые продавцом, называются правилами аукциона. Кроме того, аукционы можно классифицировать по типу выставленного на продажу объекта, а также по способу его оценки; это определяет среду аукциона.

В большинстве случаев правила проведения аукциона определяет продавец, причем ему приходится это делать при наличии ограниченной информации о готовности покупателя платить. Таким образом, при выборе правил аукциона продавец разрабатывает его механизм (см. главу 13). Аукционы можно разделить на открытые и закрытые.

Аукционы открытого торга включают аукцион на повышение, или английский аукцион и аукцион на понижение, или голландский аукцион. В случае закрытого аукциона первой цены выставленный на продажу объект достается участнику торгов, предложившему самую высокую цену, и он выплачивает цену, указанную в заявке. В случае закрытого аукциона второй цены выставленный на продажу объект получает участник торгов, предложивший самую высокую цену, но при этом он выплачивает цену, указанную в заявке участника торгов, предложившего вторую самую высокую цену.

Второй аукцион часто называют «аукционом Викри», по имени лауреата Нобелевской премии по экономике. Викри показал, что при таких правилах предложение истинной цены — доминирующая стратегия каждого участника торгов. В связи с этим мы в шутку называем такой аукцион сывороткой правды Викри.

Закрытые аукционы первой цены подобны голландским аукционам, а закрытые аукционы второй цены напоминают английские.

Отличительная особенность среды аукционов основана на различиях между объектами с общей и личной ценностью. В первом случае выставленный на продажу объект имеет одну и ту же ценность для всех участников торгов, но каждый из них знает только его приблизительную стоимость.

Проклятие победителя — это предостережение участникам торгов, что, выиграв аукцион и получив искомый объект, они, скорее всего, заплатили за него больше, чем он на самом деле стоит. Этот случай не сильно отличается от покупки подержанного автомобиля («лимона»). Теория неблагоприятного отбора на рынках с асимметричной информацией непосредственно применима и к описанному аукциону с общей ценностью.

Простейший эксперимент по проверке проклятия победителя сводится к проведению аукциона по продаже банки с монетами. Выигрыш в этой игре носит объективный характер, но каждый ее участник формирует субъективную оценку относительно количества монет в банке, а значит, и размера выигрыша (это пример аукциона с общей ценностью в чистом виде). Большинство преподавателей, проводивших такие эксперименты со студентами, неизменно обнаруживали существенное завышение предложенной цены.

Тем не менее, за использование механизма извлечения информации приходится расплачиваться. На аукционе, проходящем по схеме Викри, покупатели раскрывают правду о своих оценках только потому, что это приносит им определенную прибыль. Закрытый аукцион второй цены снижает прибыль продавца.

При наличии нейтрального отношения к риску и независимых друг от друга оценок покупателями ценности выставленного на продажу объекта продавцы могут рассчитывать на одинаковый средний уровень дохода при использовании любого из четырех основных типов аукционов: английский, голландский и закрытый аукцион первой и второй цены.

Глава 17. Переговоры

У всех переговорных ситуаций есть две общие черты. Во-первых, суммарный выигрыш, который стороны переговоров могут обеспечить в результате достижения консенсуса, должен быть больше индивидуальных выигрышей, которые они могли бы получить по отдельности, то есть целое должно превышать сумму составляющих. Во-вторых, переговоры не игра с нулевой суммой. При наличии излишка они сводятся к его разделению.

До появления теории игр теоретики не могли на системном уровне понять, почему одна сторона переговоров получает больше другой, и относили это на счет расплывчатых и необъяснимых различий в так называемой силе переговорной позиции.

Один подход теории игр рассматривает переговоры как кооперативную игру, в которой переговорщики вместе находят и реализуют решение. Другой подход рассматривает переговоры как некооперативную игру, в которой переговорщики выбирают стратегии по отдельности и ищут равновесие.


Прокомментировать