<<<предыдущая глава к содержанию следующая глава >>>

13. ЭЛЕМЕНТЫ ТЕОРИИ ИГР И СТАТИСТИЧЕСКИХ РЕШЕНИЙ

Содержание
13.1.Основные понятия теории игр
13.2.Матричные игры и линейное программирование
13.3.Итеративный метод решения матричных игр
13.4.Многошаговые игры. Игры на выживание
13.5.Многошаговые игры. Игры погони
13.6.Статистические решения. Основные понятия
13.7.Выбор критерия принятия решений
13.7.1.Критерий Лапласа
13.7.2.Критерий Вальда
13.7.3.Критерий Гурвица
13.7.4.Критерий Сэвиджа
13.7.5.Упражнения

13.1. Основные понятия теории игр

Теория игр занимается изучением т.н. конфликтных ситуаций, где сталкиваются интересы индивидов, партий, государств и т. п.

Как утверждал Г.Лейбниц, "...и игры заслуживают изучения; и если какой-нибудь проницательный математик посвятит себя их изучению, то получит много важных результатов, ибо нигде человек не показывает столько изобретательности, как в игре ".

Нет математической теории, которая могла бы дать алгоритм любой ре-альной игры, но существуют ситуации, подобные игровым и допускающие математический анализ.

Остановимся на классификации игр.

Интересы участников игры (игроков) могут оказаться несовпадающими и даже противоположными. В последнем случае игра называется антагонистической.

В игре могут участвовать два или более игроков. Случай игры с одним участником (пасьянс, управление физическим объектом и т.д.) в сущности является игрой двух лиц, где вторым участником выступает природа (судьба, рок, провидение).

Игроки могут в игре выступать каждый за себя или объединяться в группы. В последнем случае игра называется коалиционной.

Игры, в которых игроки осведомлены о состоянии своем и партнеров, а также о прошлом поведении участников игры, относятся к категории игр с полной информацией (типичные примеры - шахматы, "крестики-нолики" и т.п.). Большинство же игр протекает в условиях неполной информации, где сведения о состоянии партнеров исчерпываются лишь вероятностными характеристиками (домино, карточные игры, игры против "природы").

Антагонистическую игру, где выигрыш одного коллектива равен проигрышу другого, называют игрой с нулевой суммой.

Система правил, однозначно определяющая выбор хода игрока в зави-симости от сложившейся ситуации, называется стратегией.

Каждая фиксированная стратегия игрока, где любой ситуации сопоставлен конкретный выбор, называется чистой. В реальности чаще используются т.н. смешанные стратегии, где чистые стратегии смешиваются с некоторыми частотами.

Простейшими являются игры 2 лиц с нулевой суммой.

Пусть в такой игре игрок 1 имеет m выборов и игрок 2 - n выборов. Если игрок 1 делает свой i-й выбор, а игрок 2 - свой j-й выбор, то выигрыш игрока 1 (проигрыш игрока 2) равен Rij. Такая игра называется матричной и матрица R = [ Rij / i=1..m , j=1..n ] называется матрицей выигрышей (пла-тежной матрицей).

При ведении игры игрок должен ориентироваться на оптимальную политику партнера и наказывать его за отступления от таковой.

Проведем рассуждения за игрока 1. Если Я воспользуюсь i-м выбором, мой противник для минимизации моего выигрыша сделает тот из своих выборов, который даст min Rij. Соответственно, Я должен использовать тот выбор, который гарантирует мне выигрыш, не меньший

Противник, рассуждая аналогично, приходит к выводу о гарантированном проигрыше, не превышающем

Если в матрице выигрышей существует элемент Rkl = V1 = V2, то говорят о наличии оптимальной политики "в пространстве чистых стратегий" и оптимальными выборами для игроков соответственно являются выборы k и l. Пару (k, l) называют седловой точкой.

Пример 1. Пусть игра определяется матрицей

Седловые точки - (4, 1) и (4, 2). Цена игры = 6; оптимальный выбор для игрока 1 - четвертый, для игрока 2 равнозначны первый и второй (под ценой игры понимают гарантированный выигрыш-проигрыш при оптимальной политике обоих игроков).

Пример 2. Пусть игра определяется матрицей

Здесь равенство V1 = V2 не выполняется; оптимальной чистой стратегии для игроков нет.

При анализе игр часто прибегают к попыткам обнаружить доминирование между строками и столбцами. Так в примере 1 элементы четвертой строки больше элементов других строк: использование выбора 4 выгоднее других выборов при любой политике противника. Противник видит, что в такой ситуации использовать выборы 3 и 4 неразумно.

Использование доминирования т.о. позволяет уменьшить размеры изучаемой матрицы исключением "невыгодных" строк и столбцов.

При отсутствии седловой точки среди чистых стратегий приходится искать таковую среди смешанных.

Если игрок 1 прибегает к своему выбору i с вероятностью Pi, а игрок 2 - к своему j-му выбору с вероятностью Qj, то ожидаемый выигрыш игрока 1 (проигрыш игрока 2) равен

Основная теорема теории игр (теорема Джона фон Неймана) утверждает, что любая матричная игра с нулевой суммой всегда имеет седловую точку, т.е. существуют векторы P и Q такие, что

(V - цена игры).

13.2. Матричные игры и линейное программирование

Очевидно, что если игрок 1 отступит от оптимальной политики, а игрок 2 будет действовать оптимально, то выигрыш игрока 1 будет меньше цены игры, и если игрок 2 отступит от оптимальной политики при сохранении оптимального поведения игроком 1, то его проигрыш превысит цену игры:

Рассуждения игрока 1: мне хотелось бы максимизировать цену игры, т.е. мой гарантированный выигрыш, и я должен подобрать систему значений Pi так, чтобы при любом выборе противника мой ожидаемый выигрыш был больше цены игры.

Рассуждения игрока 2: мне хочется уменьшить мой гарантированный проигрыш, т.е. цену игры, и мне надо подобрать значения Qj так, чтобы при любом выборе противника мой проигрыш был меньше цены игры.

Отсюда возникают две задачи:

  

Легко показать, что эти задачи образуют пару двойственных задач линейного программирования.

Т.о. решение матричной игры сводится к решению пары двойственных линейных программ.

Обратим внимание на то, что при увеличении элементов матрицы R на любую константу С цена игры увеличится на С и это изменение не окажет влияния на искомые вероятности выборов. Таким образом, можно добиться, например, положительности элементов матрицы и, следовательно, цены игры. Поэтому можно допустить, что цена игры V положительна.

В предположении V > 0 проведем замену переменных

Хi = Pi / V, Yj = Qj / V.
Отсюда видно, что

Соответственно, поставленные задачи можно преобразовать к задачам с меньшим числом переменных:

  
Например, для игры с матрицей
возникают задачи:
              максимизировать                   минимизировать
                 Y1 + Y2 + Y3                      X1 + X2 + X3
             при                            при
                 Y1 + 2 Y2 + 3 Y3 Ј 1           X1 + 4 X2 + 2 X3 і 1
               4 Y1 + Y3 Ј 1                  2 X1 + 3 X3 і 1
               2 Y1 + 3 Y2 Ј 1                3 X1 + X2 і 1
                 Y1, Y2, Y3 і 0                 X1, X2, X3 і 0

Решение этих задач симплексным методом дает оптимальные значения

X = {11/37, 4/37, 5/37}, Y = {8/37, 7/37, 5/37}
и экстремумы целевых функций, равные 20/37.

Отсюда V = 37/20, P = {11/20, 4/20, 5/20}, Q = {8/20, 7/20, 5/20}.

13.3. Итеративный метод решения матричных игр

Как мы показали выше, игры могут решаться методами линейного программирования. Здесь мы рассмотрим итеративный метод Брауна-Робинсон, обычно используемый при решении игр большой размерности.

Используется многократная реализация игры на основе знания предыстории с последовательным совершенствованием стратегий.

Для примера возьмем задачу, которую мы только что решили.

Пусть игрок 1 сделал выбор 1 с ожидаемыми выигрышами 1, 2, 3. Противник, стремясь минимизировать свой проигрыш, прибегнет к выбору 1 с ожиданием проигрыша 1, 4, 2. Игрок 1 в стремлении максимизировать свой выигрыш прибегнет к выбору 2, что даст ему надежду на суммарный выигрыш (1+4, 2+0, 3+1). Но тогда его противник найдет среди этих значений меньшее и прибегнет к выбору 2 с ожидаемым суммарным проигрышем (1+2, 4+0, 2+3) и т.д.

Этот процесс реализуется достаточно большое число раз с последующим поиском частоты использования выборов и усреднением значений выигрышей-проигрышей.

В результате 10 выборов для 1-го игрока частоты составили 0.6, 0.2, 0.2; для игрока 2 - 0.4, 0.3, 0.3; оценка цены игры в диапазоне от 1.7 до 1.9.

13.4. Многошаговые игры. Игры на выживание

Предыдущее рассмотрение игр проводилось в предположении, что реализация игры может осуществляться любое число раз. Например, для игры "орел-решка", где в случае совпадения предъявляемых сторон монеты выигрывает игрок 1 и при несовпадении - игрок 2, оптимальная политика игроков состоит в равновероятностном выборе "орла" и "решки" и цена игры равна 0.

Однако в реальной игре с ограниченными ресурсами политика игроков зависит от результата предыдущих действий и от длительности игры.

Соответственно для матричной игры

где Fk(A,B) - ожидаемый выигрыш игрока 1 в k последовательных реализациях при начальных ресурсах A и B и использовании оптимальной политики.

Пусть общий начальный ресурс игроков A + B = C и игра продолжается до разорения одного из игроков. Обозначим через F(A) ожидаемую вероятность выживания (шансы не разориться) игрока 1 при его начальном ресурсе А и оптимальной политике обоих игроков.

Тогда

F(A і 0) = 0,
F(A Ј C) = 1.

Ecли игра не обладает седловой точкой в пространстве чистых стратегий, то оптимальные значения вероятностей использования выборов соответствуют внутренним точкам множества планов (0 < P < 1, 0 < Q < 1) и напрашивается мысль прибегнуть к аппарату производных.

Пример. Рассмотрим игру на выживание с матрицей при полном капитале игроков С = 4.

Здесь в силу целочисленности данных берем целочисленные значения А от 0 до 4. Ecли обозначить вероятности соответствующих выборов игроков через P, 1-P, Q, 1-Q, то F(A Ј 0) = 0, F(A і 4) = 1,

Отыскиваем частные производные и строим системы уравнений для поиска оптимальных значений P(A), Q(A):

Решение приведенных систем дает
Подставляя полученные выражения в исходные выражения функций, имеем

Решая полученную нелинейную систему, имеем оценки

F(1)=0.3, F(2)=0.5, F(3)=0.7
и
P(1)=0.41, P(2)=0.5, P(3)=0.59, Q(1)=0.41, Q(2)=0.3, Q(3)=0.41.

13.5. Многошаговые игры. Игры погони

Простейшим примером таких игр может служить задача для двух игроков, расположившихся на прямой на расстоянии d. На каждом шаге игры игроки могут одновременно смещаться влево или вправо при полной информации о позиции друг друга После очередного шага игрок 2 уплачивает игроку 1 величину G(S), где S - расстояние между ними. С вероятностью A(d) игра может быть продолжена и с вероятностью 1-A(d) окончена.

Если обозначить через P1, P2, Q1, Q2 вероятности смещения игроков в ту или иную сторону, то одна из возможных формулировок задачи имеет вид

Существенно больший интерес может представить игра погони на плоскости или в пространстве, где устанавливается принципиальная возможность поимки одного игрока другим или отыскивается траектория, минимизирующая время поимки. Эти игры относятся к т.н. непрерывным многошаговым играм, решение которых сводится к дискретным моделям [18].

13.6. Статистические решения. Основные понятия

Теория статистических решений может быть истолкована как теория поиска оптимального недетерминированного поведения в условиях неопределенности. Современная концепция статистического решения выдвинута А.Вальдом и считает поведение оптимальным, если оно минимизирует риск в последовательных экспериментах, т.е. математическое ожидание убытков статистического эксперимента. В такой постановке любая задача статистических решений может рассматриваться как игра двух лиц, в которой одним из игроков является "природа".

Выбор наилучших решений в условиях неполной информации является одним из основных занятий людей.

Собираясь в туристический поход, мы укладываем вещи в рюкзак с учетом неизвестной погоды и преследуем цель получить максимум удовольствий, не превращаясь в рекордсмена по переноске тяжестей.

Проектируя гидротехнические сооружения, мы стремимся сделать их надежными, несмотря на непредсказуемые землетрясения, паводки и т.п.

Создавая систему профилактических и аварийных ремонтов, мы преследуем какую-то цель, не зная в точности времени возникновения аварий.

Если процесс определяется повторяющимися ситуациями, то его усредненные характеристики испытывают тенденцию к стабилизации и появляется возможность либо замены случайного процесса детерминированным, либо использования каких-то методов исследования стационарных случайных процессов (в частности, методов теории массового обслуживания).

Однако большинство процессов характеризуется "дурной неопределенностью" и невозможно найти законы распределения и другие вероятностные характеристики. В таких ситуациях приходится прибегнуть к экспертным оценкам.

Возникает и проблема выбора критерия оптимальности, поскольку решение, оптимальное для каких-то условий, бывает неприемлемым в других и приходится искать некоторый компромисс.

Пусть задан некоторый вектор S = (S1,S2,..,Sn), описывающий n состояний внешней среды, и вектор X = (X1,X2,..,Xm), описывающий m допустимых решений. Требуется найти вектор X* =(0,0,..,0, Xi ,0,..,0), который обеспечивает оптимум некоторой функции полезности W(X,S) по некоторому критерию K.

Информация oб указанной функции представляют матрицей размерности m x n c элементами Wij = F(Xi, Sj), где F - решающее правило.

Рассмотрим типичный пример формирования такой матрицы

Планируется выпуск новой продукции, для чего необходимо закупить станки. Система оптовой торговли может поставить не более 50 станков; комплект поставки - 10 станков. Минимальный объем поставок - 20 станков. Соответственно, вектор решений об объеме поставок X = (20,30,40,50).

Ежегодный доход от продукции, снимаемой с одного станка, cоставляет 21.9 тыс.руб. Оптовая цена одного станка 4.775 тыс.руб., эксплуатационные расходы - 3.6 тыс. руб. Затраты на подготовку производства составляют 25.5 тыс.руб. и не зависят от числа станков и объема выпуска.

Пусть спрос пропорционален количеству продукции, снимаемой с S работающих станков, и для простоты ограничимся вектором состояний спроса S = (0,10,20,30,40,50).

Если решающее правило сформулировать как "доход - издержки", то можно рассчитать элементы матрицы полезности:

Wij = (21.9 - 3.6) * min( Xi, Sj) - 4.775 Xi - 25.5
Например
W11 = -(4.775 20+25.5) = -121,
W12 = (21.9-3.6) * 10-(4.775 20+25.5) = 62,
W13 = (21.9-3.6) * 20-(4.775 20+25.5) = 245,
W14 = W15 = 245 (спрос останется неудовлетворенным).

13.7. Выбор критерия принятия решения

Предположим, что в нашем распоряжении имеются статистические данные, позволяющие оценить вероятность того или иного спроса, и этот опыт может быть использован для оценки будущего. При известных вероятностях Pj для спроса Sj можно найти математическое ожидание W(X,S,P) и определить вектор X*, дающий

Если для вышеприведенного примера задать вектор P = (0.01, 0.09, 0.2, 0.3, 0.3, 0.1), то математические ожидания прибыли при разных выборах:
W1 =-121*0.01 + 62*0.09 + 245*0.2 + 245*0.3 + 245*0.3 + 245*0.1 = 224.87,
W2 = 305.22, W3 = 330.675, W4 = 301.12
и выбор максимального значения обнаруживает оптимальность варианта 40 станков с ожидаемой прибылью 330.675 тыс.руб.

13.7.1. Критерий Лапласа

В основе этого критерия лежит "принцип недостаточного основания".

Если нет достаточных оснований считать, что вероятности того или иного спроса имеют неравномерное распределение, то они принимаются одинаковыми и задача сводится к поиску варианта, дающего

Для нашего примера
W1 = (-121 + 62 + 245 + 245 + 245 + 245)/6 = 153.5,
W2 = 197.25, W3 =210.5, W4 = 193.5
и выбор максимального значения обнаруживает оптимальность выбора варианта 40 станков с ожидаемой прибылью 210.5 тыс.руб.

13.7.2. Критерий Вальда

Критерий Вальда обеспечивает выбор осторожной, пессимистической стратегии в той или иной деятельности и его суждения близки к тем суждениям, которые мы использовали в теории игр для поиска седловой точки в пространстве чистых стратегий: для каждого решения Xi выбирается самая худшая ситуация (наименьшее из Wij) и среди них отыскивается гарантированный максимальный эффект

В нашем примере W = max(-121, -168.75, -216.5, -264.25) = -121, т.е. по этому критерию следует закупить 20 станков и максимальный возможный убыток не превысит 121 тыс.руб. (если бы мы включили и вариант отказа от покупки станков вообще, то этот критерий рекомендовал бы нам воздержаться от какой-либо деятельности, но "кто не рискует, тот не пьет шампанского").

Можно принять и критерий выбора оптимистической стратегии

где оценивается гарантированный выигрыш при самых благоприятных условиях. Для нашего примера W = min (245, 380.25, 515.5, 650.75)= 245.

13.7.3. Критерий Гурвица

Ориентация на самый худший исход является своеобразной перестраховкой. Однако опрометчиво выбирать политику, которая излишне оптимистична. Критерий Гурвица предлагает некоторый компромисс:

где параметр a принимает значение от 0 до 1 и выступает как коэффициент оптимизма. Так в нашем примере при различных a значения W определяются таблицей:

При a=0.5 (равновероятных шансах на успех и неудачу) следует закупить 50 станков и ожидать прибыль порядка 193.25 тыс. руб.

При вероятности успеха 0.2 не следует закупать более 20 станков с надеждой, что убытки не превысят 47 тыс.руб.

13.7.4. Критерий Сэвиджа

Суть этого критерия заключается в нахождении минимального риска. При выборе решения по этому критерию сначала матрице функции полезности (эффективности) сопоставляется матрица сожалений

элементы которой отражают убытки от ошибочного действия, т.е. выгоду, упущенную в результате принятия i-го решения в j-м состоянии. Затем по матрице D выбирается решение по пессимистическому критерию Вальда, дающее наименьшее значение максимального сожаления.

Для нашего примера отыскиваем матрицу D, вычитая (-121) из первого столбца матрицы полезности, 62 из второго и т.д.

Наибольшее значение среди минимальных элементов строк здесь равно max[-405.75, -270.5, -135.25, -143.25]=-135.25 и, покупая 40 станков, мы уверены, что в худшем случае убытки не превысят 135.25 тыс.руб.

Таким образом, различные критерии приводят к различным выводам:

1) по критерию Лапласа приобретать 40 станков,

2) по критерию Вальда - 20 станков,

3) по критерию Гурвица - 20 при пессимистическом настроении и 50 в состоянии полного оптимизма,

4) по критерию Сэвиджа - 40 станков.

Возможность выбора критерия дает свободу лицам, принимающим экономические решения, при условии, что они располагают достаточными средствами для постановки подобной задачи. Всякий критерий должен согласовываться с намерениями решающего задачу и соответствовать его характеру, знаниям и убеждениям.

Существует обширная литература по теории игр и статистических решений, среди которой можно выделить [27-31].

13.7.5. Упражнения

  1. Фирма может за небольшую плату (10 руб.) составить любому студенту программу для каких-то типовых расчетов на ПЭВМ. Каждый сотрудник фирмы может качественно выполнить до 10 заказов. Cтоимость аренды машинного времени составляет 80 руб. в месяц (этого времени достаточно для выполнения 10 работ). Количество студентов, пользующихся услугами фирмы, не превышает 100 человек в месяц. Определить число сотрудников фирмы, дающее максимум общего дохода (для регистрации фирмы необходима численность не менее двух человек).
  2. Землевладелец на знойном юге решает вопрос о числе рабочих, привлекаемых к уборке томатов. Урожайность колеблется в зависимости от погоды от 500 до 600 центнеров, закупочная цена стабильна и равна 5 руб/кг. Рабочий за сезон собирает 20 центнеров, получая 1.2 руб/кг за уборку и 280 руб. для оплаты стоимости проезда. Затраты на обеспечение рабочих жильем составляют 300 руб. и не зависят от численности.
  3. В сельхозрайоне с посевной площадью 1430 га решено построить элеватор по одному из типовых проектов на 20, 30, 40, 50 или 60 тыс. центнеров зерна. Привязка проекта обойдется в 37 тыс.руб. Cтоимость материалов и оборудования для элеватора мощности 20 тыс. равна 60 тыс.руб. и растет на 10% с ростом мощности на 10 тыс. Затраты на эксплуатацию элеватора на 20 тыс. равны 10 тыс. руб. и растут на 10 тыс. c ростом мощности на 10 тыс. За хранение зерна на счет элеватора вносится плата 10 руб. за центнер. Урожайность колеблется от 14 до 20 ц/га.
  4. Председатель кооператива решает закупить бочки для засолки огурцов. Виды на урожай колеблются от 700 до 1000 кг, в бочку вмещается 50 кг, цена бочки - 12 руб., затраты на засолку - 2 руб. за бочку, аренда места на рынке - 10 руб, реализационная цена - 1.20 руб/кг.
  5. Универмаг, работающий по 10 часов в сутки, ежедневно посещают от 7 до 10 тыс. человек. Cтоимость покупок одного посетителя в среднем - 10 руб. Время обслуживания - 1 мин. на покупателя. Затраты на оборудование одного рабочего места - 240 руб., зарплата продавца - 140 руб. в месяц. Найти число рабочих мест при планировании работы на год (300 рабочих дней), если покупатель не намерен стоять в очереди из более 7 человек.

<<<предыдущая глава к содержанию следующая глава >>>