Санкт-Петербургский государственный университет
Кафедра математической теории игр и статистических решений
Малахова Анастасия Павловна
Выпускная квалификационная работа бакалавра
Одна задача оптимального управления со
случайным моментом окончания
Направление 010400
Прикладная математика и информатика
Научный руководитель,
кандидат.физ.-мат.н.,
доцент
Громова Е.В.
Санкт-Петербург
2016
Содержание
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . .
Обзор литературы . . . . . . . . . . . . . . . . . . . . . . . . . . .
Глава 1. Преобразование функционала . . . . . . . . . . . . . . .
Глава 2. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1. Максимизация математического ожидания . . . . . . . .
2.2. Минимизация дисперсии в классе линейных управлений
Глава 3. Теоретико-игровая постановка . . . . . . . . . . . . . . .
Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
4
6
7
11
11
19
28
35
36
37
Введение
На сегодняшний день теория управления стремится к максимально
приближенному к действительности построению математических моделей
реальных процессов. При решении данной задачи нельзя не учитывать их
случайный характер. Бесспорно, практически любой жизненный процесс
является стохастическим, так как время его окончания есть случайная величина. В прикладной теории оптимального управления часто рассматриваются экономические процессы, развивающиеся на бесконечном промежутке времени, при условии дисконтирования мгновенного выигрыша.
Недавние события в политической сфере нашей страны, а именно нарушение товарно-денежных отношений из-за введения санкций, привели к
досрочному прекращению многих бизнес процессов. Таким образом, рассмотрение задач оптимального управления со случайным моментом окончания представляется наиболее актуальным.
Как правило, при решении таких задач, под объектом максимизации понимается математическое ожидание соответствующего функционала, зависящего от случайной величины. Однако, результат оптимального
управления может оказаться нежелательным из-за большой вариации результирующего функционала.
Следовательно, имеет смысл определить управляющее воздействие
минимизирующее неопределенность (риск), возникающую из-за случайного характера проблемы. Наиболее очевидной мерой неопределенности является дисперсия, как отклонение от среднего значения.
В данной работе формулируется задача минимизации дисперсии выигрыша в виде задачи оптимального управления. Основным результатом
является упрощение вида дисперсии при выполнении определенных условий. Рассматриваются примеры при линейно-квадратичном виде функции
мгновенного выигрыша и различных функциях распределения момента
окончания управляемого процесса. Примеры рассматриваются как для задачи максимизации математического ожидания результирующего функционала, так и для задачи минимизации его дисперсии. При минимизации
дисперсии управление выбирается в классе функций, линейно зависящих
от времени. Этот класс управлений представляет особый интерес в силу
простоты реализации.
3
Постановка задачи
Будем рассматривать задачу оптимального управления со случайной
продолжительностью T − t0 и начальным состоянием x0 . Динамика управляемого процесса описывается следующей системой обыкновенных дифференциальных уравнений в векторной форме:
x(0) = x0 ∈ Rm ,
ẋ(t) = g(x(t), u(t)),
(1)
где g(x(t), u(t))- вектор с координатами
g 1 (x(t), u(t)), g 2 (x(t), u(t)), . . . , g m (x(t), u(t)).
Функции g j (x(t), u(t)) определены при x ∈ Rm , u ∈ U, U — компактное выпуклое подмножество множества Rn , {0} ∈ U .
Будем полагать, что существует единственное непрерывное, по крайней мере, кусочно-дифференцируемое решение задачи Коши (1), продолжимое на [0; θ].
Процесс управления начинается в момент времени
t0 = 0 из состояния x0 , но момент его окончания не фиксирован, а является реализацией некоторой случайной величины T . Будем полагать, что
случайная величина T задана на промежутке [0; θ] и распределена по закону F (t), где F (t) определена при t ∈ [0; θ] и удовлетворяет условиям
нормировки:
Zθ
dF (t) = 1.
0
Также, функцию распределения F (t) будем считать непрерывно дифференцируемой, то есть существует плотность распределения f (t) = dtd F (t).
Очевидно, выполняется следующее соотношение:
∀t ∈ [0, θ].
f (t) > 0,
Обозначим функцию мгновенного выигрыша в момент времени τ,
τ ∈ [0; θ] как h(x(τ ), u(τ )). Предположим, что для любого допустимого
управления u ∈ U функция мгновенного выигрыша является ограниченной кусочно-непрерывной функцией времени τ , то есть на каждом отрезке
[0, t] функция h(x(τ ), u(τ )) может иметь лишь конечное число разрывов
первого рода. Таким образом, h(x(τ ), u(τ )) интегрируема по Риману на
любом отрезке [0, t], то есть для каждого t ∈ [0; θ] существует интеграл
4
Rt
h(x(τ ), u(τ ))dτ . Отсюда, функция выигрыша имеет вид:
0
ZT
Y (x0 , u(t)) =
h(x(t), u(t))dt,
(2)
0
где T - случайная величина, распределенная по закону F (t). Таким образом, функция выигрыша (2) также является случайной величной.
Математическое ожидание функции выигрыша как случайной величины принимает вид повторного интеграла Лебега-Стилтьеса:
Zθ Z t
E(Y (x0 , u(t))) =
h(x(t), u(t))dτ dF (t).
0
(3)
0
Общеизвестно, что повторный интеграл (3) может быть преобразован
путем перестановки интегралов до вида:
Zθ
E(Y (x0 , u(t))) =
(1 − F (t))h(x(t), u(t))dt.
(4)
0
Это было показано, например, в статье [11].
Классическим подходом является нахождение управления, максимизирующего математическое ожидание выигрыша:
E(Y (x0 , u(t))) → max .
u∈U
(5)
В данной работе наряду с классическим подходом формулируется
новая (альтернативная) постановка задачи, а именно, предлагается минимизировать дисперсию выигрыша:
V ar(Y (x0 , u(t))) → min .
u∈U
(6)
Также, важной является задача приведения функционала дисперсии выигрыша к стандартному виду, позволяющему использовать принцип
максимума Понтрягина для дальнейшего исследования.
В дипломной работе также ставилась задача рассмотреть (6) для конкретных примеров в классе управлений, линейно зависящих от времени. В
тех же примерах требовалось найти решение задачи (5) в классе программных управлений.
Кроме того, было предложено сформулировать другие задачи оптимального управления на основе изученного подхода.
5
Обзор литературы
Впервые задачу оптимального управления со случайным моментом
окончания рассмотрел в своей работе M.E. Yaari [1] в 1965 году. Yaari
была исследована задача поиска оптимального плана потребления, максимизирующего функцию выигрыша. В то же самое время в России впервые подобные задачи были рассмотрены в области дифференциальных игр
Петросяном Л.А., Мурзовым Н.В. [2]. Ими была рассмотрена дифференциальная игра преследования с нулевой суммой, время окончания которой
представлялось случайной величиной, и предложено оптимальное значение
функции выигрыша.
Затем, в общем виде постановка дифференциальных игры со случайной продолжительностью была предложена в работе Петросяна Л.А.,
Шевкопляс Е.В. в 2000 году [3]. В данной работе рассматривались кооперативные игры со случайной продолжительностью, при этом особое внимание
было уделено задаче динамической устойчивости принципов оптимальности в новой постановке игры.
Существует множество работ посвященных прикладному аспекту задач оптимального управления со случайным моментом окончания. Одним из таких примеров может служить работа E.K. Boukas, A. Haurie,
P. Michel [4], в которой одна задача оптимального управления рассматривалась на случайном интервале времени. Случайная продолжительность
также нашла свое применение в страховании. S.R. Pliska, J. Ye [5] в своей
работе изучали вопрос поиска оптимальной стратегии страхования жизни, используя модели со случайной продолжительностью процесса. Моделирование природных ископаемых в работе S. Kostyunin, A. Palestini, E.
Shevkoplyas [6] представляло из себя задачу со случайным моментом окончания.
Многие естественные процессы, протекающие на большом промежутке времени, могут быть окончены в случайный момент, благодаря маловероятным, но существенным событиям. Таким образом, еще одним хорошим
примером могут служить игры добычи ресурсов, описанные в работах [7,8].
В данных задачах немаловажную роль играет большая вариация выигрыша. В своих работах R. T. Rockafellar [9, 10] называет дисперсию одной из
традиционных мер риска, в связи с чем, возникает потребность в ее минимизации.
6
Глава 1. Преобразование функционала
Рассмотрим (6) и выпишем вид дисперсии функции выигрыша в рамках поставленной задачи.
Будем использовать сокращенные обозначения:
h(t) = h(x(t), u(t)),
Y = Y (x0 , u(t)).
Воспользуемся указанным преобразованием (4) для упрощения вида дисперсии функции выигрыша. Будем искать дисперсию по следующей
формуле:
V ar(Y ) = E(Y 2 ) − (E(Y ))2 =
2 T
2
ZT
Z
= E h(t)dt − E h(t)dt =
0
Zθ
=
0
0
t
2
θ t
2
Z
Z Z
h(t)dτ dF (t) −
h(t)dτ dF (t) =
0
0
0
Проинтегрируем первый интеграл по частям, а второй заменим согласно (4):
t
2
t
2
V ar(Y ) = F (t) h(t)dτ
− F (t)d h(t)dτ −
0
0
0
0
2
θ
Z
− h(t)(1 − F (t)dt =
0
θ
2
θ
2
Zθ
Zt
Z
Zθ
Z
= h(t)dτ −2 F (t)h(t) h(τ )dτ dt− h(t)dt − h(t)F (t)dt =
0
0
Zθ
=2
Zθ
h(t)dt
0
0
h(t)F (t)dt − 2
0
0
Zθ
Zt
F (t)h(t)
0
0
0
θ
2
Z
h(t)dτ dt − h(t)F (t)dt .
0
Упростим вид дисперсии, перейдя к новым переменным, используя
следующую систему обыкновенных дифференциальных уравнений:
(
ẏ = h(x, u),
y(0) = 0,
ż = h(x, u)F (t), z(0) = 0.
7
Таким образом, получаем следующий вид функционала:
V ar(Y ) = 2y(θ)z(θ) − 2
Zθ
F (t)h(t)y(t)dt − (z(θ))2 .
0
Задача оптимального управления заключается в минимизации функционала
V ar(Y ) = −2
Zθ
F (t)h(t)y(t)dt + 2y(θ)z(θ) − (z(θ))2 → min .
u∈U
(7)
0
Для нахождения оптимальных управлений воспользуемся принципом
максимума Понтрягина [12]. Выпишем функцию Гамильтона:
H = ψ1 g(x, u) + ψ2 h(x, u) + ψ3 h(x, u)F (t) + 2F (t)h(x, u)y(t).
(8)
Найдем частную производную функции Гамильтона по управлению:
∂H
∂g(x, u)
∂h(x, u)
∂h(x, u)
∂h(x, u)
= ψ1
+ ψ2
+ ψ3 F (t)
+ 2F (t)y(t)
. (9)
∂u
∂u
∂u
∂u
∂u
Для того, чтобы найти точку максимума функции Гамильтона (8),
воспользуемся необходимым условием максимума: приравняем частную производную по управлению (9) к нулю и выразим управление ū (возможно,
управлений будет несколько). Проверим функцию на выпуклость вверх в
найденной точке, найдя вторую частную производную по управлению:
∂ 2 g(x, u)
∂ 2 h(x, u)
∂ 2 h(x, u)
∂ 2H
= ψ1
+ ψ2
+ ψ3 F (t)
+
∂u2
∂u2
∂u2
∂u2
∂ 2 h(x, u)
+2F (t)y(t)
.
∂u2
(10)
Если при ū функционал (10) принимает отрицательные значения на
некотором подмножестве A множества [0; θ], то на этом подмножестве ū доставляет максимум Гамильтониану (8). Также, необходимо, чтобы найденное управление лежало в области допустимых управлений U . Если данные
условия выполняются на некотором подмножестве Ā множества A, то на Ā
найденное управление решает задачу (7). В те моменты времени t, в которые ū не удовлетворяет вышеупомянутым условиям, управление, решающее задачу (7) следует искать на границе области допустимых управлений
U.
Выпишем систему дифференциальных уравнений для сопряженных
8
переменных:
dψ
∂g(x,u)
∂h(x,u)
1
dt = −ψ1 ∂x − ∂x (ψ2 + ψ3 F (t) + 2F (t)y(t)),
dψ2
dt = −2F (t)h(x, u),
dψ3
dt = 0.
(11)
Обозначим терминальную составляющую функционала V ar(Y ):
ĝ(y(θ), z(θ)) = 2y(θ)z(θ) − (z(θ))2
Вычислив ψ(y(θ), z(θ)) = ∇ĝ получим условия трансверсальности:
ψ(θ) = [0, −2z(θ), 2(z(θ) − y(θ))]T .
(12)
Из последнего уравнения системы (11) можем сделать вывод, что
ψ3 (t) = Const, ∀t ∈ [0; θ], при этом из условий трансверсальности
ψ3 (θ) = 2(z(θ) − y(θ)), таким образом ψ3 (t) = 2(z(θ) − y(θ)), ∀t ∈ [0; θ].
Нетрудно заметить, что 2ż(t) + ψ̇2 (t) = 0, из чего можно сделать
вывод, что 2z(t) + ψ2 (t) = Const, при этом из условий трансверсальности
(12) известно, что ψ2 (θ) = −2z(θ). Следовательно, 2z(t) + ψ2 (t) = 0.
Исходя из выше упомянутых соображений, можем записать,
ψ3 (t) = −2y(θ) − ψ2 (θ). Таким образом мы видим, что переменные ψ3 (t)
и z(t) могут быть выражены через другие переменные. Соответствующие
дифференциальные уравнения могут быть исключены.
Введем новые переменные:
(
ξ1 (t) = −2y(t) − ψ2 (t),
ξ2 (t) = F (t)y(t) + ψ2 (t).
После некоторых преобразований получаем:
ẋ(t) = f (x, u),
ψ̇ (t) = −ψ (t)g 0 (x, u) − h0 (x, u)(ξ (t) + ξ (θ)F (t)),
1
1
2
1
x
x
˙
ξ1 (t) = (F (t) − 2)h(x, u),
ξ˙ (t) = λ(t)(ξ (t) − ξ (t)),
2
1
2
x(0) = x0 ,
ψ1 (θ) = 0,
ξ1 (0) = 0,
ξ2 (0) = 0,
(13)
f (t)
где λ(t) = 1−F
(t) - функция интенсивности отказов или функция риска.
Данная система (13) имеет меньший порядок, чем исходная, и тем
самым является более перспективной для дальнейшего решения, в том
числе с использованием численных методов. Немаловажным является зависимость решения системы от значения функции риска. Таким образом,
имея численную постановку задачи мы всегда сможем с определенной сте-
9
пенью точности выяснить управление минимизирующее дисперсию. При
этом проблема поиска "золотой середины" между задачей максимизации
выигрыша и минимизации дисперсии может быть решена только путем
сравнительного анализа двух управлений, который упирается в аналитическое разрешение системы (13).
10
Глава 2. Примеры
2.1. Максимизация математического ожидания
Рассмотрим задачу поиска оптимального управления, максимизирующего математическое ожидание функции выигрыша.
Будем полагать, что управляемый процесс описывается динамикой,
заданной системой обыкновенных дифференциальных уравнений:
ẋ(t) = u(t),
x(0) = 0 ∈ R.
(14)
Областью допустимых значений управления является отрезок:
u ∈ [0; k]. То есть, областью допустимых управлений будет являться множество всевозможных кусочно-непрерывных функций, принимающих значения при t ∈ [0; θ] на отрезке [0; k].
Задача оптимального управления заканчивается в случайный момент
времени T ∈ [0; θ], распределенный по закону F (t). Данная случайная величина удовлетворяет условиям нормировки:
Zθ
dF (t) = 1.
0
Пусть функция мгновенного выигрыша является квадратичной относительно управления:
1
h = ku(t) − u(t)2 − dx(t), k = const, k > 0, d = const, d > 0.
2
Задача оптимального управления ставится следующим образом:
Zθ
E(Y ) =
1
(ku − u2 − dx)(1 − F (t))dt → max .
2
(15)
0
Сведем задачу максимизации к задаче минимизации:
Zθ
1
−(ku − u2 − dx)(1 − F (t))dt → min .
2
(16)
0
Воспользуемся принципом максимума Понтрягина [12]. Выпишем
функцию Гамильтона:
1
H = ψu + (ku − u2 − dx)(1 − F (t)).
2
11
(17)
Будем искать управление макисмизирующее функцию Гамильтона
(17). Для этого воспользуемся необходимым условием максимума, а именно
приравняем к нулю частную производную по управлению:
∂H
= ψ + (k − u)(1 − F (t)) = 0,
∂u
ū =
ψ
+ k.
1 − F (t)
Найденное управление ū обращается в неопределенность вида 00 в
точке θ. В данной точке положим управление ū равным нулю. Данное
допущение не повлияет на результат, так как ограниченная вариация на
множестве меры 0 не поменяет значение интеграла.
Проверим функцию Гамильтона (17) на выпуклость вверх в найденной точке. Для этого выпишем вторую частную производную по управлению.
∂ 2H
= −(1 − F (t)) ≤ 0
∀t ∈ [0; θ].
(18)
∂u2
Найденное выражение (18) является неположительным ∀t ∈ [0; θ] и,
вообще говоря, не зависит от управления. Таким образом, можем сделать
вывод, что найденное управление будет являться точкой максимума для
Гамильтониана ∀t ∈ [0; θ].
Остается открытым вопрос принадлежности найденного управления
области допустимых управлений. Если на некотором подмножестве A множества [0; θ] ū ∈
/ [0; k], то на множестве A решение задачи (16) следует
искать на границе области допустимых управлений.
Выпишем уравнение для сопряженной переменной:
dψ
∂H
=−
= d(1 − F (t)).
dt
∂x
Таким образом,
t
Z
d(1 − F (τ ))dτ.
ψ(t) = ψ0 +
0
Выпишем условия трансверсальности:
ψ(θ) = 0.
Таким образом,
Z
ψ(θ) = ψ0 +
θ
d(1 − F (t))dt = 0.
0
12
Откуда можем выразить ψ0 :
ψ0 = −d
Z
θ
(1 − F (t))dt
0
В итоге,
Z t
Z θ
Z θ
ψ(t) = d (1 − F (τ ))dτ − d
(1 − F (t))dt = −d
(1 − F (τ ))dτ. (19)
0
0
t
13
Случай равномерного распределения
Теперь рассмотрим постановку задачи, в которой момент окончания
управляемого процесса распределен равномерно с функцией распределения
F (t) = θt ∀t ∈ [0; θ].
Уравнение (19) примет вид:
Z θ
τ
ψ(t) = −d
(1 − )dτ.
θ
t
Откуда,
t2
dθ
ψ = d(t − ) − .
2θ
2
Искомое управление:
2
t
d(t − 2θ
)−
ū =
(1 − θt )
dθ
2
2tθ − t2 − θ2
t−θ
+k =d
+k =d
+ k.
2θ − 2t
2
Так как первое слагаемое полученного управления всегда неположительно, ū ≤ k ∀t ∈ [0; θ]. Таким образом, найденное управление никогда
не выходит за правую границу области допустимых управлений. Для того,
чтобы найденное управление не выходило за левую границу допустимых
управлений необходимо, чтобы выполнялось условие:
d
t−θ
+ k ≥ 0 ∀t ∈ [0; θ].
2
Мы можем поделить неравенство на параметр d, так как он изначально был принят как положительный параметр:
θ−t≥
2k
d
∀t ∈ [0; θ].
Из области определения t очевидно, что:
θ − t ≤ θ ∀t ∈ [0; θ].
Следовательно, необходимо, чтобы выполнялось следующее:
2k
≤ θ.
d
(20)
Условие (20) является необходимым, но не достаточным условием
принадлежности ū области допустимых управлений.
В случае, если на некотором подмножестве A множества [0; θ] найденное управление не принадлежит области допустимых управлений, управление, являющееся решением задачи (16) на множестве A следует искать
14
на границе области допустимых управлений.
Для примера рассмотрим два постоянных управления u∗ = 0 и
u∗ = k.
При u∗ = 0 уравнение (14) принимает вид:
ẋ = 0 x(0) = 0.
Из этого можем сделать вывод, что x = 0. Таким образом, математическое ожидание (15) примет нулевое значение.
При u∗ = k уравнение (14) принимает вид:
ẋ = k x(0) = 0.
Из этого можем сделать вывод, что x = kt. Таким образом, математическое ожидание (15) примет следующий вид:
Z θ
1 2
1
t
1
E(Y ) =
k − dkt
(21)
1−
dt = k 2 θ − dkθ2 .
2
θ
4
6
0
В зависимости от заданных параметров d, k и θ (21) принимает либо положительное, либо отрицательное, либо нулевое значение. Если (21)
принимает положительное значение, то управление u∗ = k является более
приемлемым. Если (21) принимает отрицательное значение, то управление
u∗ = 0 является более приемлимым. Если (21) принимает нулевое значение,
то оба управления, как u∗ = 0, так и u∗ = k дают одинаковый результат.
Случай треугольного распределения
Теперь рассмотрим постановку задачи, в которой момент окончания
управляемого процесса распределен по закону треугольного распределения:
(2
t
,
t ∈ [0; t̂],
θt̂
2
F (t) =
(θ−t)
1 − θ(θ−
, t ∈ (t̂; θ].
t̂)
Уравнение (19) примет вид:
Z θ
(θ − τ )2 τ 2
ψ(t) = −d
(
− )dτ.
θ(θ − t̂) θt̂
t
d (θ − t)3 t3
dθ2
ψ=− (
+ )+
.
3θ θ − t̂
t̂
3t̂
Искомое управление:
3
ū =
3
d (θ−t)
− 3θ
( θ−t̂ + tt̂ ) +
(θ−t)2
θ(θ−t̂)
−
t2
θt̂
dθ2
3t̂
d
+k =
3
(θ − t)3 t̂ + t3 (θ − t̂) − θ3 (θ − t̂)
t2 (θ − t̂) − (θ − t)2 t̂
15
!
+k =
d
=
3
t2 θt̂ − 2tθ2 t̂ + 2θ3 t̂ − θ4
t+ 2
t (θ − 2t̂) + 2tθt̂ − θ2 t̂
!
+ k.
Данное управление, вообще говоря, не линейно.
В зависимости от параметров d, k, θ и t̂ найденное управление либо
будет попадать в область допустимых управлений, либо нет. Если найденное управление не лежит в области допустимых управлений на каком либо
подмножестве A множества [0; θ], то на данном подмножестве оптимальное
управление следует искать на границе области допустимых управлений.
При этом, граница области допустимых управлений является бесконечномерным множеством и представляет собой множество всех возможных
кусочно-постоянный функций, принимающих в точках рассматриваемого
интервала значения 0 и k.
Для примера рассмотрим два постоянных управления u∗ = 0 и
u∗ = k.
При u∗ = 0 уравнение (14) принимает вид:
ẋ = 0 x(0) = 0.
Из этого можем сделать вывод, что x = 0. Таким образом, математическое ожидание (15) примет нулевое значение.
При u∗ = k уравнение (14) принимает вид:
ẋ = k x(0) = 0.
Из этого можем сделать вывод, что x = kt. Таким образом, математическое ожидание (15) примет следующий вид:
Z θ
1 2
(θ − t)2
t2
E(Y ) =
k − dkt
−
dt =
2
θ(θ − t̂) θt̂
0
1 2 2
1
1
dkθ3
dkθ3
−
+
.
(22)
= k θ
−
6
θ − t̂ t̂
12(θ − t̂)
4t̂
В зависимости от заданных параметров d, k, t̂ и θ (22) принимает на
интересующем промежутке либо положительное, либо отрицательное, либо
нулевое значение. Если (22) принимает положительное значение, то управление u∗ = k будет давать лучший результат на данном промежутке. Если
(22) принимает отрицательное значение, то управление u∗ = 0 будет давать
лучший результат на данном промежутке. Если (22) принимает нулевое
значение, то оптимальными на данном промежутке будут оба управления,
как u∗ = 0, так и u∗ = k будут давать одинаковый результат.
16
Случай усеченного экспоненциального распределения
Теперь рассмотрим постановку задачи, в которой момент окончания
управляемого процесса распределен по закону усеченного экспоненциального распределения:
t ≤ 0,
0,
−λt
1−e
F (t) = 1−e
t ∈ (0; θ],
−λθ ,
1,
t > θ.
Уравнение (19) примет вид:
Z θ
1 − e−λt
ψ(t) = −d
(1 −
)dτ.
1 − e−λθ
t
d(1 − e(θ−t)λ − tλ + θλ)
ψ=
.
λ(eθλ − 1)
Искомое управление:
ū =
d(1−e(θ−t)λ −tλ+θλ)
λ(eθλ −1)
1−e−λt
1 − 1−e
−λθ
+k =
detλ (e(θ−t)λ − 1 + tλ − θλ)
+ k.
=
λ(etλ − eθλ − 1)
Данное управление, вообще говоря, не линейно.
В зависимости от параметров d, k, θ и λ найденное управление либо
будет попадать в область допустимых управлений, либо нет. Если найденное управление не лежит в области допустимых управлений на каком либо
подмножестве A множества [0; θ], то на данном подмножестве оптимальное
управление следует искать на границе области допустимых управлений.
Для примера рассмотрим два постоянных управления u∗ = 0 и
u∗ = k.
В точке u∗ = 0 уравнение (14) принимает вид:
ẋ = 0 x(0) = 0.
Из этого можем сделать вывод, что x = 0. Таким образом, математическое ожидание (15) примет нулевое значение.
В точке u∗ = k уравнение (14) принимает вид:
ẋ = k x(0) = 0.
Из этого можем сделать вывод, что x = kt. Таким образом, матема17
тическое ожидание (15) примет следующий вид:
Z θ
1 − e−λt
1 2
E(Y ) =
k − dkt
1−
dt =
2
1 − e−λθ
0
k kλ − 2d(1 + θλ) + eθλ (2d − kλ + θ(k − dθ)λ2 )
.
=
2λ2 (eλ θ − 1)
(23)
В зависимости от заданных параметров d, k, λ и θ (23) принимает
на интересующем промежутке либо положительное, либо отрицательное,
либо нулевое значение. Если (23) принимает положительное значение, то
управление u∗ = k будет давать лучший результат на данном промежутке. Если (23) принимает отрицательное значение, то управление u∗ = 0
будет давать лучший результат на данном промежутке. Если (23) принимает нулевое значение, то оптимальными на данном промежутке будут оба
управления, как u∗ = 0, так и u∗ = k будут давать одинаковый результат.
18
2.2. Минимизация дисперсии в классе линейных
управлений
Рассмотрим задачу поиска оптимального управления, минимизирующего дисперсию функции выигрыша в классе линейных управлений. Сначала найдем значение дисперсии в случае вырожденного управления u = 0,
затем постоянного u = k. После рассмотрим общий случай линейного
управления u = at + b с некоторыми параметрами a и b, будем искать
значения данных параметров, минимизирующие дисперсию.
Будем полагать, что задача оптимального управления описывается
динамикой, заданной системой обыкновенных дифференциальных уравнений:
x(0) = 0,
ẋ(t) = u(t),
(24)
ẏ(t) = h(x, u),
y(0) = 0,
ż(t) = h(x, u)F (t), z(0) = 0.
Пусть функция мгновенного выигрыша является квадратичной относительно управления:
1
h = ku(t) − u(t)2 − dx(t), k = const, k > 0, d = const, d > 0.
2
Таким образом, можем переписать систему (24) следующим образом:
x(0) = 0,
ẋ(t) = u(t),
(25)
ẏ(t) = ku(t) − 21 u(t)2 − dx(t),
y(0) = 0,
ż(t) = (ku(t) − 21 u(t)2 − dx(t))F (t), z(0) = 0.
Областью допустимых управлений является отрезок: u ∈ [0; k].
рис. 1
Управляемый процесс заканчивается в случайный момент времени
T ∈ [0; θ], распределенный по закону F (t). Данная случайная величина
19
удовлетворяет условиям нормировки:
Zθ
dF (t) = 1.
0
Задача оптимального управления ставится следующим образом:
V ar(Y ) = −2
Zθ
F (t)h(t)y(t)dt + 2y(θ)z(θ) − (z(θ))2 → min .
(26)
0
В случае вырожденного управления u = 0 система (25) принимает
вид:
x(0) = 0,
ẋ(t) = 0,
ẏ(t) = −dx(t),
y(0) = 0,
ż(t) = −dx(t)F (t), z(0) = 0.
(27)
Из первого уравнения системы (27) можно сделать вывод, что x = 0.
Следовательно, из второго и третьего уравнения системы y = 0 и z = 0.
Таким образом, при вырожденном управлении дисперсия выигрыша
принимает нулевое значение.
В случае постоянного управления u = k система (25) принимает вид:
x(0) = 0,
ẋ(t) = k,
(28)
ẏ(t) = 12 k 2 − dx(t),
y(0) = 0,
ż(t) = ( 12 k 2 − dx(t))F (t), z(0) = 0.
Из первого уравнения системы (28) можно сделать вывод, что x = kt.
Следовательно, второе уравнение системы (28) примет вид:
1
ẏ(t) = k 2 − dkt,
2
y(0) = 0.
Получим, что y = 12 (k 2 t − dkt2 ).
Третье уравнение системы (28) будет записано, как:
1
ż(t) = ( k 2 − dkt)F (t),
2
z(0) = 0.
(29)
Решение уравнения (29) будет зависеть от выбранной функции распределения. Следовательно, дисперсия выигрыша будет также зависеть от
выбранной функции распределения.
В общем случае линейного управления u = at + b, где a и b некоторые
20
числовые параметры, система (25) принимает вид:
x(0) = 0,
ẋ(t) = at + b,
ẏ(t) = k(at + b) − 12 (at + b)2 − dx(t),
y(0) = 0,
1
2
ż(t) = (k(at + b) − 2 (at + b) − dx(t))F (t), z(0) = 0.
(30)
Из первого уравнения системы (30) можно сделать вывод, что
x = at2 + bt. Следовательно, второе уравнение системы (28) примет вид:
1
ẏ(t) = k(at + b) − (at + b)2 − d(at2 + bt),
2
y(0) = 0.
Получим, что y = − 61 (a2 + 2ad)t3 + 12 (ak − ab − bd)t2 + 21 (2kb − b2 )t.
Третье уравнение системы (30) будет записано, как:
1
ż(t) = (k(at + b) − (at + b)2 − d(at2 + bt))F (t),
2
z(0) = 0.
(31)
Решение уравнения (31) будет зависеть от выбранной функции распределения. Следовательно, дисперсия выигрыша будет также зависеть от
выбранной функции распределения.
Случай равномерного распределения
Теперь рассмотрим постановку задачи, в которой момент окончания
управляемого процесса распределен равномерно с функцией распределения
F (t) = θt ∀t ∈ [0; θ].
В случае постоянного управления u = k уравнение (29) примет вид:
1
t
ż(t) = ( k 2 − dkt) ,
2
θ
z(0) = 0.
Отсюда,
k 2 2 dk 3
t − t.
4θ
3θ
Зная значение всех переменных системы, можем записать дисперсию:
z(t) =
2
1 2
1
2 k
V ar(Y ) = 2( k θ − dkθ )( θ−
2
2
4
dk
k2
dk
− θ2 ) − ( θ − θ2 )2 − 2
3
4
3
Zθ
t 1 2
1
1
( k − dkt)( k 2 t − dkt2 )dt =
θ 2
2
2
0
1 2 4 2
1
1
d θ k − dθ3 k 3 + θ2 k 4 .
45
24
48
В общем случае линейного управления u = at + b уравнение (31)
=
21
примет вид:
t
1
ż(t) = (k(at + b) − (at + b)2 − d(at2 + bt)) ,
2
θ
z(0) = 0.
Отсюда,
z(t) = −
1 2
1
1
(a + 2ad)t4 − (ak − ab − bd)t3 + (2kb − b2 )t2 .
8θ
3θ
4θ
Зная значение всех переменных системы, можем записать дисперсию:
1
1
1
V ar(Y ) = 2(− (a2 + 2ad)θ3 + (ak − ab − bd)θ2 + (2kb − b2 )θ)
6
2
2
1
1
1
(− (a2 + 2ad)θ3 − (ak − ab − bd)θ2 + (2kb − b2 )θ)−
8
3
4
1
1
1
−(− (a2 + 2ad)θ3 − (ak − ab − bd)θ2 + (2kb − b2 )θ)2 −
8
3
4
−2
Zθ
t 1 2
1
1
(− (a + 2ad)t2 + (ak − ab − bd)t + (2kb − b2 ))(− (a2 + 2ad)t3 +
θ 2
2
6
0
1
1
+ (ak − ab − bd)t2 + (2kb − b2 )t)dt =
2
2
1 2
1
1
=
(a +2ad)2 θ6 + (a2 +2ad)(ak −ab−bd)θ5 − (a2 +2ad)(2kb−b2 )θ4 −
448
24
80
29
1
− (ak − ab − bd)2 θ4 + (2kb − b2 )2 θ2 .
45
48
Найдем минимум этой функции по параметрам a и b. Для этого рассмотрим область допустимых управлений:
(
0 6 at + b 6 k,
0 6 t 6 θ.
Можем переписать ограничения в следующем виде:
(
0 6 b 6 k,
0 6 aθ + b 6 k.
Для удобства дальнейшей работы введем новые переменные:
2
α = a + 2ad,
β = ak − ab − bd,
γ = 2kb − b2 .
22
(32)
После замены (32) дисперсия принимает вид:
V ar(Y ) =
1
1
29
1
1 2 6
α θ + αβθ5 − αγθ4 − β 2 θ4 + γ 2 θ2 .
448
24
80
45
48
Заметим, что управление u = 0 при b = 0, a = 0 входит в область
допустимых управлений и доставляет нашему функционалу минимум. При
нем дисперсия равна 0. Это наименьшее возможное значение дисперсии.
Поэтому, можем считать, что оптимальное управление в классе линейных
управлений найдено.
Случай треугольного распределения
Теперь рассмотрим постановку задачи, в которой момент окончания
управляемого процесса распределен по закону треугольного распределения:
(2
t
,
t ∈ [0; t̂],
θt̂
2
F (t) =
(θ−t)
1 − θ(θ−
, t ∈ (t̂; θ].
t̂)
В случае постоянного управления u = k уравнение (29) примет вид:
1
(θ − t)2
t2
ż(t) = ( k 2 − dkt)(1 −
+ ),
2
θ(θ − t̂) θt̂
z(0) = 0.
Отсюда:
(d − k)kt2
z(t) =
2tt̂(3t − 4θ) + 6t̂2 θ − 3t2 θ .
24t̂θ(θ − t̂)
Зная значение всех переменных системы, можем записать дисперсию:
(d − k)kθ
1 2
1
2
2
2
3
V ar(Y ) = 2( k θ − dkθ )
−2t̂θ + 6t̂ θ − 3θ
−
2
2
24t̂(θ − t̂)
2
(d − k)kθ
−
−2t̂θ2 + 6t̂2 θ − 3θ3
−
24t̂(θ − t̂)
−2
Zθ
0
t2 1 2
1
1
(θ − t)2
+ )( k − dkt)( k 2 t − dkt2 )dt =
(1 −
2
2
θ(θ − t̂) θt̂ 2
k 2 θ2 (d − k)
=
((d − k)θ(6t̂2 − 2t̂tθ − 3θ2 )(120t̂(t̂ − θ) + 5θ(6t̂2 − 2t̂tθ − 3θ2 ))−
2
2
2880t̂ (t̂ − θ)
+24t̂(t̂ − θ)(30t̂2 k − 10t̂(4dt̂ + k)θ + 3(4dt̂ − 5k)θ2 + 24dθ3 )).
В общем случае линейного управления u = at + b уравнение (31)
23
примет вид:
1
(θ − t)2
2
2
ż(t) = (k(at + b) − (at + b) − d(at + bt))(1 −
+
2
θ(θ − t̂)
t2
+ ),
z(0) = 0.
θt̂
Для удобства дальнейшей работы введем новые переменные (32).
t2
1 2
1
(θ − t)2
+ ),
ż(t) = (− αt + βt + γ)(1 −
2
2
θ(θ − t̂) θt̂
z(0) = 0.
Отсюда,
z(t) = −
t̂γ
1
t+
(t2 (−30t̂2 βθ + 30t̂γθ) + t3 (10t̂2 αθ + 10γθ−
2(θ − t̂)
60t̂θ(θ − t̂)
−20t̂(γ − 2βθ)) + t4 (15βθ − 15t̂(2β + αθ)) + t5 (12t̂α − 6αθ)).
Зная значение всех переменных системы, можем записать дисперсию:
1
1
1
V ar(Y ) = 2(− αθ3 + βθ2 + γθ)
6
2
2
(−
t̂γ
1
θ+
(θ(−30t̂2 βθ + 30t̂γθ) + θ2 (10t̂2 αθ + 10γθ − 20t̂(γ−
2(θ − t̂)
60t̂(θ − t̂)
−2βθ)) + θ3 (15βθ − 15t̂(2β + αθ)) + θ4 (12t̂α − 6αθ)))−
−(−
t̂γ
1
θ+
(θ(−30t̂2 βθ + 30t̂γθ) + θ2 (10t̂2 αθ + 10γθ − 20t̂(γ−
2(θ − t̂)
60t̂(θ − t̂)
−2βθ)) + θ3 (15βθ − 15t̂(2β + αθ)) + θ4 (12t̂α − 6αθ)))2 −
−2
Zθ
0
(θ − t)2
1
1
t2
1
(1 −
+ )(− αt2 + βt + γ)(− αt3 +
2
2
6
θ(θ − t̂) θt̂
1
1
+ βt2 + γt)dt =
2
2
=−
1
(7θ3 (10γ+3θ(5β−2αθ))2 + t̂θ2 (350γ 2 +3αθ3 (50β−21αθ)−
2
2
25200t̂ (θ − t̂)
−140γθ(−4β + αθ)) + 10t̂3 (420γ 2 + 14γθ(63β − 22αθ) + θ2 (462β 2 − 320αβθ+
+55α2 θ2 )) − 2t̂2 θ(2275γ 2 + 490γθ(11β − 4αθ)+
+2θ2 (1505β 2 − 1060αβθ + 183α2 θ2 )))
24
.
Нетрудно заметить, что при значениях параметров a = 0 и b = 0,
α = 0, β = 0 и γ = 0 дисперсия принимает нулевое значение. Это минимальное возможное значение дисперсии. Таким образом, можно считать,
что оптимальное управление в классе линейных управлений для задачи
(26) найдено и представляет собой u∗ = 0.
Случай усеченного экспоненциального распределения
Теперь рассмотрим постановку задачи, в которой момент окончания
управляемого процесса распределен по закону усеченного экспоненциального распределения:
t ≤ 0,
0,
−λt
1−e
F (t) = 1−e
t ∈ (0; θ],
−λθ ,
1,
t > θ.
В случае постоянного управления u = k уравнение (29) примет вид:
1 − e−λt
1
),
ż(t) = ( k 2 − dkt)(
2
1 − e−λθ
z(0) = 0.
Отсюда,
e(θ−t)λ (k − d)k(2 + 2tλ + etλ (−2 + t2 λ2 ))
z(t) =
4(eθλ − 1)λ2
Зная значение всех переменных системы, можем записать дисперсию:
1 2
1
(k − d)k(2 + 2θλ + eθλ (−2 + θ2 λ2 ))
2
V ar(Y ) = 2( k θ − dkθ )
−
2
2
4(eθλ − 1)λ2
(k − d)k(2 + 2θλ + eθλ (−2 + θ2 λ2 ))
−
4(eθλ − 1)λ2
−2
Zθ
2
−
1 − e−λt 1 2
1 2
1 2
(
)(
k
−
dkt)(
k
t
−
dkt )dt =
1 − e−λθ 2
2
2
0
k2
=
(12(eθλ − 1)(d − k)2 θλ2 (2 + 2θλ + eθλ (−2 + θ2 λ2 ))−
4
θλ
2
48λ (e − 1)
−3(d − k)2 (2 + 2θλ + eθλ (−2 + θ2 λ2 ))2 − 4(−1 + eθλ )(k − d)λ(3kλ(2 + 2θλ+
+eθλ (−2 + θ2 λ2 )) − 4d(6 + 3θλ(2 + θλ) + eθλ (−6 + θ3 λ3 )))).
В общем случае линейного управления u = at + b уравнение (31)
25
примет вид:
1
1 − e−λt
2
2
ż(t) = (k(at + b) − (at + b) − d(at + bt))(
),
2
1 − e−λθ
z(0) = 0.
Для удобства дальнейшей работы введем новые переменные (32).
1 2
1
1 − e−λt
ż(t) = (− αt + βt + γ)(
),
2
2 1 − e−λθ
z(0) = 0.
Отсюда,
z(t) =
1
(6α − 3λ(2β + γλ) + e−tλ (3λ(2β + 2tβλ + γλ+
3
−λθ
6λ (1 − e )
+etλ t(tβ + γ)λ2 ) − α(6 + tλ(6 + tλ(3 + etλ tλ)))))
Зная значение всех переменных системы, можем записать дисперсию:
1
1
1
V ar(Y ) = 2(− αθ3 + βθ2 + γθ)
6
2
2
(
1
(6α−3λ(2β +γλ)+e−θλ (3λ(2β +2θβλ+γλ+eθλ θ(θβ +γ)λ2 )−
3
−λθ
6λ (1 − e )
−α(6 + θλ(6 + θλ(3 + eθλ θθλ))))))−
−(
1
(6α−3λ(2β+γλ)+e−θλ (3λ(2β+2θβλ+γλ+eθλ θ(θβ+γ)λ2 )−
3
−λθ
6λ (1 − e )
−α(6 + θλ(6 + θλ(3 + eθλ θθλ))))))2 −
−2
Zθ
1 − e−λt
1 2
1
1 3
(
)(−
αt
+
βt
+
γ)(−
αt +
1 − e−λθ
2
2
6
0
1
1
+ βt2 + γt)dt =
2
2
=
1
(α2 (684e2θλ + 9(76 + 72θλ + 32θ2 λ2 + 8θ3 λ3 + θ4 λ4 )−
6
θλ
36λ (e − 1)
−eθλ (1368+648θλ+324θ2 λ2 +108θ3 λ3 +30θ4 λ4 +6θ5 λ5 +θ6 λ6 ))−9λ2 (γ 2 λ2 (−1−
−e2θλ +eθλ (2+θ2 λ2 ))+2βγλ(−4e2θλ −2(2+θλ)+eθλ (8+2θλ+2θ2 λ2 +θ3 λ3 ))+
+β 2 (−20e2θλ − 4(5 + 4θλ + θ2 λ2 ) + eθλ (40 + 16θλ + 8θ2 λ2 + 4θ3 λ3 + θ4 λ4 )))+
+6αλ(γλ(−18e2θλ −3(6+4θλ+θ2 λ2 )+eθλ (36+12θλ+9θ2 λ2 +3θ3 λ3 +θ4 λ4 ))+
+β(−108e2θλ −6(18+16θλ+6θ2 λ2 +θ3 λ3 )+eθλ (216+96θλ+48θ2 λ2 +18θ3 λ3 +
+5θ4 λ4 + θ5 λ5 )))).
26
Нетрудно заметить, что при значениях параметров a = 0 и b = 0,
α = 0, β = 0 и γ = 0 дисперсия принимает нулевое значение. Это минимальное возможное значение дисперсии. Таким образом, можно считать,
что оптимальное управление в классе линейных управлений для задачи
(26) найдено и представляет собой u∗ = 0.
27
Глава 3. Теоретико-игровая постановка
Рассмотрим модель сокращения вредных выбросов, опубликованную
в [13]. Пусть в игре участвуют два игрока - страны, которые заключили договор о контроле вредных выбросов. Каждая страна обладает специальным
оборудованием снижающим объем вредных выбросов. Игра развивается на
промежутке времени [0; θ] и заканчивается в момент первого отказа оборудования, осуществляющего фильтрацию вредных выбросов у какой-либо
страны, то есть T = min{T1 ; T2 }.
Пусть T1 момент окончания игры для первого игрока (момент отказа оборудования). T1 - случайная величина с соответствующей функцией
распределения F1 (t). При этом F1 (t) отвечает закону равномерного распределения.
t
F1 (t) =
θ
Пусть T2 момент окончания игры для второго игрока (момент отказа оборудования). T2 - случайная величина с соответствующей функцией
распределения F2 (t).
(
k̂, t ∈ [0; t̂],
F2 (t) =
k̄, t ∈ (t̂; θ],
где t̂ ∈ [0; θ], k̂, k̄ - некоторые константы.
В [14] было получено, что при данной постановке игры, момент ее
окончания будет распределен с функцией распределения
F (t) = 1 − (1 − F1 (t))(1 − F2 (t))
Таким образом, можем записать
(
1 − 1 − θt (1 − k̂), t ∈ [0; t̂],
F (t) =
1 − 1 − θt (1 − k̄), t ∈ (t̂; θ].
Будем полагать, что игра описывается системой обыкновенных дифференциальных уравнений:
ẋ(t) = u1 (t) + u2 (t),
x(0) = 0 ∈ R.
Областью допустимых значений управлений является отрезок:
u1 , u2 ∈ [0; ki ], i = 1, 2.
Областью допустимых управлений будет являться множество кусочнонепрерывных функций, принимающих значения в точках отрезка [0; θ] на
отрезке [0; ki ] : u1 , u2 ∈ Ui , i = 1, 2.
Пусть функция мгновенного выигрыша первого и второго игроков
28
является линейно-квадратичной относительно выбранного управления и
линейной по x:
1
h1 = k1 u1 − u21 − d1 x1 , k1 = const, k1 > 0, d1 = const, d1 > 0.
2
1
h2 = k2 u2 − u22 − d2 x2 , k2 = const, k2 > 0, d2 = const, d2 > 0.
2
Определим выигрыш первого игрока как значение математического
ожидания функции выигрыша:
Zθ
E1 (Y ) =
1
k1 u1 − u21 − d1 x1
2
t
1−
2 − k̂ − k̄ − 1 dt → max .
θ
0
(33)
Определим выигрыш второго игрока соответственно. Пусть второй
игрок ставит перед собой задачу максимизировать математическое ожидание выигрыша:
Zθ
E2 (Y ) =
1
k2 u2 − u22 − d2 x2
2
t
1−
2 − k̂ − k̄ − 1 dt → max .
θ
0
Определение 1 Будем говорить, что пара управлений (u∗1 , u∗2 ) является
равновесной по Нэшу, если
E1 (Y (u∗1 , u∗2 )) ≥ E1 (Y (u1 , u∗2 )) ∀u1 ∈ U,
E2 (Y (u∗1 , u∗2 )) ≥ E2 (Y (u∗1 , u2 )) ∀u2 ∈ U,
Другими словами, пара управлений будет являться равновесной по
Нэшу, если ни первый, ни второй игрок не может увеличить выигрыш,
изменив свою стратегию, если другой игрок свою стратегий не меняют.
Поставим задачу поиска равновесия по Нэшу. Будем искать такую
пару (u∗1 , u∗2 ), что
u∗1 = arg max E1 (Y (u1 , u∗2 )),
u1 ∈U
u∗2
= arg max E2 (Y (u∗1 , u2 )),
u2 ∈U
при наличии ограничений в виде дифференциального уравнения (35).
Для поиска равновесного по Нэшу управления для первого игрока
воспользуемся принципом максимума Понтрягина. Выпишем функцию Га-
29
мильтона:
1
H = ψ(u1 + u2 ) + k1 u1 − u21 − d1 x1
2
t
1−
2 − k̂ − k̄ − 1 .
θ
Найдем точку максимума функции H по u. ∂H
∂u :
t
∂H
= ψ + (k − u1 )
1−
2 − k̂ − k̄ − 1 = 0,
∂u1
θ
ψ
+ k1 .
t
1 − θ 2 − k̂ − k̄ − 1
t
∂ 2H
=−
1−
2 − k̂ − k̄ − 1 ≤ 0
∀t ∈ [0; θ].
∂u21
θ
ū1 =
Найденное управление будет максимизировать Гамильтониан
∀t ∈ [0; θ)
Выпишем уравнение для сопряженной переменной:
dψ
t
∂H
= d1
1−
=−
2 − k̂ − k̄ − 1 .
dt
∂x1
θ
Таким образом,
t
Z
ψ(t) = ψ0 +
d1
0
τ
2 − k̂ − k̄ − 1 dτ.
1−
θ
Выпишем условия трансверсальности:
ψ(θ) = 0.
Следовательно:
θ
Z
d1
ψ(θ) = ψ0 +
0
τ
1−
2 − k̂ − k̄ − 1 dτ = 0.
θ
θ
τ
ψ0 = −
d1 1 −
2 − k̂ − k̄ − 1 dτ.
θ
0
Z t
τ
ψ(t) =
d1 1 −
2 − k̂ − k̄ − 1 dτ −
θ
0
Z θ
τ
−
d1 1 −
2 − k̂ − k̄ − 1 dτ.
θ
0
t2
θ
ψ(t) = d1
1−
2 − k̂ − k̄ − t − d
1−
2 − k̂ − k̄ − θ =
2θ
2
Z
30
= d1
t2
θ
−
2 − k̂ − k̄2 + θ − t .
2 2θ
Искомое управление:
θ
t2
d1 2 − 2θ 2 − k̂ − k̄ + θ − t
∗
u1 =
+ k1 .
t
1 − θ 2 − k̂ − k̄ − 1
В зависимости от параметров d1 , k1 , θ, k̂, k̄ найденное управление либо
будет попадать в область допустимых управлений, либо нет. Если найденное управление не лежит в области допустимых управлений на каком либо
подмножестве A множества [0; θ], то на данном подмножестве оптимальное
управление следует искать на границе области допустимых управлений.
Для примера рассмотрим два постоянных управления u∗1 = 0 и
u∗1 = k1 .
При u∗1 = 0 уравнение (35) принимает вид:
ẋ = 0 x(0) = 0.
Из этого можем сделать вывод, что x = 0. Таким образом, математическое ожидание (33) примет нулевое значение.
При u∗1 = k1 уравнение (35) принимает вид:
ẋ = k1 x(0) = 0.
Из этого можем сделать вывод, что x = k1 t. Таким образом, математическое ожидание (33) примет следующий вид:
Z θ
1 2
t
E1 (Y ) =
k − d1 k1 t
2 − k̂ − k̄ − 1 dt =
1−
2 1
θ
0
k1 θ
θ
1
k1
1−
2 − k̂ − k̄ − 1 + d1 θ 1 −
2 − k̂ − k̄
. (34)
=
2
2
3
В зависимости от заданных параметров d1 , k1 и θ (34) принимает на
интересующем промежутке либо положительное, либо отрицательное, либо
нулевое значение. Если (34) принимает положительное значение, то наиболее подходящим будет управление u∗1 = k1 на данном промежутке. Если
(34) принимает отрицательное значение, то наиболее подходящим будет
управление u∗1 = 0 на данном промежутке. Если (34) принимает нулевое
значение, то на данном промежутке оба управления будут подходящими,
как u∗1 = 0, так и u∗1 = k1 .
Для второго игрока оптимальное по Нэшу управление будет найдено
аналогично случаю первого игрока. На данное управление будут наклады31
ваться те же ограничения, что и на управление первого игрока, с учетом
отличия констант.
θ
t2
d2 2 − 2θ 2 − k̂ − k̄ + θ − t
∗
+ k2 .
u2 =
1 − θt 2 − k̂ − k̄ − 1
Рассмотрим иную постановку задачи: пусть каждый из игроков будет проигрывать значение дисперсии функции выигрыша. Таким образом,
каждый из игроков ставит перед собой задачу минимизации дисперсии
функции выигрыша. При этом, областью допустимых управлений будем
считать Ū — множество управлений, линейно зависящих от времени вида
ai t + bi , где ai и bi некоторые неотрицательные вещественные числа, определенные на отрезке [0; θ] и принимающих на этом отрезке значения от 0
до ki , i = 1, 2. Будем искать такую пару (u∗1 , u∗2 ), что
u∗1 = arg min V ar(Y (u1 , u∗2 )),
u1 ∈Ū
u∗2
= arg max V ar(Y (u∗1 , u2 )).
u2 ∈Ū
Выпишем вид функционала дисперсии для первого игрока. Согласно результатам полученным в главе 1 и главе 2, пусть игра описывается
следующей системой обыкновенных дифференциальных уравнений:
x(0) = 0,
ẋ(t) = a1 t + b1 ,
1
y(0) = 0,
ẏ(t) = k1 (a1 t + b1 ) − 2 (a1 t + b1 )2 − d1 x(t),
ż(t) = (k1 (a1 t + b1 ) − 21 (a1 t + b1 )2 − d1 x(t))F (t), z(0) = 0.
(35)
Из первого уравнения системы (35) можно сделать вывод, что
x = at2 + bt. Следовательно, второе уравнение системы (35) примет вид:
1
ẏ(t) = k1 (a1 t + b1 ) − (a1 t + b1 )2 − d1 (a1 t2 + b1 t),
2
b21 )t.
y(0) = 0.
Получим, что y = − 61 (a21 + 2a1 d1 )t3 + 21 (a1 k1 − a1 b1 − b1 d1 )t2 + 21 (2k1 b1 −
Третье уравнение системы (35) будет записано, как:
1
ż(t) = (k1 (a1 t + b1 ) − (a1 t + b1 )2 − d1 (a1 t2 + b1 t))(2−
2
t
− 1−
(2 − k̂ − k̄)),
z(0) = 0.
θ
32
Для удобства дальнейшей работы введем новые переменные:
2
α1 = a1 + 2a1 d1 ,
β1 = a1 k1 − a1 b1 − b1 d1 ,
γ1 = 2k1 b1 − b21 .
1 2
1
t
ż(t) = (− α1 t + β1 t + γ1 )(2 − 1 −
(2 − k̂ − k̄)),
2
2
θ
z(0) = 0.
Откуда,
z(t) =
t
(3t3 α1 (−2+ k̂+ k̄)+12γ1 θ(k̂+ k̄)−4t2 (2β1 (−2+ k̂+ k̄)+α1 θ(k̂+ k̄))−
24θ
−6t(γ1 (−2 + k̂ + k̄) − 2β1 θ(k̂ + k̄))).
Зная вид всех переменных системы можем записать дисперсию:
1
1
1
V ar(Y ) = 2(− α1 θ3 + β1 θ2 + γ1 θ)
6
2
2
(
θ
(3θ2 α1 (−2 + k̂ + k̄) + 12γ1 (k̂ + k̄) − 4θ(2β1 (−2 + k̂ + k̄) + α1 (k̂ + k̄))−
24
−6(γ1 (−2 + k̂ + k̄) − 2β1 (k̂ + k̄))))−
−(
θ
(3θ2 α1 (−2 + k̂ + k̄) + 12γ1 (k̂ + k̄) − 4θ(2β1 (−2 + k̂ + k̄) + α1 (k̂ + k̄))−
24
−6(γ1 (−2 + k̂ + k̄) − 2β1 (k̂ + k̄))))2 −
−2
Zθ
t
1
1
1
(2 − 1 −
(2 − k̂ − k̄))(− α1 t2 + β1 t + γ1 )(− α1 t3 +
θ
2
2
6
0
1
1
+ β1 t2 + γ1 t)dt =
2
2
=−
θ2
(420γ12 (16 + 3k̂ 2 + 10k̄ + 3k̄ 2 + 2k̂(5 + 3k̄))+
20160
+θ2 (−140α1 β1 θ(54 + 2k̂ 2 + 17k̄ + 2k̄ 2 + k̂(17 + 4k̄))+
+112β12 (92 + 5k̂ 2 + 34k̄ + 5k̄ 2 + 2k̂(17 + 5k̄)) + 5α12 θ2 (276 + 7k̂ 2 + 72k̄+
+7k̄ 2 + 2k̂(36 + 7k̄))) + 84γ1 θ(20β1 (10 + k̂ 2 + 5k̄ + k̄ 2 + k̂(5 + 2k̄))−
−α1 θ(74 + 5k̂ 2 + 33k̄ + 5k̄ 2 + k̂(33 + 10k̄)))).
Нетрудно заметить, что при значениях параметров a1 = 0 и b1 = 0,
α1 = 0, β1 = 0 и γ1 = 0 дисперсия принимает нулевое значение. Это мини33
мальное возможное значение дисперсии. Таким образом, можно считать,
что оптимальное управление в классе линейных управлений для данного
игрока найдено и представляет собой u∗1 = 0.
Для второго игрока оптимальное по Нэшу управление будет найдено
аналогично случаю первого игрока: u∗2 = 0.
34
Выводы
В исследования задачи (6) был применен принцип максимума Понтрягина. В случае, если управления, максимизирующее Гамильтониан, попадают в область допустимых управлений, становится актуальной задача
разрешения системы обыкновенных дифференциальных уравнений (15).
Основной проблемой является то, что система (15), вообще говоря, не всегда разрешима аналитически. К тому же, встает вопрос о существовании
неподвижной точки у отображения ξ1 (t). Данная функция входит как параметр во второе уравнение системы (15) и, при этом, сама является переменной системы.
Дальнейшие перспективы исследования заключаются в использовании численных методов для разрешения системы (15). Также, в некоторых
случаях, возможно использование афинных преобразований для приведения модели управляемого процесса к более упрощенному виду.
Интересным является вопрос поиска управления являющегося "золотой серединой" между задачей максимизации математического ожидания
выигрыша и минимизацией его дисперсии.
При рассмотрении примеров минимизации дисперсии выигрыша главы 2 основной проблемой являлась необходимость знать вид управления
заранее.
35
Заключение
В ходе проделанной работы была сформулирована новая задача оптимального управления: задача минимизации дисперсии выигрыша, как случайной величины. Значимым результатом является преобразование функционала дисперсии к стандартному виду, позволяющему применить принцип максимума Понтрягина для дальнейшего исследования. При применении принципа максимума к задаче (6) была значительно упрощена система
обыкновенных дифференциальных уравнений для сопряженных переменных: был понижен ее порядок.
Была решена задача минимизации дисперсии (6) для трех примеров с линейно-квадратичной функцией мгновенного выигрыша и тремя
различными видами функции распределения: равномерное распределение,
треугольное распределение и усеченное экспоненциальное распределение.
Данные распределения были выбраны как наиболее часто использующиеся в моделировании экономических управляемых процессов. Оптимальное
управление искалось в классе управлений, линейно зависящих от времени.
Во всех трех примерах нулевое управление являлось оптимальным.
Была изучена постановка задачи поиска управления, максимизирующего математическое ожидание выигрыша (5) и были исследованы три
примера с линейно-квадратичной функцией мгновенного выигрыша и тремя различными видами функции распределения: равномерное распределение, треугольное распределение и усеченное экспоненциальное распределение.
Была предложена теоретико-игровая постановка задачи, требующая
применения описанных в данной работе методов. Данная постановка задачи имеет большие перспективы для дальнейшей работы: рассмотрение
кооперативной постановки игры, постановка задачи, в которой один из игроков (одна коалиция) стремится максимизировать математическое ожидание выигрыша, другой игрок (другая коалиция) стремится минимизировать дисперсию.
Таким образом, полученная формула для преобразования дисперсии
может быть полезна для дискретных задач, стохастических процессов, игр.
36
Список литературы
[1] Yaari M. E. Uncertain lifetime, life insurance and the theory of the
consumer. Rev. Econ. Stud. Vol. 32, No. 2, pp. 137–150, 1965.
[2] Петросян Л. А., Мурзов Н. В. Теоретико-игровые задачи механики //
Литовский математический сборник — г. Вильнюс, — 1966. — T. 6, —
С. 423-432
[3] Петросян Л. А., Шевкопляс Е. В. Кооперативные дифференциальные
игры со случайной продолжительностью // Вестник СПбГУ. – 2000. –
Сер. 1. – Вып. 4. – С. 18-23.
[4] Boukas E. K., Haurie A., Michel P. An optimal control problem with
a random stopping time // SIAM Journal of Optimization Theory and
Applications Vol. 64, No. 3, pp. 471–480, 1990.
[5] Pliska S. R., Ye J. Optimal life insurance purchase and
consumption/investment under uncertain lifetime. J. Bank. Finance,
Vol. 31, No. 5, pp. 1307–1319, 2007.
[6] Giri B. C., Goyal S. K., Recent trends in modeling of deteriorating
inventory. Eur. J. Oper. Res. Vol. 134, No. 1, pp. 1–16, 2001.
[7] Kostyunin S., Palestini A., Shevkoplyas E. On a nonrenewable resource
extraction game played by asymmetric firms // SIAM Journal of
Optimization Theory and Applications, Vol. 163, No. 2, pp. 660–673, 2014.
[8] Marin-Solano J., Shevkoplyas E. V. Non-constant discounting and
differential games with random time horizon. Automatica, Vol. 47, No.
12, pp. 2626-2638, 2011.
[9] Rockafellar R. T. Coherent approaches to risk in optimization under
uncertainty. Tutorials in operations research, Vol. 3, pp.38–61, 2007.
[10] Rockafellar R. T., Uryasev S., Zabarankin M. Generalized deviations in risk
analysis. Finance and Stochastics, Vol. 10, pp.51–74, 2006.
[11] Костюнин С. Ю., Шевкопляс Е. В. Об упрощении интегрального выигрыша в дифференциальных играх со случайной продолжительностью
// Вестник Санкт-Петербургского университета. Серия 10: Прикладная математика. Информатика. Процессы управления. 2011. № 4. С.
47–56.
[12] Понтрягин Л. С. Избранные научные труды. В 3 т. — М.: Наука, 1988.
[13] Petrosyan L., Zaccour G. Time-consistent Shapley value allocation of
pollution cost reduction // Journal of Economic Dynamics and Control,
2003. Vol. 27, Issue 3. P. 381–398.
37
[14] Gromova E., Tur A. A game-theoretic model of pollution control with
asymmetric time horizons. Submitted to Contributions to Game Theory
and Management, 2016.
38
Отзывы:
Авторизуйтесь, чтобы оставить отзыв