Optimisation

Optimisation avec contraintes d'égalité : multiplicateurs de Lagrange

Il s'agit de chercher un vecteur x de Rⁿ tel que f(x) soit minimal et le vecteur h(x) = 0, (avec h : Rⁿ -> R^m différentiable) ce que l'on écrit :

min _x_Î_Rn f(x)
h(x) = 0

Intuitivement, au point de la région de Rⁿ où h(x) = 0 correspondant au maximum de f(x), la courbe ou surface de niveau de f est tangente à la région où h(x) = 0. Le gradient de f et de h étant perpendiculaire à la courbe ou surface de niveau de f et h respectivement, les gradients de f et de h sont alignés.

On dit que x est un point régulier pour la contrainte h(x) = 0 si

h(x) = 0
les vecteurs Ñh_i(x) sont linéairement indépendants

Ñadésigne le gradient de a c'est-à dire le vecteur (¶a/¶x₁, ... , ¶a/¶x_n)

Théorème de Lagrange ou règle des multiplicateurs de Lagrange ou conditions nécessaires d'optimalité du premier ordre :

Si x est un point régulier solution du problème d'optimisation avec contraintes d'égalité, alors il existe un unique vecteur l X R^pvérifiant :

Ñf(x) + S_j=1^m l_jÑh_j(x) = 0

Les composantes l_j du vecteur lnsont appelées multiplicateurs de Lagrange.

On définit le lagrangien associé au problème par :

L(x,l) = f(x) + S_j=1^m l_jh_j(x)

(ou L(x,l) = f(x) - S_j=1^m l_jh_j(x)

On passe facilement d'une forme à l'autre en remplaçant l_jpar -l_j)

Les conditions d'optimalité du premier ordre peuvent alors s'écrire :

ÑL(x,l) = 0
h(x) = 0

ou

¶L(x,l)/¶x_i = 0
¶L(x,l)/¶l_j = 0

Optimisation avec contraintes d'inégalité : conditions de Kuhn et Tucker

Il s'agit de résoudre

min _x_Î_Rn f(x)
g(x) <= 0

Pour un minimum x où les gradients de g_isont linéairement indépendants, il existe des multiplicateurs uniques m_i >= 0 tels que

Ñf(x) + S_i=1^p m_iÑg_i(x) = 0

En définissant le lagrangien

L(x,m) = f(x) + S_i=1^p m_ig_i(x)

on a les conditions de Kuhn et Tucker :

ÑL(x,m) = 0
m_i g(x) = 0

m_{i >= 0}

g_i(x) <= 0

Cas général avec conditions d'égalité et d'inégalité

Il s'agit de résoudre le problème suivant :

min _x_Î_Rn f(x)
h(x) = 0
g(x) <= 0

On définit le lagrangien :

L(x,m,l) = f(x) + S_j=1^m l_jh_j(x) + S_i=1^p m_jg_j(x)

Les conditions de Lagrange - Kuhn - Tucker sont :

ÑL(x,m,l) = 0

h_i(x) = 0

m_i g(x) = 0

m_{i >= 0}

g_i(x) <= 0

Principe du maximum de Pontryagin

Il s'agit de déterminer une fonction u qui commande pendant un intervalle de temps [0,T] un système dont l'état est représenté par le vecteur X de Rⁿ, de façon optimale par rapport à un critère défini à chaque instant par f(X(t-1),u(t)) et un critère final m(X(T)).

Modèle discret

Le problème s'écrit ainsi :

Max J = S_t=1^Tf(X(t-1),u(t)) + m(X(T))

X(t) - X(t-1) = a(t,X(t-1),u(t)) t = 1...T

u(t) Î U ensemble des commandes possibles

X(0) = X₀

On définit le lagrangien de ce programme d'optimisation de la façon suivante :

L (X,u,l)= S_t=1^T(f(t,X(t-1),u(t) - l(t).(X(t)-X(t-1) - a(t,X(t-1),u(t)) + m(X(t)) + l(0).(X0-X(0))

(le . désigne le produit scalaire de vecteurs)

Il s'agit d'un problème d'optimisation avec contraintes d'égalité. Les conditions d'optimalité sont obtenues en dérivant le lagrangien :

¶L(x,l)/¶x_i = 0
¶L(x,l)/¶l_j = 0

Dans le cas présent, les inconnues sont les X(t) et les u(t). On peut considérer que le vecteur des inconnues est la "concaténation" des vecteurs X(t) et u(t).

Les conditions d'optimalité sont donc :

¶L(X,u,l)/¶x(t) = 0

¶L(X,u,l)/¶u(t) = 0

¶L(X,u,l)/¶l(t) = 0

c'est-à-dire :

en dérivant par rapport à X(t) (t=0...T-1) :

¶f(t,X(t-1),u(t))/¶X(t-1) + l(t)(1+¶a(t,X(t-1),u(t))/¶X(t-1)-l(t-1)=0

(le terme -l(t-1) provient de la dérivation du (t-1)ème terme du lagrangien)

en dérivant par rapport à X(T) :

-l(t)+m'(X(T)) = 0

en dérivant par rapport à u(t) :

¶f(t,X(t-1),u(t))/¶u(t) + l(t) ¶f(t,X(t-1),u(t))/¶u(t) = 0

en dérivant par rapport à l(t) on retrouve une des conditions du problème :

X(t) - X(t-1) = a(t,X(t-1),u(t))

Après simplification, on obtient :

X(t) - X(t-1) = a(t,X(t-1),u(t))
X(0) = X₀
l(t)-l(t-1) = -(¶f(t,X(t-1),u(t))/¶X(t-1) + l(t) ¶a(t,X(t-1),u(t))/¶X(t-1)), t=1...T
l(T)=m'(X(t))
¶f(t,X(t-1),u(t))/¶u(t) + l(t) ¶a(t,X(t-1),u(t))/¶u(t) = 0

Formulation lagrangienne et formulation hamiltonienne

On peut condenser ces relations de deux façons différentes en définissant une certaine fonction qui regroupe suffisemment d'informations pour qu'on puisse écrire ces relations à partir de cette fonction. Cette fonction est appelée lagrangien instantané (pour ne pas confondre avec le lagrangien "global" intégré sur le temps défini précédemment) dans le premier cas, et hamiltonien dans le deuxième cas.

Formulation lagrangienne

On appelle lagrangien instantané du système dynamique la fonction définie par :

L(t,X(t-1),dX(t-1),u(t),l(t))=f(t,X(t-1),u(t))-l(t).(dX(t-1)-a(t,X(t-1),u(t))

avec dX(t-1) = X(t)-X(t-1)

Les relations précédentes s'écrivent alors (en écrivant L(t) au lieu de L(t,X(t-1),dX(t-1),u(t),l(t)):

¶L(t)/¶l = 0
X(0) = X₀
¶L(t)/¶X(t-1) = ¶L(t)/¶dX(t) - ¶L(t-1)/¶dX(t)

l(T) = m'(X(T))
¶L(t)/¶u(t) = 0

Formulation hamiltonienne

On appelle hamiltonien du système dynamique la fonction définie par :

H(t,X(t-1),u(t),l(t)) = f(t,X(t-1),u(t)) + l(t) . a(t,X(t-1),u(t))

Les relations précédentes s'écrivent alors (en écrivant H(t) au lieu de H(t,X(t-1),u(t),l(t)):

X(t)-X(t-1) = ¶H(t)/¶l
X(0) = X₀
l(t)-l(t-1) = -¶H(t)/¶X(t-1)
l(T) = m'(X(T))
¶H(t)/¶u(t) = 0

Le modèle continu

Il s'agit de résoudre le programme d'optimisation suivant :

max J = ó ^T f(t,X(t),u(t))dt + m(X(T))
___________õ 0

dX(t)/dt = a(t,X(t),u(t))

u(t) Î U ensemble des commandes possibles

X(0) = X₀

Les résultats obtenus pour le modèle discret se généralisent au modèle continu.

Formulation lagrangienne

On appelle lagrangien instantané du système dynamique la fonction définie par :

L(t,X(t),V(t),u(t),l(t))=f(t,X(t),u(t))-l(t).(V(t)-a(t,X(t),u(t))

avec V(t) = dX(t)/dt

Les relations précédentes s'écrivent alors (en écrivant L(t) au lieu de L(t,X(t),dX(t)/dt,u(t),l(t)):

¶L(t)/¶l = 0
X(0) = X₀
¶L(t)/¶X(t) = d/dt (¶L(t)/¶V(t))

l(T) = m'(X(T))
¶L(t)/¶u(t) = 0

Formulation hamiltonienne

On appelle hamiltonien du système dynamique la fonction définie par :

H(t,X(t),u(t),l(t)) = f(t,X(t),u(t)) + l(t) . a(t,X(t),u(t))

Cette définition rappelle celle du hamiltonien en mécanique (H = p dq/dt - L) : -f correspond au lagrangien L, l correspond à l'impulsion p.

Les conditions d'optimalité s'écrivent alors (en écrivant H(t) au lieu de H(t,X(t),u(t),l(t)):

dX(t)/dt = ¶H(t)/¶l
X(0) = X₀
dl(t)/dt = -¶H(t)/¶X(t)
l(T) = m'(X(T))
¶H(t)/¶u(t) = 0

Le problème initial, difficile, consistant à trouver la fonction u optimale, est ainsi ramené à un problème plus simple consistant à déterminer les valeurs initiales (ou finales si on inverse le sens du temps) du vecteur adjoint l.

Système augmenté

On peut associer au système défini par

dX(t)/dt = a(t,X(t),u(t))

un système augmenté défini par

dX(t)/dt = a(t,X(t),u(t))
dX₀(t)/dt = f(t,X(t),u(t))

La coordonnée supplémentaire X₀ représente le gain cumulé dans le cas d'un problème de maximisation, ou le coût cumulé dans le cas d'un problème de minimisation.

Notons X'=(X,X₀) et a'=(a,f).

L'objectif :

max J = ó ^T f(t,X(t),u(t))dt + m(X(T))
___________õ 0

devient max J = m'(X'(T)) = X₀(T) + m(X(T)).

Le hamiltonien devient H'(t,X(t),u(t),l(t)) = l'(t) . a'(t,X(t),u(t)) avec l' = (l,1)

Théorème du principe du maximum de Pontryagin

Soit un système régi par les équations : dx_i/dt = f_i(x,u). Soit u(t), t₀ <= t <= t₁, une commande admissible telle que la trajectoire correspondante x(t), issue du point x₀ à l'instant t₀ passe à l'instant t₁ par un point de la droite D. Pour que la commande u(t) et la trajectoire x(t) soient optimales il est nécessaire qu'existe un vecteur fonction l(t) = l₀(t), l₁(t), ... , l_n(t)) continu et non nul, correspondant aux fonctions u(t) et x(t), tel que :

1° quel que soit t, t₀ <= t <= t1, la fonction H(l(t),x(t),u) de la variable u appartenant à U atteigne au point u = u(t) son maximum :
H(l(t),x(t),u(t)) = M(l(t),x(t))
avec H(l,x,u) = l . f(x,u) et M(l,x) = sup_uÎU H(l,x,u)
2° à l'instant final t₁ soient vérifiées les relations
l₀(t₁<=0, M(l(t₁),x(t₁)) = 0.

Si par ailleurs les grandeurs l(t), x(t) et u(t) satisfont aux systèmes :

dx_i/dt = ¶H/¶l_i, i=0...n
dl_i/dt = - ¶H/¶x_i
et à la condition 1°, les fonctions l₀(t) et M(l(t),x(t)) de la variable t sont constantes, de sorte qu'on peut vérifier la relation 2° non nécessairement à l'instant t₁, mais à un instant quelconque t compris entre t₀ et t₁.

Généralisations

On considère un système défini par

dX(t)/dt = a(t,X(t),u(t))

On veut déterminer une fonction u appartenant à un ensemble de commandes admissibles U qui conduit le système depuis un état X₀ appartenant à un sous-ensemble M₀ de Rⁿ jusqu'à un état X1 appartenant à un sous-ensemble M₁ de Rⁿ, et qui minimise un coût (ou maximise un gain) défini par :

C(T,u) =	ó ^T	f(t,x(t),u(t))dt + m(x(T))
	õ 0

On définit le hamiltonien de ce système :

H(t,X,l,l0,u) = l₀ f(t,X,u) + l.a(t,X,u)

Si la commande u est optimale, alors il existe une application l de [0,T] dans Rⁿ et un réel l ₀ tels que (l , l ₀) est non trivial et tels que pour presque tout t compris entre 0 et T on a :

dX(t)/dt = ¶H/¶l (t,X(t),l(t),l0,u(t))
dl(t)/dt = -¶H/¶X(t,X(t),l(t),l0,u(t))

H(t,X(t),l(t),l0,u(t)) = max _v_Î_U H(t,X(t),l(t),l0,v) presque partout entre 0 et T si l0 < 0 (remplacer max par min si l0 > 0)

Si u est continue au temps T, cette condition peut s'écrire H(t,X(t),l(t),l0,u(t)) = -l0 ¶m/¶t(T,X(T). Dans le cas où u ÎRn (c'est-à-dire qu'il n'y a pas de condition sur la commande) cette condition devient ¶H/¶u = 0

Si T n'est pas fixé, on a la condition de transversalité sur le hamiltonien : max_v_Î_U H(t,X(t),l(t),l0,u(t)) = -l0 ¶m/¶t(T,X(T))
Si M0 ou M1 a des espaces tangents T(X(0),M0) en X(0) et T(X(T),M1) en X(T) alors l peut être construit de façon à vérifier les conditions de transversalité sur le vecteur adjoint l:
- l(0) perpendiculaire à T(X(0),M0)
- l(T)-l0 ¶m/¶X(T,X(T)) perpendiculaire à T(X(T),M1)
d/dt H(t,X(t),l(t),l0,u(t)) = ¶H/¶t pour presque tout t entre 0 et T

Processus optimaux paramétrés

On considère un système gouverné par les équations :
dx_i/dt = f_i(x,u,w) i=1...n

On demande de choisir un vecteur w₀ valeur du paramètre w qui reste constante pendant toute la durée de l'évolution du système. On veut minimiser l'intégrale de t₀ à t₁ de f₀(x(t),u(t),w₀) dt.

Etant donnés une commande admissible u et un vecteur w₀ tels que la trajectoire associée x(t) vérifie les conditions x(t₀) = x₀, x₀(t₀) = 0, x(t₁) = x₁. Pour que les grandeurs u(t), x(t) et w₀ soient solution du problème optimal posé, il est nécessaire qu'existe un vecteur fonction l(t) continu et non nul tel que :

1° les fonctions x, l et u et le vecteur w₀ vérifient :
- dx_i/dt = ¶H(l(t),x(t),u(t),w₀)/¶l_i
- dl_i/dt = - ¶H/¶x_i
2° La fonction H atteigne au point u=u(t) son maximum :
H(l(t),x(t),u(t),w₀) = M(l(t),x(t),w₀
3° au point initial t₀ soient vérifiées les relations
- l₀(t₀ <= 0
- M(l(t₀),x(t₀),w₀) = 0
4° aient lieu les égalités
somme de a=0 à n de intégrale de t₀ à t₁ de l_a(t) ¶f_a(x(t),u(t),w₀)/¶w_r dt = 0, r=1...m

Si par ailleurs les grandeurs ¶(t), x(t), w₀ et u(t) satisfont aux conditions 1° et 2°, alors les fonctions ¶₀(t) et M(¶(t),x(t),w₀) de la variable t sont constantes, de sorte qu'on peut vérifier la condition 3° non nécessairement à l'instant t₀ mais à tout instant compris entre t₀ et t₁.

Processus optimaux à retard

L'évolution du système est décrit par le système d'équations :
dx(t)/dt = f(x(t),x(t-T),u(t)).

Soit u(t) une commande admissible telle que la trajectoire x(t) correspondante passe à un instant t₁ > t₀ par un point de la variété L. Pour que la commande u(t) soit optimale, il est nécessaire qu'existe un vecteur fonction l(t) non nul tel que :

1° pour tout t compris entre t₀ et t₁, H(l(t),x(t),x(t-T),u-t)) = M(l(t),x(t),x(t-T))
2° à l'instant final t₁ soient satisfaites les relations
- l₀(t₁) <= 0
- M(l(t₁),x(t₁),x(t₁-T)) = 0
3° le vecteur l(t₁) soit orthogonal au plan tangent au point x(t₁) à la variété S₁.

Exemple : commande optimale d'un ressort non linéaire

L'objectif est d'amener une masse fixée à un ressort d'une position initiale quelconque le plus près possible de sa position d'équilibre et de faire en sorte qu'elle se déplace le moins possible. L'état du système est décrit par (x,y) où x est la position de la masse et y sa vitesse. (x,y) est appelée position dans l'espace des phases. Le système est commandé par une force u exercée sur la masse, dont le coût est 1/2 u².

Les équations qui déterminent l'évolution du système sont :

dx/dt = y
dy/dt = -x-2x³+u

Formulation lagrangienne

Le lagrangien instantané est L = c_x x2 + c_y y2 + c_u u²+ l_x (y-v_x) + l_y(-x-2x³+u-v_y) avec v_x=dx/dt et v_y=dy/dt

Les conditions d'optimalité sont :

¶L/¶x = d/dt(¶L/¶v_x) => 2 c_x x - l_y(1+6x²) = -dl_x/dt => dl_x/dt = -2 c_x x + l_y(1+6x²)

¶L/¶y = d/dt(¶L/¶v_y) => 2 c_y y + l_x = -dl_y/dt => dl_x/dt = -2 c_y y - l_x

dl_y/dt = -¶H/¶y = -l_x=> l_x=-dl_y/dt => dl_y/dt=-l_x
¶L/¶u = 0 = 2 c_u u + l_y => u = -l_y/2c_u

Formulation hamiltonienne

Le hamiltonien est H = c_x x2 + c_y y2 + c_u u² + l_x y + l_y(-x-2x³+u)

Les conditions d'optimalité sont

dl_x/dt = -¶H/¶x = -2 c_x x + l_y(1+6x²)
dl_y/dt = -¶H/¶y = -2 c_y y -l_x
¶H/¶u = 0 = 2 c_u u + l_y => u = -l_y/2c_u

Exemple économique : modèle de Ramsey

Il s'agit de trouver la fonction c(t) optimale qui maximise l'utilité :

max U =	ó ^oo	u(c(t)) exp(-at) dt
	õ 0

La commande c(t) est la consommation au temps t. Le facteur exp(-at) permet de prendre en compte la préférence pour le présent.

Les équations qui régissent le système sont :

dk(t)/dt = f(k(t)) - c(t) - n k(t)
k(0) = k0
k(t)>=0, c(t)>=0

où k représente le capital et n le taux d'accroissement de la population.

Le hamiltonien est :

H(t) = u(c(t)) exp(-at) + m(t) (f(k(t)) - c(t) - n k(t))

On pose l(t) = m(t) exp(at), donc m(t) = l(t) exp(-at)

On a donc H(t) = exp(-at)(u(c(t)) + l(t)(f(k(t)) - c(t) - n k(t))

Les conditions d'optimalité sont :

¶H/¶c = 0 = u'(c(t)) - l(t) => l(t) = u'(c(t))
dm/dt = -¶H/¶k ou dl/dt = -¶H/¶k exp(at) + al = l (n-f'(k)+a)
lim(t->oo) k(t)(l(t) exp(-at)) = lim(t->oo)k(t)(u'(c(t)) exp(-at)) = 0

On élimine le multiplicateur l :

dl/dt = du'(c(t))/dt = u'(c(t)) (n - f'(k) + a)

=> (du'(c(t))/dt) / u'(c(t)) = n - f'(k) + a

<=> u''(c(t)) (dc(t)/dt) / u'(c(t)) = n - f'(k) + a

<=> (c(t) u''(c(t))/u'(c(t))) (dc(t)/dt)/c(t) = n - f'(k) + a

=> dc(t)/dt = u'(c(t))/u''(c(t)) (n - f'(k) + a)

Le sentier optimal est donc caractérisé par les conditions :

dk/dt = f(k) - c - n k
dc/dt = u'(c(t))/u''(c(t)) (n - f'(k) + a)
lim k(t)(u'(c(t)) exp(-at)) = 0

Equation de Hamilton - Jacobi - Bellman

Cette équation concerne des problèmes d'optimisation du même type que le principe de Pontryagin.

On considère un ensemble de problèmes paramétrés par l'état initial y et l'instant de départ s :

min J(y,s,u) =	ó ^T	f(t,x(t),u(t))dt + m(x(T))
	õ s

dx(t)/dt = a(t,x(t),u(t))

u(t) Î U ensemble des commandes possibles

x(s) = y

On définit :

V(y,s) = min_u_Î_UJ(y,s,u)

c'est-à-dire la valeur minimale de J(y,s,u) quand u parcourt U.

Si V est différentiable en (y,s) alors l'équation de Hamilton - Jacobi - Bellman est satisfaite :

¶V(x,t)/¶t + min (f(t,x,u) + ¶V(x,t)/¶x . a(t,x,u)) = 0

où ¶V(x,t)/dx désigne le gradient de V et . désigne le produit scalaire, c'est-à-dire :

¶V(x,t)/¶t + min (f(t,x,u) + S_i=1ⁿ¶V(x,t)/¶x_i a_i(t,x,u)) = 0

avec la condition finale :

V(T,x) = m(x)

En définissant le hamiltonien suivant :

H(x,t,l) = min_u_Î_U (f(t,x,u) + l . a(t,x,u)

l'équation de Hamilton - Jacobi - Bellman devient :

¶V(x,t)/¶t + H(x,t,¶V(x,t)/¶x) = 0

Cette équation rappelle l'équation de Hamilton - Jacobi en physique :

¶S/¶t + H(q,t,¶S/¶q) = 0

V correspond à l'action S.

Equation de Hamilton - Jacobi - Bellman : cas discret

On considère un système d'état x commandé par u, le nouvel état étant déterminé par :

x' = a_d(x,u)

On appelle V(x) le meilleur résultat qu'on peut obtenir à partir de l'état x. On a alors la forme discrète de l'équation d'Hamilton - Jacobi - Bellman :

V(x) = min _u_Î_U(x)(f_d(x,u) + V(x')) = min _u_Î_U(x)(f_d(x,u) + V(a_d(x,u)))

où f_d(x,u) désigne la valeur à minimiser (ou le coût) associée à l'état x et l'action u.

Si u* est l'action optimale, on a :

V(x) = f_d(x,u*) + V(a_d(x,u*))

Cette égalité est la forme discrète du principe de Pontryagin. On peut l'écrire sous la forme :

V(a_d(x,u*)) - V(x) = -f_d(x,u*)

Equation de Hamilton - Jacobi - Bellman : cas continu

L'équation d'évolution du système est :

dx/dt = a(x,u)

V(x') peut être approché par :

V(x) + S_i=1ⁿ¶V/¶x a_i(x,u)dt

Etant donné que fd(x,u) = f(x,u) dt, on a donc :

V(x) = min _u_Î_U(x)(f(x,u)dt + V(x) + S_i=1ⁿ¶V/¶x_i a_i(x,u)dt)

ce qui se simplifie en soustrayant V(x) et en divisant par dt pour obtenir l'équation de Hamilton - Jacobi - Bellman (forme continue) :

min _u_Î_U(x)(f(x,u) + S_i=1ⁿ¶V/¶x_i a_i(x,u)) = 0

Si on applique cette équation à la commande optimale u* on obtient :

f(x,u*) + S_i=1ⁿ¶V/¶x_i a_i(x,u*) = 0

ou

S_i=1ⁿ¶V/¶x_i a_i(x,u) = -f(x,u)

Dans le cas où f et a dépendent de t, cette équation se généralise en :

min_u_Î_U(x) (f(t,x,u) + ¶V(x,t)/¶t + S_i=1ⁿ¶V(x,t)/¶x_i a_i(t,x,u)) = 0

que l'on peut aussi écrire :

¶V(x,t)/¶t + min_u_Î_U(x) (f(t,x,u) + S_i=1ⁿ¶V(x,t)/¶x_i a_i(t,x,u)) = 0

Equation de Hamilton - Jacobi - Bellman et principe de Pontryagin

On peut retrouver le principe de Pontryagin à partir de l'équation de Hamilton - Jacobi - Bellman. Ce principe peut être considéré comme une spécialisation de l'équation d'Hamilton - Jacobi - Bellman appliquée à la commande optimale u*. Il est donné par l'équation précédemment obtenue :

f(x,u*) + S_i=1ⁿ¶V/¶x_i a_i(x,u*) = 0

On définit :

l_i = ¶V/¶x_i

H(x,u,l) = f(x,u) + S_i=1ⁿl_ia_i(x,u)

L'équation d'Hamilton - Jacobi - Bellman donne :

H(x(t),u*(t),l(t)) = 0

La commande optimale u* est celle qui minimise H(x(t),u*(t),l(t)).

Si u* est déterminé par x, c'est-à-dire u*=p*(x), alors le hamiltonien est une fonction de x et l uniquement : H(x,l) = f(x,p*(x)) + S_i=1ⁿl_ia_i(x,p*(x))

On a alors en différentiant par rapport à x :

¶f(x,p*(x))/¶x_i + S_j=1ⁿ ¶l_j/¶x_ia_j(x,p*(x)) + S_i=1ⁿ l_i¶a_i(x,p*(x))/¶x_i = 0

car le hamiltonien est égal à 0 le long de la trajectoire optimale.

Etant donné la définition de l_i = ¶V/¶x_ion a ¶l_i/¶x_j= ¶/¶x_j¶/¶x_iV = ¶/¶x_i¶/¶x_jV = ¶l_j/¶x_i

Donc dl_i/dt = S_j=1ⁿ ¶l_i/¶x_jdx_j/dt

= S_j=1ⁿ ¶l_j/¶x_idx_j/dt

= S_j=1ⁿ ¶l_j/¶x_i a_j(x,p*(x))

On a donc

¶f(x,p*(x))/¶x_i + dl_i/dt + S_i=1ⁿ l_i¶a_i(x,p*(x))/¶x_i = 0

donc

dl_i/dt = - ¶f(x,p*(x))/¶x_i - S_i=1ⁿ l_i¶a_i(x,p*(x))/¶x_i = - ¶H/¶x_i

_avec

H(x,u,l) = f(x,u) + S_i=1ⁿl_ia_i(x,u)

Commandabilité

Un système est commandable ou contrôlable si pour tous x0 et x1 il existe un temps T et une fonction de commande u amenant le système de x0 à x1 pendant le temps T.

Si le système est linéaire c'est-à-dire défini par dx/dt = f(x,u) = Ax + Bu alors le système est commandable si la matrice de commandabilité M = (B, AB, A²B, ... , A^n-1B) a le rang maximum. Si le système n'est pas linéaire, la matrice de commandabilité peut être calculée à partir d'une version linéarisée du système.

Théorie des jeux discrets

Considérons un jeu à m joueurs avec un ensemble E de positions. A chaque position est associée un joueur à qui c'est le tour de jouer, ainsi qu'un ensemble de positions accessibles. Parmi toutes les positions, certaines sont des positions finales, à partir desquelles aucune position n'est accessible. A ces positions on associe un vecteur de m valeurs correspondant aux gains des joueurs. On peut également associer à chaque position un vecteur de m valeurs correspondant au vecteur final obtenu si chaque joueur joue le mieux possible. On peut déterminer ce vecteur de valeurs pour chaque position en partant des positions finales et en remontant vers la ou les positions initiales de la façon suivante : soit une position pour laquelle c'est au tour du joueur i de jouer. On peut déterminer son vecteur de valeurs si les vecteurs de valeurs de toutes les positions accessibles à partir de cette position ont été déterminés. Il s'agit du vecteur de valeurs dont la i-ème composante est maximale.

Cas particulier des jeux à 2 joueurs et à somme nulle

Dans de cas, le vecteur valeur est de la forme (v, -v) et peut être remplacé par un simple nombre v que le joueur 1 cherche à maximiser et le joueur 2 à minimiser.

Jeux différentiels : généralisation de la théorie d'Isaacs aux jeux à plusieurs joueurs et à somme non nulle

Un jeu différentiel est un système commandé par plusieurs joueurs. C'est un jeu continu que l'on peut obtenir par passage à la limite à partir d'un jeu discret.

L'état du jeu est représenté par un vecteur x = (x1, ..., xn) dont l'évolution est déterminée par l'équation dx_j/dt = a_j(x,u) où u est une matrice avec u_ik = k-ième composante de la commande du joueur i.

Le gain du joueur i est l'intégrale de f_i(x,u) dt + H_i(s) où s est l'état final.

Lors de ce passage à la limite, la méthode de détermination du vecteur de valeurs des jeux discrets aboutit à l'équation :

max(u1,1) ... max(un,n) S_j (¶V_i/¶x_ja_j(x,u) + f_i(x,u)) = 0

avec max(ui,i) = vecteur dont la i-ème composante est maximale obtenu en faisant varier ui.

En fonction d'une position x et du gradient du vecteur de valeurs V ( l = grad V ) avec l_ij = ¶V_i/¶x_j on détermine la commande optimale correspondante notée u*(x,l).

On a alors :

S_j ¶V_i/¶x_j a_j(x,u*(x,l) + f_i(x,u*(x,l) = 0.

En dérivant par rapport à x_k on obtient :

d/dt ¶V_i/¶x_k + S_j¶V_i/¶x_j ¶a_j/¶x_k(x,u*(x,l)) + ¶f_i/¶x_k(x,u*(x,l)) = 0

En définissant le hamiltonien H_i = S_j ¶V_i/¶x_j a_j(x,u*) + f_i(x,u*)

on obtient :

dl_ik/dt = d/dt ¶V_i/¶x_k = - ¶H_i/¶x_k

Cas des jeux à 2 joueurs et à somme nulle

Le vecteur valeur V est de la forme (v, -v) et peut être remplacé par un simple nombre.

L'équation

max(u1,1) ... max(un,n) S_j (¶V_i/¶x_ja_j(x,u) + f_i(x,u) = 0

devient : max_u1 min_u2 S_j (¶V/¶x_ja_j(x,u1,u2) + f(x,u1,u2) = 0

On retrouve l'équation ME d'Isaacs.

L'équation

S_j ¶V_i/¶x_j a_j(x,u*(x,l) + f_i(x,u*(x,l) = 0.

devient

S_j ¶V/¶x_j a_j(x,u*(x,l) + f(x,u*(x,l) = 0.

On retrouve l'équation ME2 d'Isaacs.

Cas d'un jeu à un joueur

On retrouve le problème de la commande optimale.

L'équation

d/dt ¶V_i/¶x_k + S_j¶V_i/¶x_j ¶a_j/¶x_k(x,u*(x,l)) + ¶f_i/¶x_k(x,u*(x,l)) = 0

devient

d/dt ¶V/¶x_k + S_j¶V/¶x_j ¶a_j/¶x_k(x,u*(x,l)) + ¶f_i/¶x_k(x,u*(x,l)) = 0

Cette équation est équivalente à l'équation de Hamilton - Jacobi - Bellman, étant donné d'une part qu'on a S_j¶V/¶x_j ¶a_j/¶x_k(x,u*(x,l)) + ¶f_i/¶x_k(x,u*(x,l)) = max_u ( S_j¶V/¶x_j ¶a_j/¶x_k(x,u) + ¶f_i/¶x_k(x,u) ) et d'autre part qu'ici on a choisi par convention de maximiser la valeur.

En définissant le hamiltonien H = S_j ¶V/¶x_j a_j(x,u*) + f_i(x,u*)

l'équation

dl_ik/dt = d/dt ¶V_i/¶x_k = - ¶H_i/¶x_k

devient

dl_k/dt = d/dt ¶V/¶x_k = - ¶H/¶x_k

Généralisation des multiplicateurs de Lagrange

Le joueur i veut minimiser f_i(x,u1,...,un) avec h(x,u1,...,un) = 0. Le joueur i peut faire varier x et ui.

Les composantes de grad fi dans les directions de x et ui sont colinéaires aux composantes de grad h selon ces mêmes directions :

dfi/dx + li . dhi/dx = 0
dfi/dui + li . dhi/dui = 0

On définit le lagrangien de façon similaire:

Li = fi + li . h

et on a alors :

dLi/dx = 0
dLi/dui = 0
dLi/dli = 0

On a également une généralisation du principe de Pontryagin et de l'équation de Hamilton - Jacobi - Bellman avec des formules similaires où on ajoute un indice correspondant au numéro du joueur aux variables f, l, m, L, H, V, et u lorsqu'on dérive par rapport à u, sinon u désigne le vecteur de fonctions (u1, ... , un).

Résolution des jeux différentiels par la méthode hamiltonienne

Un jeu différentiel est un système dont l'état X évolue en fonctions des commandes de n joueurs selon la loi :

X(0) = X₀

dX(t)/dt = a(t,X(t),u₁(t), ... ,u_n(t))

avec u_i(t) Î U ensemble des commandes possibles

ou dX(t)/dt = a(t,X(t),U(t)) avec U(t) = (u₁(t), ... ,u_n(t))

Chaque joueur a pour objectif de minimiser (ou maximiser) sa fonction de coût (ou de gain) :

min J_i(y,s,u) =	ó ^T	f_i(t,x(t),U(t))dt + m_i(x(T))
	õ s

On définit un hamiltonien H_iet un vecteur adjoint l_ipour chaque joueur :

H_i(t,X(t),U(t),l_i(t)) = f_i(t,X(t),u(t)) + l_i(t) . a(t,X(t),U(t))

Les conditions d'optimalité sont :

dX(t)/dt = ¶H_i(t)/¶l_i

X(0) = X₀

dl_i(t)/dt = -¶H_i(t)/¶X(t)

l_i(T) = m_i'(X(T))

¶H_i(t)/¶u_i(t) = 0

L'équilibre de Nash consiste à déterminer les valeurs initiales ou finales des vecteurs l_ide sorte que si on remplace un des l_ipar une autre valeur, le résultat sera moins bon pour le joueur i.

Exemple : jeu de poursuite

Un chauffeur poursuit un piéton en voiture. Son but est de s'approcher le plus possible du piéton. Le but du piéton est de s'éloigner le plus possible de la voiture. La voiture est limité dans ses possiblilités de virage : le coût d'un changement de direction est proportionnel au carré de l'angle. Le piéton change de direction comme il veut. Tous deux ont une vitesse constante.

L'état peut être décrit par les coordonnées (x1,y1) de la voiture et sa direction a, et les coordonnées (x2,y2) du piéton. On peut le décrire de façon plus compacte par le vecteur voiture -> piéton de composantes (x,y) avec x=x2-x1 et y=y2-y1.

Les équations du mouvement sont alors :

dx/dt = - v1 cos a + v2 cos u2
dy/dt = - v1 sin a + v2 sin u2
da/dt = v1/L u1

Le hamiltonien du chauffeur est :

H1 = u1² + x² + y² + px1 (- v1 cos a + v2 cos u2) + py1 (- v1 sin a + v2 sin u2) + pa1 v1/L u1

(avec l₁=( px1 py1 pa1 )' et l₂=( px2 py2 pa2 )' )

et celui du piéton :

H2 = - x² - y² + px2 (- v1 cos a + v2 cos u2) + py2 (- v1 sin a + v2 sin u2) + pa2 v1/L u1

Les conditions d'optimalité sont :

d px1/dt = -¶H₁/¶x = -2x
d py1/dt = -¶H₁/¶y = -2y
d pa1/dt = -¶H₁/¶a = v1 (- px1 sin a + py1 cos a)

d px2/dt = -¶H₂/¶x = 2x

d py2/dt = -¶H₂/¶y = 2y

d pa2/dt = -¶H₂/¶a = v1 (- px2 sin a + py2 cos a)

¶H₁/¶u₁ = 0 = 2 u₁ + pa1 v1/L => u₁ = -1/2 pa1 v1/L
¶H₁/¶u₂= 0 = v2 (- px2 sin u2 + py2 cos u2)
=> px2 sin u2 = py2 cos u2

=> sin u2 / cos u2 = py2 / px2

=> tg u2 = py2 / px2

=> u2 = arctg (py2/px2)

Programme SCILAB

Taper par exemple : [px1,py1,pa1,px2,py2,pa2]=solve(1,0.01,10)


function [r]=plotpoint(x,y)
 xrect(x,y,0,0)
//plot([x,x],[y,y]);
r=0;
endfunction

// function [r]=traj ( )
// function [sl1,sl2]=traj(fp,T,px1,py1,pa1,px2,py2,pa2)

function [sl1,sl2]=traj(fp,T,p1,p2)
px1=p1(1)
py1=p1(2)
pa1=p1(3)

px2=p2(1)
py2=p2(2)
pa2=p2(3)

pi = 3.1415926

dt=0.04
// T=5

v1=5
v2=3
L=2

xmin=-10
xmax=10
ymin=10
ymax=-10



// function [r]=traj()

sl1=0
sl2=0
x1=0
y1=0
x2=-3
y2=1
x=x2-x1
y=y2-y1
a=0
// px1=0
// py1=0
// pa1=0
// px2= 1
// py2=1
// pa2=1

// clf
if (fp > 0)
 xclear()
 plot([xmin,xmax,xmax,xmin],[ymin,ymin,ymax,ymax])
end

// axis([xmin,xmax,ymin,ymax])
// hold on

for t=0:dt:T

 u1=-0.5*pa1*v1/L;
 // u2=atan(py2/px2) ;
u2 = imag(log(px2+sqrt(-1)*py2));

 x1=x1 +dt*v1*cos(a);
 y1=y1 +dt*v1*sin(a);

 x2=x2 +dt*v2*cos(u2);
 y2=y2+dt*v2*sin(u2);

 x=x2-x1;
 y=y2-y1;

if fp 
 plotpoint(x1,y1);
 plotpoint(x2,y2);
 plotpoint(xmin+(xmax-xmin)*t/T,sl1/8);
plotpoint(xmin+(xmax-xmin)*(1-t/T),sl2/8);
end

 a=a+dt *v1/L*u1;

 px1 =px1+dt* (-2*x);
 py1=py1+dt*(-2*y);
 pa1=pa1+dt*(v1*(-px1*sin(a)+py1*cos(a)));

 px2 =px2+dt*(2*x);
 py2=py2+dt*(2*y);
 pa2=pa2+dt*(v1*(-px2*sin(a)+py2*cos(a)));

 sl1=sl1 +dt *(u1^2+x^2 +y^2);
 sl2=sl2+dt*(-x^2-y^2);


end
r=0
endfunction

// traj()

function r=test()
fp=1
T=5
px1=0
py1=0
pa1=0
px2= 1
py2=1
pa2=1
p1=[px1,py1,pa1]
p2=[px2,py2,pa2]
traj(fp,T,p1,p2 )
r=0
endfunction

function [sl1,sl2,p1,p2]=solve(T,eps,m)

px1=0
py1=0
pa1=0
px2=1.01
py2=1.01
pa2=1

p1=[px1,py1,pa1]
p2=[px2,py2,pa2]

dp=0.5

s=0

while 1 

 s=s+1
 if s>m 
  break
 end

 // plotpoint(px1/10,px2/10)
 // plotpoint(py1/10,py2/10)
// plotpoint(pa1/10,pa2/10)
 
 [sl1,sl2] = traj(1,T,p1,p2)
 printf("sl1=%f sl2=%f\n",sl1,sl2)
 disp(p1,p2)

 sl1p = sl1
 sl2p = sl2

af=0

for i=1:3
p1(i)=p1(i)+dp
// clf
 if (af>0) 
  xclear() 
 end
 [sl1t,sl2t] = traj(af,T,p1,p2)
 if sl1t < sl1
  printf ("amelioration pour 1\n") 
  sl1=sl1t
  sl2=sl2t
  if (af==0)
   traj(1,T,p1,p2)
   printf("sl1=%f sl2=%f\n",sl1,sl2)
   disp(p1,p2)
  end
 else
 p1(i)=p1(i)-2*dp
// clf
if (af>0)
xclear()
end
  [sl1t,sl2t] = traj(af,T,p1,p2)
  if sl1t < sl1 
   printf ("amelioration pour 1\n") 
   sl1=sl1t
   sl2=sl2t
   if (af==0)
    traj(1,T,p1,p2)
    printf("sl1=%f sl2=%f\n",sl1,sl2)
    disp(p1,p2)
   end
  else
   p1(i) =p1(i)+dp
  end
 end

p2(i)=p2(i)+dp
// clf
if (af>0)
 xclear()
end
[sl1t,sl2t] = traj(af,T,p1,p2)
 if sl2t < sl2 
  printf ("amelioration pour 2\n") 
  sl1=sl1t
  sl2=sl2t
  if (af==0)
   traj(1,T,p1,p2)
   printf("sl1=%f sl2=%f\n",sl1,sl2)
   disp(p1,p2)
  end
 else
  p2(i)=p2(i)-2*dp
 // clf
 if (af>0)
 xclear()
 end
  [sl1t,sl2t] = traj(af,T,p1,p2)
  if sl2t < sl2 
   printf ("amelioration pour 2\n") 
   sl1=sl1t
   sl2=sl2t
   if (af==0)
    traj(1,T,p1,p2)
    printf("sl1=%f sl2=%f\n",sl1,sl2)
    disp(p1,p2)
   end
  else
   p2(i)=p2(i)+dp
  end
 end

end

 if ((sl1==sl1p) & (sl2==sl2p)) 
  dp=dp/2
 // else
 // dp=dp*2
 end

 if dp<eps 
   break
 end

end

px1=p1(1)
py1=p1(2)
pa1=p1(3)

px2=p2(1)
py2=p2(2)
pa2=p2(3)

traj(1,T,p1,p2)

r=0
endfunction

Equation de Hamilton - Jacobi - Bellman - Isaacs

Cette équation est une généralisation de l'équation de Hamilton - Jacobi - Bellman qui s'applique aux jeux différentiels à somme nulle avec 2 joueurs. L'équation est :

min_u_Î_U max_v_Î_U'(f(t,x,u,v)+¶V(x,t)/¶t+¶V(x,t)/¶x.a(t,x,u,v)) = 0

ou min_u_Î_U max_v_Î_U' H = 0

avec H = f(t,x,u,v)+¶V(x,t)/¶t+¶V(x,t)/¶x.a(t,x,u,v)

La différentiation donne l'équation :

dp_i/dt = - ¶H/¶x_i

avec p_i=¶V(x,t)/¶x

ou en notation matricielle :

dp/dt = -(¶f/¶x)' p

Exemple : le jeu du chauffeur homicide

Un chauffeur conduisant un véhicule circulaire de rayon b, de vitesse constante v1 = 1 avec un rayon de braquage limité, veut écraser un piéton qui vourt à la vitesse v2.

La commande du chauffeur est la déviation de sa trajectoire u1 avec la contrainte abs(u1)<=1. Celle du piéton est sa direction u2.

Dans le repère orthonormé centré sur le centre du véhicule avec l'axe x2 dirigé vers le piéton, les équations sont :

dx1/dt = -u1 x2 + v2 sin u2
dx2/dt = -1 + u1 x1 + v2 cos u2

Le chauffeur gagne si x1² + x2² <= b²

Le hamiltonien est :

H = p1 (-u1 x2 + v2 sin u2) + p2 (-1 + u1 x1 + v2 cos u2)

L'équation d'Isaacs min u1 max u2 H = 0 donne les valeurs optimales suivantes des commandes :

u1 = signe(p1 x2 - p2 x1)

sin u2 = p1/(p1²+p2²), cos u2 = p2/(p1²+p2²)

et l'évolution des variables adjointes :

avec le hamiltonien :
- dp1/dt = - ¶H/¶x₁ = - p2 u1
- dp2/dt = - ¶H/¶x₂ = p1 u1
avec le calcul matriciel :

¶f/¶x =

(¶f1/¶x1 ¶f1/¶x2)

(¶f2/¶x1 ¶f2/¶x1)

=

(0 -u1)

(u1 0)

dp/dt = -(¶f/¶x)' p =

(-p2 u1)

(p1 u1)

Références

Fritz Reinhardt et Heinrich Soeder, Atlas des mathématiques, Le Livre de Poche
L. Pontryaguine, V. Boltianski, R. Gamkrélidzé, E. Michtchenko, Théorie mathématique des processus optimaux, Editions de Moscou
Jacques Gauvin, Leçons de programmation mathématiques, Editions de l'Ecole Polytechnique de Montréal
Stéphane Mottelet, Optimisation non-linéaire, Université de Technologie de Compiègne - http://www.iro.umontreal.ca/~marcotte/Ift3512/Compiegne.pdf
Jacques Thépot, Optimisation pour l'économie d'entreprise, Dalloz
Numerical Solution of Hamilton-Jacobi-Bellman Equations by an Exponentially Fitted Finite Volume Method - http://www.cert.fr/colloques/bail2004/ fichiers/Authors/Richardson-Wang.pdf
Steven M. LaValle, Planning Algorithms, University of Illinois - http://msl.cs.uiuc.edu/planning/
Jean-Christophe Culioli, Introduction à l'optimisation
Emmanuel Trélat, Contrôle optimal, théorie et applications, Université Paris-Sud - http://www.math.u-psud.fr/~trelat/publications.html
Maïtine Bergounioux, Optimisation et contrôle des systèmes linéaires, Dunod
Rufus Isaacs, Differential Games, Dover
S. S. Sastry, Lectures in Optimal Control and Dynamical Games - http://www.vuse.vanderbilt.edu/ ~kootj/Class/2001/Spring/optimal.ps
Game Theory 1999 - http://www.control.lth.se/education/game99/
Ekkehard Ernst, Mémoire majeur DEA économie des institutions : Jeux différentiels et analyse dynamique des institutions - http://pythie.cepremap.cnrs.fr/~ernst/pdfdoc/majeur_97.pdf
Katheline Schubert, Macroéconomie Comportements et croissance, Vuibert
David Romer, Macroéconomie approfondir, McGraw-Hill/Ediscience
E. Malinvaud, Théorie macroéconomique, Dunod
Analyse macroéconomiques, Repères La Découverte
Jean-Luc Gaffard, Croissance et fluctuations économiques, Montchrestien
Les théories de la croissance endogène - http://marquet.u-bordeaux4.fr/documents1/7Crendogene.pdf

Théorème du principe du maximum de Pontryagin

Processus optimaux paramétrés

Processus optimaux à retard

Théorie des jeux discrets

Cas particulier des jeux à 2 joueurs et à somme nulle

Jeux différentiels : généralisation de la théorie d'Isaacs aux jeux à plusieurs joueurs et à somme non nulle

Cas des jeux à 2 joueurs et à somme nulle

Cas d'un jeu à un joueur

Généralisation des multiplicateurs de Lagrange

Résolution des jeux différentiels par la méthode hamiltonienne

Chaque joueur a pour objectif de minimiser (ou maximiser) sa fonction de coût (ou de gain) :

On définit un hamiltonien Hi et un vecteur adjoint li pour chaque joueur :

Les conditions d'optimalité sont :

L'équilibre de Nash consiste à déterminer les valeurs initiales ou finales des vecteurs li de sorte que si on remplace un des li par une autre valeur, le résultat sera moins bon pour le joueur i.

Programme SCILAB

On définit un hamiltonien H_iet un vecteur adjoint l_ipour chaque joueur :

L'équilibre de Nash consiste à déterminer les valeurs initiales ou finales des vecteurs l_ide sorte que si on remplace un des l_ipar une autre valeur, le résultat sera moins bon pour le joueur i.