Les réseaux de neurones

d'après le livre de Hervé Abdi

Valeurs singulières d'une matrice rectangulaire quelconque

Soit A une matrice rectangulaire. On peut exprimer cette matrice comme :

A = P D Q^T

avec :

P : les vecteurs propres de la matrice A A^T (P^T P = I)
Q : les vecteurs propres de la matrice A^T A (Q^T Q = I)
D : la matrice des valeurs singulières, D = L^1/2 avec L étant la matrice diagonale des valeurs propres de la matrice A A^T et de la matrice A^T A.

On a :

A A^T = P L P^T
A^T A = Q L Q^T

Exemple :

    (  1.1547 -1.1547 )
A = ( -1.0774  0.0774 )      
    ( -0.0774  1.0774 )    

    ( 0.8165  0      )
P = (-0.4082 -0.7071 )    
    (-0.4082  0.7071 )

Q = ( 0.7071 -0.7071 )    
    ( 0.7071  0.7071 )

D = ( 2 0 )    
    ( 0 1 )

Pseudo-inverse

A⁺ = Q D^-1 P^T

= (  0.2887 -0.6443  0.3557 )  
  ( -0.2887 -0.3557  0.6443 )

Mémoires hétéro-associatives linéaires

Sortie o_j = c ( S_i^I x_i w_i,j) (III.1)

Avec :

a_j : activation de la j^ième cellule de sortie.
o_j : réponse de la j^ième cellule de sortie.
x_i : valeur de sortie de la i^ième cellule de la rétine.
w_i,j : intensité de la connexion entre la i^ième cellule d'entrée et la j^ième cellule de sortie.
W = matrice des w_i,j.
X = matrice des x_i,k (valeur de sortie de la j^{ième cellule de la rétine pour le k^ième stimulus).}
A = matrice des a_j,k (activation de la j^ième cellule de sortie pour le k^ième stimulus).
O = matrice des o_j,k (réponse de la j^ième cellule de sortie pour le k^ième stimulus).
T = matrice des t_j,k (réponse désirée de la j^{ième cellule de sortie pour le k^ième stimulus).}

Le problème est de trouver W tel que pour tout k, t_k = o_k = W^T x_k.

Règle de Hebb : w_i,j = t_j x_i.

Règle de Widrow-Hoff :
w_i,j^(t+1) = w_i,j^(t) + n (t_j - o_j) x_i
avec t = réponse théorique désirée, n = constante positive.

Valeurs optimales pour les poids

On cherche w tel que o = X^T w minimise e^T e avec e = t - o.
Si les stimuli d'entrée sont linéairement indépendants, la solution est w = X (X^T X)^-1 t.
Dans ce cas, o = X^T w = X^T X (X^T X)^-1 t = t.
Lorsque les stimuli d'entrée ne sont pas linéairement indépendants, X^T X n'est pas inversible et une solution n'est pas assurée. Dans le cas où le nombre de stimuli est inférieur au nombre de cellules d'entrée, une solution, si elle existe, s'obtient via l'inverse généralisée de Moore-Penrose : w = X⁺ t.

Valeurs et vecteurs propres

La règle de Widrow-Hoff n'agit que sur les valeurs propres de la matrice de connexions W.
X = P D Q^T

En réécrivant (III.1) en notation matricielle, le problème est de trouver W telle que O = W^T X avec la contrainte :
min = trace ((T-O)^T (T-O))

On peut exprimer la méthode de Widrow-Hoff par :
W^(t+1)T = W^(t)T + n (T - W^(t)T X) X^T

Lorsque n est convenablement choisi, l'apprentissage converge vers W^(oo) = W~ = T X⁺

On a : W^(t) = T Q (D^-1 (I - (I - n L)^t)) P^T

W^(t+1)T = W^(t)T + n (T - W^(t)T X) X^T= ...
= T Q ( F^(t) + n L (D^-1 - F^(t))) P^T
On montreF^(t) = D^-1 ( n L S_i=0^t-1 (I - n L)ⁱ)

Les mémoires auto-associatives linéaires

W_ij = poids de la connexion du neurone i vers le neurone j
X_ik = état du neurone d'entrée i dans l'expérience k

Vecteurs et valeurs propres

X = P D Q^T

(Q^T = transposée de Q)

W = X X^T = P D Q^T Q D P^T = P D² P^T = P L P^T

Avec constante d'apprentissage n :
n W = n P L P^T = P n L P^T

Apprentissage de Widrow-Hoff :

W^(t) = P (I – (I – nL)^t)P^T
La procédure converge si lim_t->oo (I - n L)t = 0

W(oo) = W~ = P I P^T = P P^T

O = W~ X = P P^T X = P P^T P D Q^T = P D Q^T = X

Composantes principales

Le rappel d'un stimulus après apprentissage avec la loi de Widrow-Hoff par la mémoire est équivalent à l'ACP, qui revient à définir la décomposition en valeurs et vecteurs propres de W. On cherche une matrice P (IxL) telle que F = P^T X avec F F^T = P^T X X^T P diagonale avec 1er élément (1ère valeur propre) maximal et P^T P = I.

On définit le lagrangien L = F F^T - L (P^T P - I) = P^T X X^T P - L (P^T P - I)
que l'on dérive : dL/dP = 2 X X^T P - 2 L P = 0
donc X X^T P = L P avec L diagonale : problème de valeurs et vecteurs propres
P est la matrice des vecteurs propres de X X^T = W et L est la matrice des valeurs propres.

Donc les coefficients des stimuli sont :
F = P^T X = P^T P = P D Q^T = DQ^T
et
F F^T = D Q^T Q D = L.

Le rappel de la mémoire s'écrit : O = W^(t)^T X = P F^(t) P^T X avec F^(t) = I - (I - n L)^t

La matrice P^T X est la matrice de projection de X sur les vecteurs propres P. On a :
P^T X = P^T D Q^T = D Q^T = F
et
O = W^(t) X = P F^(t) F.

L'ACP revient à définir la décomposition en valeurs et vecteurs propres de W. On veut trouver P tel que F = P^T X avec F F^T diagonale et P^T P = I.

Extraction de vecteurs propres

Construire un réseau qui trouve les vecteurs propres de W : variante de la puissance itérée et de la déflation. La puissance itérée revient à implémenterla loi de Hebb de manière répétitive :

W^(t+1) = W^t + D W = W^(t) + n X O^(t)T avec O^(t) = W^(t) X

On commence par initialiser la matrice W⁽⁰⁾ = n X X^T = P (n L) P^T
puis W⁽¹⁾ = W⁽⁰⁾ + n X O^T = W⁽⁰⁾ + n X X^T W⁽⁰⁾ = P (n L (I + n L)) P^T
puis W^(t+1) = W^(t) + n X O^T= P (n L (I + n L)^t) P^T

Normaliser la réponse pour éviter l'explosion : règle de Oja :W^(t+1) = 1/b W^^(t).
Choisir b tel que ||W^(t+1)|| = 1.

W'(oo) = p₁ p₁^T

Pour trouver les vecteurs propres suivants utiliser la déflation :
W^- = W - p₁ p₁^T

Les mémoires auto-associatives non linéaires : les réseaux de Hopfield

a_j = S_i^I x_i w_i,javec :

a_j = activation de la j^ème cellule du réseau.
x_i : valeur de sortie +1 ou -1 de la i^ème cellule du réseau.
w_i,j : intensité de la connexion entre la i^èmecellule et la j^ème cellule. La connexion entre une cellule et elle-même est toujours supposée égale à 0 : w_i,i = 0.

o_j = x_j = sgn(a_j - theta)

Energie E = -1/2 S_i,j w_i,j x_i y_j - S_j theta_j x_j= -1/2 x^T W x - x^T theta

Rétro-propagation de l'erreur et réseaux à couches cachées

Minimiser la fonction d'erreur.

La fonction d'erreur pour la k-ième réponse est :

E_k = 1/2 (t_k - o_k)^T(t_k - o_k)

(@ = dérivée partielle)

Correction pour la couche de sortie :

@E_k/@Z = @E_k/@o_k @o_k/@Zh_k @Zh_k/@Z

avec o = sorties, h = intermédiaires, Z = connexions

@E_k/@o_k = - (t_k - o_k)^T
@o_k/@Zh_k = o_k^T (*) (1-o_k)^T
@Zh_k/@Z = h_k

-@E_k/@Z = (t_k - o_k)^T (*) o_k^T (*) (1 - o_k)^T h_k

Correction pour la couche cachée :

@E_k/@W = @E_k/@o_k@o_k/@Zh_k@Zh_k/@h_k@h_k/@Wx_k@Wx_k/@W_k

@Zh_k/@h_k = Z^T
@h_k/@Wx_k = h_k^T (*) (1 - h_k)^T
@Wx_k/@W_k = x_k

Apprentissage symbolique - Apprentissage à partir d'algorithmes génétiques par Kenneth de Jong

Rétropropagation

@E/@y_j = S_k@E/@y_k dy_k/dx_k dx_k/dy_j= S_k @E/@y_k dy_k/dx_k w_kj