Introduction aux Statistiques


Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L



  6.6. L’analyse en composantes principales

Rappel : Les données de base sont des variables quantitatives, continues, homogènes ou non, a priori corrélées entre elles deux à deux.

Supposons les variables d'origine très hétérogènes du point de vue de leurs moyennes. par exemple certaines variables comptées en centimètres, d'autres en mètres. En analysant ces données brutes on ne verra apparaitre que les effets dus aux mesures brutes, c'est-à-dire aux unités de mesures. Pour réduire cet effet, on transforme la matrice des données.

On remplacera le tableau X de départ par le tableau X' en soustrayant la moyenne arithmétique calculée sur les mesures de la colonne (variables) et en divisant le résultat par la racine carrée du nombre de mesures.

Désormais, supposons les variables d'origine, non seulement hétérogènes quant à leurs moyennes, mais également quant à leur dispersion et quant à leur nature (les unités de mesures sont exprimées en quantités non comparables). Il faut donc ramener chaque variable X', à un cadre commun de comparabilité ; c'est-à-dire qu'il faut que les variables soient de variance unité et de moyenne nulle. Le tableau X' est alors transformé en divisant chaque mesure d'une variable par l'écart-type de la variable, le tableau résultant contient des valeurs de nombre d'écart-type. Dans ce cas, la matrice à diagonaliser devient la matrice des coefficients de corrélation linéaire entre les variables.

Les composantes principales peuvent être considérées comme de nouvelles variables, combinaisons linéaires des variables initiales, non corrélées entre elles.

La somme des valeurs propres est égale à p = nombre des variables. Dans le cas d'un nuage sans direction principale d'allongement (sphère), toutes les valeurs propres seraient égales à l'unité. Ce cas limite permet de considérer comme axes - à priori - à étudier ceux dont les valeurs propres sont supérieures à 1 puisque la somme des valeurs propres est égale à p (nombre de variables).

Les points individus peuvent être projetés dans le système d'axes factoriels au centre de gravité du nuage des individus N(I): les points individus peuvent être projetés dans le système des composantes principales centré à l'origine des axes, et les coordonnées des variables sur ces axes s'interprétent en termes de corrélations.

Dans le cas où l'analyse porte sur la matrice des corrélations entre variables, alors le nuage des individus est centré sur l'origine des axes. C'est-à-dire que l'intersection des axes est le centre de gravité du nuage des individus I. En ACP, l'origine n'est centre de gravité que pour les individus ; toutes les variables peuvent être ainsi sur un même demi-axe : on parle alors de facteur de taille (il y a avant tout des " grands " individus pour toutes les variables. et des "petits" individus).

Les nuages N (I) et N (J) n'ont pas la même signification, on effectuera donc l'interprétation des ensembles I et J séparément.

Deux points I1 et I2 très proches rendent compte du fait que les deux lignes de données I1 et I2 ont le même comportement vis-à-vis de l'ensemble des variables J. Mais le plan dans lequel on lit la proximité de I1 et de I2 n'est qu'une projection de la réalité déformée éventuellement par des erreurs de perspective (voir plus haut).

On trouve sur les listings un premier tableau où figure la première valeur propre et le taux d'inertie (ou pourcentage de variance) extraite du nuage de points par le premier facteur (F1), suivi de la deuxième valeur propre et du deuxième pourcentage de variance (pour F2) et du pourcentage de variance cumulée (F2) etc... .

La "valeur propre" représente, pour chaque facteur, le montant de l'inertie du nuage sur ce facteur par rapport à la somme de toutes les valeurs propres qui représentent 100% de cette inertie. On prendra en compte un nombre limité de facteurs, en tenant compte les différences de pourcentages de variance expliqués par les facteurs.

On dispose d'un deuxième tableau où figurent des colonnes Coord, CA (ou CIE) et CR (ou COR). La colonne qui suit celle des coordonnées (CA ou contributions absolues de chaque élément) exprime la part prise par chaque élément d'une colonne du tableau dans la variance ou "inertie" expliquée par le facteur étudié). Ces contributions absolues permettent de savoir quels éléments sont responsables de la construction du facteur. La colonne CR (ou contribution relative ou corrélation) donne les valeurs prises par un facteur dans l'explication de la dispersion d'un élément. C'est la corrélation entre l'élément et l'axe factoriel considéré (elle varie donc entre 0 et 1 ou 0 et 1000, si les données sont en millièmes). La somme des CR d'un élément sur tous les facteurs est égale à 1 ou 1000.

Dans les ACP, les deux ensembles I et J n'ont pas le même statut. Ils n'ont pas des rôles symétriques (contrairement à l'AFC). Regarder un point i de I (lignes) par rapport à un point j de J (colonnes) est dangereux. Cependant, même si les deux ensembles n'ont pas le même statut, la position de deux points dans un ensemble par rapport à tous ceux de l'autre ensemble est interprétable : deux points i1 et i2 vu à travers l'ensemble des "droites" J partant de l'origine des axes permettent de tirer des conclusions sur les sous-groupes de variables pour lesquelles ils ont des comportements voisins et ceux pour lesquelles ils s'opposent. Il faut donc savoir si le plan factoriel n'a pas introduit d'erreurs de perspective (colonne CR).

 

Les distances du point A aux points Z et B sont très différentes mais leurs projections CD et YD sont presque identiques.

Règles de sélection du nombre des facteurs à étudier

Nous nous intéressons à deux types d'axes factoriels ; les axes factoriels du 1er ordre sont des axes considérés comme principaux, fondés sur le calcul des contributions en mettant en jeu l'ensemble des points. Les axes factoriels de second ordre sont des axes de moindre importance fondés sur l'expression de relations locales déterminées par les contributions relatives à l'excentricité. Ils sont naturellement sujets à plus de doute que les axes du 1er ordre. Voici comment on les détermine.

Règle de sélection du nombre des axes factoriels

Soit N le nombre d'axes à retenir

- axes de premier ordre

R1 : N est le nombre des axes tels que leur valeur propre est supérieure à 1.

R2 : N est le nombre des axes tel que le pourcentage cumulé de variance expliquée (p) est supérieur à une certaine valeur. Le nombre p est fourni par expérience : il peut être modulé en fonction du type de données. On prend par défaut p = 80%.

- axes de deuxième ordre

Certaines singularités passent parfois à travers les mailles des deux règles précédentes. Pour pallier cette insuffisance, on détermine des axes de 2ème ordre établis selon la règle suivante :

R3 : Soit N' le rang de l'axe factoriel à retenir. On choisit N' tel qu'il existe au moins un élément i ou j tel que sa corrélation soit k , k étant un nombre fixé à l'avance compris entre 0 et 1. Ceci exprime le fait qu'il existe des points des nuages N (I) ou N (J) qui ont des coefficients de corrélation élevés avec un axe (ici la valeur k représente le carré d'un coefficient de corrélation). Dans le cas présent, on peut encore moduler la valeur k. On peut choisir des valeurs à partir de 0,5 (carré de 0,7).

Règles de sélection des variables explicatives des axes factoriels

R4 : On appelle points explicatifs de l'axe de rang x, les éléments dont la contribution est prépondérante par rapport à l'ensemble des contributions. Les coordonnées des variables sont exprimées en termes de coefficients de corrélation. On choisit les variables j de sorte que :

cor (j) k (k étant fixé à l'avance compris entre 0 et 1)

On prend par défaut k 0.5 qui correspond au carré d'un coefficient de corrélation de 0.7.

R5 : Les points j de N (j) explicatifs de la variance sont ceux qui sont les plus extrêmes et dont la contribution absolue ctr(i) est supérieure à la moyenne des contributions au moins. On rangera donc les points explicatifs en 2 catégories ; les uns de contribution forte avec une coordonnée négative, les autres de contribution forte avec une coordonnée positive.

Règles de sélection des lignes (individus) explicatives des axes factoriels

L'axe x est sous la dépendance des éléments i dont la contribution à la variance est la plus forte ; on prendra la règle suivante :

R6 : Les points i de N (I) explicatifs de la variance sont ceux qui sont les plus extrêmes et dont la contribution absolue ctr(i) est supérieure à la moyenne des contributions au moins. On rangera donc les points explicatifs en 2 catégories ; les uns de contribution forte avec une coordonnée négative, les autres de contribution forte avec une coordonnée positive.

Les distances du point A aux points Z et B sont très différentes mais leurs projections CD et YD sont presque identiques.

Pour les données écologiques prises en compte précédemment, trois facteurs seront pris en compte

 

val. propre
% variance expliquée
cumul
5,8
58
58
1,4
14,8
72,84
1,07
10,7
83,54

Station
pH
Cs
O2
DB
Ox
N4
N3
P4
TE
DE
1p
8,8
274,4
91,3
2,4
1,6
0,1
3,7
0,1
9,8
39,0
1e
8,5
302,3
78,9
2,4
2,1
0,1
3,3
0,2
12,7
58,9
1a
8,7
293,0
75,5
1,6
0,6
0,1
7,0
0,0
1,0
23,8
1h
8,2
302,3
83,0
1,6
1,4
0,2
2,0
0,2
2,9
112,1
2 p
8,5
293,0
10,8
7,8
3,8
3,1
3,0
1,8
10,8
150,1
2 e
7,8
353,4
16,6
21,6
6,6
10,8
0,9
4,4
12,7
76,0
2 a
8,2
395,3
31,5
37,1
9,2
13,8
2,4
7,8
2,9
59,9
2 h
8,5
334,8
83,0
9,8
3,3
2,8
5,1
1,9
2,9
239,4
3 p
8,8
269,7
93,8
3,4
1,7
0,4
4,4
0,1
10,8
188,1
3 e
8,0
358,1
38,2
15,5
2,9
8,7
8,5
5,4
14,7
95,0
3 a
8,3
325,5
69,7
7,3
2,2
3,0
14,5
4,4
2,0
75,1
3 h
8,5
344,1
83,0
9,0
3,2
3,1
5,3
3,4
2,9
299,3
4 p
8,8
227,9
83,0
1,8
1,0
0,1
3,0
0,2
10,8
287,9
4 e
8,4
265,1
68,1
8,8
1,8
0,6
4,1
0,7
12,7
294,5
4 a
8,9
251,1
87,2
2,9
0,6
0,1
4,0
0,5
3,9
172,0
4 h
8,4
269,7
83,0
1,3
0,9
0,0
2,4
0,2
2,9
456,0

ACP : les facteurs sont en colonnes.

Contributions absolues 10 variables : on retient les variables dont la contribution absolue est supérieure à la moyenne des contributions soit 10000/10=1000

 

var
F1
F2
F3
1
1055
32
13.
X1 (Ph)
2
1380
559
50.
X2 (conductivité)
3
1111
613
365.
X3 (oxygène)
4
1536
15
287.
X4 (DBO5)
5
1490
126
320.
X5 (oxydabilité).
6
1655
12
24.
X6 (NH4 : ammoniaque )
7
0
4505
1358.
X7 (N3 : nitrates)
8
1498
387
34.
X8 (PO3 : phosphates)
9
16
3247.
3349
X9 (TE : température)
10
258
402
4302.
X10 (DE : débit)

Le premier axe factoriel définit un gradient de minéralisation et le niveau de pollution (baisse du Ph), diminution de la concentration en oxygène, augmentation de la DBO5, de l’oxydabilité, des quantités de NH4+ et PO3- caractéristiques de la charge organique. Le deuxième axe prend en compte le taux de nitrates et la température, introduisant un aspect saisonnier de la pollution. Enfin, le troisième axe met en cause nitrates, température et débit.

Contributions relatives des colonnes, suivies par les contributions résiduelles

 

n° var
F1
F2
F3
reste
1
6123
47
14
3816
2
8007
829
54
1110.
3
6445
909
390
 
4
8909
23
307
761.
5
8644
188
343
826
6
9599
18
25
358.
7
0
6682
1453
1865
8
8692
574.
37
698
9
94
4967
3473
1465
10
1498
597
4603
3302

Ce tableau confirme le précédent. On a pris les valeurs CR>4000.

 

Analyse d'inertie des lignes.

16 lignes 10 colonnes 3 facteurs 10000/16=625

 

Contributions absolues des lignes. Les facteurs sont en colonnes.

 

var
F1
F2
F3
 
1
335
18
585.
p1
2
95
218
883.
é1
3
266
1042
218.
a1
4
101
7
59.
h1
5
66
824
255.
p2
6
2044
1284
78.
é2
7
3867
39
1116.
a2
8
0
267
742.
h2
9
406
84
65.
p3
10
944
14
1514.
é3
11
51
4461
568.
a3
12
7
357
1262.
h3
13
673
599
14.
p4
14
104
654
2.
é4
15
588
34
51.
a4
16
453
99
2590.
h4

Avec ce tableau et en consultant les valeurs brutes, on conclut qu'il y a un pic de pollution à la station 2 en été surtout et un retour vers des conditions normales plus loin.

Contributions relatives des lignes. Les facteurs sont en colonnes, suivies par les contributions résiduelles.

 

var
F1
F2
F3
reste
 
1
5307
74
1707
2912
p1
2
2209
1292
3775
2725
é1
3
3457
3460
523
2560
a1
4
1992
34
215
7759
h1
5
1062
3368
751
4819
p2
6
8291
1331
59
320
é2
7
8895
23
473
608
a2
8
2
2792
5590
1616
h2
9
7467
397
220
1916
p3
10
6200
24
1833
1943
é3
11
353
7892
724
1031
a3
12
157
2175
5550
2118
h3
13
7145
1626
27
1202
p4
14
2330
3755
7
3909
é4
15
7937
117
126
1819
a4
16
3911
218
4126
1744
h4

Conclusion

Par application de ces règles, on obtient un cadre de dépouillement systématique d'une analyse. L'expérience montre que :

- le choix des valeurs d'arrêt (% de variance...) est limité et les résultats d'analyse sont peu sensibles à ces valeurs d'arrêt pourvu que l'on reste dans un intervalle de valeur raisonnable (80 % pour les pourcentages de variance; 0,4 (ou 4000) ou 0,5 (ou 5000) pour les carrés des coefficients de corrélation).

Représentations graphiques

L'objet principal de l'analyse factorielle est de faire figurer des points dans un espace euclidien de faible dimension par rapport à la dimension d'origine. Le but de la représentation graphique est de suggèrer, éclairer, ce que le calcul numérique ne permet pas de saisir. On fera donc des représentations graphiques unidimensionnelles ou bidimensionnelles selon les cas de figures, car on ne peut saisir des représentations de plus de trois dimensions (la dimension 3 pour la visualisation d'un nuage de points n'est pas aisée ; on se contentera des dimensions d'ordre inférieur).

 

Représentation graphique des variables

 

Comme les coordonnées factorielles sont assimilables à un coefficient de corrélation, on peut les représenter dans le système d'axes factoriels par rapport à une sphère de rayon unité (un cercle s'il s'agit d'un plan factoriel). On représentera donc successivement les plans factoriels significatifs.

 

Représentation graphique des lignes (individus)

Les points-lignes (ou points-individus) sont représentés dans l'espace factoriel jugé explicatif. Comme pour les points variables, on procède par projection sur des plans factoriels.