Introduction aux Statistiques


Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.



  6.4. De l'ajustement linéaire à l'analyse factorielle

L'ajustement linéaire est une technique analogue à l'analyse factorielle, mais beaucoup plus simple.

Prenons l'exemple suivant : considérons le nuage de points associé au tableau des mesures de pH et de conductivité d'une rivière, en 4 points différents, et lors de mesures aux quatre saisons (ce sont les 2 premières colonnes du tableau ci-dessous).

Station
pH
Cs
O2
DB
Ox
N4
N3
P4
TE
DE
1p
8,8
274,4
91,3
2,4
1,6
0,1
3,7
0,1
9,8
39,0
1e
8,5
302,3
78,9
2,4
2,1
0,1
3,3
0,2
12,7
58,9
1a
8,7
293,0
75,5
1,6
0,6
0,1
7,0
0,0
1,0
23,8
1h
8,2
302,3
83,0
1,6
1,4
0,2
2,0
0,2
2,9
112,1
2 p
8,5
293,0
10,8
7,8
3,8
3,1
3,0
1,8
10,8
150,1
2 e
7,8
353,4
16,6
21,6
6,6
10,8
0,9
4,4
12,7
76,0
2 a
8,2
395,3
31,5
37,1
9,2
13,8
2,4
7,8
2,9
59,9
2 h
8,5
334,8
83,0
9,8
3,3
2,8
5,1
1,9
2,9
239,4
3 p
8,8
269,7
93,8
3,4
1,7
0,4
4,4
0,1
10,8
188,1
3 e
8,0
358,1
38,2
15,5
2,9
8,7
8,5
5,4
14,7
95,0
3 a
8,3
325,5
69,7
7,3
2,2
3,0
14,5
4,4
2,0
75,1
3 h
8,5
344,1
83,0
9,0
3,2
3,1
5,3
3,4
2,9
299,3
4 p
8,8
227,9
83,0
1,8
1,0
0,1
3,0
0,2
10,8
287,9
4 e
8,4
265,1
68,1
8,8
1,8
0,6
4,1
0,7
12,7
294,5
4 a
8,9
251,1
87,2
2,9
0,6
0,1
4,0
0,5
3,9
172,0
4 h
8,4
269,7
83,0
1,3
0,9
0,0
2,4
0,2
2,9
456,0

On veut avoir une idée des interrelations entre les 10 variables. Les méthodes d’analyse factorielles consistent à déterminer de nouvelles variables, les facteurs, qui résument au mieux les 10 variables initiales.

Chaque facteur est une combinaison linéaire des variables initiales :

F1 = a1X1+ ... + a10X10

Deux facteurs engendrent un plan factoriel. Si l’on veut, par exemple, représenter les données dans un plan, on cherchera à ce que, sur ce plan, les "distances"entre les stations soient les plus proche possibles des distances initialement calculées.

 

Si l’on effectue la représentation de ces mesures dans un graphique plan, on obtient un nuage de points dans un espace à 2 dimensions.

 

Le nuage de points présente une forme allongée. Ces points sont au voisinage d'une droite D. Le problème est donc de déterminer la droite D à partir des mesures effectuées. Cette droite doit ajuster au mieux le nuage des points expérimentaux. Depuis longtemps, la technique utilisée est celle dite des moindres carrés qui permet de réaliser par le calcul le choix optimum de la droite (d'où le nom d'ajustement linéaire).

Pour passer à l'objet de l'analyse factorielle, il faut modifier sur plusieurs points le modèle de l'ajustement linéaire tout en imaginant qu'au lieu d'étudier la relation entre 2 variables, on décide d'étudier la relation entre plusieurs variables. Supposons donc qu'au lieu de mesurer deux grandeurs, on en mesure un plus grand nombre.

Soit, par exemple, l'étude des variations de 10 variables le long de la même rivière : A chaque ligne, on associe ses mesures de qualité sous différents aspects : X1 (pH), X2 (conductivité), X3 (oxygène), X4 (DBO5 : demande biologique en oxygène), X5 (oxydabilité). X6 (N4 : ammoniaque), X7 (N3 : nitrates), X8 (P4 : phosphates), X9 (TE : température) et X10 (DE : débit).

Analyser toutes les variables [X1, X2, . . . X10] prises deux à deux ne permet pas la synthèse. Ainsi, au lieu de savoir si une variable Xi est liée à une autre Xj pour chacun des couples de variables (Xi, Xj), on veut savoir comment varient simultanément toutes les variables (X1, X2, ..., X10).

On peut résumer l'information par un plus petit nombre de variables :

Point-ligne i = ai F + bi F2

On va chercher un premier plan factoriel qui représente au mieux le nuage des points-lignes originellement représenté dans un espace à 10 dimensions.

Pour montrer ce que sont les facteurs, et pour simplifier, prenons l'exemple où nous ne mesurons que trois grandeurs X1, X2, X3 qu'on peut représenter dans l'espace à trois dimensions.

Chaque point-ligne du nuage a, sur les axes X1, X2, X3, trois projections situées à des distances de O égales à ses valeurs dans les variables X1, X2, X3.

Le centre de gravité G est un point-ligne fictif qui a pour coordonnées la moyenne des valeurs dans chacune des variables. Autour de ce centre, le nuage peut présenter différents aspects :

• Il peut apparaître sphérique ; dans ce cas, il n'y a pas de facteur privilégié.

• Il se peut, au contraire, que le nuage soit allongé, le long de la droite passant par le centre : cette droite est un axe factoriel. On peut graduer cette droite à partir du point G. C'est à partir de cette graduation qu'on mesurera la valeur du facteur pour un point-région donné. On notera les angles faits par les axes factoriels F1, F2, F3 et les axes OX1, OX2, OX3 ; si F est perpendiculaire à OX1, alors X1 varie peu et X1 n'intervient que faiblement dans le calcul du facteur F ; si F fait un angle faible avec OX1, c'est au contraire que X1 varie beaucoup et que X1 intervient beaucoup dans le calcul du facteur F.

• S'il n'y avait aucune liaison entre les variables, le nuage aurait une forme sans structure.

Ici, pour l'ensemble de la population, le nuage de points a une forme ovale. Pour étudier la structure de ce nuage, on le réduit de plusieurs points de vue :

• On recherche la tendance centrale, en prenant la moyenne de tous les pH et la moyenne de toutes les conductivités. On obtient un individu hypothétique G situé au centre de gravité du nuage. Cet individu est fictif et ne correspond pas à un individu réel de la population.

• On recherche les principales manières dont les individus s'écartent de la moyenne : on observe les tendances de dispersion autour du centre de gravité. Ici, il y a deux directions qui indiquent la dispersion : un axe de plus grand allongement F1 et un axe de plus petit allongement F2.

Pour le même nuage, nous avons deux systèmes de repérage : le système des axes initiaux et le système (F1, F2) des axes principaux d'inertie. Il en résulte donc un changement d'axes.

On part de la remarque suivante. Dans le système initial, les points-lignes 1 et 2 sont figurés par les points A et B. Dans le même système à un seul axe F1, les points-lignes 1 et 2 sont figurés par leurs projections C et D.

 

Alors que les points A et B étaient distants de d (=AB) dans l'espace initial, ils sont distants de h (CD=EA) dans l'espace réduit au facteur F1.

Si on voulait réduire la représentation à F1 seul, on aurait une perte d'information au sens où, au lieu d'avoir : distance (AB) = d (distance réelle), on a maintenant : distance (CD) = h (distance projetée).

Une des manières de mesurer la perte d'information dans le passage du premier système au second est de regarder la figure où se trouvent d (AB) et h (CD).

On a : d2 = h2 + e2 (théorème de Pythagore)

Soit : e2 = d2 - h2 ; e2 est donc une mesure de l'écart entre la réalité et son approximation h sur F1. Si l’on veut la meilleure approximation possible, il faut que l'ensemble des écarts soit tel que e soit le plus petit possible. S’il n'y avait que deux points-lignes 1 et 2, la meilleure solution serait de rendre la quantité e nulle. C'est-à-dire, de faire passer F1 par 1 et 2, ou de rendre F1 parallèle à 1 - 2. Il n'y aurait aucune distorsion :

d2 = h2 +e2 avec e2 = 0

Mais il n'y a pas que deux points-lignes, mais 16 dans notre exemple. On considère donc que le meilleur choix pour F1 est celui pour lequel la somme des e2 pour toutes les lignes est minimale. F1 est la droite des moindres carrés.

Minimiser e2, c'est aussi maximiser h2 : d2 = h2 + e2.

L'ensemble des h2 s'appelle inertie sur F1 du nuage de points. On dira que F1 est la droite qui extrait le maximum d'inertie du nuage. F1 s'appelle un axe factoriel (ou facteur). C'est le premier axe factoriel.

En écrivant autrement les formules, on pourrait montrer que F1 maximise aussi la variance extraite. Il y a donc, à première lecture, une équivalence entre les termes (variance, inertie) apportée par l'ensemble des points du nuage.

Pour choisir le second axe factoriel F2, on impose deux contraintes :

• Entre l'inertie globale et celle du F1, il y a une inertie résiduelle ; F2 est celle des droites qui extrait le plus possible de cette inertie résiduelle. Mais si on limitait là la contrainte, F2 serait indéterminé. On ajoute une seconde contrainte ;

• F2 est orthogonal à F1.

L'extraction de F1 (premier axe principal d'inertie du nuage) est fondée sur un critère global. C'est globalement que F1 respecte le jeu des distances entre points-lignes. Il se peut que, localement, le critère ne soit pas respecté, d'où la nécessité de se protéger des erreurs de perspective. Ce sera un des rôles de certains indicateurs appelés "aides à l'interprétation".

Les résultats d'une analyse factorielle ne méritent pas toujours d'être publiés. Ils le seront chaque fois qu'ils remplissent une fonction iconographique (illustration de tableaux de contingence par exemple). Leur rôle est alors de rendre plus facile la lecture de ces tableaux. La partie publiable des résultats ne représente en général qu'une petite fraction des calculs effectués.

Les rubriques suivantes doivent nécessairement accompagner chaque analyse.

1) Dimension du tableau

Nombres de variables et d'individus dans le cas d'une analyse en composantes principales, nombres de lignes et de colonnes dans le cas de l'analyse des correspondances d'une table de contingence.

2) Nature et codage du tableau

S'agit-il de mesures numériques continues, de codage de présence-absence. S'agit-il d'effectifs, de pourcentages ?

3) Liste des variables

ll est important d'avoir une idée du caractère représentatif des variables destinées à être synthétisée. ll n'est pas possible de juger de la pertinence d'un facteur sans connaître cette liste.

4) Valeurs propres et taux d’inertie

Liste (ou indication sur le graphique) des valeurs propres et des taux d'inertie (ou encore : pourcentages de variance expliquée). En général, on se fixe comme limite d'arrêt l'atteinte de 80 % de la variance (en sommant la variance des facteurs F1, F2, F3, ...).

5) Aides à l'interprétation

Ce sont les contributions absolues et relatives. II n'est pas indispensable de publier la liste exhaustive de ces paramètres. Elle est en général encombrante. Les contributions absolues supérieures à la moyenne (obtenues en divisant 1000 par le nombre d'éléments (nombre d'éléments -1 pour une AFC)) qui indiquent comment une variable participe à la construction d'un axe, pourront être citées pour étayer l'éventuelle caractérisation de l'axe. Les contributions absolues trop fortes (de l'ordre de 40 à 50 % par exemple) sont en général suspectes : elles traduisent un certain déséquilibre de la synthèse. Si les axes se réduisent en effet à certains composants élémentaires, cela signifie que le seul fait mis en évidence est l'hétérogénéité du tableau.

Les contributions relatives peuvent être fortes : elle traduisent dans ce cas la caractérisation exclusive de l'axe par une ou quelques variables. On se fixera comme limite inférieure 0,5 (ou 500 selon l'expression des valeurs sur le listage) en général, puisque les contributions relatives s'assimilent à des carrés de coefficient de corrélation soit ici 0,7*0,7 = 0,49 = 0,5).

Un axe "significatif" du point de vue statistique n'a pas nécessairement une interprétation : on peut au contraire trouver une interprétation à une direction diagonale ou à de simples regroupements dont les axes eux-mêmes rendent mal compte.

6) Aménagements graphiques

On peut clarifier la lecture des plans factoriels en joignant par des contours les modalités ordonnées de façon naturelle (classes de revenu, âge, nombre d'enfants, tailles, etc.). On allègera le graphique en éliminant les variables dont la position n'est pas "significative" (en général celles situées près de l'origine des axes).