CorrÃ©lation non paramÃ©trique

7. CorrÃ©lation : Mesure et test de signification

Nous souhaitons mettre en Ã©vidence les relations qui existent entre deux sÃ©ries d'observations (deux variables X et Y) considÃ©rÃ©es simultanÃ©ment. Nous voulons aussi connaÃ®tre la nettetÃ© de leur liaison.

Il faut distinguer deux situations :

une des deux variables, la variable dÃ©pendante, doit Ãªtre exprimÃ©e en fonction de l’autre, la variable indÃ©pendante, de faÃ§on Ã prÃ©voir ou estimer l’une en fonction de l’autre. Les valeurs de la variable indÃ©pendante sont fixÃ©es par avance par l’expÃ©rimentateur.

Exemples :

- mesurer le poids ou la longueur d’un organe (variable dÃ©pendante) Ã diffÃ©rentes dates successives choisies arbitrairement (variable indÃ©pendante).

- mesurer le rendement d’une culture (variable dÃ©pendante) en fonction de diffÃ©rentes doses d’engrais (variable indÃ©pendante).

- mesurer la capacitÃ© Ã rÃ©soudre un problÃ¨me ou Ã rÃ©aliser une tÃ¢che (variable dÃ©pendante) en fonction de diffÃ©rentes doses d’un mÃ©dicament (variable indÃ©pendante).

Ces questions peuvent Ãªtre abordÃ©es avec les tests de rÃ©gression.

Les deux variables ne peuvent Ãªtre distinguÃ©es, et pourront prendre n’importe quelle valeur pour n’importe quel individu observÃ©. Les variables sont dites interdÃ©pendantes.

Ã‰tude des variations simultanÃ©es de deux caractÃ©ristiques d’un mÃªme organe ou organisme. Longueur du corps et profondeur de poitrine de n vaches laitiÃ¨res d’une variÃ©tÃ© donnÃ©e.

Ces questions sont traitÃ©es avec les tests de corrÃ©lation.
Il est, dans ce cas, important de mesurer le degrÃ© de relation existant entre deux sÃ©ries d'observation (le coefficient de corrÃ©lation), mais il est tout aussi important de pouvoir dÃ©cider si une liaison observÃ©e dans un Ã©chantillon indique ou non que les variables Ã©tudiÃ©es sont probablement associÃ©es dans la population Ã partir de laquelle a Ã©tÃ© extrait l'Ã©chantillon.
Quelques unes des mÃ©thodes de mesure non paramÃ©triques de le corrÃ©lation et leurs tests de signification seront prÃ©sentÃ©es.
Au prÃ©alable, il ne faut jamais oublier que l'existence d'une corrÃ©lation mÃªme Ã©levÃ©e entre deux sÃ©ries d'observations n'implique pas nÃ©cessairement l'existence d'une relation de cause Ã effet (causalitÃ©) entre les deux variables considÃ©rÃ©es. En effet, les corrÃ©lations observÃ©es peuvent Ãªtre dues au fait que les variables Ã©tudiÃ©es sont toutes deux soumises Ã des influences communes, modifiant simultanÃ©ment les valeurs, soit dans le mÃªme sens (corrÃ©lation positive), soit en sens opposÃ©s (corrÃ©lation nÃ©gative).
Ainsi, pour certaines exploitations agricoles, l'existence d'une corrÃ©lation positive entre le revenu par unitÃ© de main d'œuvre et l'importance de la main d'œuvre n'implique pas qu'il suffit d'augmenter le nombre d'ouvriers pour amÃ©liorer la rentabilitÃ© de l'exploitation. En rÃ©alitÃ©, ces deux variables sont-elles mÃªmes fonction d'une troisiÃ¨me variable : l'Ã©tendue des exploitations. La corrÃ©lation observÃ©e provient du fait que les grandes exploitations nÃ©cessitent normalement une main d'œuvre plus nombreuse et qu'elles sont aussi Ã©conomiquement les plus rentables.

7.1. Le coefficient de contingence C (Contingency coefficient)

Ce coefficient de contingence C permet de mesurer l'intensitÃ© de la liaison existant entre deux variables. Il n'est intÃ©ressant que lorsque les observations de l'une ou des deux sÃ©ries sont mesurÃ©es dans une Ã©chelle nominale.

MÃ©thode
Pour calculer ce coefficient entre deux sÃ©ries de catÃ©gories (A1, A2,... Acet B1, B2,.... Br) nous arrangeons les frÃ©quences en un tableau de contingence cÂ xÂ r.

Â	A1	A2	...	Ac	Total
B1	(A1B1)	(A2B1)	....	AcB1	Â
B2	(A1B2)	(A2B2)	....	AcB2
-	Â	Â	Â	Â
Br	(A1Br)	(A2Br)	....	(AcBr)
Total	Â	Â	Â	Â	N

Dans ce tableau, nous pouvons entrer les frÃ©quences thÃ©oriques qui se produiraient s’il n'y avait pas de liaison ou de corrÃ©lation entre les variables. Plus la divergence entre les frÃ©quences attendues et les frÃ©quences observÃ©es est importante, plus le degrÃ© d'association entre ces deux variables est Ã©levÃ©, et plus le coefficient de contingence C est Ã©levÃ©.
Le coefficient C est dÃ©fini comme suit :

oÃ¹
nombre de cas observÃ©s classÃ©s dans la i(Ã¨me) rangÃ©e et la j(Ã¨me) colonne.
nombre de cas attendu, dans le cadre de l’hypothÃ¨se nulle, classÃ©s dans la i(Ã¨me) rangÃ©e et la j(Ã¨me) colonne.

Exemple
Il est possible de rÃ©utiliser les donnÃ©es de l'exemple du khi carrÃ© pour k Ã©chantillons indÃ©pendants vu prÃ©cÃ©demment (dÃ©pendance entre le cursus scolaire choisi par les adolescents d'une petite ville et leur appartenance Ã une classe sociale). Dans ce cas, c'est l'association entre les frÃ©quences de sÃ©ries non ordonnÃ©es (cursus scolaires) et les frÃ©quences de sÃ©ries ordonnÃ©es (appartenance sociale). Le tableau des donnÃ©es est rÃ©pÃ©tÃ© ci-dessous :

FiliÃ¨re	I et II	III	IV	V	Total
	Classe
PrÃ©pa U	7,3	30,3	38,0	5,4	81
PrÃ©pa U	23	40	16	2	81
GÃ©nÃ©ral	18,6	77,5	97,1	13,8	207
GÃ©nÃ©ral	11	75	107	14	207
Commercial	9,1	38,2	47,9	6,8	102
Commercial	1	31	60	10	102
Total	35	146	183	26	390

Le khi carrÃ© calculÃ© Ã partir de ces donnÃ©es est de 69,2. Nous pouvons alors dÃ©terminer la valeur C du coefficient de contingence grÃ¢ce Ã la formule prÃ©cÃ©dente :

= 0,39.

La corrÃ©lation, exprimÃ©e par le coefficient de contingence, entre l'appartenance Ã une classe sociale et le choix d'un cursus scolaire dans cette ville est C = 0,39.

Test de la signification du coefficient de contingence
Si nous observons une corrÃ©lation entre deux sÃ©ries de variables d'un Ã©chantillon, nous dÃ©sirons savoir s'il est plausible de conclure que ces variables sont liÃ©es entre elles dans la population reprÃ©sentÃ©e par l'Ã©chantillon.

Dans le cas du coefficient de contingence, nous calculons une valeur statistique qui donne une indication simple et adÃ©quate de la signification de C. Cette statistique est le khi carrÃ©. Aussi suffit-il de dÃ©terminer si le khi carrÃ© calculÃ© Ã partir de ces donnÃ©es est significatif.

Si la probabilitÃ© d'obtenir le khi carrÃ© observÃ©, avec un degrÃ© de libertÃ© Ã©gal Ã (c -1) (r -1), est Ã©gal ou infÃ©rieur Ã a l'hypothÃ¨se nulle peut Ãªtre rejetÃ©e Ã ce niveau de signification et nous pouvons conclure que, dans cette population, le degrÃ© d'association entre les deux sÃ©ries de variables n'est pas nul.

En reprenant l'exemple prÃ©cÃ©dent, nous avons montrÃ© que la relation entre le statut social et le cursus scolaire choisi est C = 0,39. Si nous considÃ©rons que les adolescents de cette petite ville forment un Ã©chantillon alÃ©atoire d'une population, nous pouvons tester si le statut social est reliÃ© au cursus scolaire choisi dans cette population en cherchant la signification du khi carrÃ© Ã©gal Ã 69,2. En se rÃ©fÃ©rant Ã la table des valeurs critiques du khi carrÃ© (table 2), nous pouvons dÃ©terminer la probabilitÃ© associÃ©e Ã ce khi carrÃ© pour un degrÃ© de libertÃ© de (c -1) (rÂ - 1) = (4 -1) (3 - 1) = 6. Cette probabilitÃ© est infÃ©rieure Ã 0,001. Nous pouvons rejeter H₀ Ã ce niveau de signification.

Nous concluons que le statut social et le choix d'un cursus scolaire dans une petite ville sont liÃ©s dans la population de laquelle a Ã©tÃ© extraite cet Ã©chantillon d'adolescents.

Limitations du coefficient de contingence
Les coefficients de corrÃ©lation doivent satisfaire Ã deux critÃ©res : quand il y a absence complÃ¨te d'association, le coefficient est Ã©gal Ã zero; quand les variables sont parfaitement en corrÃ©lation, le coefficient devrait Ãªtre Ã©gal Ã 1. Le coefficient de contingence Ã©gal zÃ©ro en l'absence d'association, mais il ne peut atteindre l'unitÃ© dans la situation inverse, car sa limite supÃ©rieure dÃ©pend de la taille des colonnes c et des lignes r. Aussi, il n'est possible de comparer deux coefficients de contingence que lorsqu'ils proviennent de tables de contingence de mÃªme taille. Par ailleurs, le calcul de C implique celui du khi carrÃ© et donc impose les contraintes d'utilisation du khi carrÃ©.

Enfin, C n'est pas directement comparable Ã aucune autre mesure de corrÃ©lation, r de Pearson, r_s de Spearman ou de Kendall.

Cependant, ce coefficient de contingence est extrÃªmement utile du fait de sa large applicabilitÃ©. Aucune contrainte d'application (forme de la population, continuitÃ© des variables, Ã©chelle de mesure) ne viennent restreindre son application.

7.2. Coefficient de corrÃ©lation de rang de Spearman r_s (Spearman rank correlation coefficient)

C'est le premier test statistique rÃ©alisÃ© Ã partir des rangs. Cette statistique est appelÃ©e rÃ´ ou r_s. Elle mesure l'association entre deux variables mesurÃ©es au moins dans une Ã©chelle ordinale.

Principe
Soit un groupe de lycÃ©ens rangÃ© d'une part selon leur classement au test de fin d'Ã©tude (X₁, X₂, ....X_n) et d'autre part au test de fin de premiÃ¨re annÃ©e Ã l'universitÃ© (Y₁, Y₂,...Y_n), nous pouvons utiliser une mesure de corrÃ©lation des rangs pour dÃ©terminer la relation existant entre les X et les Y.
La corrÃ©lation entre les rangs au test d'entrÃ©e et ceux au test de fin de premiÃ¨re annÃ©e serait parfaite si X_i = Y_i pour toutes les paires considÃ©rÃ©es. Aussi, un indice de disparitÃ© entre les deux ensembles de rangement pourrait Ãªtre la diffÃ©rence entre les rangs de chaque paire : d_i = X_i - Y_i. Ainsi, l'individu A a reÃ§u le rang 1 au premier test et le rang 5 au second, la diffÃ©rence est d = - 4. L'individu B rangÃ© 10Ã¨me au premier test, est premier au second test, son d = +9. L'ampleur des diffÃ©rents d donne une idÃ©e de l'Ã©troitesse de la relation entre les classements au premier et au second test. Si la relation entre les deux ensembles de rangs Ã©tait parfaite, chaque diffÃ©rence d serait nulle. Donc, plus la diffÃ©rence entre les rangs des deux variables est importante, moins leur relation est Ã©troite.
Cependant, lors de la dÃ©termination de l'ampleur totale de la disparitÃ© entre les deux variables, il est prÃ©fÃ©rable d'utiliser d_i² plutÃ´t que d_i, dont les valeurs nÃ©gatives rÃ©duiraient les valeurs positives. Donc, plus les diffÃ©rences d_i sont importantes, plus la valeur de la somme des d_i² le sera aussi.
La meilleure formule pour calculer le coefficient r_s de Spearman est :

MÃ©thode
AprÃ¨s avoir listÃ© les N sujets, dÃ©terminez le rang de X et de Y pour chaque variable. DÃ©terminez ensuite les diffÃ©rences d_i entre les deux rangs, Ã©levez au carrÃ© chaque d_i et sommez toutes les valeurs d_i². Puis entrez cette somme et la valeur de N dans la formule de r_s.

Exemple
La relation entre l'autoritarisme des Ã©tudiants et leur conformisme social est recherchÃ©. L'autoritarisme des sujets et leur conformisme social sont apprÃ©ciÃ©s par le passage de tests. Les rÃ©sultats obtenus Ã ces deux tests par chacun de 12 Ã©tudiants et leurs rangs (en italique) sont prÃ©sentÃ©s dans le tableau suivant :

Etudiant	ApprÃ©ciations				d_i	d_i²
Etudiant	de l'autoritarisme		du conformisme		d_i	d_i²
A	82	2	42	3	-1	1
B	98	6	46	4	2	4
C	87	5	39	2	3	9
D	40	1	37	1	0	0
E	116	10	65	8	2	4
F	113	9	88	11	-2	4
G	111	8	86	10	-2	4
H	83	3	56	6	-3	9
I	85	4	62	7	-3	9
J	126	12	92	12	0	0
K	106	7	54	5	2	4
L	117	11	81	9	2	4
						S d_i²=52

En appliquant la formule prÃ©cedente, calcul de la valeur r_s :

Observations ex-aequo
Quelquefois deux sujets ou plus peuvent avoir le mÃªme rang pour la mÃªme variable. Dans ce cas, chaque sujet reÃ§oit la moyenne des rangs qui auraient Ã©tÃ© affectÃ©s Ã chaque sujet s'il n'avait pas Ã©tÃ© ex-aequo.
Si le nombre d'ex-aequo n'est pas trop important, son effet sur r_s est nÃ©gligeable et la formule de calcul prÃ©cedente peut Ãªtre utilisÃ©e. Par contre, si le nombre d'ex-aequo est Ã©levÃ©, un facteur de correction doit Ãªtre incorporÃ© au calcul de r_s.
L'effet des rangs ex-aequo sur la variable X est de rÃ©duire la somme des carrÃ©s Ã une valeur infÃ©rieure Ã

Il est donc nÃ©cessaire de corriger la somme des carrÃ©s. Le facteur de correction est T :

ou t = le nombre d'observations ex-aequo pour un rang donnÃ©. La somme des carrÃ©s corrigÃ©e pour les ex-aequo devient ;

ST est la somme des diffÃ©rentes valeurs T de tous les groupes d'observations ex-aequo.
De la mÃªme faÃ§on, Sy² est

Lorsqu'il y a un nombre important d'ex-aequo, il faut alors utiliser la formule suivante pour calculer r_s :

Exemple avec ex-aequo
L'autoritarisme et le conformisme social de 12 autres sujets sont apprÃ©ciÃ©s par le passage de tests. Les rÃ©sultats obtenus Ã ces deux tests par chacun de 12 Ã©tudiants et leurs rangs (en italique) sont prÃ©sentÃ©s dans le tableau suivant :

Etudiant	ApprÃ©ciations				d_i	d_i²
Etudiant	de l'autoritarisme		du conformisme		d_i	d_i²
A	82	1,5	40	3	-1,5	2,25
B	82	1,5	46	4	2,5	6,25
C	87	3,5	37	2	1,5	2,25
D	87	3,5	35	1	2,5	6,25
E	106	5	70	8	-3,0	9,00
F	111	6	88	11	-5,0	25,00
G	113	7	86	10	-3,0	9,00
H	116	8	58	6	2,0	4,00
I	119	9	60	7	2,0	4,00
J	120	10,5	92	12	-1,5	2,25
K	120	10,5	56	5	-5,5	30,25
L	126	12	72	9	3	9,00
						S d_i²=109,50

Pour utiliser la formule de r_s corrigÃ© pour les ex-aequo, nous calculons Sx² et Sy²

De la mÃªme faÃ§on, on calcule Sy²

Ces valeurs reportÃ©es dans la formule de r_s corrigÃ©e pur les ex-aequo donnent :

Si le calclul avait Ã©tÃ© rÃ©alisÃ© sans tenir compte des ex-aequo, la valeur de r_s serait de 0,617. L'effet d'ex-aequo peu nombreux est limitÃ© sur la valeur du coefficient de Spearman. Il peut, par contre, Ãªtre apprÃ©ciable lorsque les ex-aequo sont nombreux que ce soit pour la variable X ou pour la variable Y.

Signification de r_s
Nous voulons savoir si les deux variables Ã©tudiÃ©es ne sont pas liÃ©es entre elles (hypothÃ¨se nulle) et si la valeur observÃ©e de r_s diffÃ¨re de zÃ©ro uniquement par hasard.

Pour les petits Ã©chantillons (4 ou =30), les valeurs possibles de r_s ont Ã©tÃ© calculÃ©es et les valeurs critiques de r_s au seuil 0,05 et 0,01 ont Ã©tÃ© tabulÃ©es. Cette table est unilarÃ©rale, les valeurs observÃ©es de r_s correspondent Ã une direction prÃ©vue, soit positive, soit nÃ©gative. Si la valeur observÃ©e de r_s est Ã©gale ou supÃ©rieure Ã la valeur de la table, cette valeur observÃ©e est significative (pour un test unilatÃ©ral) au seuil indiquÃ©.
Ainsi dans le premier exemple, le coefficient de corrÃ©lation r_s entre l'autoritarime et le conformisme des Ã©tudiants de ce premier Ã©chantillon Ã©tait de 0,82. La table des valeurs critiques indique que cette valeur est significative au seuil 0,01 (test unilatÃ©ral). Nous pouvons rejeter l'hypothÃ¨se nulle et conclure que l'autoristarisme et le conformisme sont sigtnificativement liÃ©s.
Pour les grands Ã©chantillons (N>10), la signification d'un r_s calculÃ© sous l'hypothÃ¨se nulle peut Ãªtre testÃ©e par la formule suivante :

Lorsque N est important (>10), la valeur r_sest distribuÃ© comme la valeur statistique t de Student avec un degrÃ© de libertÃ© de N - 2. Donc aprÃ¨s calcul du t, selon la formule prÃ©cÃ©dente, la signification de r_s est celle de t. On l'obtient en se rÃ©ferant Ã la table des t.

Calculateur

Coefficient de corrÃ©lation r_s de Spearman

7.3. Coefficient de corrÃ©lation de rang de Kendall (Kendall rank correlation coefficient)

Ce coefficient de corrÃ©lation (tau) nÃ©cessite que les variables soient mesurÃ©es au moins dans une Ã©chelle ordinale, de telle sorte que chaque sujet des deux variables puisse Ãªtre rangÃ©. La distribution d'Ã©chantillonnage de , sous l'hypothÃ¨se nulle, est connue, aussi le coefficient peut Ãªtre testÃ© pour sa signification.
Le mÃªme type de donnÃ©es peuvent Ãªtre traitÃ©s par le coefficient de corrÃ©lation de Spearman rs (souvent plus connu). Mais le coefficient de Kendall prÃ©sente l'avantage de pouvoir Ãªtre gÃ©nÃ©ralisÃ© Ã un coefficient partiel de corrÃ©lation xy.z et Ã un coefficient de concordance W.

Principe et mÃ©thode
Si l'on demande Ã deux enseignants de ranger, par exemple, quatre dissertations (a, b, c, d) en fonction de la qualitÃ© de leur style. Leur classement est le suivant :

Dissertation	a	b	c	d
Enseignant A	3	4	2	1
Enseignant B	3	1	4	2

Lorsque les dissertations sont rÃ©arrangÃ©es de telle sorte que celles de l'enseignant 1 apparaissent rangÃ©es dans l'ordre naturel, le tableau devient :

Dissertation	d	c	a	b
Enseignant A	1	2	3	4
Enseignant B	2	4	3	1

Il faut alors dÃ©terminer combien de paires de rangs de l'enseignant B sont dans un ordre naturel l'un par rapport Ã l'autre. Ainsi, les rangs de la premiÃ¨re paire 2 et 4 sont dans l'ordre naturel, 2 prÃ©cÃ¨de 4. On affecte alors la valeur + 1 Ã cette paire. Les rangs de la seconde paire 2 et 3 sont dans un ordre correct et obtiennent + 1. La troisiÃ¨me paire (2 et 1) n'est pas dans un ordre correct et reÃ§oit la valeur - 1. Il faut alors considÃ©rer toutes les paires qui incluent le rang 4, puis le rang 3 et cette dÃ©marche nous permet de calculer la somme de tous les scores obtenus :

(+1) + (+1) + (-1) + (-1) + (-1) + (-1) = -2

Maintenant, le total maximum possible qui peut Ãªtre atteint par les scores affectÃ©s Ã l'ensemble des paires de jugements de l'enseignant B est obtenu lorsque tous les jugements des deux enseignants sont en parfait accord. Ce total maximum est le rÃ©sultat de la combinaison de quatre choses prises deux Ã deuxÂ =Â 6.

Le degrÃ© de relation existant entre les deux sÃ©ries de rangs est alors indiquÃ© par le rapport du total des scores des rangements du juge B au total maximum possible :

Le total maximum de combinaisons de N objets pris deux Ã deux peut Ãªtre exprimÃ© par 1/2 N (N - 1), et le total observÃ© dans l'Ã©chantillon par S, alors la formule suivante :

(A)

oÃ¹ N = le nombre d'objets ou d'individus rangÃ©s dans les deux sÃ©ries.
Le calcul de S peut Ãªtre simplifiÃ© de la faÃ§on suivante. Quand les rangs d'un des juges sont dans l'ordre naturel, et que les rangs correspondants de l'autre juge sont dans le mÃªme ordre, la valeur de S est dÃ©terminÃ©e en partant du premier nombre sur la gauche et en comptant le nombre de rangs sur sa droite qui lui sont supÃ©rieurs et en soustrayant de ce nombre, le nombre de rangs sur sa droite qui sont infÃ©rieurs. Ainsi, lorsque les rangs de l'enseignant B sont 2, 4, 3, 1, Ã la droite du rang 2 sont les rangs 3 et 4 qui sont supÃ©rieurs et le rang 1 qui est infÃ©rieur. Le rang 2 contribue donc (+2 -1) = +1 Ã S. Pour le rang 4, aucun rang Ã sa droite n'est supÃ©rieur, mais deux (les rangs 3 et 1) sont infÃ©rieurs. Le rang 4 contribue donc de (0 - 2) = - 2 Ã S. Pour le rang 3, aucun rang sur la droite n'est supÃ©rieur, mais un (le rang 1) est infÃ©rieur, et donc le rang 3 participe de (0 - 1) = - 1 Ã S. Leur participation totale Ã S est donc :

S = (+1) + (-2) + (-1) = -2
Connaissant la valeur de S, il est possible de calculer la valeur observÃ©e de :

	- 0,33

Exemple
La relation entre l'autoritarisme des Ã©tudiants et leur conformisme social est recherchÃ©. L'autoritarisme des sujets et leur conformisme social sont apprÃ©ciÃ©s par le passage de tests. Les rÃ©sultats obtenus Ã ces deux tests par chacun de 12 Ã©tudiants et leurs rangs (en italique) sont prÃ©sentÃ©s dans le tableau suivant :

Etudiant	ApprÃ©ciations
Etudiant	de l'autoritarisme		du conformisme
A	82	2	42	3
B	98	6	46	4
C	87	5	39	2
D	40	1	37	1
E	116	10	65	8
F	113	9	88	11
G	111	8	86	10
H	83	3	56	6
I	85	4	62	7
J	126	12	92	12
K	106	7	54	5
L	117	11	81	9

Nous rÃ©arrangeons l'ordre des sujets de faÃ§on Ã ce que l'ordre des rangs pour le conformisme social se prÃ©sente dans l'ordre naturel :

Sujet	D	C	A	B	K	H	I	E	L	G	F	J
Â	Â	Â	Â	Â	Â	Â	Â	Â	Â	Â	Â	Â
Conformisme social	1	2	3	4	5	6	7	8	9	10	11	12
Autoritarisme	1	5	2	6	7	3	4	10	11	8	9	12

Nous pouvons alors dÃ©terminer la valeur de S :
S = (11 -0) + (7 -3) + (9 -0) + (6 - 2) + (5 - 2) + (6 -0) + (5 - 0) + (2 -2)
+ (1 -2) + (2 - 0) + (1 - 0) = 44
Connaissant S = 44 et N = 12 nous pouvons calculer

	0,67

qui reprÃ©sente le degrÃ© de relation entre l'autoritarisme et le conformisme social de 12 Ã©tudiants.

Observations ex-Ã¦quo Quand deux observations ou plus ont la mÃªme valeur soit pour une variable soit pour l'autre, nous utilisons la procÃ©dure habituelle : ces observations reÃ§oivent le rang moyen des rangs qu'elles auraient eu si elles n'avaient pas Ã©tÃ© liÃ©es. L'effet des ex-Ã¦quo consiste Ã modifier le dÃ©nominateur de la formule A

(A’)

L'effet correcteur est peu important.
Ainsi dans un Ã©chantillon de 12 observations, l'une des variables prÃ©sente trois groupes de deux valeurs liÃ©es, deux sujets sont ex-Ã¦quo au rang 1,5, deux autres au rang 3,5 et deux au rang 10,5. Dans chaque cas, le nombre de valeurs ex-Ã¦quo est t = 2 et nous calculons Ty:

Les valeurs suivantes sont observÃ©es S = 25 et N = 12, Ty = 3 et Tx = 0, nous pouvons alors dÃ©terminer la valeur de

= 0,39

Si la correction n'avait pas Ã©tÃ© rÃ©alisÃ©e, en utilisant la formule A, nous aurions trouvÃ©

= 0,38.

Test de signification Si un Ã©chantillon est tirÃ© d'une population dans laquelle deux variables X et Y ne sont pas liÃ©es, et que les membres de l'Ã©chantillon sont rangÃ©s pour X et Y, alors pour tout ordre donnÃ© des rangs de X, tous les ordres possibles des rangs de Y sont Ã©galement observables.
Supposons que les rangs de X soient arrangÃ©s selon leur ordre naturel 1, 2, 3, ...., N. Pour cet arrangement des rangs de X, tous les N ! ordres possibles des rangs de Y sont Ã©galement probables sous H⁰. Par consÃ©quent, tout ordre particulier des rangs de Y a une probabilitÃ© associÃ©e de 1/ N!. Il est donc possible de calculer des tables de probabilitÃ©s pour chaque valeur de N. Cependant, cette mÃ©thode devient rapidement fastidieuse quand N augmente. Mais, quand N â‰¥ 8, la distribution d'Ã©chantillonnage de est pratiquement comparable Ã celle de la distribution normale et la table de z (table 1) peut Ãªtre utilisÃ©e.

Quand N est infÃ©rieur ou Ã©gal Ã 10, la table des valeurs critiques de S du coefficient de corrÃ©lation de Kendall donne les probabilitÃ©s exactes d'obtenir un S donnÃ© (unilatÃ©ral). Si p est Ã©gal ou supÃ©rieur Ã a, H₀ peut Ãªtre rejetÃ©e.

Quand N est supÃ©rieur Ã 10, peut Ãªtre considÃ©rÃ© comme normalement distribuÃ© avec une moyenne = 0

et un Ã©cart-type	.	Alors

Il faut alors dÃ©terminer la signification de z par rÃ©fÃ©rence Ã la table des z (Table 1). Maintenant, les logiciels statistiques donnent la probabilitÃ© exacte (corrigÃ©e pour les ex-Ã¦quo) d’obtenir sous H₀ le z correspondant aux donnÃ©es. L’hypothÃ¨se nulle est alors rejetÃ©e si la probabilitÃ© exacte est Ã©gale ou infÃ©rieure au seuil de signification a choisi.

Exemple pour un Ã©chantillon de taille supÃ©rieure Ã 10 Nous avons d'ores et dÃ©jÃ calculÃ© la corrÃ©lation existant entre l'autoritarisme et le conformisme chez 12 Ã©tudiants = 0,67.
Nous pouvons calculer

= 3,03

La table des z montre que z Ã©gal ou supÃ©rieur Ã 3,03 a une probabilitÃ© associÃ©e de pÂ =Â 0,0012. Nous pouvons rejeter H₀ Ã ce niveau de signification, et conclure que les deux variables sont associÃ©es dans la population Ã partir de laquelle l'Ã©chantillon a Ã©tÃ© extrait.
Exercice :
1. Calculer le coefficient de corrÃ©lation de Kendall et sa signification Ã partir des donnÃ©es sur la longueur du corps et la profondeur de poitrine chez les vaches laitiÃ¨res (=0,39 ; z = 2,57 ; p = 0,0101).
Comparez ces rÃ©sultats avec ceux qui sont obtenus sur les mÃªmes donnÃ©es par le test de corrÃ©lation de Bravais-Pearson.
2. Deux experts, classant sÃ©parÃ©ment 10 Ã©chantillons de cidre, ont donnÃ© les ordres de prÃ©fÃ©rence suivants :

1er expert	2Ã¨me expert
1	3
2	1
3	4
4	2
5	6
6	5
7	9
8	8
9	10
10	7

Calculer le coefficient de corrÃ©lation, et concluez.
Le coefficient de corrÃ©lation de Spearman et celui de Kendall, bien que numÃ©riquement diffÃ©rents pour le mÃªme ensemble de donnÃ©es, ont un pouvoir identique de rejet de H₀.

7.4. Coefficient de corrÃ©lation de rang partiel de Kendall (The Kendall partial rank correlation coefficient)

Quand une corrÃ©lation est observÃ©e entre deux variables, il y a toujours la possibilitÃ© que cette corrÃ©lation soit due Ã l'association entre chacune des deux variables et une troisiÃ¨me variable.
Les effets de variation due Ã une troisiÃ¨me variable sur la relation entre deux autres variables X et Y sont Ã©liminÃ©s par une corrÃ©lation partielle. D'une autre faÃ§on, la corrÃ©lation entre X et Y est calculÃ©e alors que la troisiÃ¨me variable est maintenue constante.
En rÃ©alisant le protocole d'une expÃ©rience, nous avons l'alternative soit d'introduire des contrÃ´les expÃ©rimentaux de faÃ§on Ã Ã©liminer l'influence d'une troisiÃ¨me variable soit d'utiliser des mÃ©thodes statistiques pour Ã©liminer cette influence. Nous prÃ©sentons une mÃ©thode de contrÃ´le statistique qui peut Ãªtre utilisÃ©e avec le coefficient de corrÃ©lation de Kendall.

Principe
Supposons que trois variables (X, Y, Z) sont mesurÃ©es sur 4 sujets. Nous dÃ©sirons dÃ©terminer la corrÃ©lation entre X et Y quand Z est maintenu constant. Les rangs des variables sont

Sujet	a	b	c	d
rangs de Z	1	2	3	4
rangs de X	3	1	2	4
rangs de Y	2	1	3	4

Le nombre de paires de rangs possible de chaque variable est de 4 pris deux Ã deux. Ayant rangÃ©s les rangs de Z dans l’ordre naturel, nous observons chaque paire possible des rangs de X, des rangs de Y et des rangs de Z. Nous donnerons un signe + Ã chacune des paires pour lesquelles le rang le plus bas prÃ©cÃ¨de le plus hautÂ ; et un signe - Ã chacune des paires pour lesquelles le rang le plus Ã©levÃ© prÃ©cÃ¨de le rang le plus bas.

paire	(a, b)	(a, c)	(a, d)	(b, c)	(b, d)	(c, d)
Z	+	+	+	+	+	+
X	-	-	+	+	+	+
Y	-	+	+	+	+	+

Ainsi, pour la variable X, le score pour la paire (a,b) est moins car les rangs de a et b, 3 et 1, ne sont pas dans l'ordre naturel.
Nous allons maintenant rÃ©sumer l'information dans un tableau Ã double entrÃ©e :

Total	A+C = 5	B+D = 1	6
	Paires de Y dont le signe concorde avec celui de Z	Paires de Y dont le signe ne concorde pas avec celui de Z	Total
Paires de X dont le signe concorde avec celui de Z	A 4	B 0	4
Paires de X dont le signe ne concorde pas avec celui de Z	C 1	D 1	2

ConsidÃ©rons les trois signes sous (a,b). Pour cet ensemble de rangs, X et Y ont tous deux un signe - alors que Z a un signe +. X et Y sont en dÃ©saccords avec Z. Cette information est placÃ©e dans la cellule D. Si l'on considÃ¨re la paire (a, c), le signe de Y est en accord avec celui de Z, mais le signe de X est en dÃ©saccord avec celui de Z. Ainsi, cette information est assignÃ©e Ã la cellule C. Dans chaque cas des paires restantes, le signe de Y et celui de X sont en accord avec celui de Z, les 4 paires sont placÃ©es dans la cellule A du tableau. Le coefficient de rang partiel de Kendall est calculÃ© Ã partir de ce tableau.
Il est dÃ©fini comme

(B)

Dans l'exemple des 4 objets considÃ©rÃ©s prÃ©cÃ©demment,

= 0,63

Si nous avions calculÃ© la corrÃ©lation entre X et Y sans considÃ©rer l'effet de Z, nous aurions trouvÃ© = 0,67. Ceci suggÃ¨re que les relations entre X et Z et entre Y et Z n'influencent que faiblement la relation observÃ©e entre X et Y. Ce type d'infÃ©rence doit Ãªtre fait avec certaines rÃ©serves, Ã moins d'avoir des donnÃ©es pertinentes permettant de supposer quel effet est observÃ©.
La formule (B) est parfois appelÃ©e le coefficient phi, et il peut Ãªtre montrÃ© que

La prÃ©sence du c² dans cette expression suggÃ¨re que mesure le degrÃ© d'accord entre X et Y indÃ©pendamment de leur accord avec Z.

MÃ©thode
La mÃ©thode de calcul de devient rapidement fastidieuse lorsque N augmente. Kendall a montrÃ© que

(C)

Exemple
Nous avons vu que la corrÃ©lation entre l'autoritarisme et le conformisme social est de = 0,67.
Mais il existe aussi une corrÃ©lation entre le conformisme social et la conformitÃ© Ã la pression des groupes de = 0,39.
Ceci nous fait nous demander si la premiÃ¨re corrÃ©lation ne reprÃ©sente pas simplement l'intervention d'une troisiÃ¨me variable : la conformitÃ© aux groupes de pression.
Nous pouvons tester cette hypothÃ¨se en calculant le coefficient de corrÃ©lation partiel entre autoritarisme et le conformisme social, en maintenant constant l'effet du besoin de cÃ©der Ã la pression des groupes.
Les rÃ©sultats sont prÃ©sentÃ©s dans le tableau suivant :

Sujet	Conformisme	Autoritarisme	ConformitÃ©
Â	Rangs
Â	X	Y	Z
A	3	2	1,5
B	4	6	1,5
C	2	5	3,5
D	1	1	3,5
E	8	10	5
F	11	9	6
G	10	9	7
H	6	3	8
I	7	4	9
J	12	12	10,5
K	5	7	10,5
L	9	11	12

Nous connaissons dÃ©jÃ = 0,67 et = 0,39 et nous pouvons calculer = 0,36. Nous pouvons alors dÃ©terminer la valeur de en utilisant la formule (C)

= 0,62

Le coefficient de corrÃ©lation partiel entre autoritarisme et conformisme social est de 0,62. Cette valeur est peu diffÃ©rente de celle de = 0,67. Nous pouvons conclure que la relation entre l'autoritarisme et le conformisme social (mesurÃ©s avec ces Ã©chelles) est relativement indÃ©pendante de l'influence de la conformitÃ© Ã un groupe de pression.

Test de signification
La distribution d'Ã©chantillonnage du coefficient de corrÃ©lation partiel de Kendall n’est pas connue et donc aucun test de signification n'est possible.

7.5. Coefficient de concordance de Kendall W (Kendall coefficient of concordance)

Quand on dispose, non pas de deux, mais de k distributions d'une mÃªme sÃ©rie d'individus en deux classes, la notion de corrÃ©lation de rang peut Ãªtre gÃ©nÃ©ralisÃ©e grÃ¢ce au coefficient de concordance. W exprime le degrÃ© d'association entre k variables.

Principe
Supposons que l'on demande Ã trois cadres de sociÃ©tÃ©s d’interviewer 6 demandeurs d'emploi et de les ranger sÃ©parÃ©ment suivant leurs capacitÃ©s Ã remplir le poste vacant. Les trois sÃ©ries indÃ©pendantes de rangs donnÃ©es par les trois cadres A, B, C sont exposÃ©es dans le tableau suivant :

Rj	8	14	11	11	11	8
	Postulant
	a	b	c	d	e	f
Cadre A	1	6	3	2	5	4
Cadre B	1	5	6	4	2	3
Cadre C	6	3	2	5	4	1

Si les trois cadres avaient Ã©tÃ© en parfait accord sur leur jugement des postulants, c'est-Ã -dire, s'ils les avaient rangÃ©s dans le mÃªme ordre, alors l'un des postulants aurait reÃ§u trois rangs 1 et sa somme de rangs serait de 3 = k. Le postulant suivant serait affectÃ© de la somme de rangs de 6 = 2 k et le moins performant des postulants serait affectÃ© de la somme de rangs de 18 = 6 k = N k. En gÃ©nÃ©ral, quand il y a accord parfait parmi les k sÃ©ries de rangements, nous obtenons, pour les sommes des rangs, les sÃ©ries k, 2k, 3k....Nk.

D'un autre cÃ´tÃ©, s'il n'y avait aucun accord parmi les cadres, les diffÃ©rentes sommes des rangs seraient approximativement Ã©gales. W, le coefficient de concordance, est une fonction de ce degrÃ© de variation.

MÃ©thode
Pour calculer W, nous cherchons la somme des rangs, Rj , de chaque colonne du tableau k x N. Puis, nous sommons les Rj et divisons cette somme par N pour obtenir la valeur moyenne de Rj. Enfin, nous calculons les dÃ©viations entre chaque Rj et la valeur moyenne et nous sommons les carrÃ©s de ces dÃ©viations s.

(D)

k = nombre de sÃ©ries de rangements, nombre de juges.
N = nombre d'individus rangÃ©s
1/12 k² (N³ - N) = la somme s que l'on obtiendrait dans le cas d'un accord parfait entre les k rangements.
Ã€ partir des donnÃ©es prÃ©cÃ©dentes :
s = (8 -10,5)² + (14 - 10,5)² + (11 - 10,5)² + (11- 10,5)² + (11 - 10,5)² + (8 - 10,5)²= 25,5

et 0,16

Exemple
Kendall a donnÃ© un exemple oÃ¹ 10 objets sont rangÃ©s chacun pour 3 variables diffÃ©rentes X, Y, Z. Les rangs obtenus sont les suivants :

Variable	a	b	c	d	e	f	g	h	i	j
	EntitÃ©s
X	1	4,5	2	4,5	3	7,5	6	9	7,5	10
Y	2,5	1	2,5	4,5	4,5	8	9	6,5	10	6,5
Z	2	1	4,5	4,5	4,5	4,5	8	8	8	10
Rj	5,5	6,5	9	13,5	12	20	23	23,5	25,5	26,5

La moyenne des Rj est 16,5.
s = (5,5 - 16,5)² + (6,5 - 16,5)² + (9 - 16,5)² + (13,5 - 16,5)² + (12 - 16,5)² + (20 - 16,5)² + (23 - 16,5)² + (23,5 - 16,5)²+ (25,5 - 16,5)² + (26,5 - 16,5)²= 591
Comme la proportion d'ex-Ã¦quo est importante, une correction est apportÃ©e au calcul de W.

(E)

oÃ¹

correspond Ã la somme des valeurs de T pour l’ensemble des ex-Ã¦quo

pour le rangement de X :

= 1

pour le rangement de Y :

= 1,5

pour le rangement de Z :

= 7

= 0,828

Test de signification de W

Petits Ã©chantillons
La distribution de s a Ã©tÃ© calculÃ©e et certaines valeurs critiques tabulÃ©es (Table des valeurs critiques de s pour le coefficient de concordance ; Table 13) pour des W significatifs aux seuils 0,05 et 0,01. Cette table est applicable pour k de 3 Ã 20 et N de 3 Ã 7.
Lorsqu’une valeur observÃ©e de s est Ã©gale ou supÃ©rieure Ã celle de la table pour un niveau de signification donnÃ©, alors H^o peut Ãªtre rejetÃ© Ã ce niveau de signification.

Dans le cas des 3 cadres jugeant 6 postulants, leur accord Ã©tait de W = 0,16. RÃ©fÃ©rence Ã la table prÃ©cÃ©dente rÃ©vÃ¨le que la valeur s associÃ©e Ã ce W (s = 25,5) n'est pas significative.

Grands Ã©chantillons
Quand N est supÃ©rieur Ã 7, l'expression donnÃ©e par la formule suivante F est approximativement distribuÃ©e comme un khi carrÃ© de ddl = N - 1

ou = k (N -1) W (F)

La probabilitÃ© associÃ©e Ã ce c² est dÃ©terminÃ©e par rÃ©fÃ©rence Ã la table du khi carrÃ©.
Si la valeur du c² calculÃ©e selon la formule F Ã©gale ou excÃ¨de celle de la table du khi carrÃ© pour un niveau de signification et un degrÃ© de libertÃ© donnÃ©e, l'hypothÃ¨se nulle peut Ãªtre rejetÃ©e Ã ce niveau de signification.