Introduction aux Statistiques


Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.



7. Corrélation : Mesure et test de signification

Nous souhaitons mettre en évidence les relations qui existent entre deux séries d'observations (deux variables X et Y) considérées simultanément. Nous voulons aussi connaître la netteté de leur liaison.

Il faut distinguer deux situations :

• une des deux variables, la variable dépendante, doit être exprimée en fonction de l’autre, la variable indépendante, de façon à prévoir ou estimer l’une en fonction de l’autre. Les valeurs de la variable indépendante sont fixées par avance par l’expérimentateur.

Exemples :
- mesurer le poids ou la longueur d’un organe (variable dépendante) à différentes dates successives choisies arbitrairement (variable indépendante).
- mesurer le rendement d’une culture (variable dépendante) en fonction de différentes doses d’engrais (variable indépendante).
- mesurer la capacité à résoudre un problème ou à réaliser une tâche (variable dépendante) en fonction de différentes doses d’un médicament (variable indépendante).
Ces questions peuvent être abordées avec les tests de régression.

• Les deux variables ne peuvent être distinguées, et pourront prendre n’importe quelle valeur pour n’importe quel individu observé. Les variables sont dites interdépendantes.

Exemple :
Étude des variations simultanées de deux caractéristiques d’un même organe ou organisme. Longueur du corps et profondeur de poitrine de n vaches laitières d’une variété donnée.

Ces questions sont traitées avec les tests de corrélation.

Il est, dans ce cas, important de mesurer le degré de relation existant entre deux séries d'observation (le coefficient de corrélation), mais il est tout aussi important de pouvoir décider si une liaison observée dans un échantillon indique ou non que les variables étudiées sont probablement associées dans la population à partir de laquelle a été extrait l'échantillon.

Quelques unes des méthodes de mesure non paramétriques de le corrélation et leurs tests de signification seront présentées.
Au préalable, il ne faut jamais oublier que l'existence d'une corrélation même élevée entre deux séries d'observations n'implique pas nécessairement l'existence d'une relation de cause à effet (causalité) entre les deux variables considérées. En effet, les corrélations observées peuvent être dues au fait que les variables étudiées sont toutes deux soumises à des influences communes, modifiant simultanément les valeurs, soit dans le même sens (corrélation positive), soit en sens opposés (corrélation négative).
Ainsi, pour certaines exploitations agricoles, l'existence d'une corrélation positive entre le revenu par unité de main d'œuvre et l'importance de la main d'œuvre n'implique pas qu'il suffit d'augmenter le nombre d'ouvriers pour améliorer la rentabilité de l'exploitation. En réalité, ces deux variables sont-elles mêmes fonction d'une troisième variable : l'étendue des exploitations. La corrélation observée provient du fait que les grandes exploitations nécessitent normalement une main d'œuvre plus nombreuse et qu'elles sont aussi économiquement les plus rentables.

 

7.1. Le coefficient de contingence (Contingency coefficient)

Ce coefficient de contingence C permet de mesurer l'intensité de la liaison existant entre deux variables considérés. Il n'est intéressant que lorsque les observations de l'une ou des deux séries sont mesurées dans une échelle nominale.

Méthode

Pour calculer ce coefficient entre deux séries de catégories (A1, A2,... Acet B1, B2,.... Br) nous arrangeons les fréquences en un tableau de contingence c x r.

 

A1

A2

...

Ac

Total

B1

(A1B1)

(A2B1)

....

AcB1

 

B2

(A1B2)

(A2B2)

....

AcB2

 

-

         

Br

(A1Br)

(A2Br)

....

(AcBr)

 

Total

       

N

Dans ce tableau, nous pouvons entrer les fréquences théoriques qui se produiraient s’il n'y avait pas de liaison ou de corrélation entre les variables. Plus la divergence entre les fréquences attendues et les fréquences observées est importante, plus le degré d'association entre ces deux variables est élevé, et plus le coefficient de contingence C est élevé.

Le coefficient C est défini comme suit :

et

où

nombre de cas observés classés dans la i(ème) rangée et la j(ème) colonne.
nombre de cas attendu, dans le cadre de l’hypothèse nulle, classés dans la i(ème) rangée et la j(ème) colonne.

Exemple

Il est possible de réutiliser les données de l'exemple du khi carré pour k échantillons indépendants vu précédemment (dépendance entre le cursus scolaire choisi par les adolescents d'une petite ville et leur appartenance à une classe sociale). Dans ce cas, c'est l'association entre les fréquences de séries non ordonnées (cursus scolaires) et les fréquences de séries ordonnées (appartenance sociale). Le tableau des données est répété ci-dessous :

Classe
Filière I et II III IV V Total
Prépa U. 7,3

23

30,3

40

38,0

16

5,4
2
81
Général 18,6

11

77,5

75

97,1

107

13,8

14

207
Commercial 9,1
1
38,2

31

47,9

60

6,8

10

102
Total 35 146 183 26 390

Le khi carré calculé à partir de ces données est de 69,2. Nous pouvons alors déterminer la valeur C du coefficient de contingence grâce à la formule précédente :
= 0,39.

La corrélation, exprimée par le coefficient de contingence, entre l'appartenance à une classe sociale et le choix d'un cursus scolaire dans cette ville est C = 0,39.

Test de la signification du coefficient de contingence

Si nous observons une corrélation entre deux séries de variables d'un échantillon, nous désirons savoir s'il est plausible de conclure que ces variables sont liées entre elles dans la population représentée par l'échantillon.

Dans le cas du coefficient de contingence, nous calculons une valeur statistique qui donne une indication simple et adéquate de la signification de C. Cette statistique est le khi carré. Aussi suffit-il de déterminer si le khi carré calculé à partir de ces données est significatif.

Si la probabilité d'obtenir le khi carré observé, avec un degré de liberté égal à (c -1) (r -1), est égal ou inférieur à a l'hypothèse nulle peut être rejetée à ce niveau de signification et nous pouvons conclure que, dans cette population, le degré d'association entre les deux séries de variables n'est pas nul.

En reprenant l'exemple précédent, nous avons montré que la relation entre le statut social et le cursus scolaire choisi est C = 0,39. Si nous considérons que les adolescents de cette petite ville forment un échantillon aléatoire d'une population, nous pouvons tester si le statut social est relié au cursus scolaire choisi dans cette population en cherchant la signification du khi carré égal à 69,2. En se référant à la table des valeurs critiques du khi carré, nous pouvons déterminer la probabilité associée à ce khi carré pour un degré de liberté de (c -1) (r - 1) = (4 -1) (3 - 1) = 6. Cette probabilité est inférieure à 0,001. Nous pouvons rejeter H0 à ce niveau de signification.

Nous concluons que le statut social et le choix d'un cursus scolaire dans une petite ville sont liés dans la population de laquelle a été extraite cet échantillon d'adolescents.

Limitations du coefficient de contingence

Les coefficients de corrélation doivent satisfaire à deux critéres : quand il y a absence complète d'association, le coefficient est égal à zero; quand les variables sont parfaitement en corrélation, le coefficient devrait être égal à 1. Le coefficient de contingence égal zéro en l'absence d'association, mais il ne peut atteindre l'unité dans la situation inverse, car sa limite supérieure dépend de la taille des colonnes c et des lignes r. Aussi, il n'est possible de comparer deux coefficients de contingence que lorsqu'ils proviennent de tables de contingence de même taille. Par ailleurs, le calcul de C implique celui du khi carré et donc impose les contraintes d'utilisation du khi carré.

Enfin, C n'est pas directement comparable à aucune autre mesure de corrélation, r de Pearson, rs de Spearman ou de Kendall.

Cependant, ce coefficient de contingence est extrêmement utile du fait de sa large applicabilité. Aucune contrainte d'application (forme de la population, continuité des variables, échelle de mesure) ne viennent restreindre son application.

 

7.2.
Coefficient de corrélation de rang de Kendall (Kendall rank correlation coefficient)

Ce coefficient de corrélation (tau) nécessite que les variables soient mesurées au moins dans une échelle ordinale, de telle sorte que chaque sujet des deux variables puisse être rangé. La distribution d'échantillonnage de , sous l'hypothèse nulle, est connue, aussi le coefficient peut être testé pour sa signification.

Le même type de données peuvent être traités par le coefficient de corrélation de Spearman rs (souvent plus connu). Mais le coefficient de Kendall présente l'avantage de pouvoir être généralisé à un coefficient partiel de corrélation xy.z et à un coefficient de concordance W.

Principe et méthode

Si l'on demande à deux enseignants de ranger, par exemple, quatre dissertations (a, b, c, d) en fonction de la qualité de leur style. Leur classement est le suivant :

Dissertation

a

b

c

d

Enseignant A

3

4

2

1

Enseignant B

3

1

4

2

Lorsque les dissertations sont réarrangées de telle sorte que celles de l'enseignant 1 apparaissent rangées dans l'ordre naturel, le tableau devient :

Dissertation

d

c

a

b

Enseignant A

1

2

3

4

Enseignant B

2

4

3

1

Il faut alors déterminer combien de paires de rangs de l'enseignant B sont dans un ordre naturel l'un par rapport à l'autre. Ainsi, les rangs de la première paire 2 et 4 sont dans l'ordre naturel, 2 précède 4. On affecte alors la valeur + 1 à cette paire. Les rangs de la seconde paire 2 et 3 sont dans un ordre correct et obtiennent + 1. La troisième paire (2 et 1) n'est pas dans un ordre correct et reçoit la valeur - 1. Il faut alors considérer toutes les paires qui incluent le rang 4, puis le rang 3 et cette démarche nous permet de calculer la somme de tous les scores obtenus :

(+1) + (+1) + (-1) + (-1) + (-1) + (-1) = -2

Maintenant, le total maximum possible qui peut être atteint par les scores affectés à l'ensemble des paires de jugements de l'enseignant B est obtenu lorsque tous les jugements des deux enseignants sont en parfait accord. Ce total maximum est le résultat de la combinaison de quatre choses prises deux à deux = 6.

Le degré de relation existant entre les deux séries de rangs est alors indiqué par le rapport du total des scores des rangements du juge B au total maximum possible :



Le total maximum de combinaisons de N objets pris deux à deux peut être exprimé par 1/2 N (N - 1), et le total observé dans l'échantillon par S, alors la formule suivante :


(A)

où N = le nombre d'objets ou d'individus rangés dans les deux séries.

Le calcul de S peut être simplifié de la façon suivante. Quand les rangs d'un des juges sont dans l'ordre naturel, et que les rangs correspondants de l'autre juge sont dans le même ordre, la valeur de S est déterminée en partant du premier nombre sur la gauche et en comptant le nombre de rangs sur sa droite qui lui sont supérieurs et en soustrayant de ce nombre, le nombre de rangs sur sa droite qui sont inférieurs. Ainsi, lorsque les rangs de l'enseignant B sont 2, 4, 3, 1, à la droite du rang 2 sont les rangs 3 et 4 qui sont supérieurs et le rang 1 qui est inférieur. Le rang 2 contribue donc (+2 -1) = +1 à S. Pour le rang 4, aucun rang à sa droite n'est supérieur, mais deux (les rangs 3 et 1) sont inférieurs. Le rang 4 contribue donc de (0 - 2) = - 2 à S. Pour le rang 3, aucun rang sur la droite n'est supérieur, mais un (le rang 1) est inférieur, et donc le rang 3 participe de (0 - 1) = - 1 à S. Leur participation totale à S est donc :

S = (+1) + (-2) + (-1) = -2

Connaissant la valeur de S, il est possible de calculer la valeur observée de :



- 0,33

Exemple

La relation entre l'autoritarisme des étudiants et leur conformisme social est recherché. L'autoritarisme des sujets et leur conformisme social sont appréciés par le passage de tests. Les résultats obtenus à ces deux tests par chacun de 12 étudiants et leurs rangs (en italique) sont présentés dans le tableau suivant :

Etudiant Appréciations
de l'autoritarisme du conformisme
A 82 2 42 3
B 98 6 46 4
C 87 5 39 2
D 40 1 37 1
E 116 10 65 8
F 113 9 88 11
G 111 8 86 10
H 83 3 56 6
I 85 4 62 7
J 126 12 92 12
K 106 7 54 5
L 117 11 81 9

Nous réarrangeons l'ordre des sujets de façon à ce que l'ordre des rangs pour le conformisme social se présente dans l'ordre naturel :

 

Sujet

D

C

A

B

K

H

I

E

L

G

F

J

                         

Conformisme social

1

2

3

4

5

6

7

8

9

10

11

12

Autoritarisme

1

5

2

6

7

3

4

10

11

8

9

12

Nous pouvons alors déterminer la valeur de S :

S = (11 -0) + (7 -3) + (9 -0) + (6 - 2) + (5 - 2) + (6 -0) + (5 - 0) + (2 -2)

+ (1 -2) + (2 - 0) + (1 - 0) = 44

Connaissant S = 44 et N = 12 nous pouvons calculer



0,67

qui représente le degré de relation entre l'autoritarisme et le conformisme social de 12 étudiants.

Observations ex-æquo

Quand deux observations ou plus ont la même valeur soit pour une variable soit pour l'autre, nous utilisons la procédure habituelle : ces observations reçoivent le rang moyen des rangs qu'elles auraient eu si elles n'avaient pas été liées. L'effet des ex-æquo consiste à modifier le dénominateur de la formule A


(A’)

L'effet correcteur est peu important. Ainsi dans un échantillon de 12 observations, l'une des variables présente trois groupes de deux valeurs liées, deux sujets sont ex-æquo au rang 1,5, deux autres au rang 3,5 et deux au rang 10,5. Dans chaque cas, le nombre de valeurs ex-æquo est t = 2 et nous calculons Ty:

Les valeurs suivantes sont observées S = 25 et N = 12, Ty = 3 et Tx = 0, nous pouvons alors déterminer la valeur de


= 0,39

Si la correction n'avait pas été réalisée, en utilisant la formule A, nous aurions trouvé
= 0,38.

Test de signification de

Si un échantillon est tiré d'une population dans laquelle deux variables X et Y ne sont pas liées, et que les membres de l'échantillon sont rangés pour X et Y, alors pour tout ordre donné des rangs de X, tous les ordres possibles des rangs de Y sont également observables.

Supposons que les rangs de X soient arrangés selon leur ordre naturel 1, 2, 3, ...., N. Pour cet arrangement des rangs de X, tous les N ! ordres possibles des rangs de Y sont également probables sous H0. Par conséquent, tout ordre particulier des rangs de Y a une probabilité associée de 1/ N!. Il est donc possible de calculer des tables de probabilités pour chaque valeur de N. Cependant, cette méthode devient rapidement fastidieuse quand N augmente. Mais, quand N ≥ 8, la distribution d'échantillonnage de est pratiquement comparable à celle de la distribution normale et la table de z peut être utilisée.

Quand N est inférieur ou égal à 10, la table des valeurs critiques de S du coefficient de corrélation de Kendall (table 12) donne les probabilités exactes d'obtenir un S donné (unilatéral). Si p est égal ou supérieur à a, H0 peut être rejetée.

Quand N est supérieur à 10, peut être considéré comme normalement distribué avec une moyenne = 0


et un écart-type

.

Alors



Il faut alors déterminer la signification de z par référence à la table des z (Table 1).

Maintenant, les logiciels statistiques donnent la probabilité exacte (corrigée pour les ex-æquo) d’obtenir sous H0 le z correspondant aux données. L’hypothèse nulle est alors rejetée si la probabilité exacte est égale ou inférieure au seuil de signification a choisi.

Exemple pour un échantillon de taille supérieure à 10

Nous avons d'ores et déjà calculé la corrélation existant entre l'autoritarisme et le conformisme chez 12 étudiants = 0,67.

Nous pouvons calculer


= 3,03

La table des z montre que z égal ou supérieur à 3,03 a une probabilité associée de p = 0,0012. Nous pouvons rejeter H0 à ce niveau de signification, et conclure que les deux variables sont associées dans la population à partir de laquelle l'échantillon a été extrait.

Exercice :

1. Calculer le coefficient de corrélation de Kendall et sa signification à partir des données sur la longueur du corps et la profondeur de poitrine chez les vaches laitières (=0,39 ; z = 2,57 ; p = 0,0101).

Comparez ces résultats avec ceux qui sont obtenus sur les mêmes données par le test de corrélation de Bravais-Pearson.

2. Deux experts, classant séparément 10 échantillons de cidre, ont donné les ordres de préférence suivants :

1er expert 2ème expert
1
3
2
1
3
4
4
2
5
6
6
5
7
9
8
8
9
10
10
7

Calculer le coefficient de corrélation, et concluez.

Le coefficient de corrélation de Spearman et celui de Kendall, bien que numériquement différents pour le même ensemble de données, ont un pouvoir identique de rejet de H0.

 

7.3. Coefficient de corrélation de rang partiel de Kendall (The Kendall partial rank correlation coefficient)

Quand une corrélation est observée entre deux variables, il y a toujours la possibilité que cette corrélation soit due à l'association entre chacune des deux variables et une troisième variable.
Les effets de variation due à une troisième variable sur la relation entre deux autres variables X et Y sont éliminés par une corrélation partielle. D'une autre façon, la corrélation entre X et Y est calculée alors que la troisième variable est maintenue constante.
En réalisant le protocole d'une expérience, nous avons l'alternative soit d'introduire des contrôles expérimentaux de façon à éliminer l'influence d'une troisième variable soit d'utiliser des méthodes statistiques pour éliminer cette influence. Nous présentons une méthode de contrôle statistique qui peut être utilisée avec le coefficient de corrélation de Kendall.

Principe

Supposons que trois variables (X, Y, Z) sont mesurées sur 4 sujets. Nous désirons déterminer la corrélation entre X et Y quand Z est maintenu constant. Les rangs des variables sont

Sujet

a

b

c

d

rangs de Z

1 2 3 4

rangs de X

3 1 2 4

rangs de Y

2 1 3 4

Le nombre de paires de rangs possible de chaque variable est de 4 pris deux à deux. Ayant rangés les rangs de Z dans l’ordre naturel, nous observons chaque paire possible des rangs de X, des rangs de Y et des rangs de Z. Nous donnerons un signe + à chacune des paires pour lesquelles le rang le plus bas précède le plus haut ; et un signe - à chacune des paires pour lesquelles le rang le plus élevé précède le rang le plus bas.

Paire

(a,b)

(a,c)

(a,d)

(b,c)

(b,d)

(c,d)

Z

+ + + + + +

X

- - + + + +

Y

- + + + + +

Ainsi, pour la variable X, le score pour la paire (a,b) est moins car les rangs de a et b, 3 et 1, ne sont pas dans l'ordre naturel.

Nous allons maintenant résumer l'information dans un tableau à double entrée :

Paires de Y dont le signe concorde avec celui de Z Paires de Y dont le signe ne concorde pas avec celui de ZTotal
Paires de X dont le signe concorde avec celui de ZA

4

B

0

4
Paires de X dont le signe ne concorde pas avec celui de Z C

1

D

1

2
TotalA+C 5 B+D 1 6

Considérons les trois signes sous (a,b). Pour cet ensemble de rangs, X et Y ont tous deux un signe - alors que Z a un signe +. X et Y sont en désaccords avec Z. Cette information est placée dans la cellule D. Si l'on considère la paire (a, c), le signe de Y est en accord avec celui de Z, mais le signe de X est en désaccord avec celui de Z. Ainsi, cette information est assignée à la cellule C. Dans chaque cas des paires restantes, le signe de Y et celui de X sont en accord avec celui de Z, les 4 paires sont placées dans la cellule A du tableau. Le coefficient de rang partiel de Kendall est calculé à partir de ce tableau.

Il est défini comme

(B)

Dans l'exemple des 4 objets considérés précédemment,



= 0,63

Le coefficient de corrélation entre X et Y lorsque Z est maintenu constant ( ) est de 0,63.

Si nous avions calculé la corrélation entre X et Y sans considérer l'effet de Z, nous aurions trouvé = 0,67. Ceci suggère que les relations entre X et Z et entre Y et Z n'influencent que faiblement la relation observée entre X et Y. Ce type d'inférence doit être fait avec certaines réserves, à moins d'avoir des données pertinentes permettant de supposer quel effet est observé.

La formule (B) est parfois appelée le coefficient phi, et il peut être montré que

La présence du dans cette expression suggère que mesure le degré d'accord entre X et Y indépendamment de leur accord avec Z.

Méthode

La méthode de calcul de devient rapidement fastidieuse lorsque N augmente. Kendall a montré que


(C)

Exemple

Nous avons vu que la corrélation entre l'autoritarisme et le conformisme social est de = 0,67.

Mais il existe aussi une corrélation entre le conformisme social et la conformité à la pression des groupes de = 0,39.

Ceci nous fait nous demander si la première corrélation ne représente pas simplement l'intervention d'une troisième variable : la conformité aux groupes de pression.

Nous pouvons tester cette hypothèse en calculant le coefficient de corrélation partiel entre autoritarisme et le conformisme social, en maintenant constant l'effet du besoin de céder à la pression des groupes.

Les résultats sont présentés dans le tableau suivant :

 

 

Rangs

Sujet

Conformisme

Autoritarisme

Conformité

 

X

Y

Z

A

3

2

1,5

B

4

6

1,5

C

2

5

3,5

D

1

1

3,5

E

8

10

5,0

F

11

9

6,0

G

10

9

7,0

H

6

3

8,0

I

7

4

9,0

J

12

12

10,5

K

5

7

10,5

L

9

11

12,0

Nous connaissons déjà = 0,67 et = 0,39 et nous pouvons calculer = 0,36. Nous pouvons alors déterminer la valeur de en utilisant la formule (C)


= 0,62
Le coefficient de corrélation partiel entre autoritarisme et conformisme social est de 0,62. Cette valeur est peu différente de celle de = 0,67. Nous pouvons conclure que la relation entre l'autoritarisme et le conformisme social (mesurés avec ces échelles) est relativement indépendante de l'influence de la conformité à un groupe de pression.

Test de signification

La distribution d'échantillonnage du coefficient de corrélation partiel de Kendall n’est pas connue et donc aucun test de signification n'est possible.

 

 

 

7.4.
Coefficient de concordance de Kendall W (Kendall coefficient of concordance)

Quand on dispose, non pas de deux, mais de k distributions d'une même série d'individus en deux classes, la notion de corrélation de rang peut être généralisée grâce au coefficient de concordance. W exprime le degré d'association entre k variables.

Principe

Supposons que l'on demande à trois cadres de sociétés d’interviewer 6 demandeurs d'emploi et de les ranger séparément suivant leurs capacités à remplir le poste vacant. Les trois séries indépendantes de rangs données par les trois cadres A, B, C sont exposées dans le tableau suivant :

Postulant
a b c d e f
Cadre A 1 6 3 2 5 4
Cadre B 1 5 6 4 2 3
Cadre C 6 3 2 5 4 1

Rj 8 14 11 11 11 8


Si les trois cadres avaient été en parfait accord sur leur jugement des postulants, c'est-à-dire, s'ils les avaient rangés dans le même ordre, alors l'un des postulants aurait reçu trois rangs 1 et sa somme de rangs serait de 3 = k. Le postulant suivant serait affecté de la somme de rangs de 6 = 2 k et le moins performant des postulants serait affecté de la somme de rangs de 18 = 6 k = N k. En général, quand il y a accord parfait parmi les k séries de rangements, nous obtenons, pour les sommes des rangs, les séries k, 2k, 3k....Nk.

D'un autre côté, s'il n'y avait aucun accord parmi les cadres, les différentes sommes des rangs seraient approximativement égales. W, le coefficient de concordance, est une fonction de ce degré de variation.

Méthode

Pour calculer W, nous cherchons la somme des rangs, Rj , de chaque colonne du tableau k x N. Puis, nous sommons les Rj et divisons cette somme par N pour obtenir la valeur moyenne de Rj. Enfin, nous calculons les déviations entre chaque Rj et la valeur moyenne et nous sommons les carrés de ces déviations s.

(D)

où s = somme des carrés des déviations entre les Rj observés et la moyenne de ces Rj.

k = nombre de séries de rangements, nombre de juges.

N = nombre d'individus rangés

1/12 k2 (N3 - N) = la somme s que l'on obtiendrait dans le cas d'un accord parfait entre les k rangements.

À partir des données précédentes :

s = (8 -10,5)2 + (14 - 10,5)2 + (11 - 10,5)2 + (11- 10,5)2 + (11 - 10,5)2 + (8 - 10,5)2= 25,5

et

0,16

Exemple

Kendall a donné un exemple où 10 objets sont rangés chacun pour 3 variables différentes X, Y, Z. Les rangs obtenus sont les suivants :

Entités
Variable a b c d e f g h i j
X 1 4,5 2 4,5 3 7,5 6 9 7,5 10
Y 2,5 1 2,5 4,5 4,5 8 9 6,5 10 6,5
Z 2 1 4,5 4,5 4,5 4,5 8 8 8 10
Rj 5,5 6,5 9 13,5 12 20 23 23,5 25,5 26,5


La moyenne des Rj est 16,5.

s = (5,5 - 16,5)2 + (6,5 - 16,5)2 + (9 - 16,5)2 + (13,5 - 16,5)2 + (12 - 16,5)2 + (20 - 16,5)2 + (23 - 16,5)2 + (23,5 - 16,5)2+ (25,5 - 16,5)2 + (26,5 - 16,5)2= 591

Comme la proportion d'ex-æquo est importante, une correction est apportée au calcul de W.



(E)

où
correspond à la somme des valeurs de T pour l’ensemble des ex-æquo

et et

pour le rangement de X : = 1

pour le rangement de Y : = 1,5

pour le rangement de Z : = 7

et la somme des T = 1 + 1,5 + 7 = 9,5

En utilisant la formule E, nous calculons W corrigé pour les ex-æquo



= 0,828

Si nous n'avions pas tenu compte des ex-æquo, nous aurions trouvé W = 0,796. Cette différence montre le faible effet des ex-æquo sur la valeur de W non corrigé.

Test de signification de W

Petits échantillons

La distribution de s a été calculée et certaines valeurs critiques tabulées (Table des valeurs critiques de s pour le coefficient de concordance ; Table 13) pour des W significatifs aux seuils 0,05 et 0,01. Cette table est applicable pour k de 3 à 20 et N de 3 à 7.

Lorsqu’une valeur observée de s est égale ou supérieure à celle de la table pour un niveau de signification donné, alors Ho peut être rejeté à ce niveau de signification.

Dans le cas des 3 cadres jugeant 6 postulants, leur accord était de W = 0,16. Référence à la table précédente révèle que la valeur s associée à ce W (s = 25,5) n'est pas significative.

Grands échantillons

Quand N est supérieur à 7, l'expression donnée par la formule suivante F est approximativement distribuée comme un khi carré de ddl = N - 1

=

ou = k (N -1) W (F)

La probabilité associée à cet est déterminée par référence à la table du khi carré.

Si la valeur du calculée selon la formule F égale ou excède celle de la table du khi carré pour un niveau de signification et un degré de liberté donnée, l'hypothèse nulle peut être rejetée à ce niveau de signification.

Exemple

Dans une étude de rangement des relations mère-enfants de 20 mères avec leur enfant sourd par le personnel soignant d'une institution (13), nous trouvons W = 0,577, avec k = 13 et N = 20.

Nous calculons le = k (N -1) W = 13 (20 -1) (0,577) = 142,5

avec ddl = N - 1 = 20 - 1 = 19

La probabilité d'obtenir un tel est p < 0,001. Nous pouvons conclure que l'accord entre les 13 soignants n'est pas aléatoire.