Nous souhaitons mettre en évidence les relations qui existent entre deux séries d'observations (deux variables X et Y) considérées simultanément. Nous voulons aussi connaître la netteté de leur liaison.
Il faut distinguer deux situations :
une des deux variables, la variable dépendante, doit être exprimée en fonction de lautre, la variable indépendante, de façon à prévoir ou estimer lune en fonction de lautre. Les valeurs de la variable indépendante sont fixées par avance par lexpérimentateur.
Exemples :
Ces questions peuvent être abordées avec les tests de régression.
Les deux variables ne peuvent être distinguées, et pourront prendre nimporte quelle valeur pour nimporte quel individu observé. Les variables sont dites interdépendantes.
Ces questions sont traitées avec les tests de corrélation.
Il est, dans ce cas, important de mesurer le degré de relation existant entre deux séries d'observation (le coefficient de corrélation), mais il est tout aussi important de pouvoir décider si une liaison observée dans un échantillon indique ou non que les variables étudiées sont probablement associées dans la population à partir de laquelle a été extrait l'échantillon.
Quelques unes des méthodes de mesure non paramétriques de le corrélation et leurs tests de signification seront présentées.
Au préalable, il ne faut jamais oublier que l'existence d'une corrélation même élevée entre deux séries d'observations n'implique pas nécessairement l'existence d'une relation de cause à effet (causalité) entre les deux variables considérées. En effet, les corrélations observées peuvent être dues au fait que les variables étudiées sont toutes deux soumises à des influences communes, modifiant simultanément les valeurs, soit dans le même sens (corrélation positive), soit en sens opposés (corrélation négative).
Ainsi, pour certaines exploitations agricoles, l'existence d'une corrélation positive entre le revenu par unité de main d'uvre et l'importance de la main d'uvre n'implique pas qu'il suffit d'augmenter le nombre d'ouvriers pour améliorer la rentabilité de l'exploitation. En réalité, ces deux variables sont-elles mêmes fonction d'une troisième variable : l'étendue des exploitations. La corrélation observée provient du fait que les grandes exploitations nécessitent normalement une main d'uvre plus nombreuse et qu'elles sont aussi économiquement les plus rentables.
Ce coefficient de contingence C permet de mesurer l'intensité de la liaison existant entre deux variables. Il n'est intéressant que lorsque les observations de l'une ou des deux séries sont mesurées dans une échelle nominale.
Méthode
Pour calculer ce coefficient entre deux séries de catégories (A1, A2,... Acet B1, B2,.... Br) nous arrangeons les fréquences en un tableau de contingence c x r.
 | A1 | A2 | ... | Ac | Total |
---|---|---|---|---|---|
B1 | (A1B1) | (A2B1) | .... | AcB1 | Â |
B2 | (A1B2) | (A2B2) | .... | AcB2 | |
- | Â | Â | Â | Â | |
Br | (A1Br) | (A2Br) | .... | (AcBr) | |
Total | Â | Â | Â | Â | N |
Dans ce tableau, nous pouvons entrer les fréquences théoriques qui se produiraient sil n'y avait pas de liaison ou de corrélation entre les variables. Plus la divergence entre les fréquences attendues et les fréquences observées est importante, plus le degré d'association entre ces deux variables est élevé, et plus le coefficient de contingence C est élevé.
Le coefficient C est défini comme suit :
![]() | et | ![]() |
où
nombre de cas observés classés dans la i(ème) rangée et la j(ème) colonne.
nombre de cas attendu, dans le cadre de lhypothèse nulle, classés dans la i(ème) rangée et la j(ème) colonne.
Exemple
Il est possible de réutiliser les données de l'exemple du khi carré pour k échantillons indépendants vu précédemment (dépendance entre le cursus scolaire choisi par les adolescents d'une petite ville et leur appartenance à une classe sociale). Dans ce cas, c'est l'association entre les fréquences de séries non ordonnées (cursus scolaires) et les fréquences de séries ordonnées (appartenance sociale). Le tableau des données est répété ci-dessous :
Classe | |||||
---|---|---|---|---|---|
Filière | I et II | III | IV | V | Total |
Prépa U | 7,3 | 30,3 | 38,0 | 5,4 | 81 |
23 | 40 | 16 | 2 | ||
Général | 18,6 | 77,5 | 97,1 | 13,8 | 207 |
11 | 75 | 107 | 14 | ||
Commercial | 9,1 | 38,2 | 47,9 | 6,8 | 102 |
1 | 31 | 60 | 10 | ||
Total | 35 | 146 | 183 | 26 | 390 |
Le khi carré calculé à partir de ces données est de 69,2. Nous pouvons alors déterminer la valeur C du coefficient de contingence grâce à la formule précédente :
![]() | = 0,39. |
La corrélation, exprimée par le coefficient de contingence, entre l'appartenance à une classe sociale et le choix d'un cursus scolaire dans cette ville est C = 0,39.
Test de la signification du coefficient de contingence
Si nous observons une corrélation entre deux séries de variables d'un échantillon, nous désirons savoir s'il est plausible de conclure que ces variables sont liées entre elles dans la population représentée par l'échantillon.
Dans le cas du coefficient de contingence, nous calculons une valeur statistique qui donne une indication simple et adéquate de la signification de C. Cette statistique est le khi carré. Aussi suffit-il de déterminer si le khi carré calculé à partir de ces données est significatif.
Si la probabilité d'obtenir le khi carré observé, avec un degré de liberté égal à (c -1) (r -1), est égal ou inférieur à a l'hypothèse nulle peut être rejetée à ce niveau de signification et nous pouvons conclure que, dans cette population, le degré d'association entre les deux séries de variables n'est pas nul.
En reprenant l'exemple précédent, nous avons montré que la relation entre le statut social et le cursus scolaire choisi est C = 0,39. Si nous considérons que les adolescents de cette petite ville forment un échantillon aléatoire d'une population, nous pouvons tester si le statut social est relié au cursus scolaire choisi dans cette population en cherchant la signification du khi carré égal à 69,2. En se référant à la table des valeurs critiques du khi carré (table 2), nous pouvons déterminer la probabilité associée à ce khi carré pour un degré de liberté de (c -1) (r - 1) = (4 -1) (3 - 1) = 6. Cette probabilité est inférieure à 0,001. Nous pouvons rejeter H0 à ce niveau de signification.
Nous concluons que le statut social et le choix d'un cursus scolaire dans une petite ville sont liés dans la population de laquelle a été extraite cet échantillon d'adolescents.
Limitations du coefficient de contingence
Les coefficients de corrélation doivent satisfaire à deux critéres : quand il y a absence complète d'association, le coefficient est égal à zero; quand les variables sont parfaitement en corrélation, le coefficient devrait être égal à 1. Le coefficient de contingence égal zéro en l'absence d'association, mais il ne peut atteindre l'unité dans la situation inverse, car sa limite supérieure dépend de la taille des colonnes c et des lignes r. Aussi, il n'est possible de comparer deux coefficients de contingence que lorsqu'ils proviennent de tables de contingence de même taille. Par ailleurs, le calcul de C implique celui du khi carré et donc impose les contraintes d'utilisation du khi carré.
Enfin, C n'est pas directement comparable à aucune autre mesure de corrélation, r de Pearson, rs de Spearman ou de Kendall.
Cependant, ce coefficient de contingence est extrêmement utile du fait de sa large applicabilité. Aucune contrainte d'application (forme de la population, continuité des variables, échelle de mesure) ne viennent restreindre son application.
C'est le premier test statistique réalisé à partir des rangs. Cette statistique est appelée rô ou rs. Elle mesure l'association entre deux variables mesurées au moins dans une échelle ordinale.
Principe
Soit un groupe de lycéens rangé d'une part selon leur classement au test de fin d'étude (X1, X2, ....Xn) et d'autre part au test de fin de première année à l'université (Y1, Y2,...Yn), nous pouvons utiliser une mesure de corrélation des rangs pour déterminer la relation existant entre les X et les Y.
La corrélation entre les rangs au test d'entrée et ceux au test de fin de première année serait parfaite si Xi = Yi pour toutes les paires considérées. Aussi, un indice de disparité entre les deux ensembles de rangement pourrait être la différence entre les rangs de chaque paire : di = Xi - Yi. Ainsi, l'individu A a reçu le rang 1 au premier test et le rang 5 au second, la différence est d = - 4. L'individu B rangé 10ème au premier test, est premier au second test, son d = +9. L'ampleur des différents d donne une idée de l'étroitesse de la relation entre les classements au premier et au second test. Si la relation entre les deux ensembles de rangs était parfaite, chaque différence d serait nulle. Donc, plus la différence entre les rangs des deux variables est importante, moins leur relation est étroite.
Cependant, lors de la détermination de l'ampleur totale de la disparité entre les deux variables, il est préférable d'utiliser di2 plutôt que di, dont les valeurs négatives réduiraient les valeurs positives. Donc, plus les différences di sont importantes, plus la valeur de la somme des di2 le sera aussi.
La meilleure formule pour calculer le coefficient rs de Spearman est :
Méthode
Après avoir listé les N sujets, déterminez le rang de X et de Y pour chaque variable. Déterminez ensuite les différences di entre les deux rangs, élevez au carré chaque di et sommez toutes les valeurs di2. Puis entrez cette somme et la valeur de N dans la formule de rs.
Exemple
La relation entre l'autoritarisme des étudiants et leur conformisme social est recherché. L'autoritarisme des sujets et leur conformisme social sont appréciés par le passage de tests. Les résultats obtenus à ces deux tests par chacun de 12 étudiants et leurs rangs (en italique) sont présentés dans le tableau suivant :
Etudiant | Appréciations | di | di2 | |||
---|---|---|---|---|---|---|
de l'autoritarisme | du conformisme | |||||
A | 82 | 2 | 42 | 3 | -1 | 1 |
B | 98 | 6 | 46 | 4 | 2 | 4 |
C | 87 | 5 | 39 | 2 | 3 | 9 |
D | 40 | 1 | 37 | 1 | 0 | 0 |
E | 116 | 10 | 65 | 8 | 2 | 4 |
F | 113 | 9 | 88 | 11 | -2 | 4 |
G | 111 | 8 | 86 | 10 | -2 | 4 |
H | 83 | 3 | 56 | 6 | -3 | 9 |
I | 85 | 4 | 62 | 7 | -3 | 9 |
J | 126 | 12 | 92 | 12 | 0 | 0 |
K | 106 | 7 | 54 | 5 | 2 | 4 |
L | 117 | 11 | 81 | 9 | 2 | 4 |
S di2=52 |
En appliquant la formule précedente, calcul de la valeur rs :
Observations ex-aequo
Quelquefois deux sujets ou plus peuvent avoir le même rang pour la même variable. Dans ce cas, chaque sujet reçoit la moyenne des rangs qui auraient été affectés à chaque sujet s'il n'avait pas été ex-aequo.
Si le nombre d'ex-aequo n'est pas trop important, son effet sur rs est négligeable et la formule de calcul précedente peut être utilisée. Par contre, si le nombre d'ex-aequo est élevé, un facteur de correction doit être incorporé au calcul de rs.
L'effet des rangs ex-aequo sur la variable X est de réduire la somme des carrés à une valeur inférieure Ã
Il est donc nécessaire de corriger la somme des carrés. Le facteur de correction est T :
ou t = le nombre d'observations ex-aequo pour un rang donné. La somme des carrés corrigée pour les ex-aequo devient ;
ST est la somme des différentes valeurs T de tous les groupes d'observations ex-aequo.
De la même façon, Sy2 est
Lorsqu'il y a un nombre important d'ex-aequo, il faut alors utiliser la formule suivante pour calculer rs :
Exemple avec ex-aequo
L'autoritarisme et le conformisme social de 12 autres sujets sont appréciés par le passage de tests. Les résultats obtenus à ces deux tests par chacun de 12 étudiants et leurs rangs (en italique) sont présentés dans le tableau suivant :
Etudiant | Appréciations | di | di2 | |||
---|---|---|---|---|---|---|
de l'autoritarisme | du conformisme | |||||
A | 82 | 1,5 | 40 | 3 | -1,5 | 2,25 |
B | 82 | 1,5 | 46 | 4 | 2,5 | 6,25 |
C | 87 | 3,5 | 37 | 2 | 1,5 | 2,25 |
D | 87 | 3,5 | 35 | 1 | 2,5 | 6,25 |
E | 106 | 5 | 70 | 8 | -3,0 | 9,00 |
F | 111 | 6 | 88 | 11 | -5,0 | 25,00 |
G | 113 | 7 | 86 | 10 | -3,0 | 9,00 |
H | 116 | 8 | 58 | 6 | 2,0 | 4,00 |
I | 119 | 9 | 60 | 7 | 2,0 | 4,00 |
J | 120 | 10,5 | 92 | 12 | -1,5 | 2,25 |
K | 120 | 10,5 | 56 | 5 | -5,5 | 30,25 |
L | 126 | 12 | 72 | 9 | 3 | 9,00 |
S di2=109,50 |
Pour utiliser la formule de rs corrigé pour les ex-aequo, nous calculons Sx2 et Sy2
De la même façon, on calcule Sy2
Ces valeurs reportées dans la formule de rs corrigée pur les ex-aequo donnent :
Si le calclul avait été réalisé sans tenir compte des ex-aequo, la valeur de rs serait de 0,617. L'effet d'ex-aequo peu nombreux est limité sur la valeur du coefficient de Spearman. Il peut, par contre, être appréciable lorsque les ex-aequo sont nombreux que ce soit pour la variable X ou pour la variable Y.
Signification de rs
Nous voulons savoir si les deux variables étudiées ne sont pas liées entre elles (hypothèse nulle) et si la valeur observée de rs diffère de zéro uniquement par hasard.
Pour les petits échantillons (4 Lorsque N est important (>10), la valeur rsest distribué comme la valeur statistique t de Student avec un degré de liberté de N - 2. Donc après calcul du t, selon la formule précédente, la signification de rs est celle de t. On l'obtient en se réferant à la table des t.
Ainsi dans le premier exemple, le coefficient de corrélation rs entre l'autoritarime et
le conformisme des étudiants de ce premier échantillon était de 0,82. La table des valeurs critiques indique que cette valeur est significative au seuil 0,01 (test unilatéral). Nous pouvons rejeter l'hypothèse nulle et conclure que l'autoristarisme et le conformisme sont sigtnificativement liés.
Calculateur |
Coefficient de corrélation rs de Spearman |
Ce coefficient de corrélation (tau) nécessite que les variables soient mesurées au moins dans une échelle ordinale, de telle sorte que chaque sujet des deux variables puisse être rangé. La distribution d'échantillonnage de
, sous l'hypothèse nulle, est connue, aussi le coefficient peut être testé pour sa signification.
Le même type de données peuvent être traités par le coefficient de corrélation de Spearman rs (souvent plus connu). Mais le coefficient de Kendall présente l'avantage de pouvoir être généralisé à un coefficient partiel de corrélation xy.z et à un coefficient de concordance W.
Principe et méthode
Si l'on demande à deux enseignants de ranger, par exemple, quatre dissertations (a, b, c, d) en fonction de la qualité de leur style. Leur classement est le suivant :
Dissertation | a | b | c | d |
---|---|---|---|---|
Enseignant A | 3 | 4 | 2 | 1 |
Enseignant B | 3 | 1 | 4 | 2 |
Lorsque les dissertations sont réarrangées de telle sorte que celles de l'enseignant 1 apparaissent rangées dans l'ordre naturel, le tableau devient :
Dissertation | d | c | a | b |
---|---|---|---|---|
Enseignant A | 1 | 2 | 3 | 4 |
Enseignant B | 2 | 4 | 3 | 1 |
Il faut alors déterminer combien de paires de rangs de l'enseignant B sont dans un ordre naturel l'un par rapport à l'autre. Ainsi, les rangs de la première paire 2 et 4 sont dans l'ordre naturel, 2 précède 4. On affecte alors la valeur + 1 à cette paire. Les rangs de la seconde paire 2 et 3 sont dans un ordre correct et obtiennent + 1. La troisième paire (2 et 1) n'est pas dans un ordre correct et reçoit la valeur - 1. Il faut alors considérer toutes les paires qui incluent le rang 4, puis le rang 3 et cette démarche nous permet de calculer la somme de tous les scores obtenus :
Maintenant, le total maximum possible qui peut être atteint par les scores affectés à l'ensemble des paires de jugements de l'enseignant B est obtenu lorsque tous les jugements des deux enseignants sont en parfait accord. Ce total maximum est le résultat de la combinaison de quatre choses prises deux à deux = 6.
Le degré de relation existant entre les deux séries de rangs est alors indiqué par le rapport du total des scores des rangements du juge B au total maximum possible :
![]() | ![]() |
Le total maximum de combinaisons de N objets pris deux à deux peut être exprimé par 1/2 N (N - 1), et le total observé dans l'échantillon par S, alors la formule suivante :
![]() | (A) |
où N = le nombre d'objets ou d'individus rangés dans les deux séries.
Le calcul de S peut être simplifié de la façon suivante. Quand les rangs d'un des juges sont dans l'ordre naturel, et que les rangs correspondants de l'autre juge sont dans le même ordre, la valeur de S est déterminée en partant du premier nombre sur la gauche et en comptant le nombre de rangs sur sa droite qui lui sont supérieurs et en soustrayant de ce nombre, le nombre de rangs sur sa droite qui sont inférieurs. Ainsi, lorsque les rangs de l'enseignant B sont 2, 4, 3, 1, à la droite du rang 2 sont les rangs 3 et 4 qui sont supérieurs et le rang 1 qui est inférieur. Le rang 2 contribue donc (+2 -1) = +1 à S. Pour le rang 4, aucun rang à sa droite n'est supérieur, mais deux (les rangs 3 et 1) sont inférieurs. Le rang 4 contribue donc de (0 - 2) = - 2 à S. Pour le rang 3, aucun rang sur la droite n'est supérieur, mais un (le rang 1) est inférieur, et donc le rang 3 participe de (0 - 1) = - 1 à S. Leur participation totale à S est donc :
S = (+1) + (-2) + (-1) = -2
Connaissant la valeur de S, il est possible de calculer la valeur observée de :
![]() | - 0,33 |
---|
Exemple
La relation entre l'autoritarisme des étudiants et leur conformisme social est recherché. L'autoritarisme des sujets et leur conformisme social sont appréciés par le passage de tests. Les résultats obtenus à ces deux tests par chacun de 12 étudiants et leurs rangs (en italique) sont présentés dans le tableau suivant :
Etudiant | Appréciations | |||
---|---|---|---|---|
de l'autoritarisme | du conformisme | |||
A | 82 | 2 | 42 | 3 |
B | 98 | 6 | 46 | 4 |
C | 87 | 5 | 39 | 2 |
D | 40 | 1 | 37 | 1 |
E | 116 | 10 | 65 | 8 |
F | 113 | 9 | 88 | 11 |
G | 111 | 8 | 86 | 10 |
H | 83 | 3 | 56 | 6 |
I | 85 | 4 | 62 | 7 |
J | 126 | 12 | 92 | 12 |
K | 106 | 7 | 54 | 5 |
L | 117 | 11 | 81 | 9 |
Nous réarrangeons l'ordre des sujets de façon à ce que l'ordre des rangs pour le conformisme social se présente dans l'ordre naturel :
Sujet | D | C | A | B | K | H | I | E | L | G | F | J |
---|---|---|---|---|---|---|---|---|---|---|---|---|
 |  |  |  |  |  |  |  |  |  |  |  |  |
Conformisme social | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
Autoritarisme | 1 | 5 | 2 | 6 | 7 | 3 | 4 | 10 | 11 | 8 | 9 | 12 |
Nous pouvons alors déterminer la valeur de S :
S = (11 -0) + (7 -3) + (9 -0) + (6 - 2) + (5 - 2) + (6 -0) + (5 - 0) + (2 -2)
+ (1 -2) + (2 - 0) + (1 - 0) = 44
Connaissant S = 44 et N = 12 nous pouvons calculer
![]() | 0,67 |
---|
qui représente le degré de relation entre l'autoritarisme et le conformisme social de 12 étudiants.
Observations ex-æquo Quand deux observations ou plus ont la même valeur soit pour une variable soit pour l'autre, nous utilisons la procédure habituelle : ces observations reçoivent le rang moyen des rangs qu'elles auraient eu si elles n'avaient pas été liées. L'effet des ex-æquo consiste à modifier le dénominateur de la formule A
![]() | (A) |
L'effet correcteur est peu important.
Ainsi dans un échantillon de 12 observations, l'une des variables présente trois groupes de deux valeurs liées, deux sujets sont ex-æquo au rang 1,5, deux autres au rang 3,5 et deux au rang 10,5. Dans chaque cas, le nombre de valeurs ex-æquo est t = 2 et nous calculons Ty:
Les valeurs suivantes sont observées S = 25 et N = 12, Ty = 3 et Tx = 0, nous pouvons alors déterminer la valeur de
![]() | = 0,39 |
Si la correction n'avait pas été réalisée, en utilisant la formule A, nous aurions trouvé
Test de signification
Si un échantillon est tiré d'une population dans laquelle deux variables X et Y ne sont pas liées, et que les membres de l'échantillon sont rangés pour X et Y, alors pour tout ordre donné des rangs de X, tous les ordres possibles des rangs de Y sont également observables.
Supposons que les rangs de X soient arrangés selon leur ordre naturel 1, 2, 3, ...., N. Pour cet arrangement des rangs de X, tous les N ! ordres possibles des rangs de Y sont également probables sous H0. Par conséquent, tout ordre particulier des rangs de Y a une probabilité associée de 1/ N!. Il est donc possible de calculer des tables de probabilités pour chaque valeur de N. Cependant, cette méthode devient rapidement fastidieuse quand N augmente. Mais, quand N ≥ 8, la distribution d'échantillonnage de est pratiquement comparable à celle de la distribution normale et la table de z (table 1) peut être utilisée.
Quand N est inférieur ou égal à 10, la table des valeurs critiques de S du coefficient de corrélation de Kendall donne les probabilités exactes d'obtenir un S donné (unilatéral). Si p est égal ou supérieur à a, H0 peut être rejetée.
Quand N est supérieur à 10, peut être considéré comme normalement distribué avec une moyenne = 0
et un écart-type | ![]() | Alors | ![]() |
---|
Il faut alors déterminer la signification de z par référence à la table des z (Table 1).
Maintenant, les logiciels statistiques donnent la probabilité exacte (corrigée pour les ex-æquo) dobtenir sous H0 le z correspondant aux données. Lhypothèse nulle est alors rejetée si la probabilité exacte est égale ou inférieure au seuil de signification a choisi.
Exemple pour un échantillon de taille supérieure à 10
Nous avons d'ores et déjà calculé la corrélation existant entre l'autoritarisme et le conformisme chez 12 étudiants = 0,67.
Nous pouvons calculer | ![]() | = 3,03 |
La table des z montre que z égal ou supérieur à 3,03 a une probabilité associée de p = 0,0012. Nous pouvons rejeter H0 à ce niveau de signification, et conclure que les deux variables sont associées dans la population à partir de laquelle l'échantillon a été extrait.
Exercice :
1. Calculer le coefficient de corrélation de Kendall et sa signification à partir des données sur la longueur du corps et la profondeur de poitrine chez les vaches laitières (=0,39 ; z = 2,57 ; p = 0,0101).
Comparez ces résultats avec ceux qui sont obtenus sur les mêmes données par le test de corrélation de Bravais-Pearson.
2. Deux experts, classant séparément 10 échantillons de cidre, ont donné les ordres de préférence suivants :
1er expert | 2ème expert |
---|---|
Calculer le coefficient de corrélation, et concluez.
Le coefficient de corrélation de Spearman et celui de Kendall, bien que numériquement différents pour le même ensemble de données, ont un pouvoir identique de rejet de H0.
Quand une corrélation est observée entre deux variables, il y a toujours la possibilité que cette corrélation soit due à l'association entre chacune des deux variables et une troisième variable.
Les effets de variation due à une troisième variable sur la relation entre deux autres variables X et Y sont éliminés par une corrélation partielle. D'une autre façon, la corrélation entre X et Y est calculée alors que la troisième variable est maintenue constante.
En réalisant le protocole d'une expérience, nous avons l'alternative soit d'introduire des contrôles expérimentaux de façon à éliminer l'influence d'une troisième variable soit d'utiliser des méthodes statistiques pour éliminer cette influence. Nous présentons une méthode de contrôle statistique qui peut être utilisée avec le coefficient de corrélation de Kendall.
Principe
Supposons que trois variables (X, Y, Z) sont mesurées sur 4 sujets. Nous désirons déterminer la corrélation entre X et Y quand Z est maintenu constant. Les rangs des variables sont
Sujet | a | b | c | d |
---|---|---|---|---|
rangs de Z | 1 | 2 | 3 | 4 |
rangs de X | 3 | 1 | 2 | 4 |
rangs de Y | 2 | 1 | 3 | 4 |
Le nombre de paires de rangs possible de chaque variable est de 4 pris deux à deux. Ayant rangés les rangs de Z dans lordre naturel, nous observons chaque paire possible des rangs de X, des rangs de Y et des rangs de Z. Nous donnerons un signe + à chacune des paires pour lesquelles le rang le plus bas précède le plus haut ; et un signe - à chacune des paires pour lesquelles le rang le plus élevé précède le rang le plus bas.
paire | (a, b) | (a, c) | (a, d) | (b, c) | (b, d) | (c, d) |
---|---|---|---|---|---|---|
Z | + | + | + | + | + | + |
X | - | - | + | + | + | + |
Y | - | + | + | + | + | + |
Ainsi, pour la variable X, le score pour la paire (a,b) est moins car les rangs de a et b, 3 et 1, ne sont pas dans l'ordre naturel.
Nous allons maintenant résumer l'information dans un tableau à double entrée :
Paires de Y dont le signe concorde avec celui de Z | Paires de Y dont le signe ne concorde pas avec celui de Z | Total | |
---|---|---|---|
Paires de X dont le signe concorde avec celui de Z | A 4 | B 0 | 4 |
Paires de X dont le signe ne concorde pas avec celui de Z | C 1 | D 1 | 2 |
Total | A+C = 5 | B+D = 1 | 6 |
Considérons les trois signes sous (a,b). Pour cet ensemble de rangs, X et Y ont tous deux un signe - alors que Z a un signe +. X et Y sont en désaccords avec Z. Cette information est placée dans la cellule D. Si l'on considère la paire (a, c), le signe de Y est en accord avec celui de Z, mais le signe de X est en désaccord avec celui de Z. Ainsi, cette information est assignée à la cellule C. Dans chaque cas des paires restantes, le signe de Y et celui de X sont en accord avec celui de Z, les 4 paires sont placées dans la cellule A du tableau. Le coefficient de rang partiel de Kendall est calculé à partir de ce tableau.
Il est défini comme
![]() | (B) |
Dans l'exemple des 4 objets considérés précédemment,
![]() | = 0,63 |
Le coefficient de corrélation entre X et Y lorsque Z est maintenu constant ( ) est de 0,63.
Si nous avions calculé la corrélation entre X et Y sans considérer l'effet de Z, nous aurions trouvé = 0,67. Ceci suggère que les relations entre X et Z et entre Y et Z n'influencent que faiblement la relation observée entre X et Y. Ce type d'inférence doit être fait avec certaines réserves, à moins d'avoir des données pertinentes permettant de supposer quel effet est observé.
La formule (B) est parfois appelée le coefficient phi, et il peut être montré que
La présence du c2 dans cette expression suggère que mesure le degré d'accord entre X et Y indépendamment de leur accord avec Z.
Méthode
La méthode de calcul de devient rapidement fastidieuse lorsque N augmente. Kendall a montré que
![]() | (C) |
Exemple
Nous avons vu que la corrélation entre l'autoritarisme et le conformisme social est de = 0,67.
Mais il existe aussi une corrélation entre le conformisme social et la conformité à la pression des groupes de = 0,39.
Ceci nous fait nous demander si la première corrélation ne représente pas simplement l'intervention d'une troisième variable : la conformité aux groupes de pression.
Nous pouvons tester cette hypothèse en calculant le coefficient de corrélation partiel entre autoritarisme et le conformisme social, en maintenant constant l'effet du besoin de céder à la pression des groupes.
Les résultats sont présentés dans le tableau suivant :
 | Rangs | ||
---|---|---|---|
Sujet | Conformisme | Autoritarisme | Conformité |
 | X | Y | Z |
A | 3 | 2 | 1,5 |
B | 4 | 6 | 1,5 |
C | 2 | 5 | 3,5 |
D | 1 | 1 | 3,5 |
E | 8 | 10 | 5 |
F | 11 | 9 | 6 |
G | 10 | 9 | 7 |
H | 6 | 3 | 8 |
I | 7 | 4 | 9 |
J | 12 | 12 | 10,5 |
K | 5 | 7 | 10,5 |
L | 9 | 11 | 12 |
Nous connaissons déjà = 0,67 et
= 0,39 et nous pouvons calculer
= 0,36. Nous pouvons alors déterminer la valeur de
en utilisant la formule (C)
![]() | = 0,62 |
Le coefficient de corrélation partiel entre autoritarisme et conformisme social est de 0,62. Cette valeur est peu différente de celle de = 0,67. Nous pouvons conclure que la relation entre l'autoritarisme et le conformisme social (mesurés avec ces échelles) est relativement indépendante de l'influence de la conformité à un groupe de pression.
Test de signification
La distribution d'échantillonnage du coefficient de corrélation partiel de Kendall nest pas connue et donc aucun test de signification n'est possible.
Quand on dispose, non pas de deux, mais de k distributions d'une même série d'individus en deux classes, la notion de corrélation de rang peut être généralisée grâce au coefficient de concordance. W exprime le degré d'association entre k variables.
Principe
Supposons que l'on demande à trois cadres de sociétés dinterviewer 6 demandeurs d'emploi et de les ranger séparément suivant leurs capacités à remplir le poste vacant. Les trois séries indépendantes de rangs données par les trois cadres A, B, C sont exposées dans le tableau suivant :
Postulant | ||||||
---|---|---|---|---|---|---|
a | b | c | d | e | f | |
Cadre A | 1 | 6 | 3 | 2 | 5 | 4 |
Cadre B | 1 | 5 | 6 | 4 | 2 | 3 |
Cadre C | 6 | 3 | 2 | 5 | 4 | 1 |
Rj | 8 | 14 | 11 | 11 | 11 | 8 |
Si les trois cadres avaient été en parfait accord sur leur jugement des postulants, c'est-à -dire, s'ils les avaient rangés dans le même ordre, alors l'un des postulants aurait reçu trois rangs 1 et sa somme de rangs serait de 3 = k. Le postulant suivant serait affecté de la somme de rangs de 6 = 2 k et le moins performant des postulants serait affecté de la somme de rangs de 18 = 6 k = N k. En général, quand il y a accord parfait parmi les k séries de rangements, nous obtenons, pour les sommes des rangs, les séries k, 2k, 3k....Nk.
D'un autre côté, s'il n'y avait aucun accord parmi les cadres, les différentes sommes des rangs seraient approximativement égales. W, le coefficient de concordance, est une fonction de ce degré de variation.
Méthode
Pour calculer W, nous cherchons la somme des rangs, Rj , de chaque colonne du tableau k x N. Puis, nous sommons les Rj et divisons cette somme par N pour obtenir la valeur moyenne de Rj. Enfin, nous calculons les déviations entre chaque Rj et la valeur moyenne et nous sommons les carrés de ces déviations s.
où s = somme des carrés des déviations entre les Rj observés et la moyenne de ces Rj.
k = nombre de séries de rangements, nombre de juges.
N = nombre d'individus rangés
1/12 k2 (N3 - N) = la somme s que l'on obtiendrait dans le cas d'un accord parfait entre les k rangements.
À partir des données précédentes :
s = (8 -10,5)2 + (14 - 10,5)2 + (11 - 10,5)2 + (11- 10,5)2 + (11 - 10,5)2 + (8 - 10,5)2= 25,5
et | ![]() |
0,16 |
Exemple
Kendall a donné un exemple où 10 objets sont rangés chacun pour 3 variables différentes X, Y, Z. Les rangs obtenus sont les suivants :
Variable | a | b | c | d | e | f | g | h | i | j |
---|---|---|---|---|---|---|---|---|---|---|
X | 1 | 4,5 | 2 | 4,5 | 3 | 7,5 | 6 | 9 | 7,5 | 10 |
Y | 2,5 | 1 | 2,5 | 4,5 | 4,5 | 8 | 9 | 6,5 | 10 | 6,5 |
Z | 2 | 1 | 4,5 | 4,5 | 4,5 | 4,5 | 8 | 8 | 8 | 10 |
Rj | 5,5 | 6,5 | 9 | 13,5 | 12 | 20 | 23 | 23,5 | 25,5 | 26,5 |
La moyenne des Rj est 16,5.
s = (5,5 - 16,5)2 + (6,5 - 16,5)2 + (9 - 16,5)2 + (13,5 - 16,5)2 + (12 - 16,5)2 + (20 - 16,5)2 + (23 - 16,5)2 + (23,5 - 16,5)2+ (25,5 - 16,5)2 + (26,5 - 16,5)2= 591
Comme la proportion d'ex-æquo est importante, une correction est apportée au calcul de W.
![]() | (E) |
où | ![]() | correspond à la somme des valeurs de T pour lensemble des ex-æquo |
et | ![]() | et | ![]() |
pour le rangement de X : | ![]() | = 1 |
pour le rangement de Y : | ![]() | = 1,5 |
pour le rangement de Z : | ![]() | = 7 |
![]() | = 0,828 |
Test de signification de W
Petits échantillons
La distribution de s a été calculée et certaines valeurs critiques tabulées (Table des valeurs critiques de s pour le coefficient de concordance ; Table 13) pour des W significatifs aux seuils 0,05 et 0,01. Cette table est applicable pour k de 3 à 20 et N de 3 à 7.
Lorsquune valeur observée de s est égale ou supérieure à celle de la table pour un niveau de signification donné, alors Ho peut être rejeté à ce niveau de signification.
Dans le cas des 3 cadres jugeant 6 postulants, leur accord était de W = 0,16. Référence à la table précédente révèle que la valeur s associée à ce W (s = 25,5) n'est pas significative.
Grands échantillons
Quand N est supérieur à 7, l'expression donnée par la formule suivante F est approximativement distribuée comme un khi carré de ddl = N - 1
![]() | ou = k (N -1) W (F) |
La probabilité associée à ce c2 est déterminée par référence à la table du khi carré.
Si la valeur du c2 calculée selon la formule F égale ou excède celle de la table du khi carré pour un niveau de signification et un degré de liberté donnée, l'hypothèse nulle peut être rejetée à ce niveau de signification.