Statistiques descriptives

 

1. Introduction

1.1. Définition :

Les statistiques descriptives permettent de résumer l’information contenues dans un ensemble de données (population ou échantillon) par le calcul d’un ensemble de paramètres permettant d’en apprécier la variabilité. Il s’agit des paramètres de position, de dispersion et de forme de la distribution.

 

1.2.Objectifs

L’objectif théorique des statistiques descriptives est de fournir une caractérisation résumée de l’ensemble de données considéré, à travers le calcul des paramètres de position, dispersion et de distribution.

L’objectif pratique est de s’entraîner à l’usage correct de paramètres classiques comme moyenne, médiane, mode, écart type etc.

L’objectif concret est de maîtriser le calcul de ces paramètres en utilisant les moyens des feuilles de calcul ou ceux de l’informatique et de la télématique.

 

2. Les paramètres de position ou mesure de la tendance centrale

2.1. Définition :

Les mesures de tendance centrale sont destinées à mesurer, au sens numérique du terme, « où » se situent les données le long d’un continuum donné. La notion de moyenne est apprise de bonne heure, de façon empirique, à travers les bilans trimestriels de notes obtenues par un élève, par exemple. Il peut également être apprécié par l’exemple suivant :

Pour subir une opération chirurgicale, un patient doit choisir entre les deux chirurgiens disponibles. Son appréciation est faite sur les résultats post-opératoires de la survie de leurs clients. Les données suivantes sont disponibles, 0 signifiant décès en cours d’opération :

Docteur A : 0, 0, 0, 0, 0, 0, 0, 0, 0, 55, soit m = 5,5

Docteur B : 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, soit m = 5

Honnêtement, est-ce que la connaissance de la moyenne est une information pertinente pour cette prise de décision.

 

Données groupées :

Il arrive que les données brutes ne soient plus disponibles parce que celles-ci ont déjà été regroupées en distribution de fréquences. Néanmoins, il demeure possible d'approximer les différentes mesures de synthèse

 

2.2. Moyenne :

La moyenne ou valeur attendue (expected value, expectation) correspond à la moyenne arithmétique lorsqu’elle peut être numériquement calculée.

Méthode : c’est la somme des valeurs de tous les éléments (individus) constituant le jeu de données (échantillon), divisée par le nombre d’éléments de l’échantillon.

Exemple

Si nous considérons une population, la formule de la moyenne sera :

Ici :


Si la population est infinie, cette formule n’est pas opérationnelle. Elle devient :

Si nous considérons un échantillon, la moyenne sera :

Les deux formules sont identiques si ce n’est leur membre gauche.

Si nous considérons la moyenne ou valeur attendue (expectation) d’une population de données X, nous pouvons écrire : MU = E(X). E(X) se lit comme la valeur attendue (expectation) de X et est interprétée comme la moyenne arithmétique si elle peut être calculée.  

Un des inconvénients de la moyenne empirique, vue comme valeur centrale d'un échantillon, est d'être sensible aux valeurs extrêmes. Une valeur manifestement très différente des autres est souvent qualifiée de valeur aberrante. Qu'elle soit ou non le résultat d'une erreur dans le recueil ou la transcription, on ne peut pas la considérer comme représentative.

Supposons que sur un échantillon de 10 valeurs, toutes soient de l'ordre de 10, sauf une, qui est de l'ordre de 1000. La moyenne empirique sera de l'ordre de 100, c'est-à-dire très éloignée de la plupart des valeurs de l'échantillon. Pour palier cet inconvénient, on peut décider ne pas tenir compte des valeurs extrêmes dans le calcul de la moyenne. On obtient alors une moyenne élaguée.

 

Cas d'une MOYENNE pour données groupées

Hypothèse: chaque observation à l'intérieur d'une classe a une valeur égale au centre de la classe (i.e. les sous- et sur-estimations s'annulent)

La formule est

où :

  • f = la fréquence dans la classe
  • m = (~) le centre de la classe
  • N = la somme des fréquences (nombre d'observations)
  • Exemple


    Résultat
    Nombre
    d'élèves
    (f)
    Centre de
    classes
    (m)


    fm
    40 et moins de 50 4 45 180
    50 et moins de 60 6 55 330
    60 et moins de 70 10 65 650
    70 et moins de 80 4 75 300
    80 et moins de 90 4 85 340
    90 et moins de 100 2 95 190
    S 30 1990

    On calcule alors


    Ce qui est relativement proche de la «vraie» moyenne, c'est-à-dire µ = 66,23

    Notes

    On constate ici l'importance de

  • éviter les classes ouvertes puisqu'on ne saurait évaluer le point milieu de ces classes
  • situer les concentrations de données au centre des classes sinon l'hypothèse du «point milieu» serait insatisfaite
  • Selon certains auteurs, les points milieu, dans l'exemple précédent, seraient respectivement 44½ , 54½, 64½, ...

  • En effet, puisque la variable est discrète, le calcul effectué avec ces valeurs serait généralement plus précis, quoique, dans ce cas-ci, on obtiendrait µ = 65,83

    2.3. Mode :

    Le mode correspond à la valeur la plus fréquemment observée dans un jeu de données (échantillon). Il peut y avoir plusieurs modes dans un échantillon, source de problèmes (homogénéité de la population ou de l’échantillonnage).

    Exemples

    Pour les données suivantes: 5, 6, 6, 7, 8, 8 il y a deux modes, soit 6 et 8
    Pour les données du professeur Lecompte, la note la plus fréquente (3 fois) est 65

    Le mode est aussi une mesure intéressante dans le cas qualitatif.

    Reprendre l’exemple des docteurs A et B et déterminer le mode de chaque toubib.

    Le mode peut être déterminé graphiquement comme la classe ayant la plus forte valeur en ordonnée (y).

     

    Cas d'un Mode pour données groupées

    Définition:
    la classe modale est la classe qui a la plus haute fréquence

      Hypothèse: on suppose que le mode appartient à la classe modale

    La formule est

  • LMo = limite inférieure de la classe modale
  • d1 = différence entre la fréquence de la classe modale et celle de la précédente
  • d2 = différence entre la fréquence de la classe modale et celle de la suivante
  • l = largeur de la classe modale


  • Exemple
    La classe modale est «60 et moins de 70»
    On calcule donc d1 = 10 - 6 = 4, d2 = 10 - 4 = 6 et

    Ce qui est relativement proche du «vrai» mode, c'est-à-dire Mo = 65

     

    2.4. Médiane

    La médiane est la valeur calculée (pas nécessairement observée) pour laquelle la moitié de l’effectif de l’échantillon est situé en dessous (et, symétriquement, au-dessus) de cette valeur. Dans un échantillon de n individus trié par ordre croissant de valeur, la médiane est la valeur de (((n/2) -1)+ ((n/2)+1))/2 si n est pair (valeur calculée) ou celle du N/2 ème  individus de l’effectif classé, si l’échantillon est impair (valeur observée).

    Autre définition:
    La médiane est la valeur qui sépare une série d'observations ordonnées en ordre croissant ou décroissant, en deux parties comportant le même nombre d'observations.

    Si N est impair,

    dans le rangement ascendant (ou descendant)

    Exemple: Soient les données suivantes: 34, 37, 40, 41, 44, 44, 45, alors

    Si N est pair
    la médiane correspond au point milieu (ou la moyenne) des deux observations centrales dans le rangement ascendant (ou descendant)
    En formule, soit N = 2K, donc K = N/2; alors

    Exemple: Pour les notes du professeur Lecompte, il y a N = 30 observations.
    Par conséquent, K = 30/2 = 15 et, dans le classement ascendant,
    la 15e valeur était 65 et la 16e valeur était aussi 65, d'où

     

    Cas d'une Médiane pour données groupées

    Étapes  

    1. Localiser la classe médiane, i.e. celle qui contient la médiane (à partir de la distribution de fréquences cumulées)
    2. Déterminer à laquelle des observations de cette classe correspond la médiane
    3. Déterminer, par interpolation, la valeur approximative de la médiane (on suppose une répartition uniforme des données à
    4. l'intérieur de la classe)

    La formule est


  • LMd = la limite inférieure de la classe médiane
  • FC = la fréquence cumulée de toutes les classes précédant
  • la classe médiane
  • fMd = la fréquence de la classe médiane
  • l = la largeur de la classe médiane
  • N = le nombre d'observations
  • Exemple
    La classe médiane est celle qui contient le quinzième élève.
    À partir de la distribution de fréquences cumulées, on observe qu'il s'agit de la classe «60 et moins de 70»; donc

    Dans ce cas-ci, l'approximation est «exacte» puisque la «vraie» médiane est aussi Md = 65

     

    EXEMPLE Récapitulatif

    Les nombres ci-dessous représentent le nombre d'enfants dans chacune des dix familles choisies au hasard :

    3, 8, 1, 1, 4, 5, 2, 3, 0, 1

    Moyenne

    Médiane
    Rangeons les données en ordre ascendant

    0, 1, 1, 1, 2, 3, 3, 4, 5, 8

    Comme N = 10 (donc pair), K = 5 et

    Mode
    On voit immédiatement que Mo = 1

    On remarque que les trois mesures sont différentes.

    Laquelle est la plus «représentative» ?

    2.5. Quartiles

    Le calcul du quartile relève du même procédé que celui de la médiane, à ceci près que l’on considère une partition de la population ordonnée (par ordre croissant) en 4 ensembles égaux (25%).

    Le premier quartile est la valeur pour laquelle 25% de l’effectif de l’échantillon est égal ou inférieur à cette valeur (observée ou calculée, même principe que pour la médiane).

    Le second quartile correspond à la valeur séparant l’effectif de l’échantillon en 2 lots égaux = c’est également la médiane.

    Le troisième quartile est la valeur pour laquelle 75% de l’effectif est égal ou inférieur à cette valeur (et 25% au dessus, donc).

     

    2.6. Déciles

    Dans le cas de déciles, le premier décile correspond à la valeur pour laquelle 10% de l’effectif de l’échantillon est égal ou inférieur à cette valeur. Etc.

     

    2.7. Centiles

    Il en est de même du centile où l’on considère la nième fraction du centième de l’effectif.

    Quartile, décile et centiles sont très utilisé pour les statistiques économiques afin de caractériser la distribution d’une ressource dans une population : par erxemple, 10% de la population monopolise 90% des richesses ou 20% de la populationb produit 80% de la population.

     

    3. Les paramètres de dispersion ou mesure de la dispersion

    3.1. Définition

    La dispersion est une propriété fondamentale de la variabilité. Elle est cependant difficile à évaluer de façon empirique et nécessite le passage par des calculs souvent complexes.

     

    3.2. Etendue :

    Paramètre de dispersion le plus intuitif. Facile à calculer, son utilité est limitée. L’étendue est la différence entre la valeur maximale observée de l’échantillon et la valeur minimale.

     

    3.3. Ecart Moyen

    Définition:

    L'écart moyen, noté EM, est la moyenne des écarts absolus entre chaque observation et la moyenne des observations.

    Étapes

    1. Calcul de la moyenne des observations
    2. Calcul de l'écart absolu entre chaque observation et la moyenne
    3. Calcul de la moyenne de ces écarts

    La formule générale est

    Exemple

    Voir le tableau de calcul ci-dessous :


    X µ | X-µ|
    68 66,23 1,77
    74 66,23 7,77
    42 66,23 24,23
    47 66,23 19,23
    50 66,23 16,23
    65 66,23 1,23
    52 66,23 14,23
    41 66,23 25,23
    57 66,23 9,23
    65 66,23 1,23
    78 66,23 11,77
    66 66,23 0,23
    49 66,23 17,23
    59 66,23 7,23
    60 66,23 6,23
    55 66,23 11,23
    61 66,23 5,23
    72 66,23 5,77
    56 66,23 10,23
    79 66,23 12,77
    88 66,23 21,77
    68 66,23 1,77
    90 66,23 23,77
    63 66,23 3,23
    69 66,23 2,77
    81 66,23 14,77
    87 66,23 20,77
    65 66,23 1,23
    85 66,23 18,77
    95 66,23 28,77
    1987 345,93

    On a donc

    3.4. Variance :

    Il s’agira ici de considérer comment la dispersion se fait par rapport à l’un des paramètres de position comme la moyenne. On peut, par exemple considérer l’écart à la moyenne comme étant la différence pour la population et pour un échantillon. Ce principe, étendu à l’ensemble complet (population ou écantillon donnerait respectivement :

    et

    Ce résultat, peu informatif et inutilisable par la suite, a amené à chercher une autre expression de l’écart à la moyenne en considérant cette fois le CARRE de l’écart à la moyenne soit : et

    La somme de ces carré des écarts à la moyenne (ou SCE) s’exprime : pour une population et par pour un échantillon

    Ceci constitue un premier paramètre de dispersion. Cependant, il est peu informatif car il varie en fonction de l’écart à la moyenne mais, surtout, en fonction du nombre de représentants constituant la population ou l’échantillon. On a donc proposé une expression qui ajuste la variation due à la dimention de l’ensemble considéré (population ou échantillon) et on obtient ainsi la variance qui s’exprime, pour la population et pour un échantillon :

    Récapitulation des Étapes

    1. Calcul de la moyenne arithmétique
    2. Calcul de la différence entre chaque observation et la moyenne
    3. Ces écarts sont mis au carré
    4. Calcul de la moyenne de ces carrés > Variance

    La variance s’exprime dans une unité qui est le carré de l’unité de la variable de départ : par exemple en kg2 si la variable était une masse exprimée en kg. Son utilisation n’est pas toujours facilement interprétable.

     

    3.5. Ecart type

    L’écart type permet de ramener la dispersion exprimée par la variance  à une unité connue : la variance correspond au carré de l’erreur attendue (xpected) par rapport à la moyenne. En extrayant la racine carrée nous obtiendront l’écart type. Celui-ci s’exprime pour une population et pour un échantillon.

     

    3.6. Cas de Variance et Ecart-type pour données groupées

    La formule générale est : où :

  • f = la fréquence de la classe
  • m = le centre de la classe (valeur hypothétique)
  • N = le nombre d'observations
  • Évidemment, on a : et la formule «simplifiée» :

    Exemple


    Résultat
    Nombre
    (f)
    Centre (m)
    fm
    Écarts
    m-µ

    (m-µ)2

    f(m-µ)2
    40 et moins de 50 4 45 180 -21,33 454,97 1819,88
    50 et moins de 60 6 55 330 -11,33 128,37 770,22
    60 et moins de 70 10 65 650 -1,33 1,77 17,70
    70 et moins de 80 4 75 300 8,67 75,17 300,68
    80 et moins de 90 4 85 340 18,67 348,57 1394,28
    90 et moins de 100 2 95 190 28,67 821,97 1643,94
    S 30 1990 5946,70

    d'où :

    qu'on peut comparer avec la valeur «exacte» = 14,24

    3.7. Inégalité de Tchebycheff

    Pour comprendre le principe de l’inégalité de Tchebycheff, il faut faire appel à une compréhension intuitive des probabilités. L’inégalité de Tchebycheff correspond à la probabilité que, dans une population, une valeur x, distante de k écarts types de la moyenne de cette population est inférieure ou égale à 1 moins 1 divisé parle carré dek , soit :

     

    3.8. Le Coefficient de Variation, Mesure de Dispersion Relative

    Jusqu'ici, les mesures de dispersion présentées sont des mesures dites absolues. Considérons maintenant une mesure de dispersion relative.

    Objectif:

    Dans certaines situations, on désire comparer le taux de dispersion de distributions alors que leurs échelles de mesure respective ne sont pas comparables.
    L'objectif du coefficient de variation est de fournir un indice quantitatif permettant cette comparaison.

    Définition : :

    Le coefficient de variation, noté CV, correspond à l'écart type de la distribution exprimé en pourcentage de la moyenne de la distribution. La formule générale est :

    Exemple:

    Pour les données du cours de comptabilité, on a obtenu µ = 66,23 et s = 14,24; donc

    À titre de comparaison, si la note finale avait été calculée sur 10, on aurait obtenu µ = 6,623 et s = 1,424, mais quand même

     

    4. La forme de la distribution

    La forme d'une distribution correspond à la capacité de superposer le contour d’un histogramme de fréquence (de la distribution d’un échantillon) avec la courbe retraçant la fonction théorique de distribution, normale ou non. D’une façon schématique, la forme d’une courbe peut être définie par la symétrie de la distribution par rapport à un paramètre de position comme la moyenne, ou par un aplatissement plus ou moins important.

    4.1. L’asymétrie (Skewness)

    Il est intéressant de définir si un jeu de données présente des déviations par rapport à la moyenne plus fréquentes dans un sens ou l’autre (plus faible ou plus fort que la moyenne). Lorsque la répartition des effectifs se fait de façon symétrique par rapport à la moyenne, la distribution est symétrique. Lorsque l’effectif est plus important pour les valeurs supérieures à la moyenne, on aura une asymétrie positive, dans l’autre cas une asymétrie négative. Il est possible de calculer un coefficient d’asymétrie pour chaque distribution. Le plus couramment employé est celui de Fisher. C’est le moment central d’ordre 3 de la moyenne par rapport à l’écart type (la variance est le moment d’ordre 2).

    Pour une population, il est : .

    Pour un échantillon :

    Dans une distribution normale l’asymétrie est nulle. On considérera que l’on ne peut rejeter l’hypothèse de normalité de la distribution (pour alpha = 0,05) lorsque ce paramètre est compris entre -2 et +2.

    Ce coefficient est calculé par la plupart des programme d’analyse statistique descriptive.

    Dans EXCEL, utiliser la formule COEFFICIENT.ASYMETRIE (xx :yy)  ou xx désigne la première case contenant les valeurs de la distribution à tester et yy la dernière case.

     

    Le tableau ci-dessous définit la valeur de l'asymétrie pour quelques distributions courantes.

    Distribution Asymétrie
    Distribution de Bernoulli
    Distribution béta
    Distribution binomiale
    Distribution du chi-carré
    Distribution exponentielle 2
    Distribution de Fisher-Tippett
    Distribution de F
    Distribution gamma
    Distribution géométrique
    Distribution semi-normale
    Distribution hypergéométrique
    Distribution de Laplace 0
    Distribution log normale
    Distribution de Maxwell
    Distribution binomiale négative
    Distribution normale 0
    Distribution de Poisson
    Distribution de Rayleigh
    Distribution F de Snedecor
    Distribution t de Student 0
    Distribution uniforme 0
    (Tableau adapté de MathWorld )

     

    4.2. L’aplatissement (kurtosis)

    L’aplatissement mesure l’extension (heaviness) des limites latérales d’une population (tails). On peut également considérer que ce paramètre traduit le "relief" de la distribution. Parmi les formules permettant de calculer ce paramètre, celle de Fisher est la plus fréquemment utilisée. C’est le moment central d’ordre 4 de la moyenne par rapport à l’écart type.

    Pour une population :

    Pour un échantillon :

    Dans une distribution normale l’aplatissement est nul. On considérera que l’on ne peut rejeter l’hypothèse H0 de normalité de la distribution (pour alpha = 0,05) lorsque ce paramètre est compris entre -2 et +2.

    Ce coefficient est calculé par la plupart des programme d’analyse statistique descriptive.

    Dans EXCEL, utiliser la formule KURTOSIS (xx :yy)  ou xx désigne la première case contenant les valeurs de la distribution à tester et yy la dernière case.

     

    Le tableau suivant évalue l'aplatissement de Fisher pour quelques distributions courantes.

    Distribution Aplatissement de Fisher
    Distribution de Bernoulli
    Distribution béta
    Distribution binomiale
    Distribution du chi-carré
    Distribution exponentielle 6
    Distribution de Fisher-Tippett
    Distribution gamma
    Distribution géométrique
    Distribution semi-normale
    Distribution de Laplace 3
    Distribution log normale
    Distribution de Maxwell
    Distribution binomiale négative
    Distribution normale 0
    Distribution de Poisson
    Distribution de Rayleigh
    Distribution t de Student's
    Distribution uniforme continue
    Distribution uniforme discrète
    (Tableau adapté de MathWorld )