Statistiques descriptives

1. Introduction

1.1. Définition :

Les statistiques descriptives permettent de résumer l’information contenues dans un ensemble de données (population ou échantillon) par le calcul d’un ensemble de paramètres permettant d’en apprécier la variabilité. Il s’agit des paramètres de position, de dispersion et de forme de la distribution.

1.2.Objectifs

L’objectif théorique des statistiques descriptives est de fournir une caractérisation résumée de l’ensemble de données considéré, à travers le calcul des paramètres de position, dispersion et de distribution.

L’objectif pratique est de s’entraîner à l’usage correct de paramètres classiques comme moyenne, médiane, mode, écart type etc.

L’objectif concret est de maîtriser le calcul de ces paramètres en utilisant les moyens des feuilles de calcul ou ceux de l’informatique et de la télématique.

2. Les paramètres de position ou mesure de la tendance centrale

2.1. Définition :

Les mesures de tendance centrale sont destinées à mesurer, au sens numérique du terme, « où » se situent les données le long d’un continuum donné. La notion de moyenne est apprise de bonne heure, de façon empirique, à travers les bilans trimestriels de notes obtenues par un élève, par exemple. Il peut également être apprécié par l’exemple suivant :

Pour subir une opération chirurgicale, un patient doit choisir entre les deux chirurgiens disponibles. Son appréciation est faite sur les résultats post-opératoires de la survie de leurs clients. Les données suivantes sont disponibles, 0 signifiant décès en cours d’opération :

Docteur A : 0, 0, 0, 0, 0, 0, 0, 0, 0, 55, soit m = 5,5

Docteur B : 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, soit m = 5

Honnêtement, est-ce que la connaissance de la moyenne est une information pertinente pour cette prise de décision.

Données groupées :

Il arrive que les données brutes ne soient plus disponibles parce que celles-ci ont déjà été regroupées en distribution de fréquences. Néanmoins, il demeure possible d'approximer les différentes mesures de synthèse

2.2. Moyenne :

La moyenne ou valeur attendue (expected value, expectation) correspond à la moyenne arithmétique lorsqu’elle peut être numériquement calculée.

Méthode : c’est la somme des valeurs de tous les éléments (individus) constituant le jeu de données (échantillon), divisée par le nombre d’éléments de l’échantillon.

Exemple

Si nous considérons une population, la formule de la moyenne sera :

Ici :

le symbole MU est utilisé pour désigner la moyenne d’une population,
n représente le nombre de points de mesure (données)
et x_i représente la valeur de la ième donnée.

Si la population est infinie, cette formule n’est pas opérationnelle. Elle devient :

Si nous considérons un échantillon, la moyenne sera :

Les deux formules sont identiques si ce n’est leur membre gauche.

Si nous considérons la moyenne ou valeur attendue (expectation) d’une population de données X, nous pouvons écrire : MU = E(X). E(X) se lit comme la valeur attendue (expectation) de X et est interprétée comme la moyenne arithmétique si elle peut être calculée.

Un des inconvénients de la moyenne empirique, vue comme valeur centrale d'un échantillon, est d'être sensible aux valeurs extrêmes. Une valeur manifestement très différente des autres est souvent qualifiée de valeur aberrante. Qu'elle soit ou non le résultat d'une erreur dans le recueil ou la transcription, on ne peut pas la considérer comme représentative.

Supposons que sur un échantillon de 10 valeurs, toutes soient de l'ordre de 10, sauf une, qui est de l'ordre de 1000. La moyenne empirique sera de l'ordre de 100, c'est-à-dire très éloignée de la plupart des valeurs de l'échantillon. Pour palier cet inconvénient, on peut décider ne pas tenir compte des valeurs extrêmes dans le calcul de la moyenne. On obtient alors une moyenne élaguée.

Cas d'une MOYENNE pour données groupées

Hypothèse: chaque observation à l'intérieur d'une classe a une valeur égale au centre de la classe (i.e. les sous- et sur-estimations s'annulent)

La formule est

où :

f = la fréquence dans la classe

m = (~) le centre de la classe

N = la somme des fréquences (nombre d'observations)

Exemple

Résultat	Nombre d'élèves (f)	Centre de classes (m)	fm
40 et moins de 50	4	45	180
50 et moins de 60	6	55	330
60 et moins de 70	10	65	650
70 et moins de 80	4	75	300
80 et moins de 90	4	85	340
90 et moins de 100	2	95	190
S	30		1990

On calcule alors

Ce qui est relativement proche de la «vraie» moyenne, c'est-à-dire µ = 66,23

Notes

On constate ici l'importance de

éviter les classes ouvertes puisqu'on ne saurait évaluer le point milieu de ces classes

situer les concentrations de données au centre des classes sinon l'hypothèse du «point milieu» serait insatisfaite

Selon certains auteurs, les points milieu, dans l'exemple précédent, seraient respectivement 44½ , 54½, 64½, ...

En effet, puisque la variable est discrète, le calcul effectué avec ces valeurs serait généralement plus précis, quoique, dans ce cas-ci, on obtiendrait µ = 65,83

2.3. Mode :

Le mode correspond à la valeur la plus fréquemment observée dans un jeu de données (échantillon). Il peut y avoir plusieurs modes dans un échantillon, source de problèmes (homogénéité de la population ou de l’échantillonnage).

Exemples

Pour les données suivantes: 5, 6, 6, 7, 8, 8 il y a deux modes, soit 6 et 8
Pour les données du professeur Lecompte, la note la plus fréquente (3 fois) est 65

Le mode est aussi une mesure intéressante dans le cas qualitatif.

Reprendre l’exemple des docteurs A et B et déterminer le mode de chaque toubib.

Le mode peut être déterminé graphiquement comme la classe ayant la plus forte valeur en ordonnée (y).

Cas d'un Mode pour données groupées

Définition:
la classe modale est la classe qui a la plus haute fréquence

Hypothèse: on suppose que le mode appartient à la classe modale

La formule est

où

L_Mo = limite inférieure de la classe modale

d₁ = différence entre la fréquence de la classe modale et celle de la précédente

d₂ = différence entre la fréquence de la classe modale et celle de la suivante

l = largeur de la classe modale

Exemple
La classe modale est «60 et moins de 70»
On calcule donc d₁ = 10 - 6 = 4, d₂ = 10 - 4 = 6 et

Ce qui est relativement proche du «vrai» mode, c'est-à-dire Mo = 65

2.4. Médiane

La médiane est la valeur calculée (pas nécessairement observée) pour laquelle la moitié de l’effectif de l’échantillon est situé en dessous (et, symétriquement, au-dessus) de cette valeur. Dans un échantillon de n individus trié par ordre croissant de valeur, la médiane est la valeur de (((n/2) -1)+ ((n/2)+1))/2 si n est pair (valeur calculée) ou celle du N/2 ème individus de l’effectif classé, si l’échantillon est impair (valeur observée).

Autre définition:
La médiane est la valeur qui sépare une série d'observations ordonnées en ordre croissant ou décroissant, en deux parties comportant le même nombre d'observations.

Si N est impair,

dans le rangement ascendant (ou descendant)

Exemple: Soient les données suivantes: 34, 37, 40, 41, 44, 44, 45, alors

Si N est pair
la médiane correspond au point milieu (ou la moyenne) des deux observations centrales dans le rangement ascendant (ou descendant)
En formule, soit N = 2K, donc K = N/2; alors

Exemple: Pour les notes du professeur Lecompte, il y a N = 30 observations.
Par conséquent, K = 30/2 = 15 et, dans le classement ascendant,
la 15^e valeur était 65 et la 16^e valeur était aussi 65, d'où

Cas d'une Médiane pour données groupées

Étapes

Localiser la classe médiane, i.e. celle qui contient la médiane (à partir de la distribution de fréquences cumulées)
Déterminer à laquelle des observations de cette classe correspond la médiane
Déterminer, par interpolation, la valeur approximative de la médiane (on suppose une répartition uniforme des données à
l'intérieur de la classe)

La formule est

où

L_Md = la limite inférieure de la classe médiane

FC = la fréquence cumulée de toutes les classes précédant

la classe médiane

f_Md = la fréquence de la classe médiane

l = la largeur de la classe médiane

N = le nombre d'observations

Exemple
La classe médiane est celle qui contient le quinzième élève.
À partir de la distribution de fréquences cumulées, on observe qu'il s'agit de la classe «60 et moins de 70»; donc

Dans ce cas-ci, l'approximation est «exacte» puisque la «vraie» médiane est aussi Md = 65

EXEMPLE Récapitulatif

Les nombres ci-dessous représentent le nombre d'enfants dans chacune des dix familles choisies au hasard :

3, 8, 1, 1, 4, 5, 2, 3, 0, 1

Moyenne

Médiane
Rangeons les données en ordre ascendant

0, 1, 1, 1, 2, 3, 3, 4, 5, 8

Comme N = 10 (donc pair), K = 5 et

Mode
On voit immédiatement que Mo = 1

On remarque que les trois mesures sont différentes.

Laquelle est la plus «représentative» ?

2.5. Quartiles

Le calcul du quartile relève du même procédé que celui de la médiane, à ceci près que l’on considère une partition de la population ordonnée (par ordre croissant) en 4 ensembles égaux (25%).

Le premier quartile est la valeur pour laquelle 25% de l’effectif de l’échantillon est égal ou inférieur à cette valeur (observée ou calculée, même principe que pour la médiane).

Le second quartile correspond à la valeur séparant l’effectif de l’échantillon en 2 lots égaux = c’est également la médiane.

Le troisième quartile est la valeur pour laquelle 75% de l’effectif est égal ou inférieur à cette valeur (et 25% au dessus, donc).

2.6. Déciles

Dans le cas de déciles, le premier décile correspond à la valeur pour laquelle 10% de l’effectif de l’échantillon est égal ou inférieur à cette valeur. Etc.

2.7. Centiles

Il en est de même du centile où l’on considère la nième fraction du centième de l’effectif.

Quartile, décile et centiles sont très utilisé pour les statistiques économiques afin de caractériser la distribution d’une ressource dans une population : par erxemple, 10% de la population monopolise 90% des richesses ou 20% de la populationb produit 80% de la population.

3. Les paramètres de dispersion ou mesure de la dispersion

3.1. Définition

La dispersion est une propriété fondamentale de la variabilité. Elle est cependant difficile à évaluer de façon empirique et nécessite le passage par des calculs souvent complexes.

3.2. Etendue :

Paramètre de dispersion le plus intuitif. Facile à calculer, son utilité est limitée. L’étendue est la différence entre la valeur maximale observée de l’échantillon et la valeur minimale.

3.3. Ecart Moyen

Définition:

L'écart moyen, noté EM, est la moyenne des écarts absolus entre chaque observation et la moyenne des observations.

Étapes

Calcul de la moyenne des observations
Calcul de l'écart absolu entre chaque observation et la moyenne
Calcul de la moyenne de ces écarts

La formule générale est

où

X = la valeur des observations
µ = la moyenne des observations
| | = le symbole de la valeur absolue
N = le nombre d'observations

Exemple

Voir le tableau de calcul ci-dessous :

X	µ	\| X-µ\|
68	66,23	1,77
74	66,23	7,77
42	66,23	24,23
47	66,23	19,23
50	66,23	16,23
65	66,23	1,23
52	66,23	14,23
41	66,23	25,23
57	66,23	9,23
65	66,23	1,23
78	66,23	11,77
66	66,23	0,23
49	66,23	17,23
59	66,23	7,23
60	66,23	6,23
55	66,23	11,23
61	66,23	5,23
72	66,23	5,77
56	66,23	10,23
79	66,23	12,77
88	66,23	21,77
68	66,23	1,77
90	66,23	23,77
63	66,23	3,23
69	66,23	2,77
81	66,23	14,77
87	66,23	20,77
65	66,23	1,23
85	66,23	18,77
95	66,23	28,77
1987		345,93

On a donc

3.4. Variance :

Il s’agira ici de considérer comment la dispersion se fait par rapport à l’un des paramètres de position comme la moyenne. On peut, par exemple considérer l’écart à la moyenne comme étant la différence pour la population et pour un échantillon. Ce principe, étendu à l’ensemble complet (population ou écantillon donnerait respectivement :

Ce résultat, peu informatif et inutilisable par la suite, a amené à chercher une autre expression de l’écart à la moyenne en considérant cette fois le CARRE de l’écart à la moyenne soit : et

La somme de ces carré des écarts à la moyenne (ou SCE) s’exprime : pour une population et par pour un échantillon

Ceci constitue un premier paramètre de dispersion. Cependant, il est peu informatif car il varie en fonction de l’écart à la moyenne mais, surtout, en fonction du nombre de représentants constituant la population ou l’échantillon. On a donc proposé une expression qui ajuste la variation due à la dimention de l’ensemble considéré (population ou échantillon) et on obtient ainsi la variance qui s’exprime, pour la population et pour un échantillon :

Récapitulation des Étapes

Calcul de la moyenne arithmétique
Calcul de la différence entre chaque observation et la moyenne
Ces écarts sont mis au carré
Calcul de la moyenne de ces carrés > Variance

La variance s’exprime dans une unité qui est le carré de l’unité de la variable de départ : par exemple en kg2 si la variable était une masse exprimée en kg. Son utilisation n’est pas toujours facilement interprétable.

3.5. Ecart type

L’écart type permet de ramener la dispersion exprimée par la variance à une unité connue : la variance correspond au carré de l’erreur attendue (xpected) par rapport à la moyenne. En extrayant la racine carrée nous obtiendront l’écart type. Celui-ci s’exprime pour une population et pour un échantillon.

3.6. Cas de Variance et Ecart-type pour données groupées

La formule générale est : où :

f = la fréquence de la classe

m = le centre de la classe (valeur hypothétique)

N = le nombre d'observations

Évidemment, on a : et la formule «simplifiée» :

Exemple

Résultat	Nombre (f)	Centre (m)	fm	Écarts m-µ	(m-µ)²	f(m-µ)²
40 et moins de 50	4	45	180	-21,33	454,97	1819,88
50 et moins de 60	6	55	330	-11,33	128,37	770,22
60 et moins de 70	10	65	650	-1,33	1,77	17,70
70 et moins de 80	4	75	300	8,67	75,17	300,68
80 et moins de 90	4	85	340	18,67	348,57	1394,28
90 et moins de 100	2	95	190	28,67	821,97	1643,94
S	30		1990			5946,70

d'où :

qu'on peut comparer avec la valeur «exacte» = 14,24

3.7. Inégalité de Tchebycheff

Pour comprendre le principe de l’inégalité de Tchebycheff, il faut faire appel à une compréhension intuitive des probabilités. L’inégalité de Tchebycheff correspond à la probabilité que, dans une population, une valeur x, distante de k écarts types de la moyenne de cette population est inférieure ou égale à 1 moins 1 divisé parle carré dek , soit :

3.8. Le Coefficient de Variation, Mesure de Dispersion Relative

Jusqu'ici, les mesures de dispersion présentées sont des mesures dites absolues. Considérons maintenant une mesure de dispersion relative.

Objectif:

Dans certaines situations, on désire comparer le taux de dispersion de distributions alors que leurs échelles de mesure respective ne sont pas comparables.
L'objectif du coefficient de variation est de fournir un indice quantitatif permettant cette comparaison.

Définition : :

Le coefficient de variation, noté CV, correspond à l'écart type de la distribution exprimé en pourcentage de la moyenne de la distribution. La formule générale est :

Exemple:

Pour les données du cours de comptabilité, on a obtenu µ = 66,23 et s = 14,24; donc

À titre de comparaison, si la note finale avait été calculée sur 10, on aurait obtenu µ = 6,623 et s = 1,424, mais quand même

4. La forme de la distribution

La forme d'une distribution correspond à la capacité de superposer le contour d’un histogramme de fréquence (de la distribution d’un échantillon) avec la courbe retraçant la fonction théorique de distribution, normale ou non. D’une façon schématique, la forme d’une courbe peut être définie par la symétrie de la distribution par rapport à un paramètre de position comme la moyenne, ou par un aplatissement plus ou moins important.

4.1. L’asymétrie (Skewness)

Il est intéressant de définir si un jeu de données présente des déviations par rapport à la moyenne plus fréquentes dans un sens ou l’autre (plus faible ou plus fort que la moyenne). Lorsque la répartition des effectifs se fait de façon symétrique par rapport à la moyenne, la distribution est symétrique. Lorsque l’effectif est plus important pour les valeurs supérieures à la moyenne, on aura une asymétrie positive, dans l’autre cas une asymétrie négative. Il est possible de calculer un coefficient d’asymétrie pour chaque distribution. Le plus couramment employé est celui de Fisher. C’est le moment central d’ordre 3 de la moyenne par rapport à l’écart type (la variance est le moment d’ordre 2).

Pour une population, il est : .

Pour un échantillon :

Dans une distribution normale l’asymétrie est nulle. On considérera que l’on ne peut rejeter l’hypothèse de normalité de la distribution (pour alpha = 0,05) lorsque ce paramètre est compris entre -2 et +2.

Ce coefficient est calculé par la plupart des programme d’analyse statistique descriptive.

Dans EXCEL, utiliser la formule COEFFICIENT.ASYMETRIE (xx :yy) ou xx désigne la première case contenant les valeurs de la distribution à tester et yy la dernière case.

Le tableau ci-dessous définit la valeur de l'asymétrie pour quelques distributions courantes.

Distribution	Asymétrie
Distribution de Bernoulli
Distribution béta
Distribution binomiale
Distribution du chi-carré
Distribution exponentielle	2
Distribution de Fisher-Tippett
Distribution de F
Distribution gamma
Distribution géométrique
Distribution semi-normale
Distribution hypergéométrique
Distribution de Laplace	0
Distribution log normale
Distribution de Maxwell
Distribution binomiale négative
Distribution normale	0
Distribution de Poisson
Distribution de Rayleigh
Distribution F de Snedecor
Distribution t de Student	0
Distribution uniforme	0

(Tableau adapté de MathWorld )

4.2. L’aplatissement (kurtosis)

L’aplatissement mesure l’extension (heaviness) des limites latérales d’une population (tails). On peut également considérer que ce paramètre traduit le "relief" de la distribution. Parmi les formules permettant de calculer ce paramètre, celle de Fisher est la plus fréquemment utilisée. C’est le moment central d’ordre 4 de la moyenne par rapport à l’écart type.

Pour une population :

Pour un échantillon :

Dans une distribution normale l’aplatissement est nul. On considérera que l’on ne peut rejeter l’hypothèse H0 de normalité de la distribution (pour alpha = 0,05) lorsque ce paramètre est compris entre -2 et +2.

Ce coefficient est calculé par la plupart des programme d’analyse statistique descriptive.

Dans EXCEL, utiliser la formule KURTOSIS (xx :yy) ou xx désigne la première case contenant les valeurs de la distribution à tester et yy la dernière case.

Le tableau suivant évalue l'aplatissement de Fisher pour quelques distributions courantes.

Distribution	Aplatissement de Fisher
Distribution de Bernoulli
Distribution béta
Distribution binomiale
Distribution du chi-carré
Distribution exponentielle	6
Distribution de Fisher-Tippett
Distribution gamma
Distribution géométrique
Distribution semi-normale
Distribution de Laplace	3
Distribution log normale
Distribution de Maxwell
Distribution binomiale négative
Distribution normale	0
Distribution de Poisson
Distribution de Rayleigh
Distribution t de Student's
Distribution uniforme continue
Distribution uniforme discrète

(Tableau adapté de MathWorld )