Les principes de l’analyse des données

1. Le principe

Définir avec précision les matériaux, les éléments, les termes, catégories et concepts qui sont à la base de la collecte et de l’analyse des données. Préciser le sens des termes.

Analyser des données, revient à traiter de l’information. Il est indispensable de bien comprendre les propriétés de l’information avant de la soumettre à un processus de traitement. C’est d’autant plus nécessaire que la disponibilité de machines performantes permet de s’abstraire des contingences pénibles et laborieuses des traitements numériques, rendant d’autant plus nécessaire la maîtrise des catégories et des opérations de validation.

La démarche générale de l’ADD :

Avant l’analyse des données, il est nécessaire d’organiser la collecte de ces données et de présenter ces données sous une forme opérationnelle pour leur traitement. Il n’est pas possible de faire l’impasse sur ces étapes qui conditionnent la validité des différents traitements constituant l’analyse. L’analyse des données est le résultat d’un long processus que l’on peut décomposer en huit étapes principales :

Définir un problème et poser des hypothèses
Repérer les composantes mesurables : cf. point " les grandes catégories mesurables
Collecter rationnellement l’information : Recueil des données
Organiser l’information collectée : Organisation des données
Décrire l’information organisée : Réduction des données
Soumettre information aux tests d’hypothèse : Analyse des données
Conclure et " valider " les tests : Interprétation des données
Conclure le problème : Conclusion de l’analyse

2. Les grandes catégories de mesures

" Le 12 mars 1980 : le ciel était gris, totalement couvert de nuages, le thermomètre indiquait 15°C. Honoré acheta un croissant à 4, 50 F chez le boulanger et 650 g de pommes chez le fruitier, pour 3, 25 francs. Il joua au Loto 7-12-17-22-27 et rentra chez lui, fatigué. "
" Le 12 avril 1980 : le ciel était bleu, avec de petits nuages blancs, le thermomètre indiquait 18°C. Honoré acheta une baguette à 4, 50 F chez le boulanger et 350 g de fraises chez le fruitier qu’il paya 7 francs. Il joua au Loto 4-7-10-13-16 et rentra chez lui, essouflé. "
" Le 12 septembre 1980 : le ciel était changeant, à moitié couvert de nuages, le thermomètre indiquait 20°C. Honoré acheta une pizza à 7, 50 F chez le traiteur et 150 g de jambon chez le charcutier. Il joua au Loto 9-13-17-21-25 et rentra chez lui, épuisé. "

Toute information est sujette à constituer une donnée et à être utilisée pour l’information qu’elle contient.

L’exemple ci-dessus permet de metre en évidence dans le comportement d’un individu un certain nombre d’information qu’il serait intéressant, si l’on disposait d’une longue relation (sur une année, sur une vie) d’analyser en terme de quantité, d’intérêt, d’évolution dans le temps, etc.

L’analyse de cet exemple montre que toutes les informations ne se prêtent pas aux mêmes actions/opérations. On peut cependant les considérer toutes comme des éléments de la mesure de l’activité du sujet. Cette mesure peut prendre différentes formes principales (ou donner lieu à des actions d’organisation précises et particulières) :

Mesurer :

C’est à dire définir à 1 près le nombre d’unités caractérisant une grandeur mesurable (variable) comme par exemple : la longueur, la largeur ou la hauteur d’une table ; le poids corporel, le prix. Il conviendra, au préalble, d’avoir défini des unités (avec ou sans subdivision) et une échelle de mesure : mètre, kilogramme, heure, etc.
Mettre en ordre :
Ou classer. Exercice simple : noter sur une feuille laquelle des 5 items présentent le plus d’importance dans votre vie : Amis, Argent, Dégradation de l’environnement, Diplômes, Famille. Le classement constitue une mesure relative de ces " catégories " les unes par rapport aux autres. On peut également attribuer à chaque item une " note ", de 1 à 5 ( différenciateur sémantique) et apporter une valeur " quantifiée " au traitement de l’information.
Faire des catégories :
Trier et ordonner. Par exemple, trier une population, un échantillon par sexe, selon le type d’étude. Permet de réaliser des classements croisés, des tables de contingence. Exemple : jeunes qui fument ou non (genèse du tableau), réaliser un tableau bivarié. " Dans un groupe de 15 jeunes observés Place des Cordeliers, où les deux tiers sont des garçons, on constate que 3 filles et 4 garçons fument. "

Aboutit à la notion d’Echelle de mesure. Voir Chapitre 2

3. Variables, modalités, constantes

Variable = grandeur mesurable.

Lors d’une étude, il y a généralement plusieurs variables. Dans certains cas, il peut exister des liens plus ou moins évidents, plus ou moins pertinents, entre ces variables.

En langage statistique, la propriété générale qui est soumise à l’une ou l’autre des 3 catégories de mesure ci-dessus (ou grandeur mesurable) constitue une variable (variable). Toute valeur particulière que peut prendre cette variable constitue une modalité (variate).

Le terme " variable " indique bien que d’une mesure à l’autre, la " quantité " mesurée peut changer d’une fois à l’autre (température ambiante) ou d’un item à l’autre (poids corporel). Ainsi en est-il du prix d’un objet, de son poids, mais également du sexe (genre) d’un individu (valeur mâle ou femelle, hermaphrodite), de l’appréciation que l’on peut parter à tel ou tel acte, fait, ou valeur.

Par opposition à la notion de variable, il faut introduire la notion de constante. La valeur d’une constatnte ne change pas : elle est " définitivement " stable. Par exemple : la relation entre le rayon et le périmètre d’un cercle (qui sont deux variables) est une constante : Pi = 3, 1416… (au moins tant que l’on se situe dans un espace euclidien).

Exercice :Trouver d’autres constantes.

4. Le recueil des données

Selon les circonstances, le recueil des données sera réalisé :

• par la simple observation des phénomènes

• par l’expérimentation.

L’expérimentation consiste à placer le matériel étudié dans une situation où l’on provoquera (maitrisera) volontairement l’apparition de certains phénomènes contrôlés. Par exemple :

• Etudier le rôle des substances N, P, K dans la production de biomasse des végétaux.

• Etudier les performances de plusieurs types de stations d’épuration ;

Lorsque les données sont très nombreuses, ou particulièrement difficiles à obtenir, il sera nécessaire de définir, pour la mise en œuvre rationnelle (hors des a priori et subjectivités de l’expérimenatteur) du recueil, des méthodes approrpiées de collecte. Il s’agira de plans d’expérience dont la mis een œuvre sera fonction du type de problème que l’on souhaite résoudre. Exemple : la connaissance des populations de mammifères d’une aire protégée : inventaire (description qualiattive) et recensement (comptage et connaissance quantitative des effectifs) (méthodologie de comptage, échantillon, population).

5. L’organisation des données

Le recueil d’un nombre quelconque de données nécessite de les organiser pour les utiliser au mieux. Il faut passer de la relation événementielle (carnet de terrain, saisie au magnétophone, etc.) à une disposition permettant de disposer les données en vue de leur validation.

L’organisation se fait par la mise en tableau des données. Présentation sous forme de matrice organisée : permettent de traduire les liaisons entre les différents caractères observés ou mesurés.

Quelle que soit la situation, l’observateur (expérimentateur, technicien, etc.) est amené à porter son attention sur deux ensembles interactifs : les individus et les caractères relatifs à ces individus.

Le terme individu désigne l’entité de base sur laquelle l’observateur va faire porter son activité de prise de mesure (prise d’information). Selon les cas, il s’agira d’un animal, d’un pays, d’un type de station d’épuration, d’une journée, etc.

L’ensemble des individus mesurés (observés) peut constituer les représentants complets de la population (population entière : recensement) ou provenir d’un échantillonnage dans une population (cas de sondage ou d’enquête : évaluation).

Lorsque la dimension de la population (ou sa fragilité, ou sa répartition spatiale) ne permet pas de mesurer tous les individus, il faut travailler sur un échantillon tiré aléatoirement de la population. (CF. infra)

Lignes, colonnes, cellules.

Différents types de tableaux peuvent être réalisés :

Tableaux individus x caractères

Les données sont regroupées dans un tableau explicitant les caractères des individus :

	Caractères
		Age (x1)	Poids (x2)	Taille (x3)
Individus	1	X11	X21	X31
	2	X12	X22	X32
	3	X13	X23	X33

Dans ce tableau p=3 caractères quantitatifs ont été observés sur n=3 individus. Le système de notation par indice permet de repérer chaque individu par un ensemble d’indices et d’exposants. Chaque caractère correspond à une variable.

Dans le cas de caractères qualitatifs (cf. infra) les différentes modalités peuvent être représentées sous forme d’un tableau de variables indicatrices prenant les valeurs 0 ou 1 et on constitue alors un tableau disjonctif complet.

Tableaux de contingence

Un tableau de contingence contient les fréquences d’association entre les modalités de 2 caractères qualitatifs

Par exemple, un tableau rassemblant les effectifs de j catégories socio-professionnelles dans les i arrondissement d’une agglomération. Chaque case (i,j) du tableau contient le nombre d’individus de la catégorie j vivant dans l’arrondissement i. Ce tableau est formé par le regroupement des individus (d’une catégorie sp) vivant dans un arrondissement qui ne peuvent plus être distingués individuellement.

Tableaux de proximité :

Pour les distances ville à ville. Ce sont des tableaux généralement symétriques, de forme triangulaire (transitivité de l’information).

6. La réduction des données

Se fait par la représentation graphique des résultats ou données bruts.

Lorsque le caractère observé (variable) est quantitatif, on peut en tracer l’histogramme

7. L’analyse déductive des données

C’est la première étape d’une analyse de données.

L’analyse déductive ou descriptive des données a pour objectif de résumer les données recueillies sous une forme plus accessible à la compréhension que la lecture d’une " litanie " de données.

Il s’agit donc d’une simplification d’un ensemble de données qui sont ramenées à quelques paramètres de position et de dispersion (cf. infra).

8. L’analyse inductive des données

C’est l’ensemble des méthodes permettant de formuler en termes probabilistes un jugement sur une population, à partir des résultats observés sur un échantillon extrait au hasard de cette population

Les méthodes statistiques les plus classiques sont celles de l’estimation (estimation par domaine de confiance) et celle de l’épreuve d’hypothèse. Leurs conceptions de base sont dues essentiellement à R.A. Fischer. Elle permet d’étendre ou de généraliser, dans certaines conditions, les conclusions obtenues par la statistique descriptive à partir de la fraction des individus (échantillon) que l’on a observés ou étudiés expérimentalement, à l’ensemble des individus constituant la population. Les conditions de validité sont liées aux hypothèses faites sur la population contenant les individus et sur la façon dont ont été prises les mesures. Cette phase inductive comporte des risques d’erreur qu’il convient d’apprécier.

Les deux étapes (déductif et inductif) sont interdépendantes. En particulier, l’observation et l’expérimentation doivent être organisées (protocoles) de manière à satisfaire les conditions d’application des méthodes de l’inférence.