Définir avec précision les matériaux, les éléments, les termes, catégories et concepts qui sont à la base de la collecte et de lanalyse des données. Préciser le sens des termes.
Analyser des données, revient à traiter de linformation. Il est indispensable de bien comprendre les propriétés de linformation avant de la soumettre à un processus de traitement. Cest dautant plus nécessaire que la disponibilité de machines performantes permet de sabstraire des contingences pénibles et laborieuses des traitements numériques, rendant dautant plus nécessaire la maîtrise des catégories et des opérations de validation.
La démarche générale de lADD :
Avant lanalyse des données, il est nécessaire dorganiser la collecte de ces données et de présenter ces données sous une forme opérationnelle pour leur traitement. Il nest pas possible de faire limpasse sur ces étapes qui conditionnent la validité des différents traitements constituant lanalyse. Lanalyse des données est le résultat dun long processus que lon peut décomposer en huit étapes principales :
" Le 12 mars 1980 : le ciel était gris, totalement couvert de nuages, le thermomètre indiquait 15°C. Honoré acheta un croissant à 4, 50 F chez le boulanger et 650 g de pommes chez le fruitier, pour 3, 25 francs. Il joua au Loto 7-12-17-22-27 et rentra chez lui, fatigué. "
" Le 12 avril 1980 : le ciel était bleu, avec de petits nuages blancs, le thermomètre indiquait 18°C. Honoré acheta une baguette à 4, 50 F chez le boulanger et 350 g de fraises chez le fruitier quil paya 7 francs. Il joua au Loto 4-7-10-13-16 et rentra chez lui, essouflé. "
" Le 12 septembre 1980 : le ciel était changeant, à moitié couvert de nuages, le thermomètre indiquait 20°C. Honoré acheta une pizza à 7, 50 F chez le traiteur et 150 g de jambon chez le charcutier. Il joua au Loto 9-13-17-21-25 et rentra chez lui, épuisé. "
Toute information est sujette à constituer une donnée et à être utilisée pour linformation quelle contient.
Lexemple ci-dessus permet de metre en évidence dans le comportement dun individu un certain nombre dinformation quil serait intéressant, si lon disposait dune longue relation (sur une année, sur une vie) danalyser en terme de quantité, dintérêt, dévolution dans le temps, etc.
Lanalyse de cet exemple montre que toutes les informations ne se prêtent pas aux mêmes actions/opérations. On peut cependant les considérer toutes comme des éléments de la mesure de lactivité du sujet. Cette mesure peut prendre différentes formes principales (ou donner lieu à des actions dorganisation précises et particulières) :
Cest à dire définir à 1 près le nombre dunités caractérisant une grandeur mesurable (variable) comme par exemple : la longueur, la largeur ou la hauteur dune table ; le poids corporel, le prix. Il conviendra, au préalble, davoir défini des unités (avec ou sans subdivision) et une échelle de mesure : mètre, kilogramme, heure, etc.
Aboutit à la notion dEchelle de mesure. Voir Chapitre 2
Variable = grandeur mesurable.
Lors dune étude, il y a généralement plusieurs variables. Dans certains cas, il peut exister des liens plus ou moins évidents, plus ou moins pertinents, entre ces variables.
En langage statistique, la propriété générale qui est soumise à lune ou lautre des 3 catégories de mesure ci-dessus (ou grandeur mesurable) constitue une variable (variable). Toute valeur particulière que peut prendre cette variable constitue une modalité (variate).
Le terme " variable " indique bien que dune mesure à lautre, la " quantité " mesurée peut changer dune fois à lautre (température ambiante) ou dun item à lautre (poids corporel). Ainsi en est-il du prix dun objet, de son poids, mais également du sexe (genre) dun individu (valeur mâle ou femelle, hermaphrodite), de lappréciation que lon peut parter à tel ou tel acte, fait, ou valeur.
Par opposition à la notion de variable, il faut introduire la notion de constante. La valeur dune constatnte ne change pas : elle est " définitivement " stable. Par exemple : la relation entre le rayon et le périmètre dun cercle (qui sont deux variables) est une constante : Pi = 3, 1416 (au moins tant que lon se situe dans un espace euclidien).
Exercice :Trouver dautres constantes.
Selon les circonstances, le recueil des données sera réalisé :
par la simple observation des phénomènes
par lexpérimentation.
Lexpérimentation consiste à placer le matériel étudié dans une situation où lon provoquera (maitrisera) volontairement lapparition de certains phénomènes contrôlés. Par exemple :
Etudier le rôle des substances N, P, K dans la production de biomasse des végétaux.
Etudier les performances de plusieurs types de stations dépuration ;
Lorsque les données sont très nombreuses, ou particulièrement difficiles à obtenir, il sera nécessaire de définir, pour la mise en uvre rationnelle (hors des a priori et subjectivités de lexpérimenatteur) du recueil, des méthodes approrpiées de collecte. Il sagira de plans dexpérience dont la mis een uvre sera fonction du type de problème que lon souhaite résoudre. Exemple : la connaissance des populations de mammifères dune aire protégée : inventaire (description qualiattive) et recensement (comptage et connaissance quantitative des effectifs) (méthodologie de comptage, échantillon, population).
Le recueil dun nombre quelconque de données nécessite de les organiser pour les utiliser au mieux. Il faut passer de la relation événementielle (carnet de terrain, saisie au magnétophone, etc.) à une disposition permettant de disposer les données en vue de leur validation.
Lorganisation se fait par la mise en tableau des données. Présentation sous forme de matrice organisée : permettent de traduire les liaisons entre les différents caractères observés ou mesurés.
Quelle que soit la situation, lobservateur (expérimentateur, technicien, etc.) est amené à porter son attention sur deux ensembles interactifs : les individus et les caractères relatifs à ces individus.
Le terme individu désigne lentité de base sur laquelle lobservateur va faire porter son activité de prise de mesure (prise dinformation). Selon les cas, il sagira dun animal, dun pays, dun type de station dépuration, dune journée, etc.
Lensemble des individus mesurés (observés) peut constituer les représentants complets de la population (population entière : recensement) ou provenir dun échantillonnage dans une population (cas de sondage ou denquête : évaluation).
Lorsque la dimension de la population (ou sa fragilité, ou sa répartition spatiale) ne permet pas de mesurer tous les individus, il faut travailler sur un échantillon tiré aléatoirement de la population. (CF. infra)
Lignes, colonnes, cellules.
Différents types de tableaux peuvent être réalisés :
Tableaux individus x caractères
Les données sont regroupées dans un tableau explicitant les caractères des individus :
Caractères | ||||
---|---|---|---|---|
Age (x1) | Poids (x2) | Taille (x3) | ||
Individus | 1 | X11 | X21 | X31 |
2 | X12 | X22 | X32 | |
3 | X13 | X23 | X33 |
Dans ce tableau p=3 caractères quantitatifs ont été observés sur n=3 individus. Le système de notation par indice permet de repérer chaque individu par un ensemble dindices et dexposants. Chaque caractère correspond à une variable.
Dans le cas de caractères qualitatifs (cf. infra) les différentes modalités peuvent être représentées sous forme dun tableau de variables indicatrices prenant les valeurs 0 ou 1 et on constitue alors un tableau disjonctif complet.
Tableaux de contingence
Un tableau de contingence contient les fréquences dassociation entre les modalités de 2 caractères qualitatifs
Par exemple, un tableau rassemblant les effectifs de j catégories socio-professionnelles dans les i arrondissement dune agglomération. Chaque case (i,j) du tableau contient le nombre dindividus de la catégorie j vivant dans larrondissement i. Ce tableau est formé par le regroupement des individus (dune catégorie sp) vivant dans un arrondissement qui ne peuvent plus être distingués individuellement.
Tableaux de proximité :
Pour les distances ville à ville. Ce sont des tableaux généralement symétriques, de forme triangulaire (transitivité de linformation).
Se fait par la représentation graphique des résultats ou données bruts.
Lorsque le caractère observé (variable) est quantitatif, on peut en tracer lhistogramme
Cest la première étape dune analyse de données.
Lanalyse déductive ou descriptive des données a pour objectif de résumer les données recueillies sous une forme plus accessible à la compréhension que la lecture dune " litanie " de données.
Il sagit donc dune simplification dun ensemble de données qui sont ramenées à quelques paramètres de position et de dispersion (cf. infra).
Cest lensemble des méthodes permettant de formuler en termes probabilistes un jugement sur une population, à partir des résultats observés sur un échantillon extrait au hasard de cette population
Les méthodes statistiques les plus classiques sont celles de lestimation (estimation par domaine de confiance) et celle de lépreuve dhypothèse. Leurs conceptions de base sont dues essentiellement à R.A. Fischer. Elle permet détendre ou de généraliser, dans certaines conditions, les conclusions obtenues par la statistique descriptive à partir de la fraction des individus (échantillon) que lon a observés ou étudiés expérimentalement, à lensemble des individus constituant la population. Les conditions de validité sont liées aux hypothèses faites sur la population contenant les individus et sur la façon dont ont été prises les mesures. Cette phase inductive comporte des risques derreur quil convient dapprécier.
Les deux étapes (déductif et inductif) sont interdépendantes. En particulier, lobservation et lexpérimentation doivent être organisées (protocoles) de manière à satisfaire les conditions dapplication des méthodes de linférence.