Nous conduisons une recherche de façon à déterminer l'acceptabilité d'hypothèses découlant de nos connaissances (théories). Après avoir sélectionné une hypothèse, qui nous paraît importante, nous récoltons des données empiriques qui devraient nous apporter des informations directes sur l'acceptabilité de cette hypothèse. Notre décision concernant la signification des données nous conduit soit à retenir, soit à réviser ou soit à rejeter l'hypothèse et la théorie qui en est la source.
Pour atteindre une décision objective concernant une hypothèse particulière, nous devons suivre une procédure objective (méthodes publiques et répétables par d'autres chercheurs) permettant soit d'accepter soit de rejeter cette hypothèse. Cela consiste à formuler, en termes probabilistes, un jugement sur une hypothèse relative à une population, à partir des résultas observés sur un échantillon extrait au hasard de cette population.
Cette procédure suit les étapes
suivantes :
1- établir l'hypothèse nulle
(H0) [considérer l'hypothèse alternative H1].
2-choisir le test statistique approprié pour tester H0,
3- spécifier un niveau de signification (alpha) et la taille de l'échantillon (N),
4- trouver la distribution d'échantillonnage du test statistique sous H0,
5- sur la base de 2, 3, 4, définir la région de rejet,
6- calculer la valeur du test statistique à l'aide des données de l'échantillon.
C'est la première étape de la procédure. L'hypothèse nulle H0 est une hypothèse de non différence [� il n'y a pas de différence significative entre les échantillons A et B �]. Elle est formulée de façon à être rejetée. Dans
le cas de son rejet, l'hypothèse alternative (H1) [� il y a une différence; significative entre les échantillons; A et B �] doit être acceptée. Cette dernière est la prédiction dérivée de la théorie à tester. Un test d'hypothèse constitue donc une sorte de démonstration par l'absurde en probabilité.
Supposons qu'une théorie scientifique nous conduise à prédire que deux groupes spécifiques d'animaux diffèrent par le temps qu'ils passent dans une activité donnée. Cette prédiction
sera notre hypothèse de recherche. Pour tester cette hypothèse de recherche, nous la formulons en hypothèse alternative H1. Cette dernière pose que la moyenne de temps passée dans cette activité par les membres des deux populations est différente
1 2, alors que pour H0 la moyenne de temps passée dans cette activité par les deux populations est la même 1 = 2. Si les données nous permettent de rejeter H0, alors H1 peut être acceptée, et cela supportera l'idée de la validité de l'hypothèse de recherche et de sa théorie sous-jacente.
La nature de l'hypothèse de recherche détermine comment H1 doit être formulée :
Il en résulte, que pour un même niveau de signification, la différence x1 - x2, doit être moins élevée pour être significative dans le cas unilatéral que dans le cas bilatéral. Les tables statistiques
donnent les valeurs statistiques critiques dans les deux cas.
Les tables statistiques (et maintenant les logiciels statistiques) fournissent les valeurs statistiques critiques dans les deux cas. Pour tous les tests, on définit donc une hypothèse nulle. Le calcul de probabilité p correspond à la probabilité que l'hypothèse nulle soit vraie (ou à la probabilité de se tromper en rejetant l'hypothèse nulle).
Si p>0,05 (5%) ou p>0,01 (1%), on ne peut pas rejeter l'hypothèse nulle. On dit qu'on a une différence non significative entre les deux échantillons.
On dispose actuellement de nombreux tests statistiques différents qui peuvent être utilisés pour arriver à une décision concernant une hypothèse. Le choix doit se faire sur des bases rationnelles. Ce point sera abordé ultérieurement.
L'ensemble des valeurs observées pour lesquelles l'hypothèse nulle est admissible forme la région d'acceptation ou de non-rejet et les autres valeurs constituent la région de rejet ou domaine de rejet ou région critique. Mais le hasard de l'échantillonnage peut fausser les conclusions. Quatre situations doivent être envisagées :
Dans le premier et le dernier cas, la conclusion obtenue est correcte, mais non dans
les deux cas intermédiaires. L'erreur qui consiste à rejeter une hypothèse vraie est appelée erreur de première espèce et celle commise en acceptant une hypothèse fausse est l'erreur de seconde espèce. Idéalement, alpha et bêta devraient être déterminés par l'expérimentateur préalablement à la recherche, ce qui détermine la taille de l'échantillon (N). Une diminution du risque alpha, augmente le risque bêta pour tout
échantillon donné. La probabilité de commettre l'erreur de seconde espèce décroît lorsque la taille de l'échantillon augmente.
Pratiquement, on se donne une limite supérieure du risque de première espèce, le plus souvent 5% (significatif), 1% (très significatif) ou l pour mille (hautement significatif). Cette limite constitue aussi le niveau de signification du test et permet de définir la condition de rejet de l'hypothèse nulle. Le plus souvent, les logiciels de statistique donnent le niveau de signification réel. On rejette alors l'hypothèse nulle au niveau
de signification nominal choisi (par exemple 0,05) si (et seulement si) le niveau de signification réel est inférieur ou égal au niveau de signification nominal (p = 0,003 < 0,05, rejet d'H0). Cette attitude est dite conservatrice.
Le risque de première espèce étant donné, on peut s'efforcer de calculer le risque de deuxième espèce, grâce à la notion de puissance de test (P = 1-bêta). Mais ce problème possède rarement une solution simple et l'on perd souvent de vue l'existence même de ce risque. Cependant, la puissance d'un test dépend de la nature du test choisi, du niveau de signification du test, de la taille de l'échantillon, de la vraie valeur du paramètre ou mesure testée. En particulier, elle est liée à la nature de l'hypothèse alternative H1. Comme nous l'avons d�j� dit, un test unilatéral est plus puissant qu'un test bilatéral. Aussi, souvent on se contente de préciser l'importance du risque de première espèce, sans se soucier de l'existence d'une seconde possibilité d'erreur.
C'est une distribution théorique. Par exemple, celle que l'on obtiendrait si nous prenions tous les échantillons possibles de même taille tirés chacun au hasard de la même population. Autrement dit, c'est la distribution sous H0, de toutes les valeurs possibles qu'une statistique (ou variable statistique, la moyenne par exemple) peut avoir lorsque cette statistique est calculée à partir d'échantillons de même taille tirés au hasard. Par exemple, dans le jeu de "pile ou face", quelle est la probabilité d'obtenir trois "faces" lorsque trois pièces de monnaie sont lancées simultanément.
Le nombre total d'événements possibles est de huit (combinaisons possibles de face et de pile).
Table des événements possibles lors du lancé de trois pièces
événements | ||||||||
---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | |
Pièce 1 | F | F | F | F | P | P | P | P |
Pièce 2 | F | F | P | P | F | F | P | P |
Pièce 3 | F | P | F | P | F | P | F | P |
Sur les huit possibilités, une seule correspond à l'événement attendu : l'apparition simultanée de trois faces. Ainsi la probabilité sous H0 d'avoir trois faces simultanément lors d'un lancé de trois pièces est de 1/8. Cela est mis en évidence par la distribution d'échantillonnage de tous les événements possibles. Cependant, cette méthode n'est réalisable que pour de petits échantillons. Pour des échantillons plus importants, il faut faire appel à des modèles mathématiques. Ces derniers impliquent des contraintes, généralement portant sur la distribution de la population et/ou sur la taille de l'échantillon. Aussi lorsque l'on utilise ces théorèmes nous devons tenir compte de leurs contraintes inhérentes.
Cette région est constituée par le sous-ensemble des valeurs de la distribution d'échantillonnage qui sont si extrêmes que lorsque H0 est vrai, la probabilité que l'échantillon observé ait une valeur parmi celles-ci est très faible (la probabilité est alpha).
La position de cette région de rejet est affectée par la nature de H1, mais non pas sa taille :
Dans un test unilatéral, la région de rejet est entièrement située à une des extrémités de la distribution d'échantillonnage,
alors que dans un test bilatéral,
cette région est située aux deux extrémités de la distribution.
La taille de cette région de rejet est définie par alpha. Si alpha est = 0,05 (5%), la taille de la région de rejet correspond à 5% de l'espace inclus dans la courbe de la distribution d'échantillonnage. Cela signifie que dans d'une distribution suivant une loi normale, il n'y a que 5 chances sur 100 pour que l'écart entre la variable et sa valeur moyenne dépasse 2 fois l'écart-type.
Si le test statistique donne une valeur comprise dans la région de rejet, nous rejetons H0[on adopte alors H1]. Quand la probabilité associée à une valeur du test statistique est inférieure ou égale à la valeur alpha préalablement déterminée, nous concluons que H0 est faux. En effet, en rejetant l'hypothèse nulle au niveau 0,05, par exemple, nous avons 5 chances sur 100 seulement d'aboutir à une telle conclusion par le simple fait du hasard. Cette valeur est dite significative.