La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l’analyse, l’interprétation de données ainsi que la présentation de ces ressources afin de les rendre compréhensibles de tous.
Les statistiques sont le produit des analyses reposant sur l’usage de la statistique. Cette activité regroupe trois principales branches :
- la collecte des données ;
- le traitement des données collectées, aussi appelé la statistique descriptive ;
- l’interprétation des données, aussi appelée l’inférence statistique, qui s’appuie sur la théorie des sondages et la statistique mathématique.
Le but de la statistique est d’extraire des informations pertinentes d’une liste de nombres difficiles à interpréter par une simple lecture. Deux grandes familles de méthodes sont utilisées selon les circonstances. Rien n’interdit de les utiliser en parallèle dans un problème concret mais il ne faut pas oublier qu’elles résolvent des problèmes de natures totalement distinctes. Selon une terminologie classique, ce sont la statistique descriptive et la statistique mathématique. Aujourd’hui, il semble que des expressions comme analyse des données et statistique inférentielle soient préférées, ce qui est justifié par le progrès des méthodes utilisées dans le premier cas.
Considérons par exemple les notes globales à un examen. Il peut être intéressant d’en tirer une valeur centrale qui donne une idée synthétique sur le niveau des étudiants. Celle-ci peut être complétée par une valeur de dispersion qui mesure, d’une certaine manière, l’homogénéité du groupe. Si on veut une information plus précise sur ce dernier point, on pourra construire un histogramme ou, d’un point de vue légèrement différent, considérer les déciles. Ces notions peuvent être intéressantes pour faire des comparaisons avec les examens analogues passés les années précédentes ou en d’autres lieux. Ce sont les problèmes les plus élémentaires de l’analyse des données qui concernent une population finie. Les problèmes portant sur des statistiques multidimensionnelles nécessitent l’utilisation de l’algèbre linéaire. Indépendamment du caractère, élémentaire ou non, du problème, il s’agit de réductions statistiques de données connues dans lesquelles l’introduction des probabilités améliorerait difficilement l’information obtenue. Il est raisonnable de regrouper ces différentes notions :
- statistique descriptive pour les notions élémentaires ;
- analyse en composantes principales ;
- analyse factorielle des correspondances ;
- analyse discriminante ;
- visualisation des données ;
- etc.
Un changement radical se produit lorsque les données ne sont plus considérées comme une information complète à décrypter selon les règles de l’algèbre mais comme une information partielle sur une population plus importante, généralement considérée comme une population infinie. Pour induire des informations sur la population inconnue il faut introduire la notion de loi de probabilité. Les données connues constituent dans ce cas une réalisation d’un échantillon, ensemble de variables aléatoires supposées indépendantes (voir Loi de probabilité à plusieurs variables). La théorie des probabilités permet alors, entre autres opérations :
- d’associer les propriétés de l’échantillon à celles qui sont prêtées à la loi de probabilité, inconnue en toute rigueur, c’est l’échantillonnage ;
- de déduire inversement les paramètres de la loi de probabilité des informations que donne l’échantillon, c’est l’estimation ;
- de déterminer un intervalle de confiance qui mesure la validité de l’estimation ;
- de procéder à des tests d’hypothèse, le plus utilisé étant le Test du X² pour mesurer l’adéquation de la loi de probabilité choisie à l’échantillon utilisé ;
- etc.