Chapitre 2 : Statistiques Descriptives

 
Chapitre 2 : Statistiques Descriptives

Les statistiques descriptives sont des outils fondamentaux pour résumer, organiser et représenter des données de manière significative. Elles permettent de donner un aperçu global des caractéristiques principales d'un ensemble de données sans tirer de conclusions sur une population plus large. Ce chapitre se concentre sur l'organisation des données, les mesures de tendance centrale, les mesures de dispersion, et la représentation graphique des données.

1. Organisation des Données

L'organisation des données est une étape cruciale dans l'analyse statistique. Elle consiste à structurer les données de manière à faciliter leur compréhension et leur analyse.

1.1. Types de Données

Données qualitatives : Non numériques, comme les catégories ou les labels (ex. : couleur des yeux).

  • Nominales : Pas d'ordre (ex. : sexe, type de fruit).
  • Ordinales : Ordre implicite (ex. : classement, niveau d'éducation).

Données quantitatives : Numériques, mesurables (ex. : hauteur, poids).

  • Discrètes : Valeurs distinctes et finies (ex. : nombre d'enfants).
  • Continues : Valeurs pouvant prendre n'importe quelle valeur dans un intervalle (ex. : taille, poids).

1.2. Tableaux de Fréquences

Un tableau de fréquences résume la distribution des données en montrant combien de fois chaque valeur ou catégorie apparaît.

  • Tableau de fréquences simples : Liste des valeurs et leurs fréquences.
  • Tableau de fréquences cumulées : Montre la fréquence cumulative jusqu'à chaque valeur.

Exemple : Pour un ensemble de données sur les scores d'examen : [45, 50, 50, 55, 60, 60, 60, 70]






2. Mesures de Tendance Centrale

Les mesures de tendance centrale fournissent des informations sur le "centre" des données.

2.1. Moyenne

La moyenne est la somme des valeurs divisée par le nombre total de valeurs. C'est la mesure de tendance centrale la plus courante.

Moyenne(xˉ)=xin\text{Moyenne} (\bar{x}) = \frac{\sum x_i}{n}

xi\sum x_i est la somme de toutes les valeurs et nn est le nombre total de valeurs.

Exemple : Pour les données [5, 7, 8, 6, 9], la moyenne est :

xˉ=5+7+8+6+95=7\bar{x} = \frac{5 + 7 + 8 + 6 + 9}{5} = 7

2.2. Médiane

La médiane est la valeur du milieu lorsque les données sont ordonnées. Si le nombre de données est pair, la médiane est la moyenne des deux valeurs centrales.

Exemple : Pour les données [3, 7, 8, 5, 9] (ordonnées [3, 5, 7, 8, 9]), la médiane est 7.

Pour les données [3, 5, 7, 8] (ordonnées [3, 5, 7, 8]), la médiane est :

Meˊdiane=5+72=6\text{Médiane} = \frac{5 + 7}{2} = 6

2.3. Mode

Le mode est la valeur qui apparaît le plus fréquemment dans l'ensemble de données. Un ensemble de données peut avoir un ou plusieurs modes, ou aucun mode si toutes les valeurs apparaissent avec la même fréquence.

Exemple : Pour les données [2, 4, 4, 6, 6, 6, 8], le mode est 6 (car il apparaît le plus souvent).

3. Mesures de Dispersion

Les mesures de dispersion indiquent la variabilité des données autour de la tendance centrale.

3.1. Étendue

L'étendue est la différence entre la valeur maximale et la valeur minimale des données.

Eˊtendue=Valeur MaxValeur Min\text{Étendue} = \text{Valeur Max} - \text{Valeur Min}

Exemple : Pour les données [2, 4, 6, 8, 10], l'étendue est :

Eˊtendue=102=8

3.2. Variance

La variance mesure la dispersion des données par rapport à la moyenne. Elle est calculée comme la moyenne des carrés des écarts à la moyenne.

Variance(σ2)=(xixˉ)2n\text{Variance} (\sigma^2) = \frac{\sum (x_i - \bar{x})^2}{n}

Exemple : Pour les données [2, 4, 6, 8, 10] avec une moyenne de 6 :

σ2=(26)2+(46)2+(66)2+(86)2+(106)25=16+4+0+4+165=8\sigma^2 = \frac{(2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2}{5} = \frac{16 + 4 + 0 + 4 + 16}{5} = 8

3.3. Écart-type

L'écart-type est la racine carrée de la variance. Il mesure la dispersion des données dans les mêmes unités que les données elles-mêmes.


Exemple : Pour les données [2, 4, 6, 8, 10], avec une variance de 8 :


4. Représentation Graphique des Données

Les représentations graphiques aident à visualiser les données et à interpréter les mesures descriptives.

4.1. Histogrammes

Un histogramme est un graphique qui montre la fréquence des valeurs dans des intervalles de classe. Il est utile pour visualiser la distribution des données.

Exemple : Pour des données sur les âges des étudiants, on pourrait créer des intervalles (0-10, 11-20, etc.) et compter combien d'étudiants sont dans chaque intervalle.

4.2. Boîtes à Moustaches (Boxplot)

Le boxplot montre la répartition des données en quartiles et met en évidence les valeurs extrêmes. Il fournit une vue d'ensemble de la dispersion, de la médiane, et des éventuelles valeurs aberrantes.

  • La boîte représente les 25% à 75% des données (l'intervalle interquartile).
  • Les moustaches s'étendent jusqu'aux valeurs minimales et maximales non aberrantes.
  • Les points en dehors des moustaches représentent les valeurs aberrantes.

4.3. Diagrammes de Dispersion (Scatter Plots)

Les diagrammes de dispersion sont utilisés pour observer la relation entre deux variables. Chaque point représente une paire de valeurs (x, y).

Exemple : Pour étudier la relation entre le nombre d'heures d'étude et les scores aux examens, on trace les heures d'étude sur l'axe des x et les scores sur l'axe des y.

Résumé

Ce chapitre a couvert les principales techniques de statistiques descriptives : l'organisation des données, les mesures de tendance centrale (moyenne, médiane, mode), les mesures de dispersion (variance, écart-type, étendue), et les représentations graphiques (histogrammes, boîtes à moustaches, diagrammes de dispersion). Ces outils permettent de résumer et d'analyser des ensembles de données de manière claire et efficace.