Leçon 3 — Variance, écart-type et quartiles

Les mesures de dispersion — quantifier l'étalement des données autour de la moyenne et construire la boîte à moustaches

I. Pourquoi mesurer la dispersion ?

La moyenne résume une série en un seul nombre mais ne dit rien sur la variabilité des données. Deux séries peuvent avoir la même moyenne tout en étant très différentes : l'une concentrée autour de la moyenne, l'autre très étalée.

Deux agricultures avec la même moyenne, des réalités très différentes

Considérons deux zones agricoles du Burkina, chacune avec une production moyenne de 2 tonnes/ha :

Zone A (stable) : 1,8 ; 2,0 ; 2,1 ; 1,9 ; 2,2 tonnes/ha → moyenne = 2,0

Zone B (variable) : 0,2 ; 1,0 ; 2,5 ; 3,5 ; 2,8 tonnes/ha → moyenne = 2,0

La Zone A est prévisible — les agriculteurs peuvent planifier. La Zone B est risquée — les années catastrophiques (0,2 t/ha) alternent avec les bonnes années. La moyenne seule ne distingue pas ces deux situations : il faut une mesure de dispersion.

Nerveux explique : Les météorologues de la Direction Générale de la Météorologie du Burkina Faso ne donnent pas seulement la température moyenne — ils donnent aussi l'amplitude thermique (variation entre le jour et la nuit). À Ouagadougou en saison sèche, la température peut être de 40°C le jour et 18°C la nuit — amplitude de 22°C ! L'écart-type quantifie exactement cette dispersion. Un écart-type petit = données concentrées = température régulière. Un écart-type grand = données étalées = fortes variations.

II. Variance et écart-type

La variance est la moyenne des carrés des écarts à la moyenne. L'écart-type est sa racine carrée — il s'exprime dans la même unité que les données, ce qui le rend directement interprétable.

Variance \(\sigma^2\) et écart-type \(\sigma\) d'une série \((x_i, n_i)\) : \[\sigma^2 = \frac{1}{N}\sum_{i=1}^{k} n_i(x_i-\bar{x})^2 = \frac{\sum n_i x_i^2}{N} - \bar{x}^2\] \[\sigma = \sqrt{\sigma^2} \geq 0\] La formule de droite (\(\overline{x^2}-\bar{x}^2\)) est souvent plus rapide à calculer

Preuve de la formule de König-Huygens : \(\sigma^2 = \overline{x^2} - \bar{x}^2\)

On développe la définition de la variance :

\(\sigma^2 = \frac{1}{N}\sum n_i(x_i-\bar{x})^2 = \frac{1}{N}\sum n_i(x_i^2 - 2x_i\bar{x} + \bar{x}^2)\)

\(= \frac{\sum n_i x_i^2}{N} - 2\bar{x}\cdot\frac{\sum n_i x_i}{N} + \bar{x}^2\cdot\frac{\sum n_i}{N}\)

\(= \overline{x^2} - 2\bar{x}\cdot\bar{x} + \bar{x}^2 = \overline{x^2} - \bar{x}^2 \quad \square\)

Cette formule est dite de König-Huygens. Elle est plus pratique car elle évite de calculer \((x_i-\bar{x})^2\) pour chaque valeur — on calcule directement \(\overline{x^2}\) et \(\bar{x}^2\).

Propriété de linéarité

Si \(y_i = ax_i + b\) : \[\sigma_y^2 = a^2\sigma_x^2 \quad \text{et} \quad \sigma_y = |a|\sigma_x\]

La constante \(b\) (translation) ne change pas la dispersion. Seul le facteur \(a\) (mise à l'échelle) la modifie.

\(\sigma_{ax+b} = |a|\sigma_x\)

Coefficient de variation

\[\text{CV} = \frac{\sigma}{\bar{x}} \times 100\%\]

Mesure la dispersion relative — permet de comparer des dispersions entre des séries d'unités ou d'échelles différentes.

CV < 15% : peu dispersé

Variable centrée réduite

\[Z = \frac{X - \bar{x}}{\sigma}\]

Transformation qui donne une série de moyenne 0 et d'écart-type 1 — permet de comparer des individus issus de populations différentes.

\(\bar{Z}=0,\ \sigma_Z=1\)

Inégalité de Bienaymé-Chebyshev

Pour tout \(k>1\) : \[P(|X-\bar{x}|\geq k\sigma) \leq \frac{1}{k^2}\]

Au moins \(1-1/k^2\) des données sont dans l'intervalle \([\bar{x}-k\sigma\,;\,\bar{x}+k\sigma]\).

k=2: au moins 75%

III. Les quartiles et l'écart interquartile

Les quartiles divisent la série ordonnée en quatre parties égales. Ils sont plus robustes que la variance car ils ne sont pas influencés par les valeurs extrêmes. L'écart interquartile est la mesure de dispersion associée aux quartiles.

\(Q_1\) : premier quartile — 25 % des données sont en dessous (\(F(Q_1)=0{,}25\)) \[\text{Me} = Q_2 : \text{deuxième quartile} = \text{médiane} \quad (F(Q_2)=0{,}5)\] \(Q_3\) : troisième quartile — 75 % des données sont en dessous (\(F(Q_3)=0{,}75\)) \[\text{Écart interquartile} : \text{EIQ} = Q_3 - Q_1\] L'EIQ contient le "50 % central" des données — robuste aux valeurs extrêmes

Pourquoi l'EIQ est plus robuste que l'écart-type

L'écart-type utilise toutes les valeurs, y compris les plus extrêmes, et les met au carré — ce qui amplifie leur influence. L'EIQ, lui, ignore complètement les 25 % plus bas et les 25 % plus hauts : il ne mesure que la dispersion du "cœur" de la distribution.

Règle pratique : une valeur est souvent considérée comme outlier (valeur aberrante) si elle est à plus de 1,5 × EIQ au-delà de \(Q_3\) ou en deçà de \(Q_1\). Ce critère est utilisé dans les boîtes à moustaches.

Pour les séries symétriques sans outliers, l'écart-type et l'EIQ donnent des informations similaires. Pour les séries asymétriques ou avec outliers, l'EIQ est préférable.

IV. La boîte à moustaches (box plot)

La boîte à moustaches (ou box plot) est un graphique qui résume une série statistique en cinq nombres : minimum, \(Q_1\), médiane, \(Q_3\), maximum. Elle permet de visualiser simultanément la tendance centrale, la dispersion et l'asymétrie d'une distribution.

Résumé en cinq nombres : \[\text{Min} \quad Q_1 \quad \text{Médiane} \quad Q_3 \quad \text{Max}\] Limites des outliers : \(Q_1 - 1{,}5\times\text{EIQ}\) et \(Q_3 + 1{,}5\times\text{EIQ}\) Les "moustaches" s'étendent jusqu'aux valeurs les plus extrêmes qui ne sont pas des outliers

V. Visualisation — variance, écart-type et boîtes à moustaches

Haut : même moyenne, dispersions différentes (σ=1 vs σ=3). Bas : boîtes à moustaches comparant les précipitations du Sahel et des Hauts-Bassins.

VI. Mesures de dispersion — tableau comparatif

Mesure	Formule	Unité	Robuste ?	Utilisation préférentielle
Étendue	\(\max - \min\)	Même que les données	Non	Aperçu rapide, données sans outliers
Variance \(\sigma^2\)	\(\overline{x^2}-\bar{x}^2\)	Carré de l'unité	Non	Calculs théoriques, probabilités
Écart-type \(\sigma\)	\(\sqrt{\sigma^2}\)	Même que les données	Non	Description générale, loi normale
EIQ	\(Q_3 - Q_1\)	Même que les données	Oui	Données asymétriques ou avec outliers
Coef. variation	\(\sigma/\bar{x}\times100\%\)	Sans dimension (%)	Non	Comparer des séries d'unités différentes

VII. Exemples travaillés

Exemple 1 — Variance et écart-type par les deux méthodes

Calculer la variance et l'écart-type de la série : 4, 7, 7, 8, 10, 12, 15, 17.

\(N=8\). \(\bar{x}=\frac{4+7+7+8+10+12+15+17}{8}=\frac{80}{8}=10\)

Méthode 1 — par les écarts :

\(x_i\)	\(x_i-\bar{x}\)	\((x_i-\bar{x})^2\)
4	−6	36
7	−3	9
7	−3	9
8	−2	4
10	0	0
12	2	4
15	5	25
17	7	49
Total	0	136

\(\sigma^2 = \dfrac{136}{8} = 17\) ; \(\sigma = \sqrt{17} \approx 4{,}12\)

Méthode 2 — König-Huygens :

\(\overline{x^2} = \frac{16+49+49+64+100+144+225+289}{8} = \frac{936}{8} = 117\)

\(\sigma^2 = 117 - 10^2 = 117 - 100 = 17\) ✓

\(\sigma^2=17\), \(\sigma\approx4{,}12\) — les deux méthodes concordent

Exemple 2 — Quartiles et boîte à moustaches

Pour la série ordonnée de 12 notes : 5, 6, 8, 9, 10, 10, 11, 12, 13, 14, 16, 18.

Médiane (\(N=12\) pair) : Me \(= \frac{x_{(6)}+x_{(7)}}{2} = \frac{10+11}{2} = 10{,}5\)

Quartile \(Q_1\) : médiane de la moitié inférieure [5, 6, 8, 9, 10, 10] :

\(Q_1 = \frac{8+9}{2} = 8{,}5\)

Quartile \(Q_3\) : médiane de la moitié supérieure [11, 12, 13, 14, 16, 18] :

\(Q_3 = \frac{13+14}{2} = 13{,}5\)

EIQ : \(Q_3-Q_1=13{,}5-8{,}5=5\)

Limites outliers :

Borne basse : \(Q_1-1{,}5\times\text{EIQ}=8{,}5-7{,}5=1\)

Borne haute : \(Q_3+1{,}5\times\text{EIQ}=13{,}5+7{,}5=21\)

Toutes les valeurs sont dans [1, 21] → pas d'outlier.

Résumé 5 nombres : Min=5, Q₁=8,5, Me=10,5, Q₃=13,5, Max=18.

\(Q_1=8{,}5\), Me\(=10{,}5\), \(Q_3=13{,}5\), EIQ\(=5\) — pas d'outlier

Exemple 3 — Variance sur données groupées

Calculer la variance des rendements de coton (Leçon 2, Exercice 2) dont la moyenne était 1045 kg/ha.

Classe	Centre \(c_i\)	\(n_i\)	\(n_i c_i^2\)
[600;800[	700	5	5×490000=2 450 000
[800;1000[	900	12	12×810000=9 720 000
[1000;1200[	1100	14	14×1210000=16 940 000
[1200;1400[	1300	7	7×1690000=11 830 000
[1400;1600]	1500	2	2×2250000=4 500 000
Total	—	40	45 440 000

\(\overline{x^2} = \dfrac{45\,440\,000}{40} = 1\,136\,000\)

\(\sigma^2 = \overline{x^2} - \bar{x}^2 = 1\,136\,000 - 1045^2 = 1\,136\,000 - 1\,092\,025 = 43\,975\)

\(\sigma = \sqrt{43\,975} \approx 209{,}7\) kg/ha

Coefficient de variation : \(\text{CV} = \frac{209{,}7}{1045}\times100\% \approx 20{,}1\%\) — dispersion modérée.

\(\sigma\approx210\) kg/ha, \(\text{CV}\approx20\%\)

VIII. Application concrète ⭐

⭐ Situation concrète Comparaison de la variabilité des pluies — Sahel vs Sud-Ouest burkinabè

On compare les précipitations annuelles (en mm) dans deux régions du Burkina :

Sahel (Dori) — 10 années : 380, 420, 310, 550, 290, 480, 350, 610, 410, 400

Sud-Ouest (Gaoua) — 10 années : 980, 1020, 1150, 870, 1100, 960, 1080, 930, 1010, 900

a) Calculer la moyenne et l'écart-type de chaque région.
b) Calculer le coefficient de variation de chaque région. Quelle région est la plus variable en termes relatifs ?
c) Calculer le résumé en 5 nombres et l'EIQ pour chaque région.
d) Y a-t-il des outliers dans les données du Sahel ?

Exemple 4 — Pluies Sahel vs Sud-Ouest

a) Sahel :

\(\bar{x}_S=\frac{380+420+310+550+290+480+350+610+410+400}{10}=\frac{4200}{10}=420\) mm

\(\overline{x_S^2}=\frac{380^2+420^2+\cdots+400^2}{10}=\frac{1\,835\,800}{10}=183\,580\)

\(\sigma_S^2=183\,580-420^2=183\,580-176\,400=7\,180\) ; \(\sigma_S=\sqrt{7\,180}\approx84{,}7\) mm

Sud-Ouest :

\(\bar{x}_G=\frac{980+1020+1150+870+1100+960+1080+930+1010+900}{10}=\frac{10\,000}{10}=1000\) mm

\(\overline{x_G^2}=\frac{980^2+\cdots+900^2}{10}=\frac{10\,069\,000}{10}=1\,006\,900\)

\(\sigma_G^2=1\,006\,900-1000^2=6\,900\) ; \(\sigma_G=\sqrt{6\,900}\approx83{,}1\) mm

b) Coefficients de variation :

\(\text{CV}_S=\frac{84{,}7}{420}\times100=\mathbf{20{,}2\%}\) \(\text{CV}_G=\frac{83{,}1}{1000}\times100=\mathbf{8{,}3\%}\)

Malgré des écarts-types similaires (~84 mm), le Sahel est bien plus variable en termes relatifs (20 % vs 8 %). Un écart de 84 mm représente peu par rapport à 1000 mm mais beaucoup par rapport à 420 mm.

c) Résumé 5 nombres — Sahel :

Série ordonnée : 290, 310, 350, 380, 400, 410, 420, 480, 550, 610.

Me = (400+410)/2 = 405 mm ; Q₁ = (350+380)/2 = 365 mm ; Q₃ = (480+550)/2 = 515 mm

EIQ = 515−365 = 150 mm

d) Outliers Sahel :

Borne basse : 365−1,5×150 = 140 ; Borne haute : 515+1,5×150 = 740

Toutes les valeurs sont dans [140, 740] → pas d'outlier détecté dans les données du Sahel.

CV Sahel = 20,2 % vs CV Sud-Ouest = 8,3 % — le Sahel est relativement 2,4× plus variable

✏️ Exercices d'application

Exercice 1 — Calcul direct de la variance

Calculer la variance et l'écart-type des deux séries suivantes par la formule de König-Huygens. Laquelle est la plus dispersée ?

Série A : 8, 10, 10, 12, 12, 12, 14, 14, 16 (notes d'élèves)
Série B : 2, 6, 10, 12, 12, 12, 14, 18, 22 (même moyenne, répartition différente)

Série A : \(\bar{x}=108/9=12\). \(\overline{x^2}=(64+100+100+144+144+144+196+196+256)/9=1344/9\approx149{,}3\). \(\sigma_A^2=149{,}3-144=5{,}3\). \(\sigma_A\approx2{,}30\).

Série B : \(\bar{x}=108/9=12\). \(\overline{x^2}=(4+36+100+144+144+144+196+324+484)/9=1576/9\approx175{,}1\). \(\sigma_B^2=175{,}1-144=31{,}1\). \(\sigma_B\approx5{,}58\).

La Série B est bien plus dispersée (\(\sigma\approx5{,}58\) vs \(2{,}30\)), même si les deux ont la même moyenne et le même mode (12).

Exercice 2 — Quartiles et boîte à moustaches

Les rendements journaliers (en kg) de 15 marchands de karité du marché de Bobo-Dioulasso sont :

12, 25, 18, 32, 15, 28, 22, 35, 19, 42, 27, 16, 55, 24, 31

a) Trier les données et trouver le résumé en 5 nombres.
b) Calculer l'EIQ et identifier les outliers éventuels.
c) Calculer la variance et l'écart-type.

a) Série triée : 12,15,16,18,19,22,24,25,27,28,31,32,35,42,55. N=15.
Min=12, Max=55. Me=x₍₈₎=25. Q₁=médiane de {12,15,16,18,19,22,24}=18. Q₃=médiane de {27,28,31,32,35,42,55}=32.

b) EIQ=32-18=14. Borne basse=18-21=-3. Borne haute=32+21=53. La valeur 55 > 53 → outlier !

c) \(\bar{x}=(12+15+\cdots+55)/15=421/15\approx28{,}1\). \(\overline{x^2}=(144+225+256+324+361+484+576+625+729+784+961+1024+1225+1764+3025)/15=12507/15=833{,}8\). \(\sigma^2=833{,}8-28{,}1^2=833{,}8-789{,}6=44{,}2\). \(\sigma\approx\sqrt{44{,}2}\approx\mathbf{111{,}2}\) ... relancer : \(28{,}1^2=789{,}61\). \(\sigma^2=833{,}8-789{,}6=44{,}2\). \(\sigma\approx\mathbf{11{,}1}\) kg.

Exercice 3 — Propriété de l'écart-type

Une série a une moyenne de 50 et un écart-type de 8.

a) On ajoute 10 à toutes les valeurs. Quelle est la nouvelle moyenne ? le nouvel écart-type ?
b) On multiplie toutes les valeurs par 1,5. Quelle est la nouvelle moyenne ? le nouvel écart-type ?
c) On transforme par \(z = (x-50)/8\) (centrage-réduction). Quelle est la moyenne et l'écart-type de la série \(z\) ?

a) \(\overline{x+10}=50+10=60\). \(\sigma_{x+10}=8\) (translation : σ inchangé).

b) \(\overline{1{,}5x}=1{,}5\times50=75\). \(\sigma_{1{,}5x}=1{,}5\times8=12\).

c) \(z=(x-50)/8\). \(\bar{z}=(50-50)/8=0\). \(\sigma_z=8/8=1\). La série centrée-réduite a moyenne 0 et écart-type 1.

Exercice 4 — Comparaison de la stabilité des récoltes

Deux exploitations agricoles du Centre-Nord burkinabè ont produit (en sacs de 100 kg) sur 8 années :

Exploitation A : 42, 45, 48, 44, 43, 47, 46, 45

Exploitation B : 30, 55, 38, 62, 41, 50, 48, 36

a) Calculer la moyenne et l'écart-type de chaque exploitation.
b) Laquelle recommanderiez-vous à un investisseur qui cherche la stabilité ? à un investisseur qui cherche le rendement maximal possible ?
c) Si chaque sac vaut 15 000 FCFA, quel est l'écart-type du revenu annuel de chaque exploitation ?

a) Exploitation A : \(\bar{x}_A=360/8=45\) sacs. \(\overline{x_A^2}=16242/8=2030{,}25\). \(\sigma_A^2=2030{,}25-2025=5{,}25\). \(\sigma_A\approx2{,}29\) sacs.
Exploitation B : \(\bar{x}_B=360/8=45\) sacs. \(\overline{x_B^2}=17134/8=2141{,}75\). \(\sigma_B^2=2141{,}75-2025=116{,}75\). \(\sigma_B\approx10{,}8\) sacs.

b) Mêmes moyennes (45 sacs), mais \(\sigma_B\approx4{,}7\times\sigma_A\). Pour la stabilité : exploitation A. Pour le rendement maximal possible : B (peut atteindre 62 sacs vs 48 pour A), mais au risque d'années très mauvaises (30 sacs).

c) Transformation : valeur = 15 000 × production. \(\sigma_{\text{revenu A}}=15000\times2{,}29\approx\mathbf{34\,350}\) FCFA. \(\sigma_{\text{revenu B}}=15000\times10{,}8\approx\mathbf{162\,000}\) FCFA.

Exercice 5 — Score scolaire standardisé ⭐

Dans un lycée de Ouagadougou, les notes de Mathématiques ont une moyenne de 11,2 et un écart-type de 3,4. Les notes de Français ont une moyenne de 12,5 et un écart-type de 2,8.

Kader a obtenu 15 en Mathématiques et 14 en Français.

a) Calculer le score standardisé (note Z) de Kader dans chaque matière.
b) Dans quelle matière Kader se distingue-t-il le plus de la moyenne de la classe ?
c) Si la classe entière avait ses notes de Maths augmentées de 2 points (correction d'une erreur dans le barème), quelle seraient la nouvelle moyenne et le nouvel écart-type ?
d) L'inégalité de Chebyshev avec \(k=2\) garantit qu'au moins 75 % des élèves ont des notes dans quel intervalle (en Maths) ?

a) Maths : \(Z_M=\frac{15-11{,}2}{3{,}4}=\frac{3{,}8}{3{,}4}\approx\mathbf{1{,}12}\) écarts-types au-dessus de la moyenne.
Français : \(Z_F=\frac{14-12{,}5}{2{,}8}=\frac{1{,}5}{2{,}8}\approx\mathbf{0{,}54}\) écarts-types au-dessus.

b) Kader se distingue davantage en Mathématiques (\(Z=1{,}12\) vs \(0{,}54\)) — sa note de Maths est plus loin de la moyenne relative à la dispersion de la classe.

c) Nouvelle moyenne = \(11{,}2+2=\mathbf{13{,}2}\). Nouvel écart-type = \(\mathbf{3{,}4}\) inchangé (translation).

d) Intervalle : \([\bar{x}-2\sigma\,;\,\bar{x}+2\sigma]=[11{,}2-6{,}8\,;\,11{,}2+6{,}8]=[\mathbf{4{,}4\,;\,18{,}0}]\). Au moins 75 % des élèves ont une note dans cet intervalle.

À retenir

Variance : \(\sigma^2=\frac{\sum n_i(x_i-\bar{x})^2}{N}=\overline{x^2}-\bar{x}^2\) — König-Huygens est souvent plus rapide.
Écart-type : \(\sigma=\sqrt{\sigma^2}\) — même unité que les données, interprétable directement.
Linéarité : \(\sigma_{ax+b}=|a|\sigma_x\) — translation n'affecte pas la dispersion.
Quartiles : \(Q_1\) (25%), \(Q_2=\text{Me}\) (50%), \(Q_3\) (75%) — calculés par interpolation pour des données groupées.
EIQ : \(Q_3-Q_1\) — robuste aux outliers, mesure la dispersion du "cœur" des données.
Outliers : valeurs en dehors de \([Q_1-1{,}5\times\text{EIQ}\,;\,Q_3+1{,}5\times\text{EIQ}]\).
Boîte à moustaches : résumé en 5 nombres (Min, Q₁, Me, Q₃, Max) — visualise tendance et dispersion.
CV : \(\sigma/\bar{x}\times100\%\) — dispersion relative, permet de comparer des séries d'échelles différentes.
Chebyshev : au moins \(1-1/k^2\) des données dans \([\bar{x}-k\sigma\,;\,\bar{x}+k\sigma]\) — valable pour toute distribution.

Supports Vidéo

← L2 : Moyenne, médiane et mode L4 : Calcul des probabilités →