Varianza
estadístico descriptivo (es) y momento de orden r (es)
En teoría de probabilidá , la varianza o variancia (que suel representase como
σ
2
{\displaystyle \sigma ^{2}}
) d'una variable aleatoria ye una midida de dispersión definida como la esperanza del cuadráu de la esviación de felicidá variable al respective de la so media. O en poques pallabres, ye la media de los residuos al cuadráu.
La so unidá de midida correspuende al cuadráu de la unidá de midida de la variable: por casu, si la variable mide una distancia en metros, la varianza espresar en metros al cuadráu. La varianza tien como valor mínimu 0. La esviación estándar (raigañu cuadráu de la varianza) ye una midida de dispersión alternativa, espresada nes mesmes unidaes que los datos de la variable oxetu d'estudiu.
Hai que tener en cuenta que la varianza puede trate bien influyida polos valores atípicos y nun s'aconseya'l so usu cuando les distribuciones de les variables aleatories tienen coles pesaes. En tales casos encamiéntase l'usu d'otres midíes de dispersión más robustes .
El términu varianza foi acuñáu por Ronald Fisher nun artículu publicáu en xineru de 1919 col títulu The Correlation Between Relatives on the Supposition of Mendelian Inheritance .[ 1]
Si tenemos un conxuntu de datos d'una mesma variable, la varianza calcular de la siguiente forma:
σ
n
2
=
1
n
∑
i
=
1
n
(
X
i
−
X
¯
)
2
=
(
1
n
∑
i
=
1
n
X
i
2
)
−
X
¯
2
=
1
n
2
∑
i
=
1
n
∑
j
>
i
(
X
i
−
X
j
)
2
{\displaystyle \sigma _{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}^{2}\right)-{\overline {X}}^{2}={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j>i}\left(X_{i}-X_{j}\right)^{2}}
Siendo:
X
i
{\displaystyle X_{i}}
: cada datu *
X
¯
{\displaystyle {\overline {X}}}
:media de los datos
n
{\displaystyle n}
: númberu de datos
Aplicando esti conceutu a una variable aleatoria con media μ = Y[X ], defínese'l so varianza , Var(X ) (tamién representada como
σ
X
2
{\displaystyle \sigma _{X}^{2}}
o, a cencielles σ2 ), como
σ
X
2
=
Y
[
(
X
−
μ
)
2
]
.
{\displaystyle \sigma _{X}^{2}=\operatorname {Y} [(X-\mu )^{2}].\,}
Desenvolviendo la definición anterior, llógrase la siguiente definición alternativa (y equivalente):
σ
X
2
=
Y
[
(
X
−
μ
)
2
]
=
Y
[
(
X
2
−
2
X
μ
+
μ
2
)
]
=
Y
[
X
2
]
−
2
μ
Y
[
X
]
+
μ
2
=
Y
[
X
2
]
−
2
μ
2
+
μ
2
=
Y
[
X
2
]
−
μ
2
.
{\displaystyle {\begin{aligned}\sigma _{X}^{2}&=\operatorname {Y} [(X-\mu )^{2}]\\&=\operatorname {Y} [(X^{2}-2X\mu +\mu ^{2})]\\&=\operatorname {Y} [X^{2}]-2\mu \operatorname {Y} [X]+\mu ^{2}\\&=\operatorname {Y} [X^{2}]-2\mu ^{2}+\mu ^{2}\\&=\operatorname {Y} [X^{2}]-\mu ^{2}.\end{aligned}}}
Si una distribución nun tien esperanza, como asocede cola de Cauchy , tampoco tien varianza. Esisten otres distribuciones que, entá teniendo esperanza, escarecen de varianza. Un exemplu d'elles ye la de Pareto cuando'l so índiz k satisfai 1 < k ≤ 2 .
Si la variable aleatoria X ye continua con función de densidá f (x ), entós
σ
X
2
=
∫
(
x
−
μ
)
2
f
(
x
)
d
x
,
{\displaystyle \sigma _{X}^{2}=\int (x-\mu )^{2}\,f(x)\,dx\,,}
onde :
μ
=
∫
x
f
(
x
)
d
x
,
{\displaystyle \mu =\int x\,f(x)\,dx\,,}
y les integrales tán definíes sobre'l rangu de X .
Si la variable aleatoria X ye discreta con pesos x 1 ↦ p 1 , ..., x n ↦ p n y n ye la cantidá total de datos, entós tenemos:
σ
X
2
=
(
∑
i
=
1
n
p
i
⋅
(
x
i
−
μ
)
2
)
{\displaystyle \sigma _{X}^{2}=(\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2})}
onde
μ
=
(
∑
i
=
1
n
p
i
⋅
x
i
)
{\displaystyle \mu =(\sum _{i=1}^{n}p_{i}\cdot x_{i})}
.
La distribución esponencial de parámetru λ ye una distribución continua con soporte nel intervalu [0,∞) y función de densidá
f
(
x
)
=
λ
y
−
λ
x
1
[
0
,
∞
)
(
x
)
,
{\displaystyle f(x)=\lambda y^{-\lambda x}1_{[0,\infty )}(x),\,}
Tien media μ = λ−1 . Poro, el so varianza ye:
∫
0
∞
f
(
x
)
(
x
−
μ
)
2
d
x
=
∫
0
∞
λ
y
−
λ
x
(
x
−
λ
−
1
)
2
d
x
=
λ
−
2
.
{\displaystyle \int _{0}^{\infty }f(x)(x-\mu )^{2}\,dx=\int _{0}^{\infty }\lambda y^{-\lambda x}(x-\lambda ^{-1})^{2}\,dx=\lambda ^{-2}.\,}
Esto ye, σ2 = μ2 .
Un dadu de seis cares puede representase como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidá igual a 1 /6 . El valor esperáu ye (1+2+3+4+5+6)/6 = 3,5. Poro, el so varianza ye:
∑
i
=
1
6
1
6
(
i
−
3
,
5
)
2
=
1
6
(
(
−
2
,
5
)
2
+
(
−
1
,
5
)
2
+
(
−
0
,
5
)
2
+
0
,
5
2
+
1
,
5
2
+
2
,
5
2
)
=
1
6
⋅
17
,
50
=
35
12
≈
2
,
92
.
{\displaystyle \sum _{i=1}^{6}{\tfrac {1}{6}}(i-3,5)^{2}={\tfrac {1}{6}}\left((-2,5)^{2}{+}(-1,5)^{2}{+}(-0,5)^{2}{+}0,5^{2}{+}1,5^{2}{+}2,5^{2}\right)={\tfrac {1}{6}}\cdot 17,50={\tfrac {35}{12}}\approx 2,92\,.}
Delles propiedaes de la varianza son:
V
(
X
)
≥
0
{\displaystyle V(X)\geq 0\,\!}
V
(
a
X
+
b
)
=
a
2
V
(
X
)
{\displaystyle V(aX+b)=a^{2}V(X)\,\!}
siendo a y b númberos reales cualesquier. D'esta propiedá deduzse que la varianza d'una constante ye cero, esto ye,
V
(
b
)
=
0
{\displaystyle V(b)=0\,\!}
V
(
X
+
Y
)
=
V
(
X
)
+
V
(
Y
)
+
2
C
o
v
(
X
,
Y
)
{\displaystyle V(X+Y)=V(X)+V(Y)+2Cov(X,Y)\,\!}
, onde Cov(X ,Y ) ye la covarianza de X y Y .
V
(
X
−
Y
)
=
V
(
X
)
+
V
(
Y
)
−
2
C
o
v
(
X
,
Y
)
{\displaystyle V(X-Y)=V(X)+V(Y)-2Cov(X,Y)\,\!}
, onde Cov(X ,Y ) ye la covarianza de X y Y .
En munches situaciones ye precisu envalorar la varianza d'una población a partir d'una muestra . Si toma una muestra con reemplazu
(
y
1
,
…
,
y
n
)
{\displaystyle (y_{1},\dots ,y_{n})}
de n valores d'ella, d'ente tolos estimadores posibles de la varianza de la población de partida, esisten dos d'usu corriente:
s
n
2
=
1
n
∑
i
=
1
n
(
y
i
−
y
¯
)
2
=
(
1
n
∑
i
=
1
n
y
i
2
)
−
y
¯
2
{\displaystyle s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}\right)-{\overline {y}}^{2}}
que la so demostración ye:
s
n
2
=
1
n
∑
i
=
1
n
(
y
i
−
y
¯
)
2
=
1
n
∑
i
=
1
n
(
y
i
2
−
2
y
i
y
¯
+
y
¯
2
)
=
1
n
∑
i
=
1
n
y
i
2
−
2
y
¯
1
n
∑
i
=
1
n
y
i
+
y
¯
2
1
n
∑
i
=
1
n
1
=
1
n
∑
i
=
1
n
y
i
2
−
2
y
¯
2
+
y
¯
2
=
(
1
n
∑
i
=
1
n
y
i
2
)
−
y
¯
2
{\displaystyle {\begin{aligned}s_{n}^{2}&={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}^{2}-2y_{i}{\overline {y}}+{\overline {y}}^{2}\right)={\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}-2{\overline {y}}{\frac {1}{n}}\sum _{i=1}^{n}y_{i}+{\overline {y}}^{2}{\frac {1}{n}}\sum _{i=1}^{n}1\\&={\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}-2{\overline {y}}^{2}+{\overline {y}}^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}\right)-{\overline {y}}^{2}\end{aligned}}}
y :
s
2
=
1
n
−
1
∑
i
=
1
n
(
y
i
−
y
¯
)
2
=
∑
i
=
1
n
y
i
2
−
n
y
¯
2
n
−
1
{\displaystyle s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}={\frac {\sum _{i=1}^{n}y_{i}^{2}-n{\overline {y}}^{2}}{n-1}}}
que la so demostración ye:
s
2
=
1
n
−
1
∑
i
=
1
n
(
y
i
−
y
¯
)
2
=
1
n
−
1
∑
i
=
1
n
(
y
i
2
−
2
y
i
y
¯
+
y
¯
2
)
=
1
n
−
1
∑
i
=
1
n
y
i
2
−
2
y
¯
n
−
1
∑
i
=
1
n
y
i
+
y
¯
2
n
−
1
∑
i
=
1
n
1
=
1
n
−
1
∑
i
=
1
n
y
i
2
−
2
y
¯
n
n
−
1
1
n
∑
i
=
1
n
y
i
+
y
¯
2
n
n
−
1
=
1
n
−
1
∑
i
=
1
n
y
i
2
−
2
y
¯
2
n
n
−
1
+
y
¯
2
n
n
−
1
=
1
n
−
1
∑
i
=
1
n
y
i
2
−
y
¯
2
n
n
−
1
=
∑
i
=
1
n
y
i
2
−
n
y
¯
2
n
−
1
{\displaystyle {\begin{aligned}s^{2}&={\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}^{2}-2y_{i}{\overline {y}}+{\overline {y}}^{2}\right)\\&={\frac {1}{n-1}}\sum _{i=1}^{n}y_{i}^{2}-{\frac {2{\overline {y}}}{n-1}}\sum _{i=1}^{n}y_{i}+{\frac {{\overline {y}}^{2}}{n-1}}\sum _{i=1}^{n}1\\&={\frac {1}{n-1}}\sum _{i=1}^{n}y_{i}^{2}-{\frac {2{\overline {y}}n}{n-1}}{\frac {1}{n}}\sum _{i=1}^{n}y_{i}+{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}y_{i}^{2}-{\frac {2{\overline {y}}^{2}n}{n-1}}+{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}y_{i}^{2}-{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {\sum _{i=1}^{n}y_{i}^{2}-n{\overline {y}}^{2}}{n-1}}\end{aligned}}}
Cuando los datos tán arrexuntaos:
s
n
2
=
1
n
∑
i
=
1
n
f
i
(
y
i
−
y
¯
)
2
=
(
1
n
∑
i
=
1
n
f
i
y
i
2
)
−
y
¯
2
{\displaystyle s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}f_{i}\left(y_{i}-{\overline {y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}^{2}\right)-{\overline {y}}^{2}}
que la so demostración ye:
s
n
2
=
1
n
∑
i
=
1
n
f
i
(
y
i
−
y
¯
)
2
=
1
n
∑
i
=
1
n
f
i
(
y
i
2
−
2
y
i
y
¯
+
y
¯
2
)
=
1
n
∑
i
=
1
n
f
i
y
i
2
−
2
y
¯
1
n
∑
i
=
1
n
f
i
y
i
+
y
¯
2
1
n
∑
i
=
1
n
f
i
=
1
n
∑
i
=
1
n
f
i
y
i
2
−
2
y
¯
2
+
y
¯
2
=
(
1
n
∑
i
=
1
n
f
i
y
i
2
)
−
y
¯
2
{\displaystyle {\begin{aligned}s_{n}^{2}&={\frac {1}{n}}\sum _{i=1}^{n}f_{i}\left(y_{i}-{\overline {y}}\right)^{2}={\frac {1}{n}}\sum _{i=1}^{n}f_{i}\left(y_{i}^{2}-2y_{i}{\overline {y}}+{\overline {y}}^{2}\right)={\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-2{\overline {y}}{\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}+{\overline {y}}^{2}{\frac {1}{n}}\sum _{i=1}^{n}f_{i}\\&={\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-2{\overline {y}}^{2}+{\overline {y}}^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}^{2}\right)-{\overline {y}}^{2}\end{aligned}}}
y :
s
2
=
∑
i
=
1
n
f
i
(
y
i
−
y
¯
)
2
n
−
1
=
∑
i
=
1
n
f
i
y
i
2
−
n
y
¯
2
n
−
1
{\displaystyle s^{2}={\frac {\sum _{i=1}^{n}f_{i}\left(y_{i}-{\overline {y}}\right)^{2}}{n-1}}={\frac {\sum _{i=1}^{n}f_{i}y_{i}^{2}-n{\overline {y}}^{2}}{n-1}}}
que la so demostración ye:
s
2
=
∑
i
=
1
n
f
i
(
y
i
−
y
¯
)
2
n
−
1
=
1
n
−
1
∑
i
=
1
n
f
i
(
y
i
2
−
2
y
i
y
¯
+
y
¯
2
)
=
1
n
−
1
∑
i
=
1
n
f
i
y
i
2
−
2
y
¯
n
−
1
∑
i
=
1
n
f
i
y
i
+
y
¯
2
n
−
1
∑
i
=
1
n
f
i
=
1
n
−
1
∑
i
=
1
n
f
i
y
i
2
−
2
y
¯
n
n
−
1
1
n
∑
i
=
1
n
f
i
y
i
+
y
¯
2
n
n
−
1
=
1
n
−
1
∑
i
=
1
n
f
i
y
i
2
−
2
y
¯
2
n
n
−
1
+
y
¯
2
n
n
−
1
=
1
n
−
1
∑
i
=
1
n
f
i
y
i
2
−
y
¯
2
n
n
−
1
=
∑
i
=
1
n
f
i
y
i
2
−
n
y
¯
2
n
−
1
{\displaystyle {\begin{aligned}s^{2}&={\frac {\sum _{i=1}^{n}f_{i}\left(y_{i}-{\overline {y}}\right)^{2}}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}\left(y_{i}^{2}-2y_{i}{\overline {y}}+{\overline {y}}^{2}\right)\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-{\frac {2{\overline {y}}}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}+{\frac {{\overline {y}}^{2}}{n-1}}\sum _{i=1}^{n}f_{i}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-{\frac {2{\overline {y}}n}{n-1}}{\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}+{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-{\frac {2{\overline {y}}^{2}n}{n-1}}+{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {\sum _{i=1}^{n}f_{i}y_{i}^{2}-n{\overline {y}}^{2}}{n-1}}\end{aligned}}}
A los dos (cuando ta estremáu por n y cuando lo ta por n-1) denominar varianza muestral . Difieren llixeramente y, pa valores grandes de n , la diferencia ye irrelevante. El primeru tresllada direutamente la varianza de la muestra al de la población y el segundu ye un estimador insesgado de la varianza de la población . Ello ye que
Y
[
s
2
]
=
Y
[
1
n
−
1
∑
i
=
1
n
Y
i
2
−
n
n
−
1
Y
¯
2
]
=
1
n
−
1
(
∑
Y
[
Y
i
2
]
−
n
Y
[
Y
¯
2
]
)
=
1
n
−
1
(
n
Y
[
Y
1
2
]
−
n
Y
[
Y
¯
2
]
)
=
n
n
−
1
(
Var
(
Y
1
)
+
Y
[
Y
1
]
2
−
Var
(
Y
¯
)
−
Y
[
Y
¯
]
2
)
=
n
n
−
1
(
Var
(
Y
1
)
+
μ
2
−
1
n
Var
(
Y
1
)
−
μ
2
)
=
n
n
−
1
(
n
−
1
n
Var
(
Y
1
)
)
=
Var
(
Y
1
)
=
σ
2
{\displaystyle {\begin{aligned}\operatorname {Y} [s^{2}]&=\operatorname {Y} \left[{\frac {1}{n-1}}\sum _{i=1}^{n}Y_{i}^{2}~-~{\frac {n}{n-1}}{\overline {Y}}^{2}\right]\\&={\frac {1}{n-1}}\left(\sum \operatorname {Y} [Y_{i}^{2}]~-~n\operatorname {Y} [{\overline {Y}}^{2}]\right)\\&={\frac {1}{n-1}}\left(n\operatorname {Y} [Y_{1}^{2}]~-~n\operatorname {Y} [{\overline {Y}}^{2}]\right)\\&={\frac {n}{n-1}}\left(\operatorname {Var} (Y_{1})+\operatorname {Y} [Y_{1}]^{2}~-~\operatorname {Var} ({\overline {Y}})-\operatorname {Y} [{\overline {Y}}]^{2}\right)\\&={\frac {n}{n-1}}\left(\operatorname {Var} (Y_{1})+\mu ^{2}~-~{\frac {1}{n}}\operatorname {Var} (Y_{1})-\mu ^{2}\right)\\&={\frac {n}{n-1}}\left({\frac {n-1}{n}}~\operatorname {Var} (Y_{1})\right)\\&=\operatorname {Var} (Y_{1})\\&=\sigma ^{2}\end{aligned}}}
ente que
Y
[
s
n
2
]
=
n
−
1
n
σ
2
{\displaystyle Y[s_{n}^{2}]={\frac {n-1}{n}}\sigma ^{2}}
De resultes de la igualdá
Y
(
s
2
)
=
σ
2
{\displaystyle \operatorname {Y} (s^{2})=\sigma ^{2}}
, s 2 ye un estadísticu insesgado de
σ
2
{\displaystyle \sigma ^{2}}
. Amás, si cumplen les condiciones necesaries pa la llei de los grandes númberos , s 2 ye un estimador consistente de
σ
2
{\displaystyle \sigma ^{2}}
.
Entá más, cuando les muestres siguen una distribución normal , pol teorema de Cochran ,
s
2
{\displaystyle s^{2}}
tien la distribución chi-cuadráu :
(
n
−
1
)
s
2
σ
2
∼
χ
n
−
1
2
.
{\displaystyle (n-1){\frac {s^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.}
Dexamos tres fórmules equivalentes pal cálculu de la varianza muestral
s
n
{\displaystyle s_{n}}
s
n
2
=
1
n
∑
i
=
1
n
(
y
i
−
y
¯
)
2
=
(
1
n
∑
i
=
1
n
y
i
2
)
−
y
¯
2
=
1
n
2
∑
i
<
j
(
y
i
−
y
j
)
2
{\displaystyle s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}\right)-{\overline {y}}^{2}={\frac {1}{n^{2}}}\sum _{i<j}\left(y_{i}-y_{j}\right)^{2}}
(Demostración xeométrica en http://www.solin.16mb.com/estadistica_js/MediayDesviacion.htm)
Esta última igualdá tien interés pa interpretar los estimadores
s
2
{\displaystyle s^{2}}
y
s
n
2
{\displaystyle s_{n}^{2}}
, pos si quier evaluase la esviación d'unos datos o les sos diferencies, puede optase por calcular el permediu de los cuadraos de les diferencies de cada par de datos:
2
s
n
2
=
∑
(
i
⩽
n
,
j
⩽
n
)
(
y
i
−
y
j
)
2
n
2
{\displaystyle 2s_{n}^{2}={\frac {\sum _{\left(i\leqslant n,j\leqslant n\right)}\left(y_{i}-y_{j}\right)^{2}}{n^{2}}}}
. Nótese que'l númberu de sumandos ye
n
2
{\displaystyle n^{2}}
.
O puede considerase el permediu de los cuadraos de les diferencies de cada par de datos ensin tener en cuenta cada datu consigo mesmu, agora'l númberu de sumandos ye
n
(
n
−
1
)
{\displaystyle n\left(n-1\right)}
.
2
s
2
=
∑
i
≠
j
(
y
i
−
y
j
)
2
n
(
n
−
1
)
{\displaystyle 2s^{2}={\frac {\sum _{i\neq j}\left(y_{i}-y_{j}\right)^{2}}{n\left(n-1\right)}}}
[1] Simulación de la varianza d'una variable discreta con R (llinguaxe de programación)
[www.solin.16mb.com/estadistica_js/MediayDesviacion.htm] Un triángulu rectángulu.