Varianza

Varianza
	estadístico descriptivo (es) y momento de orden r (es)

En teoría de probabilidá, la varianza o variancia (que suel representase como $\sigma ^{2}$ ) d'una variable aleatoria ye una midida de dispersión definida como la esperanza del cuadráu de la esviación de felicidá variable al respective de la so media. O en poques pallabres, ye la media de los residuos al cuadráu.

La so unidá de midida correspuende al cuadráu de la unidá de midida de la variable: por casu, si la variable mide una distancia en metros, la varianza espresar en metros al cuadráu. La varianza tien como valor mínimu 0. La esviación estándar (raigañu cuadráu de la varianza) ye una midida de dispersión alternativa, espresada nes mesmes unidaes que los datos de la variable oxetu d'estudiu.

Hai que tener en cuenta que la varianza puede trate bien influyida polos valores atípicos y nun s'aconseya'l so usu cuando les distribuciones de les variables aleatories tienen coles pesaes. En tales casos encamiéntase l'usu d'otres midíes de dispersión más robustes.

El términu varianza foi acuñáu por Ronald Fisher nun artículu publicáu en xineru de 1919 col títulu The Correlation Between Relatives on the Supposition of Mendelian Inheritance.^[1]

Definición

Si tenemos un conxuntu de datos d'una mesma variable, la varianza calcular de la siguiente forma:

\sigma _{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}^{2}\right)-{\overline {X}}^{2}={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j>i}\left(X_{i}-X_{j}\right)^{2}

Siendo:

$X_{i}$ : cada datu *

${\overline {X}}$ :media de los datos

$n$ : númberu de datos

Variable aleatoria

Aplicando esti conceutu a una variable aleatoria con media μ = Y[X], defínese'l so varianza, Var(X) (tamién representada como $\sigma _{X}^{2}$ o, a cencielles σ²), como

\sigma _{X}^{2}=\operatorname {Y} [(X-\mu )^{2}].\,

Desenvolviendo la definición anterior, llógrase la siguiente definición alternativa (y equivalente):

{\begin{aligned}\sigma _{X}^{2}&=\operatorname {Y} [(X-\mu )^{2}]\\&=\operatorname {Y} [(X^{2}-2X\mu +\mu ^{2})]\\&=\operatorname {Y} [X^{2}]-2\mu \operatorname {Y} [X]+\mu ^{2}\\&=\operatorname {Y} [X^{2}]-2\mu ^{2}+\mu ^{2}\\&=\operatorname {Y} [X^{2}]-\mu ^{2}.\end{aligned}}

Si una distribución nun tien esperanza, como asocede cola de Cauchy, tampoco tien varianza. Esisten otres distribuciones que, entá teniendo esperanza, escarecen de varianza. Un exemplu d'elles ye la de Pareto cuando'l so índiz k satisfai 1 < k ≤ 2.

Casu continuu

Si la variable aleatoria X ye continua con función de densidá f(x), entós

\sigma _{X}^{2}=\int (x-\mu )^{2}\,f(x)\,dx\,,

onde : $\mu =\int x\,f(x)\,dx\,,$ y les integrales tán definíes sobre'l rangu de X.

Casu discretu

Si la variable aleatoria X ye discreta con pesos x₁ ↦ p₁, ..., x_n ↦ p_n y n ye la cantidá total de datos, entós tenemos:

\sigma _{X}^{2}=(\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2})

onde

\mu =(\sum _{i=1}^{n}p_{i}\cdot x_{i})

.

Exemplos

Distribución esponencial

La distribución esponencial de parámetru λ ye una distribución continua con soporte nel intervalu [0,∞) y función de densidá

f(x)=\lambda y^{-\lambda x}1_{[0,\infty )}(x),\,

Tien media μ = λ⁻¹. Poro, el so varianza ye:

\int _{0}^{\infty }f(x)(x-\mu )^{2}\,dx=\int _{0}^{\infty }\lambda y^{-\lambda x}(x-\lambda ^{-1})^{2}\,dx=\lambda ^{-2}.\,

Esto ye, σ² = μ².

Dadu perfectu

Un dadu de seis cares puede representase como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidá igual a ¹/₆. El valor esperáu ye (1+2+3+4+5+6)/6 = 3,5. Poro, el so varianza ye:

\sum _{i=1}^{6}{\tfrac {1}{6}}(i-3,5)^{2}={\tfrac {1}{6}}\left((-2,5)^{2}{+}(-1,5)^{2}{+}(-0,5)^{2}{+}0,5^{2}{+}1,5^{2}{+}2,5^{2}\right)={\tfrac {1}{6}}\cdot 17,50={\tfrac {35}{12}}\approx 2,92\,.

Propiedaes de la varianza

Delles propiedaes de la varianza son:

$V(X)\geq 0\,\!$
$V(aX+b)=a^{2}V(X)\,\!$ siendo a y b númberos reales cualesquier. D'esta propiedá deduzse que la varianza d'una constante ye cero, esto ye, $V(b)=0\,\!$
$V(X+Y)=V(X)+V(Y)+2Cov(X,Y)\,\!$ , onde Cov(X,Y) ye la covarianza de X y Y.
$V(X-Y)=V(X)+V(Y)-2Cov(X,Y)\,\!$ , onde Cov(X,Y) ye la covarianza de X y Y.

Varianza muestral

En munches situaciones ye precisu envalorar la varianza d'una población a partir d'una muestra. Si toma una muestra con reemplazu $(y_{1},\dots ,y_{n})$ de n valores d'ella, d'ente tolos estimadores posibles de la varianza de la población de partida, esisten dos d'usu corriente:

s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}\right)-{\overline {y}}^{2}

que la so demostración ye:

{\begin{aligned}s_{n}^{2}&={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}^{2}-2y_{i}{\overline {y}}+{\overline {y}}^{2}\right)={\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}-2{\overline {y}}{\frac {1}{n}}\sum _{i=1}^{n}y_{i}+{\overline {y}}^{2}{\frac {1}{n}}\sum _{i=1}^{n}1\\&={\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}-2{\overline {y}}^{2}+{\overline {y}}^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}\right)-{\overline {y}}^{2}\end{aligned}}

y : $s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}={\frac {\sum _{i=1}^{n}y_{i}^{2}-n{\overline {y}}^{2}}{n-1}}$

que la so demostración ye:

{\begin{aligned}s^{2}&={\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}^{2}-2y_{i}{\overline {y}}+{\overline {y}}^{2}\right)\\&={\frac {1}{n-1}}\sum _{i=1}^{n}y_{i}^{2}-{\frac {2{\overline {y}}}{n-1}}\sum _{i=1}^{n}y_{i}+{\frac {{\overline {y}}^{2}}{n-1}}\sum _{i=1}^{n}1\\&={\frac {1}{n-1}}\sum _{i=1}^{n}y_{i}^{2}-{\frac {2{\overline {y}}n}{n-1}}{\frac {1}{n}}\sum _{i=1}^{n}y_{i}+{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}y_{i}^{2}-{\frac {2{\overline {y}}^{2}n}{n-1}}+{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}y_{i}^{2}-{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {\sum _{i=1}^{n}y_{i}^{2}-n{\overline {y}}^{2}}{n-1}}\end{aligned}}

Cuando los datos tán arrexuntaos:

$s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}f_{i}\left(y_{i}-{\overline {y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}^{2}\right)-{\overline {y}}^{2}$

que la so demostración ye:

{\begin{aligned}s_{n}^{2}&={\frac {1}{n}}\sum _{i=1}^{n}f_{i}\left(y_{i}-{\overline {y}}\right)^{2}={\frac {1}{n}}\sum _{i=1}^{n}f_{i}\left(y_{i}^{2}-2y_{i}{\overline {y}}+{\overline {y}}^{2}\right)={\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-2{\overline {y}}{\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}+{\overline {y}}^{2}{\frac {1}{n}}\sum _{i=1}^{n}f_{i}\\&={\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-2{\overline {y}}^{2}+{\overline {y}}^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}^{2}\right)-{\overline {y}}^{2}\end{aligned}}

y : $s^{2}={\frac {\sum _{i=1}^{n}f_{i}\left(y_{i}-{\overline {y}}\right)^{2}}{n-1}}={\frac {\sum _{i=1}^{n}f_{i}y_{i}^{2}-n{\overline {y}}^{2}}{n-1}}$

que la so demostración ye:

{\begin{aligned}s^{2}&={\frac {\sum _{i=1}^{n}f_{i}\left(y_{i}-{\overline {y}}\right)^{2}}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}\left(y_{i}^{2}-2y_{i}{\overline {y}}+{\overline {y}}^{2}\right)\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-{\frac {2{\overline {y}}}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}+{\frac {{\overline {y}}^{2}}{n-1}}\sum _{i=1}^{n}f_{i}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-{\frac {2{\overline {y}}n}{n-1}}{\frac {1}{n}}\sum _{i=1}^{n}f_{i}y_{i}+{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-{\frac {2{\overline {y}}^{2}n}{n-1}}+{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}f_{i}y_{i}^{2}-{\frac {{\overline {y}}^{2}n}{n-1}}\\&={\frac {\sum _{i=1}^{n}f_{i}y_{i}^{2}-n{\overline {y}}^{2}}{n-1}}\end{aligned}}

A los dos (cuando ta estremáu por n y cuando lo ta por n-1) denominar varianza muestral. Difieren llixeramente y, pa valores grandes de n, la diferencia ye irrelevante. El primeru tresllada direutamente la varianza de la muestra al de la población y el segundu ye un estimador insesgado de la varianza de la población. Ello ye que

{\begin{aligned}\operatorname {Y} [s^{2}]&=\operatorname {Y} \left[{\frac {1}{n-1}}\sum _{i=1}^{n}Y_{i}^{2}~-~{\frac {n}{n-1}}{\overline {Y}}^{2}\right]\\&={\frac {1}{n-1}}\left(\sum \operatorname {Y} [Y_{i}^{2}]~-~n\operatorname {Y} [{\overline {Y}}^{2}]\right)\\&={\frac {1}{n-1}}\left(n\operatorname {Y} [Y_{1}^{2}]~-~n\operatorname {Y} [{\overline {Y}}^{2}]\right)\\&={\frac {n}{n-1}}\left(\operatorname {Var} (Y_{1})+\operatorname {Y} [Y_{1}]^{2}~-~\operatorname {Var} ({\overline {Y}})-\operatorname {Y} [{\overline {Y}}]^{2}\right)\\&={\frac {n}{n-1}}\left(\operatorname {Var} (Y_{1})+\mu ^{2}~-~{\frac {1}{n}}\operatorname {Var} (Y_{1})-\mu ^{2}\right)\\&={\frac {n}{n-1}}\left({\frac {n-1}{n}}~\operatorname {Var} (Y_{1})\right)\\&=\operatorname {Var} (Y_{1})\\&=\sigma ^{2}\end{aligned}}

ente que

Y[s_{n}^{2}]={\frac {n-1}{n}}\sigma ^{2}

Propiedaes de la varianza muestral

De resultes de la igualdá $\operatorname {Y} (s^{2})=\sigma ^{2}$ , s² ye un estadísticu insesgado de $\sigma ^{2}$ . Amás, si cumplen les condiciones necesaries pa la llei de los grandes númberos, s² ye un estimador consistente de $\sigma ^{2}$ .

Entá más, cuando les muestres siguen una distribución normal, pol teorema de Cochran, $s^{2}$ tien la distribución chi-cuadráu:

(n-1){\frac {s^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.

Interpretaciones de la varianza muestral

Dexamos tres fórmules equivalentes pal cálculu de la varianza muestral $s_{n}$

s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}\right)-{\overline {y}}^{2}={\frac {1}{n^{2}}}\sum _{i<j}\left(y_{i}-y_{j}\right)^{2}

(Demostración xeométrica en http://www.solin.16mb.com/estadistica_js/MediayDesviacion.htm)

Esta última igualdá tien interés pa interpretar los estimadores $s^{2}$ y $s_{n}^{2}$ , pos si quier evaluase la esviación d'unos datos o les sos diferencies, puede optase por calcular el permediu de los cuadraos de les diferencies de cada par de datos:

2s_{n}^{2}={\frac {\sum _{\left(i\leqslant n,j\leqslant n\right)}\left(y_{i}-y_{j}\right)^{2}}{n^{2}}}

. Nótese que'l númberu de sumandos ye

n^{2}

.

O puede considerase el permediu de los cuadraos de les diferencies de cada par de datos ensin tener en cuenta cada datu consigo mesmu, agora'l númberu de sumandos ye $n\left(n-1\right)$ .

2s^{2}={\frac {\sum _{i\neq j}\left(y_{i}-y_{j}\right)^{2}}{n\left(n-1\right)}}

Ver tamién

Referencies

↑ Fisher, R. A. (1919). «The Correlation Between Relatives on the Supposition of Mendelian Inheritance» Transactions of the Royal Society of Edinburgh Vol. 52, 02, pp 399-433.

Enllaces esternos

[1] Simulación de la varianza d'una variable discreta con R (llinguaxe de programación)
[www.solin.16mb.com/estadistica_js/MediayDesviacion.htm] Un triángulu rectángulu.

[1] Fisher, R. A. (1919). «The Correlation Between Relatives on the Supposition of Mendelian Inheritance» Transactions of the Royal Society of Edinburgh Vol. 52, 02, pp 399-433.

[1]