Distribución normal

Na Galipedia, a Wikipedia en galego.
Normal
Función de densidade
Función densidade de probabilidade da distribución Normal
As catro distribucións do gráfico son normales, con distintos valores da media e o desvío típico. A verde é a "normal reducida", de media cero e desvío típico un
Función de distribución
Función de distribución acumulativa da distribución Normal
As cores son as mesmas do pdf de arriba
Parámetros \mu localización (real)
\sigma^2>0 cadrado escala (real)
Soporte x \in (-\infty;+\infty)\!
pdf \frac1{\sigma\sqrt{2\pi}}\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right) \!
cdf \frac12 \left(1 + \mathrm{erf}\,\frac{x-\mu}{\sigma\sqrt2}\right) \!
Media \mu
Mediana \mu
Moda \mu
Varianza \sigma^2
Asimetría 0
Curtose 0
Entropía \ln\left(\sigma\sqrt{2\,\pi\,e}\right)\!
mgf M_X(t)= \exp\left(\mu\,t+\frac{\sigma^2 t^2}{2}\right)
Func. caract. \phi_X(t)=\exp\left(\mu\,i\,t-\frac{\sigma^2 t^2}{2}\right)

A distribución normal ou gaussiana é a distribución de probabilidade que con máis frecuencia aparece na estatística e teoría de probabilidades. Isto débese a dúas razóns fundamentalmente:

  1. A súa función de densidade é simétrica e con forma de campana, o que favorece a súa aplicación como modelo a gran número de variables estatísticas.
  2. É ademais límite de outras distribucións e aparece relacionada con multitude de resultados ligados á teoría das probabilidades grazas ás súas propiedades matemáticas.

A función de densidade está dada por:

P(x) = {1 \over \sigma\sqrt{2\pi}} e^{-(x-\mu)^2 / 2\sigma^2}

onde \mu é a media e \sigma é a desvío estándar (\sigma^2 é a varianza).

A distribución normal, tamén chamada distribución Gaussiana, é unha moi importante distribución de probabilidade en moitos campos. É unha familia de distribucións coa mesma forma xeral, diferenciándose nos seus parámetros de localización e escala: a media ("valor esperado") e a desvío estándar ("variabilidade"), respectivamente. A distribución normal estándar é a distribución normal con media cero e desvío estándar un (as liñas verdes nos gráficos da dereita). A miúdo chámaselle curva de campá xa que a gráfica da súa densidade de probabilidade semella unha campá.

Resumo[editar | editar a fonte]

A distribución normal é un modelo conveniente en fenómenos da natureza e en ciencias do comportamento. Unha grande variedade de test psicolóxicos e fenómenos físicos como a contaxe de fotóns seguen unha distribución normal. Mentres non se coñecen as causas de estes fenómenos, o uso da distribución normal pode xustificarse teoricamente en situacións nas que moitos pequenos efectos son engadidos a unha variable que pode ser observada. A distribución normal tamén aparece en moitas áreas da estatística: por exemplo, a distribución mostral da media é aproximadamente normal, ainda que a distribución da poboación da mostra non sexa normal. A distribución normal maximiza a entropía da información entre tódalas distribucións con media e varianza coñecida, o cal a fai a escolla natural de distribución de datos resumidos en termos de media e varianza. A distribución normal é a familia máis usada de distribución en estatística, e moitos test estatísticos están baseados na suposición de normalidade. Na teoría da probabilidade, as distribucións normais aparecen como as distribucións límite de varias familias de distribución continuas e discretas.

Historia[editar | editar a fonte]

A distribución normal foi introducida por primeira vez por de Moivre nun artigo no 1733 (reimpreso na segunda edición do seu The Doctrine of Chances, 1738) no contexto de aproximar certas distribucións binomiais para un n grande. O seu resultado foi ampliado por Laplace no seu libro Analytical Theory of Probabilities (1812), e agora chámase Teorema de Moivre-Laplace.

Laplace usou a distribución normal na análise de erros nos experimentos. O método dos mínimos cadrados foi introducido por Legendre en 1805. Gauss, que reclamaba ter usado o método dende o 1794, xustificouno rigorosamente no 1809 asumindo unha distribución normal dos erros.

O nome "curva de campá" remóntase a Jouffret que usou o termo "curva de campá" no 1872 para unha distribución normal bivariable con compoñentes independentes. O nome "distribución normal" foi acuñado independentemente por Charles S. Peirce, Francis Galton e Wilhelm Lexis arredor do ano 1875. Esta terminoloxía e desafortunada, xa que reflexa e incremente a falacia de que moitas out todas as distribucións de probabilidade son "normais".

A cuestión de que a distribución se chame normal ou Gaussiana é un tema da ley de Stigler:

"Ningún descubrimento científico recibe o nome despois do seu descubridor orixinal."

Especificacións da distribución normal[editar | editar a fonte]

Existen varias formas de especificar unha variable aleatoria. A máis visual é a función de densidade de probabilidade (gráfica superior), que representa a probabilidade de cada valor da variable aleatoria. A función de densidade acumulativa (función de distribución, integral da función de densidade de probabilidade), é unha forma máis clara conceptualmente de especificar a mesma información, pero para un ollo non adestrado a gráfica é moito menos informativa. Formas equivalentes de especificar a distribución normal son: os momentos, a función característica, a función xeradora de momentos. Algúns son útiles para o traballo teórico, pero non son intuitivos.

Función densidade de probabilidade[editar | editar a fonte]

Función densidade de probabilidade para catro conxuntos diferentes de parámetros (a liña verde é a normal estándar)

A función de densidade de probabilidade da distribución normal con media \mu e varianza \sigma^2 (equivalentemente, desvío estándar \sigma) é un exemplo de unha función Gaussiana,


f(x;\mu,\sigma)
=
\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right).

(Véxase tamén función exponencial e pi.)

se unha variable aleatoria X ten esta distribución, escribimos X ~ N(\mu, \sigma^2). Se \mu = 0 e \sigma = 1, a distribución chámase distribución normal estándar e a función de densidade de probabilidade redúcese a

f(x) = \frac{1}{\sqrt{2\pi}} \, \exp\left(-\frac{x^2}{2} \right).

A imaxe da dereita mostra a gráfica de unha función de densidade de probabilidade de unha distribución normal con varios conxuntos de parámetros.

Algunhas calidades importantes da distribución normal son:

  • A función de densidade é simétrica respecto á media.
  • A media tamén é a moda e a mediana.
  • 68.27% da área baixo a curva está dentro do rango de unha desvío estándar respecto á media.
  • 95.45% da área baixo a curva está dentro do rango de dous desvíos estándar respecto á media.
  • 99.73% da área está dentro do rango de tres desvíos estándar.
  • O punto de inflexión da curva ocorre a un desvío estándar de distancia respecto á media..

Función de distribución[editar | editar a fonte]

Función de distribución da función de densidade do gráfico superior

A función de distribución (cumulative distribution function, cdf) defínese como a probabilidade de que a variable X teña un valor menor ou iguala x, e é expresado en termos de función de densidade como


F(x;\mu,\sigma)
=
\frac{1}{\sigma\sqrt{2\pi}}
\int_{-\infty}^x
 \exp
  -\frac{(u - \mu)^2}{2\sigma^2}
\, du
.

A cdf da normal estándar, representada normalmente como \Phi, é a cdf xeral avaliada con \mu=0 e \sigma=1,


\Phi(z)
=F(x;0,1)=
\frac{1}{\sqrt{2\pi}}
\int_{-\infty}^z
\exp\left(-\frac{x^2}{2}\right)
\, dx
.

A cdf da normal estándar pode expresarse en termos de unha función especial chamada función error, como


\Phi(z)
=
\frac{1}{2} \left[ 1 + \operatorname{erf} \left( \frac{z}{\sqrt{2}} \right) \right]
.

A función de distribución inversa, pode expresarse en termos da función inversa de error:


\Phi^{-1}(p)
=
\sqrt2
\;
\operatorname{erf}^{-1} \left(2p - 1 \right)
.

Esta función chámase as veces función probit.

Os valores de Φ(x) poden aproximarse bastante mediante varios métodos, como integración numérica, series de Taylor ou series asintóticas.


Funcións xeradoras[editar | editar a fonte]

Función xeradora de momentos[editar | editar a fonte]

A función xeradora de momentos defínese como o valor esperado de \exp(tX). Para unha distribución normal, pódese ver que a función xeradora de momentos é

M_X(t)\, =
\mathrm{E}
\left[
 \exp(tX)
\right]
  =
\int_{-\infty}^{\infty}
 \frac
  {1}
  {\sigma \sqrt{2\pi} }
  \exp \left( -\frac{(x - \mu)^2}{2 \sigma^2} \right)
  \exp (tx)
\, dx
  =
\exp
\left(
 \mu t + \sigma^2 \frac{t^2}{2}
\right)

como pode verse completando o cadrado no expoñente.

Función característica[editar | editar a fonte]

A función característica defínese como o valor esperado de \exp (i t X), onde i é a unidade imaxinaria e i = \sqrt{-1}. Para a distribución normal, a función característica é

\phi_X(t;\mu,\sigma)\! =
\mathrm{E}
\left[
 \exp(i t X)
\right]
  =
\int_{-\infty}^{\infty}
 \frac{1}{\sigma \sqrt{2\pi}}
 \exp
 \left(- \frac{(x - \mu)^2}{2\sigma^2}
 \right)
 \exp(i t x)
\, dx
  =
\exp
\left(
 i \mu t - \frac{\sigma^2 t^2}{2}
\right)
.

A función característica obtense substituindo t por i t na función xeradora de momentos.

Propiedades[editar | editar a fonte]

Algunhas das propiedades da distribución normal son:

  1. Se X \sim N(\mu, \sigma^2) e a e b son numreos rales, entón a X + b \sim N(a \mu + b, (a \sigma)^2) (véxase valor esperado e varianza).
  2. Se X \sim N(\mu_X, \sigma^2_X) e Y \sim N(\mu_Y, \sigma^2_Y) son variables aleatorias normales e independentes entón:
    • A súa suma é normalmente distribuída con U = X + Y \sim N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y).
    • A súa diferenza é normalmente distribuída con V = X - Y \sim N(\mu_X - \mu_Y, \sigma^2_X + \sigma^2_Y).
    • Ambas U e V son independentes unha da outra.
  3. Se X \sim N(0, \sigma^2_X) e Y \sim N(0, \sigma^2_Y) son variables aleatorias normales e independentes, entón:
  4. Se X_1, \cdots, X_n son variables independentes estándar e normales, entón X_1^2 + \cdots + X_n^2 segue unha distribución chi-cuadrada con n graos de liberdade.

Estandarización de variables aleatorias normales[editar | editar a fonte]

Como consecuencia da Propiedade 1, é posible relacionar tódalas variables aleatorias normales coa normal estándar.

Se X ~ N(\mu, \sigma^2), entón

Z = \frac{X - \mu}{\sigma} \!

é unha variable aleatoria normal estándar: Z ~ N(0,1). Unha concecuencia importante é que a función de distribución (cdf) dunha distribución xeral normal é entón

\Pr(X \le x)
=
\Phi
\left(
 \frac{x-\mu}{\sigma}
\right) 
=
\frac{1}{2}
\left(
 1 + \operatorname{erf}
 \left(
  \frac{x-\mu}{\sigma\sqrt{2}}
 \right)
\right)
.

Igualmente, se Z ~ N(0,1), entón

X = \sigma Z + \mu

é unha variable aleatoria normal con media \mu e varianza \sigma^2.

A distribución estándar normal está tabulada, e as outras distribucións normales son simples transformacións da estándar. Polo tanto, pódense utilizar valores tabulados da función de distribución da normal estándar para atopar os valores da función de distribución dunha normal xeral.

Momentos[editar | editar a fonte]

Algúns dos primeiros momentos da distribución normal son:

Número Raw moment Momento central Cumulant
0 1 0
1 \mu 0 \mu
2 \mu^2 + \sigma^2 \sigma^2 \sigma^2
3 \mu^3 + 3\mu\sigma^2 0 0
4 \mu^4 + 6 \mu^2 \sigma^2 + 3 \sigma^4 3 \sigma^4 0

Tódolos cumulants da distribución normal despois do segundo son cero.


Véxase tamén[editar | editar a fonte]

Notas[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]