Distribución normal multivariante

Na Galipedia, a Wikipedia en galego.
Normal multivariante
Función de multivariante
MultivariateNormal.png
Función de distribución
Parámetros (vector real)
matriz de covarianza (matriz real definida positiva de dimensión )
Soporte
Función de densidade
Función de distribución Sen expresión analítica
Media
Mediana
Moda
Varianza
Asimetría
Curtose
Entropía
F. xeradora de momentos
Func. caract.

En probabilidade e estatística, unha distribución normal multivariante, tamén chamada distribución gaussiana multivariante, é unha xeneralización da distribución normal unidimensional a dimensións superiores.

Caso xeral[editar | editar a fonte]

Un vector aleatorio segue unha distribución normal multivariante se satisfai as seguintes condicións equivalentes:

  • Toda combinación linear está normalmente distribuída.
  • Hai un vector aleatorio , con compoñentes que son variables aleatorias independentes distribuídas segundo a normal estándar, un vector e unha matriz tal que .
  • Hai un vector e unha matriz semidefinida positiva simétrica tal que a función característica de X es


Se é unha matriz non singular, entón a distribución pode describirse pola seguinte función de densidade:


onde é o determinante de . A ecuación redúcese á distribución normal se é un escalar (é dicir, unha matriz 1x1).

O vector μ nestas circunstancias é a esperanza de X e a matriz é a matriz de covarianza das compoñentes Xi.

É importante comprender que a matriz de covarianza pode ser singular (aínda que non estea así descrita pola fórmula de arriba, para a que está definida).

Este caso aparece con frecuencia en estatística; por exemplo, na distribución do vector de residuos en problemas ordinarios de regresión linear. Ademais, os Xi son en xeral non independentes; poden verse como o resultado de aplicar a transformación linear A a unha colección de variables normais Z.

Esta distribución dun vector aleatorio X que segue unha distribución normal multivariante pode ser descrita coa seguinte notación:


ou facer explícito que X é n-dimensional,


Función de distribución[editar | editar a fonte]

A función de distribución defínese como a probabilidade de que todos os valores dun vector aleatorio sexan menores ou iguais que os valores correspondentes dun vector . Aínda que F non teña unha fórmula, hai unha serie de algoritmos que permiten estimala numericamente.[1]

Contraexemplo[editar | editar a fonte]

O feito de que dúas variables aleatorias X e Y sigan unha distribución normal, cada unha, non implica que o par (XY) siga unha distribución normal conxunta. Un exemplo simple dáse con X Normal(0,1), Y = X se |X| > 1 e Y = −X se |X| < 1. isto tamén é certo para máis de dúas variables aleatorias.

Normalmente distribuídas e independencia[editar | editar a fonte]

Se X e Y están normalmente distribuídas e son independentes, a súa distribución conxunta tamén está normalmente distribuída, é dicir, o par (XY) debe ter unha distribución normal bivariante. En calquera caso, un par de variables aleatorias normalmente distribuídas non teñen por que ser independentes ao seren consideradas de forma conxunta.

Caso bivariante[editar | editar a fonte]

No caso particular de dúas dimensións, a función de densidade (con media (0, 0)) é

onde é o coeficiente de correlación entre e . Neste caso,

Transformación afín[editar | editar a fonte]

Se é unha transformación afín de onde é un vector de constantes e unha matriz , entón ten unha distribución normal multivariante con esperanza e varianza é dicir, . En particular, calquera subconxunto dos ten unha distribución marxinal que é tamén unha normal multivariante.

Para ver isto, pode considerarse o seguinte exemplo: para extraer o subconxunto , emprégase

o que extrae directamente os elementos desexados.

Outro corolario sería que a distribución de , onde é un vector da mesma lonxitude que e o punto indica un produto vectorial, é unha distribución gaussiana unidimensional con . Este resultado obtense empregando

e considerando só a primeira compoñente do produto (a primeira fila de é o vector ). A definición positiva de implica que a varianza do produto vectorial debería ser positiva.

Interpretación xeométrica[editar | editar a fonte]

As curvas de equidensidade dunha distribución normal multivariante son elipsoides (é dicir, transformacións lineares de hiperesferas) centrados na media.[2] as direccións dos eixes principais dos elipsoides veñen dadas polos vectores propios da matriz de covarianza . As lonxitudes relativas dos cadrados dos eixes principais veñen dadas polos correspondentes vectores propios.

Se é unha descomposición espectral onde as columnas de U son vectores propios unitarios e é unha matriz diagonal de valores propios, entón temos

Ademais, U pode escollerse de tal modo que sexa unha matriz de rotación, tal que invertendo un eixe non teña ningún efecto en , pero invertendo unha columna, cambie o signo do determinante de U'. A distribución é en efecto escalada por , rotada por U e trasladada por .

Reciprocamente, calquera escolla de , matriz de rango completo U, e valores diagonais positivos cede o paso a unha distribución normal non singular multivariante. Se calquera é cero e U é cadrada, a matriz de covarianza é singular. Xeometricamente isto significa que cada curva elipsoide é infinitamente delgada e ten volume cero nun espazo n-dimensional, así como, polo menos, un dos principais eixes ten lonxitude cero.

Correlacións e independencia[editar | editar a fonte]

En xeral, as variables aleatorias poden ser incorreladas, pero altamente dependentes, mais se un vector aleatorio ten unha distribución normal multivariante, entón calquera dúas ou máis das súas compoñentes que sexan incorreladas, son independentes.

Porén, non é certo que dúas variables aleatorias que están (separadamente, marxinalmente) normalmente distribuídas e incorreladas sexan independentes. Dúas variables aleatorias que están normalmente distribuídas poden que non o estean conxuntamente.

Momentos máis altos[editar | editar a fonte]

O momento estándar de k-ésima orde de X defínese como

onde

Os momentos centrais de orde k veñen dados como segue:

(a) Se k é impar, .

(b) Se k é par, con , entón

onda a suma se toma sobre todas as disposicións de conxuntos en pares (non ordenados). É dicir, se se ten un k-ésimo () momento central, estaranse a sumar os produtos de covarianzas (a notación - suprimiuse para facilitar a lectura):

Isto dá lugar a termos na suma (15 no caso superior), nos que cada un é o produto de (3 neste caso) covarianzas. Para momentos de orde cuarta (catro variables) hai tres termos. Para momentos de orde sexta hai 3 × 5 = 15 termos, e para momentos de orde oitava hai 3 × 5 × 7 = 105 termos.

As covarianzas son entón determinadas mediante a substitución dos termos da lista polos termos correspondentes da lista que consiste en uns, logo douses etc... Para ilustrar isto, pode examinarse o seguinte caso de momento central de orde cuarta:

onde é a covarianza de e . A idea do método descrito é que primeiro se atopa o caso xeral para o momento -ésimo, onde se teñen diferentes variables - e entón pódense simplificar apropiadamente. Se se ten entón, simplemente se considera e dedúcese que .

Distribucións condicionais[editar | editar a fonte]

Se y se dividen como segue:

con tamaños
con tamaños

entón a distribución de condicionada a é unha normal multivariante onde

e matriz de covarianza

Esta matriz é o complemento de Schur de en . Isto significa que para calcular a matriz condicional de covarianza se inverte a matriz global de covarianza, desprézanse as filas e as columnas correspondentes ás variables baixo as que está condicionada e entón invértese de novo para conseguir a matriz condicional de covarianza.

Sábese que altera a varianza, aínda que a nova varianza non dependa do valor específico de ; quizais resulta máis sorprendente que a media se cambia por ; pode compararse isto coa situación na que non se coñece o valor de , caso no que tería como distribución

.

A matriz coñécese como a matriz de coeficientes de regresión.

Esperanza condicional bivariante[editar | editar a fonte]

No caso

entón

onde esta última razón adoita chamarse razón inversa de Mills.

Matriz de información de Fisher[editar | editar a fonte]

A matriz de información de Fisher (MIF) para unha distribución normal toma unha formulación especial. O elemento da MIF para é

onde

  • é a función traza dunha matriz.

Diverxencia de Kullback-Leibler[editar | editar a fonte]

A diverxencia de Kullback-Leibler de a é:

O logaritmo debe tomarse con base e nos dous termos (logaritmos neperianos); seguindo o logaritmo están os logaritmos neperianos das expresións que son ambos os factores da función de densidade ou se non, xorden naturalmente. A diverxencia de arriba mídese en nats. Dividindo a expresión de arriba por loge 2 dáse paso a a diverxencia en bits.

Estimación de parámetros[editar | editar a fonte]

A función de densidade de probabilidade dunha normal multivariante N-dimensional é

e o estimador de máxima verosimilitude da matriz de covarianza para unha mostra de n observacións é

o que é, simplemente, a matriz da mostra de covarianza. Este é un estimador con nesgo que ten como esperanza

Unha covarianza da mostra sen nesgo é

Entropía[editar | editar a fonte]

A entropía diferencial da distribución normal multivariante é[3]

onde é o determinante da matriz de covarianza .

Tests de normalidade multivariante[editar | editar a fonte]

Os tests de normalidade multivariante comproban a similitude dun conxunto dado de datos coa distribución normal multivariante. A hipótese nula é que o conxunto de datos é similar á distribución normal e polo tanto un p-valor suficientemente pequeno indica datos non normais. Os tests de normalidade multivariante inclúen o test de Cox-Small[4] e a adaptación de Smith y Jain [5] do test de Friedman-Rafsky.

Simulando valores da distribución[editar | editar a fonte]

Un método amplamente empregado para simular un vector aleatorio da distribución normal multivariada -dimensional con vector de medias e matriz de covarianza (requirida para que sexa simétrica e definida positiva) funciona como segue:

  1. Calcúlase a descomposición de Cholesky de , é dicir, atópase a única matriz triangular inferior tal que . Podería empregarse calquera outra matriz que satisfaga esta condición, ou sexa, que é un a raíz cadrada de , mais habitualmente atopar esa matriz, distinta da da descomposición de Cholesky, sería bastante máis custoso en termos de computación.
  2. Sexa un vector con compoñentes normais e independentes que varían e que pode xerarse, por exemplo, empregando o método de Box-Muller.
  3. Sexa

Notas[editar | editar a fonte]

  1. Pode verse MVNDST en [1], que inclúe código FORTRAN ou [2], con código MATLAB.
  2. Nikolaus Hansen. "The CMA Evolution Strategy: A Tutorial" (PDF). 
  3. Gokhale, DV; Ahmed, NA; Res, BC; Piscataway, NJ (1989). "Entropy Expressions and Their Estimators for Multivariate Distributions". Information Theory, IEEE Transactions on 35 (3): 688–692. doi:10.1109/18.30996. 
  4. Cox, D. R.; Small, N. J. H. (1978). "Testing multivariate normality". Biometrika 65 (2): 263–272. doi:10.1093/biomet/65.2.263. 
  5. Smith, Stephen P.; Jain, Anil K. (1988). "A test to determine the multivariate normality of a dataset". IEEE Transactions on Pattern Analysis and Machine Intelligence 10 (5): 757–761. doi:10.1109/34.6789.