Correlación

1000 12/16
Na Galipedia, a Wikipedia en galego.

En probabilidade e estatística, a correlación indica a forza e a dirección dunha relación linear e proporcionalidade entre dúas variables estatísticas. Considérase que dúas variables cuantitativas están correlacionadas cando os valores dunha delas varían sistematicamente con respecto aos valores homónimos da outra: se se teñen dúas variables (A e B) existe correlación se ao aumentaren os valores de A tamén aumentan (ou diminúen) os de B. A correlación entre dúas variables non implica, por ela mesma, ningunha relación de causalidade (cum hoc ergo propter hoc).

Forza, sentido e forma da correlación[editar | editar a fonte]

A relación entre dúas variables cuantitativas queda representada mediante a liña de mellor axuste, trazada a partir da nube de puntos. Os principais compoñentes elementais dunha liña de axuste e polo tanto dunha correlación, son a forza, o sentido e a forma:

  • a forza extrema segundo o caso, mide o grao no que a liña representa a nube de puntos: se a nube é estreita e alongada represéntase por unha liña recta, o que indica que a relación é forte; se a nube de puntos ten unha tendencia elíptica o circular, a relación é débil.
  • o sentido mide a variación dos valores de B con respecto a A: se ao creceren os valores de A fano os de B, a relación é directa (pendente positiva); se ao creceren os valores de A diminúen os de B, a relación é inversa (pendente negativa).
  • a forma establece o tipo de liña que define o mellor axuste: a liña recta, a curva monotónica ou a curva non monotónica

Coeficientes de correlación[editar | editar a fonte]

Existen diversos coeficientes que miden o grao de correlación, adaptados á natureza dos datos. O máis coñecido é o coeficiente de correlación de Pearson (introducido en realidade por Francis Galton), que se obtén dividindo a covarianza de dúas variables entre o produto dos seus desvíos estándar. Outros coeficientes son:

Interpretación xeométrica[editar | editar a fonte]

Dados os valores da mostra de dúas variables aleatorias e , que poden ser consideradas como vectores nun espazo de n dimensións, poden construírse os "vectores centrados" como:


e .

O coseno do ángulo alfa entre estes vectores vén dada pola fórmula seguinte:


pois é o coeficiente de correlación da mostra de Pearson. O coeficiente de correlación é o coseno entre ambos vectores centrados:

  • se r = 1, o ángulo °, ambos os vectores son colineares (paralelos).
  • se r = 0, o ángulo °, ambos os vectores son ortogonais.
  • se r =-1, o ángulo °, ambos os vectores son colineares de dirección oposta.

Máis xeralmente: .

Por suposto, dende o punto vista xeométrico, non se fala de correlación linear: o coeficiente de correlación ten sempre un sentido, calquera que sexa o seu valor entre -1 e 1. Informa de modo preciso, non tanto sobre o grao de dependencia entre as variables, senón sobre a súa distancia angular na hiperesfera en n dimensións.

A iconografía das correlacións é un método de análise multidimensional que está baseado nesta idea. A correlación linear dáse cando nunha nube de puntos se atopan ou se distribúen arredor dunha recta.

A fórmula de correlación para dúas series distintas con certo desfase "k", está dada pola fórmula:


Distribución do coeficiente de correlación[editar | editar a fonte]

O coeficiente de correlación dunha mostra é unha variable aleatoria, o que significa que se repetimos un experimento ou consideramos diferentes mostras se obterán valores diferentes e polo tanto o coeficiente de correlación da mostra calculado a partir delas terá valores lixeiramente diferentes. Para mostras grandes a variación nese coeficiente será menor que para mostras pequenas. R. A. Fisher foi o primeiro en determinar a distribución de probabilidade para o coeficiente de correlación.

Se as dúas variables aleatorias que se trata de relacionar proceden dunha distribución gaussiana bivariante entón o coeficiente de correlación r segue unha distribución de probabilidade dada por:[1][2]


onde:

é a distribución gamma
é a función gaussiana hiperxeométrica.

O valor esperado do coeficiente de correlación da mostra r es:


polo tanto, r é un estimador nesgado de . Pode obterse un estimador aproximado non nesgado resolvendo a ecuación:


para

Aínda que a solución:


é subóptima. Pode obterse un estimador nesgado con mínima varianza para grandes valores de n, con nesgo de orde buscando o máximo da expresión:


, i.e.

No caso especial de que , a distribución orixinal pode ser reescrita como:


onde é a función beta.

Notas[editar | editar a fonte]

  1. Kenney, J. F. And Keeping, E. S., Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
  2. Correlation Coefficient - Bivariate Normal Distribution

Véxase tamén[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]