Análise de compoñentes principais

ACP dunha distribución normal multivariante centrada en (1,3) con desviación típico 3 na dirección aproximada (0,866, 0,5) e desviación típica 1 na dirección perpendicular á anterior. Os vectores mostran os autovectores da matriz de correlación escalados mediante a raíz cadrada do correspondente autovalor, e desprazados para que a súa orixe coincidan coa media estatística.

En estatística, a análise de compoñentes principais (en galego ACP, en inglés, PCA) é unha técnica utilizada para reducir a dimensionalidade dun conxunto de datos.

Tecnicamente, a ACP busca a proxección segundo a cal os datos queden mellor representados en termos de mínimos cadrados. Esta converte un conxunto de observacións de variables posiblemente correlacionadas nun conxunto de valores de variables sen correlación linear chamadas compoñentes principais.

A ACP emprégase sobre todo en análise exploratorio de datos e para construír modelos predictivos. A ACP implica o cálculo da descomposición en autovalores da matriz de covarianza, normalmente tras centrar os datos na media de cada atributo.

Debe diferenciarse da análise factorial coa que ten similitudes formais e na que se pode empregar como un método de aproximación para a extracción de factores.

A ACP foi inventada en 1901 por Karl Pearson,^[1] como análogo ao teorema do eixe principal na mecánica; foi desenvolvido de xeito independente na década de 1930 por Harold Hotelling, quen lle deu o nome.^[2]

Fundamento

A ACP constrúe unha transformación linear que escolle un novo sistema de coordenadas para o conxunto orixinal de datos no que a varianza de maior tamaño do conxunto de datos é capturada no primeiro eixe (chamado a primeira compoñente principal), a segunda varianza máis grande é o segundo eixe, e así sucesivamente.^[3] Para construír esta transformación linear debe construírse primeiro a matriz de covarianza ou matriz de coeficientes de correlación. Debido á simetría desta matriz existe unha base completa de vectores propios da mesma. A transformación que leva das antigas coordenadas ás coordenadas da nova base é precisamente a transformación linear necesaria para reducir a dimensionalidade de datos. Ademais as coordenadas na nova base dan a composición en factores subxacentes dos datos iniciais.

Unha das vantaxes da ACP para reducir a dimensionalidade dun grupo de datos é que retén aquelas características do conxunto de datos que contribúen máis á súa varianza, mantendo unha orde de baixo nivel dos compoñentes principais e ignorando os de alto nivel. O obxectivo é que eses compoñentes de baixa orde ás veces conteñen o aspecto "máis importante" desa información.

Matemáticas da ACP

Supóñase que existe unha mostra con n individuos para cada un dos cales se mediron m variables aleatorias $F_{j}.\;$ A ACP permite atopar un número de factores subxacentes p<m que explican aproximadamente o valor das m variables para cada individuo. O feito de que existan estes p factores subxacentes pode interpretarse como unha redución da dimensionalidade dos datos: onde antes necesitabamos m valores para caracterizar cada individuo agora bástannos p valores. Cada un dos p atopados chámase compoñente principal, de aí o nome do método.

Existen dúas formas básicas de aplicar a ACP:

Método baseado na matriz de correlación, cando os datos non son dimensionalmente homoxéneos ou a orde de magnitude das variables aleatorias medidas non é o mesmo.
Método baseado na matriz de covarianzas, que se usa cando os datos son dimensionalmente homoxéneos e presentan valores medios similares.

Método baseado en correlacións

Considérese o valor de cada unha das m variables aleatorias $F_{j}\,$ . Para cada un dos n individuos tómese o valor destas variables e escríbase o conxunto de datos en forma de matriz:

(F_{j}^{\beta })_{j=1,...,m}^{\beta =1,...,n}

.

Obsérvese que cada conxunto

{\mathcal {M}}_{j}=\{F_{j}^{\beta }|\beta =1,...,n\}

pode considerarse unha mostra aleatoria para a variable $F_{j}\,$ . A partir dos m×n datos correspondentes ás m variables aleatorias, pode construírse a matriz de correlación muestral, que vén definida por:

$\mathbf {R} =[r_{ij}]\in M_{m\times m}\qquad {\mbox{donde}}\ \qquad r_{ij}={\frac {{\mbox{cov}}(F_{i},F_{j})}{\sqrt {{\mbox{var}}(F_{i}){\mbox{var}}(F_{j})}}}$

Posto que a matriz de correlacións é simétrica entón resulta diagonalizable e os seus valores propios $\lambda _{i}\,$ verifican:

$\sum _{i=1}^{m}\lambda _{i}=1$

Debido á propiedade anterior estes m valores propios reciben o nome de pesos de cada unha das m compoñentes principais. Os factores principais identificados matematicamente represéntanse pola base de vectores propios da matriz $\mathbf {R}$ . Está claro que cada unha das variables pode ser expresada como combinación linear dos vectores propios ou compoñentes principais.

Método baseado nas covarianzas

O obxectivo é transformar un conxunto dado de datos X de dimensión n×m a outro conxunto de datos Y de menor dimensión n×l coa menor perda de información útil posible utilizando para iso a matriz de covarianza.^[4]

Pártese dun conxunto n de mostras cada unha das cales ten m variables que as describen e o obxectivo é que, cada unha desas mostras, descríbase con só I variables, onde l<m. Ademais, o número de compoñentes principais l ten que ser inferior á menor das dimensións de X.

$l\leq \min\{n,m\}$

Os datos para a análise teñen que estar centrados na media 0 (restándolles a media de cada columna) e/ou autoescalados (centrados a media 0 e dividindo cada columna pola súa desviación típica).

$\mathbf {X} =\sum _{a=1}^{l}\mathbf {t} _{a}\mathbf {p} _{a}^{T}+\mathbf {E}$

Os vectores $\scriptstyle \mathbf {t} _{a}$ coñécense como scores e conteñen a información de como as mostras están relacionadas unhas coas outras; ademais, teñen a propiedade de ser ortogonais. Os vectores $\scriptstyle \mathbf {p} _{a}$ chámanse loadings e informan da relación existente entre as variables e teñen a calidade de ser ortonormais.

Ao coller menos compoñentes principais que variables e debido ao erro de axuste do modelo cos datos, prodúcese un erro que se acumula na matriz $\scriptstyle \mathbf {E}$ .

A ACP baséase na descomposición en vectores propios da matriz de covarianza, a cal se calcula coa seguinte ecuación:

${\mbox{cov}}(X)={\frac {X^{T}X}{n-1}}$
${\mbox{cov}}(X)\ {\mathbf {p} _{a}}={\lambda _{a}}\ {\mathbf {p} _{a}}$
$\sum _{a=1}^{m}\lambda _{a}=1$

onde $\scriptstyle \lambda _{a}$ é o valor propio asociado ao vector propio $\scriptstyle \mathbf {p} _{a}$ . Por último,

$\mathbf {t} _{a}=X\ \mathbf {p} _{a}$

Esta ecuación pódese entender como que $\scriptstyle \mathbf {t} _{a}$ son as proxeccións de X en $\scriptstyle \mathbf {p} _{a}$ , onde os valores propios $\scriptstyle \lambda _{a}$ miden a cantidade de varianza capturada, é dicir, a información que representan cada unha das compoñentes principais. A cantidade de información que captura cada compoñente principal vai diminuíndo segundo o seu número, é dicir, a compoñente principal número un representa máis información que a dúas e así sucesivamente.

Limitacións

A aplicación da ACP está limitada por varios supostos:^[5]

Suposición de linearidade: Asúmese que os datos observados son combinación linear dunha certa base.
Importancia estatística da media e a covarianza: a ACP utiliza os vectores propios da matriz de covarianzas e só atopa as direccións de eixes no espazo de variables considerando que os datos se distribúen de maneira gaussiana.

Exemplos

Unha análise considerou as cualificacións escolares n = 15 estudantes en m = materias (lingua, matemáticas, física, inglés, filosofía, historia, química, educación física). As dúas primeiras compoñentes principais explicaban xuntas o 82,1 % da varianza. A primeira delas parecía fortemente correlacionado coas materias de humanidades (lingua, inglés, filosofía, historia) mentres que a segunda aparecía relacionada coas materias de ciencias (matemáticas, física, química). Así parece que existe un conxunto de habilidades cognitivas relacionadas coas humanidades e un segundo relacionado coas ciencias; estes dous conxuntos de habilidades son estatisticamente independentes polo que un alumno pode puntuar alto en só un deles, nos dous ou en ningún.^[6]
Unha análise de 11 indicadores socieconómicos de 96 países, revelou que os resultados podían explicarse no alto grao a partir de só dous compoñentes principais, o primeiro deles tiña que ver co nivel de PIB total do país e o segundo co índice de ruralidade.^[7]

Notas

↑ Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space" (PDF). Philosophical Magazine 2 (11): 559–572. doi:10.1080/14786440109462720. Arquivado dende o orixinal (PDF) o 22 de xuño de 2018. Consultado o 6 de agosto de 2017.
↑ Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
Hotelling, H. (1936). Relations between two sets of variates. Biometrika, 28, 321–377
↑ Jolliffe I.T. Principal Component Analysis Arquivado 16 de outubro de 2019 en Wayback Machine., Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus.978-0-387-95442-4
↑ "Engineering Statistics Handbook Section 6.5.5.2". Consultado o 19-1-2015.
↑ Jonathon Shlens, A Tutorial on Principal Component Analysis.
↑ "Ejemplos de PCA (www.uoc.edu)" (PDF). Arquivado dende o orixinal (PDF) o 29 de decembro de 2009. Consultado o 06 de agosto de 2017.
↑ Universidad Carlos III de Madrid

Véxase tamén

Bibliografía

Jackson, J.E. (1991). A User's Guide to Principal Components (Wiley).
Jolliffe, I. T. (1986). Principal Component Analysis. Springer-Verlag. p. 487. ISBN 978-0-387-95442-4. doi:10.1007/b98835. Arquivado dende o orixinal o 16 de outubro de 2019. Consultado o 6 de agosto de 2017.
Jolliffe, I.T. (2002). Principal Component Analysis, second edition (Springer).
Husson François, Lê Sébastien & Pagès Jérôme (2009). Exploratory Multivariate Analysis by Example Using R. Chapman & Hall/CRC The R Series, Londres. 224p. 978-2-7535-0938-2
Pagès Jérôme (2014). Multiple Factor Analysis by Example Using R. Chapman & Hall/CRC The R Series, Londres 272 p

Ligazóns externas

Matemáticas del ACP y ejemplos (Universidad Carlos III de Madrid) (en castelán)
University of Copenhagen video by Rasmus Bro no YouTube
Vídeo no YouTube
A Tutorial on Principal Component Analysis
A layman's introduction to principal component analysis no YouTube (a video of less than 100 seconds.)
StatQuest: Principal Component Analysis (PCA) clearly explained no YouTube

[1] Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space" (PDF). Philosophical Magazine 2 (11): 559–572. doi:10.1080/14786440109462720. Arquivado dende o orixinal (PDF) o 22 de xuño de 2018. Consultado o 6 de agosto de 2017.

[2] Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
Hotelling, H. (1936). Relations between two sets of variates. Biometrika, 28, 321–377

[Principal_Component_Analysis-3] Jolliffe I.T. Principal Component Analysis Arquivado 16 de outubro de 2019 en Wayback Machine., Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus.978-0-387-95442-4

[4] "Engineering Statistics Handbook Section 6.5.5.2". Consultado o 19-1-2015.

[5] Jonathon Shlens, A Tutorial on Principal Component Analysis.

[6] "Ejemplos de PCA (www.uoc.edu)" (PDF). Arquivado dende o orixinal (PDF) o 29 de decembro de 2009. Consultado o 06 de agosto de 2017.

[7] Universidad Carlos III de Madrid

[1]

[2]

[3]

[4]

[5]

[6]

[7]