Regresión linear

En estatística a regresión linear ou axuste linear é un modelo matemático empregado para aproximar a relación de dependencia entre unha variable dependente Y, as variables independentes X_i e un termo aleatorio ε. Este modelo pode ser expresado como:

$Y_{t}=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon$

onde:

Y_{t}

: variable dependente, explicada ou regresando.

X_{1},X_{2},\cdots ,X_{p}

: variables explicativas, independentes ou regresores.

\beta _{0},\beta _{1},\beta _{2},\cdots ,\beta _{p}

: parámetros, miden a influencia que as variables explicativas teñen sobre o regrediendo.

onde $\beta _{0}$ é a intersección ou termo "constante", as $\beta _{i}\ (i>0)$ son os parámetros respectivos a cada variable independente, e $p$ é o número de parámetros independentes que hai que ter en conta na regresión. A regresión linear pode ser contrastada coa regresión non linear.

Historia

A primeira forma de regresión linear documentada foi o método dos mínimos cadrados que foi publicado por Legendre en 1805. Gauss publicou un traballo onde desenvolvía de xeito máis fondo o método dos mínimos cadrados,^[1] e onde se incluía unha versión do teorema de Gauss-Markov.

O termo regresión empregouse por primeira vez no estudo de variables antropométricas: ao comparar a estatura de pais e fillos, onde resultou que os fillos con pais cunha estatura moi superior ao valor medio, tendían a igualarse a este, mentres que aqueles con pais moi baixos tendían a reducir a súa diferenza respecto á estatura media; é dicir, "regresaban" á media.^[2] A constatación empírica desta propiedade viuse reforzada máis tarde coa xustificación teórica do fenómeno.

O termo linear emprégase para distinguilo das demais técnicas de regresión, que utilizan modelos baseados en calquera clase de función matemática. Os modelos lineares son unha explicación simplificada da realidade, moito máis áxiles e cun soporte teórico moito máis extenso por parte da matemática e a estatística.

O modelo de regresión linear

O modelo linear relaciona a variable dependente Y con K variables explícitas $X_{k}$ (k = 1,...K), ou calquera transformación destas que xeren un hiperplano de parámetros $\beta _{k}$ descoñecidos:

(2)
$Y=\sum \beta _{k}X_{k}+\varepsilon$

onde $\varepsilon$ é a perturbación aleatoria que recolle todos aqueles factores da realidade non controlables ou observables e que polo tanto se asocian co azar, e é a que confire ao modelo o seu carácter estocástico.

No caso máis sinxelo, cunha soa variable explícita, o hiperplano é unha recta:

(3)
$Y=\beta _{1}+\beta _{2}X_{2}+\varepsilon$

O problema da regresión consiste en escoller uns valores determinados para os parámetros descoñecidos $\beta _{k}$ , de modo que a ecuación quede completamente especificada.

Para iso precísase dun conxunto de observacións. Nunha observación i-ésima (i= 1,... I) calquera, rexístrase o comportamento simultáneo da variable dependente e as variables explícitas (as perturbacións aleatorias supóñense non observables).

(4) $Y_{i}=\sum \beta _{k}X_{ki}+\varepsilon _{i}$

Os valores escollidos como estimadores dos parámetros ${\hat {\beta _{k}}}$ , son os coeficientes de regresión sen que se poida garantir que coincida n con parámetros reais do proceso xerador. Polo tanto, en

(5) $Y_{i}=\sum {\hat {\beta _{k}}}X_{ki}+{\hat {\varepsilon _{i}}}$

Os valores ${\hat {\varepsilon _{i}}}$ son estimacións ou erros da perturbación aleatoria.

Hipótese do modelo de regresión linear clásico

Esperanza matemática nula: $\mathbb {E} (\varepsilon _{i})=0$ . Para cada valor de X a perturbación tomará distintos valores de forma aleatoria, pero non tomará

sistematicamente valores positivos ou negativos, senón que se supón que tomará algúns valores maiores que cero e outros menores que cero, de tal forma que o seu valor esperado sexa cero.

Homocedasticidade: ${\text{Var}}(\varepsilon _{t})=\mathbb {E} (\varepsilon _{t}-\mathbb {E} \varepsilon _{t})^{2}=\mathbb {E} \varepsilon _{t}^{2}=\sigma ^{2}$ para todo t. Todos os termos da perturbación teñen a mesma varianza, que é descoñecida. A dispersión de cada $\varepsilon _{t}$ arredor do seu valor esperado é sempre a mesma.
Incorrelación ou independencia: ${\text{Cov}}(\varepsilon _{t},\varepsilon _{s})=(\varepsilon _{t}-\mathbb {E} \varepsilon _{t})(\varepsilon _{s}-\mathbb {E} \varepsilon _{s})=\mathbb {E} \varepsilon _{t}\varepsilon _{s}=0$ para todo t,s con t distinto de s. As covarianzas entre as distintas perturbacións son nulas, o que quere dicir que non están correlacionadas. Isto implica que o valor da perturbación para calquera observación da mostra non vén influenciado polos valores das perturbacións correspondentes a outras observacións da mostra.
Regresores non estocásticos.
Independencia linear. Non existen relacións lineares exactas entre os regresores.
$T>k+1$ . Supoñemos que non existen erros de especificación no modelo, nin erros de medida nas variables explicativas.
Normalidade das perturbacións: $\varepsilon \sim N(0,\sigma ^{2})$

Supostos do modelo de regresión linear

Para poder crear un modelo de regresión linear é necesario que se cumpra cos seguintes supostos:^[3]

Que a relación entre as variables sexa linear.
Que os erros na medición das variables explicativas sexan independentes entre eles.
Que os erros teñan varianza constante. (Homocedasticidade)
Que os erros teñan unha esperanza matemática igual a cero (os erros dunha mesma magnitude e distinto signo son equiprobables).
Que o erro total sexa a suma de todos os erros.

Tipos de modelos de regresión linear

Existen diferentes tipos de regresión linear que se clasifican segundo os seus parámetros:

Regresión linear simple

Só se manexa unha variable independente, polo que só conta con dous parámetros. Son da forma:^[4]

(6) $Y_{i}=\beta _{0}+\beta _{1}X_{i}+\varepsilon _{i}$

onde $\varepsilon _{i}$ é o erro asociado á medición do valor $X_{i}$ e seguen os supostos de modo que $\varepsilon _{i}\sim N(0,\sigma ^{2})$ (media cero, varianza constante e igual a un $\sigma$ e $\varepsilon _{i}\perp \varepsilon _{j}$ con $i\neq j$ ).

Dado o modelo de regresión simple anterior, se se calcula a esperanza (valor esperado) do valor Y, obtense:^[5]

(7)
$E(y_{i})={\hat {y_{i}}}=E(\beta _{0})+E(\beta _{1}x_{i})+E(\varepsilon _{i})$

Derivando respecto a ${\hat {\beta }}_{0}$ y ${\hat {\beta }}_{1}$ e igualando a cero, obtense:^[5]

(9) ${\frac {\partial \sum (y_{i}-{\hat {y_{i}}})^{2}}{\partial {\hat {\beta }}_{0}}}=0$

(10) ${\frac {\partial \sum (y_{i}-{\hat {y_{i}}})^{2}}{\partial {\hat {\beta }}_{1}}}=0$

Obtendo dúas ecuacións denominadas ecuacións normais que xeran a seguinte solución para ambos os parámetros:^[4]

(11) ${\hat {\beta _{1}}}={\frac {\sum x\sum y-n\sum xy}{\left(\sum x\right)^{2}-n\sum x^{2}}}={\frac {\sum (x-{\bar {x}})(y-{\bar {y}})}{\sum (x-{\bar {x}})^{2}}}$

(12) ${\hat {\beta _{0}}}={\frac {\sum y-{\hat {\beta }}_{1}\sum x}{n}}={\bar {y}}-{\hat {\beta _{1}}}{\bar {x}}$

A interpretación do parámetro medio ${\beta _{1}}$ é que un incremento en Xi dunha unidade, Yi incrementará en ${\beta _{1}}$

Regresión linear múltiple

A regresión linear permite traballar cunha variable a nivel de intervalo ou razón. Da mesma forma, é posible analizar a relación entre dúas ou máis variables a través de ecuacións, o que se denomina regresión múltiple ou regresión linear múltiple.

Constantemente na práctica da investigación estatística, atópanse variables que dalgún xeito están relacionadas entre elas, polo que é posible que unha das variables poida relacionarse matematicamente en función doutra ou doutras variables.

Manexa varias variables independentes. Conta con varios parámetros. Exprésanse da forma:^[6]

(13) $Y_{i}=\beta _{0}+\sum \beta _{i}X_{ip}+\varepsilon _{i}$

onde $\varepsilon _{i}$ é o erro asociado á medición $i$ do valor $X_{ip}$ e seguen os supostos de xeito que $\varepsilon _{i}\sim N(0,\sigma ^{2})$ (media cero, varianza constante e igual a un $\sigma$ e $\varepsilon _{i}\perp \varepsilon _{j}$ con $i\neq j$ ).

Rectas de regresión

Artigo principal: Rectas de regresión.

As rectas de regresión son as rectas que mellor se axustan á nube de puntos ou diagrama de dispersión xerado por unha distribución binomial. Matematicamente, son posibles dúas rectas de máximo axuste:^[7]

a recta de regresión de Y sobre X:

(14) $y={\bar {y}}+{\frac {\sigma _{xy}}{\sigma _{x}^{2}}}(x-{\bar {x}})$

a recta de regresión de X sobre Y:

(15) $x={\bar {x}}+{\frac {\sigma _{xy}}{\sigma _{y}^{2}}}(y-{\bar {y}})$

A correlación ("r") das rectas determinará a calidade do axuste. Se r é próximo ou igual a 1, o axuste será bo e as predicións realizadas a partir do modelo obtido serán moi fiables (o modelo obtido resulta verdadeiramente representativo); se r é próximo ou igual a 0, tratarase dun axuste malo no que as predicións que se realicen a partir do modelo obtido non serán fiables (o modelo obtido non resulta representativo da realidade). Ambas as rectas de regresión intersécanse nun punto chamado centro de gravidade da distribución.

Aplicacións da regresión linear

Liñas de tendencia

Unha liña de tendencia representa unha tendencia nunha serie de datos obtidos a través dun período longo. Este tipo de liñas pode indicar se un conxunto de datos en particular (como por exemplo, o PBI, o prezo do petróleo ou o valor das accións) aumentaron ou decreceron nun determinado período.^[8] Pódese debuxar unha liña de tendencia a simple vista facilmente a partir dun grupo de puntos, pero a súa posición e pendente calcúlase de xeito máis preciso mediante técnicas estatísticas como as regresións lineares. As liñas de tendencia son xeralmente liñas rectas, aínda que algunhas variacións utilizan polinomios de maior grado dependendo da curvatura desexada na liña.

Medicina

En medicina, as primeiras evidencias relacionando a mortalidade con fumar tabaco^[9] viñeron de estudos que empregaban a regresión linear. Os investigadores inclúen unha gran cantidade de variables na súa análise da regresión nun esforzo por eliminar factores que puidesen producir correlacións espurias.

No caso do tabaquismo, os investigadores incluíron o estado socioeconómico para asegurarse de que os efectos de mortalidade por tabaquismo non sexan un efecto da súa educación ou posición económica. Non obstante, é imposible incluír todas as variables posibles nun estudo de regresión.^[10]^[11] no exemplo do tabaquismo, un hipotético xene podería aumentar a mortalidade e aumentar a propensión a adquirir enfermidades relacionadas co consumo de tabaco. Por esta razón, na actualidade as probas controladas aleatorias son consideradas moito máis fiables cá análise da regresión.

Informática

Exemplo dunha rutina que emprega unha recta de regresión linear para proxectar un valor futuro: Código escrito en PHP

<?php
//Licencia: GNU/GPL
$xarray=array(1, 2, 3, 4, 5 );	//Dias
$yarray=array(5, 5, 5, 6.8, 9); //Porcentaxe de execucion
$pm=100; //Valor futuro
$x2=0;
$y=0;
$x=0;
$xy=0;
$cantidade=count($xarray);
for($i=0;$i<$cantidade;$i++){
      //Tabla de datos
      print ($xarray[$i]." ---- ".$yarray[$i]."<br/>");
      //Calculo de terminos
      $x2 += $xarray[$i]*$xarray[$i];
      $y  += $yarray[$i];
      $x  += $xarray[$i];
      $xy += $xarray[$i]*$yarray[$i];
}
//Coeficiente parcial de regresion
$b=($cantidade*$xy-$x*$y)/($cantidade*$x2-$x*$x);
//Calculo do intercepto
$a=($y-$b*$x)/$cantidade;
//Recta tendencial
//y=a+bx
//Proxeccion en dias para un 100% da execucion:
if ($b!=0) $dias_proxectados=($pm-$a)/$b;
else $dias_proxectados=999999; //Infinitos
$dp=round($dias_proxectados,0);
if($dp<=$pm) 	print $dp."---> Culmina antes dos $pm dias <br/>";
if($dp >$pm) 	print $dp ."---> ALARMA: non culmina antes dos $pm dias <br/>";
?>

Notas

↑ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
↑ Introduction to linear regression Curvefit.com (en inglés)
↑ "Análise de regresión linear" Arquivado 19 de febreiro de 2009 en Wayback Machine., Universidade Complutense de Madrid
↑ ^4,0 ^4,1 "Fórmulas", Probabilidad y Estadística. Cs. Básicas. U.D.B. Matemática. Universidade Tecnolóxica Nacional, Facultad Regional Buenos Aires. Editorial CEIT-FRBA. (Código BM2BT2)
↑ ^5,0 ^5,1 Modelo de regresión linear simple. Arquivado 02 de xuño de 2009 en Wayback Machine. EinsteinNet.
↑ Pita-Fernández, Salvador; Pértega-Díaz, Sonia (2000). "Técnicas de regresión: Regresión lineal múltiple". Cadernos de atención primaria 7 (3): 173–176. ISSN 1134-3583. Arquivado dende o orixinal o 12 de abril de 2019. Consultado o 12 de abril de 2019.
↑ Apunte sobre Rectas de regresión. Ministerio de Educación e Ciencia de España.
↑ Utilización das liñas de tendencia, Paritech (en inglés)
↑ Doll R, Peto r, Wheatley K, Gray R et al. Mortality in relation to smoking: 40 years' observations on male British doctors . BMJ 1994;309:901-911 (8 de outubro)]
↑ "Environmental Tobacco Smoke and Adult Asthma" Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universidade de California (San Francisco). (en inglés)
↑ Efecto del tabaquismo, los síntomas respiratorios y el asma sobre la espirometría de adultos de la Ciudad de México, Justino Regalado-Pineda; Alejandro Gómez-Gómez; Javier Ramírez-Acosta; Juan Carlos Vázquez-García

Véxase tamén

Bibliografía

Devore, Jay L.; Probabilidad y Estadística para Ingeniería y Ciencias. International Thomson Editores. México. ISBN 970-686-457-1.
Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; Probabilidad y Estadística para Ingenieros. Pretice-Hall Hispanoamericana, S.A. México. ISBN 970-17-0264-6.
Canavos, George C.; Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-Hill. México. ISBN 968-451-856-0.

Outros artigos

Ligazóns externas

Cálculo de regresiones lineares en liña. (en inglés)
ZunZun.com Axuste de curvas e superficies en liña. (en inglés)
xuru.org Arquivado 20 de febreiro de 2008 en Wayback Machine. Herramientas de regresión linear en liña. (en inglés)
Titorial para a aprendizaxe dos conceptos de regresión lineal (en inglés)

[Gauss2-1] C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)

[etim-2] Introduction to linear regression Curvefit.com (en inglés)

[supostos-3] "Análise de regresión linear" Arquivado 19 de febreiro de 2009 en Wayback Machine., Universidade Complutense de Madrid

[utn-4] 4,0 ^4,1 "Fórmulas", Probabilidad y Estadística. Cs. Básicas. U.D.B. Matemática. Universidade Tecnolóxica Nacional, Facultad Regional Buenos Aires. Editorial CEIT-FRBA. (Código BM2BT2)

[modreg-5] 5,0 ^5,1 Modelo de regresión linear simple. Arquivado 02 de xuño de 2009 en Wayback Machine. EinsteinNet.

[6] Pita-Fernández, Salvador; Pértega-Díaz, Sonia (2000). "Técnicas de regresión: Regresión lineal múltiple". Cadernos de atención primaria 7 (3): 173–176. ISSN 1134-3583. Arquivado dende o orixinal o 12 de abril de 2019. Consultado o 12 de abril de 2019.

[7] Apunte sobre Rectas de regresión. Ministerio de Educación e Ciencia de España.

[tendencia-8] Utilización das liñas de tendencia, Paritech (en inglés)

[9] Doll R, Peto r, Wheatley K, Gray R et al. Mortality in relation to smoking: 40 years' observations on male British doctors . BMJ 1994;309:901-911 (8 de outubro)]

[tabaco-10] "Environmental Tobacco Smoke and Adult Asthma" Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universidade de California (San Francisco). (en inglés)

[tabaco1-11] Efecto del tabaquismo, los síntomas respiratorios y el asma sobre la espirometría de adultos de la Ciudad de México, Justino Regalado-Pineda; Alejandro Gómez-Gómez; Javier Ramírez-Acosta; Juan Carlos Vázquez-García

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]