Máxima verosimilitude

Na Galipedia, a Wikipedia en galego.

En estatística, a estimación por máxima verosimilitude ou máxima verosimillanza[1] (coñecida tamén como EMV e, en ocasións, MLE polas súas siglas en inglés) é un método habitual para axustar un modelo e estimar os seus parámetros.

Historia[editar | editar a fonte]

Ronald Fisher en 1913

O método foi recomendado, analizado e popularizado por R. A. Fisher entre 1912 e 1922, aínda que fora utilizado antes por Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele e Francis Edgeworth.[2]

Fundamento[editar | editar a fonte]

Supóñase que se ten unha mostra x1, x2, …, xn de n observacións independentes e identicamente distribuídas extraídas dunha función de distribución descoñecida con función de densidade (ou función de probabilidade) f0(·). Sábese, con todo, que f0 pertence a unha familia de distribucións { f(·|θ), θ ∈ Θ }, chamada modelo paramétrico, de maneira que f0 corresponde a θ = θ0, que é o verdadeiro valor do parámetro. Deséxase atopar o valor (ou estimador) que estea o máis próximo posible ao verdadeiro valor θ0.

Tanto xi como θ poden ser vectores.

A idea deste método é a de atopar primeiro a función de densidade conxunta de todas as observacións, que baixo condicións de independencia, é

Observando esta función baixo un ángulo lixeiramente distinto, pódese supor que os valores observados x1, x2, …, xn son fixos mentres que θ pode variar libremente. Esta é a función de verosimilitude:

Na práctica, adóitase utilizar o logaritmo desta función:

O método da máxima verosimilitude estima θ0 buscando o valor de θ que maximiza . Este é o chamado estimador de máxima verosimilitude (MLE) de θ0:

En ocasións este estimador é unha función explícita dos datos observados x1, …, xn, pero moitas veces hai que recorrer a optimizacións numéricas. Tamén pode ocorrer que o máximo non sexa único ou non exista.

Na exposición anterior asumiuse a independencia das observacións, pero non é un requisito necesario: abonda con poder construír a función de probabilidade conxunta dos datos para poder aplicar o método. Un contexto no que isto é habitual é o da análise de series temporais.

Propiedades do estimador de máxima verosimilitude[editar | editar a fonte]

En moitos casos, o estimador obtido por máxima verosimilitud posúe un conxunto de propiedades asintóticas atractivas:

  • consistencia,
  • normalidade asintótica,
  • eficiencia,
  • e mesmo eficiencia de segunda orde tras corrixir o nesgo.

Consistencia[editar | editar a fonte]

Baixo certas condicións bastante habituais,[3] o estimador de máxima verosimilitude é consistente: se o número de observacións n tende a infinito, o estimador converxe en probabilidade ao seu valor verdadeiro:

Baixo condicións algo máis fortes,[3] a converxencia é case segura:

Normalidade asintótica[editar | editar a fonte]

Se as condicións para a consistencia se cumpren e ademais

  1. θ0 ∈ interior(Θ);
  2. f(x|θ) > 0 e é dúas veces continuamente diferenciable respecto a θ nalgunha veciñanza N de θ0;
  3. ∫ supθN||∇θf(x|θ)||dx < ∞, e ∫ supθN||∇θθf(x|θ)||dx < ∞;
  4. I = E[∇θlnf(x|θ0) ∇θlnf(x|θ0)′] existe e non é singular;
  5. E[ supθN||∇θθlnf(x|θ)||] < ∞,

entón o estimador de máxima verosimilitude ten unha distribución asintótica normal:[4]

Invariancia funcional[editar | editar a fonte]

Se é o EMV de θ e g(θ) é unha transformación de θ, entón o EMV de α = g(θ) é

Ademais, o EMV é invariante fronte a certas transformacións dos datos. En efecto, se  e é unha aplicación bixectiva que non depende dos parámetros que se estiman, entón a función de densidade de Y é

É dicir, as funcións de densidade de X e Y difiren unicamente nun termo que non depende dos parámetros. Así, por exemplo, o EMV para os parámetros dunha distribución lognormal son os mesmos que os dunha distribución normal axustada sobre o logaritmo dos datos de entrada.

Outras propiedades[editar | editar a fonte]

O EMV é √n-consistente e asintóticamente eficiente. En particular, isto significa que o nesgo é cero até a orde n−1/2. Con todo, ao obter os termos de maior orde da expansión de Edgeworth da distribución do estimador, θemv ten un nesgo de orde −1. Este nesgo é igual a[5]

fórmula onde se adoptou a convención de Einstein para expresar sumas; Ijk representa a j,k-ésima compoñente da inversa da matriz de información de Fisher e

Grazas a estas fórmulas é posible estimar o nesgo de segunda orde do estimador e corrixilo mediante subtracción:

Este estimador, non nesgado até a orde n−1, chámase estimador de máxima verosimilitud con corrección do nesgo.

Exemplos[editar | editar a fonte]

Distribución uniforme discreta[editar | editar a fonte]

Supóñase que n bólas numeradas de 1 a n se colocan nunha urna e que unha delas se extrae ao azar. Se se descoñece n, o seu EMV é o número m que aparece na bóla extraída: a función de verosimilitude é 0 para n < m e 1/n para n ≥ m; que alcanza o seu máximo cando n = m. A esperanza matemática de , é (n + 1)/2. Como consecuencia, o EMV de n infravalorará o verdadeiro valor de n por (n − 1)/2.

Distribución discreta con parámetros discretos[editar | editar a fonte]

Supóñase que se lanza unha moeda nesgada ao aire 80 veces. A mostra resultante pode ser x1 = H, x2 = T, ..., x80 = T, e cóntase o número de caras, "H". A probabilidade de que saia cara é p e a de que saia cruz, 1 − p (de modo que p é o parámetro θ). Supóñase que se obteñen 49 caras e 31 cruces. Imaxínese que a moeda se extraeu dunha caixa que contiña tres delas e que estas teñen probabilidades p iguais a 1/3, 1/2 e 2/3 aínda que non se sabe cal delas é cal.

A partir dos datos obtidos do experimento pódese saber cal é a moeda coa máxima verosimilitud. Empregando a función de probabilidade da distribución binomial cunha mostra de tamaño 80, número de éxitos igual a 49 e distintos valores de p, a función de verosimilitude toma os tres valores seguintes:

A verosimilitude é máxima cando p = 2/3 e este é, polo tanto, o EMV de p.

Aplicacións[editar | editar a fonte]

O estimador de máxima verosimilitude úsase dentro dun gran número de modelos estatísticos:

  • modelos lineares xeneralizados
  • análise factorial
  • análise de ecuacións estruturais
  • tests estatísticos

 Notas[editar | editar a fonte]

  1. Masa Vázquez, Xosé M.; Fortes López, Belén (1995). Servicio de Normalización Lingüística da Universidade de Santiago de Compostela, ed. Vocabulario de Matemáticas. Santiago de Compostela. ISBN 84-8121-369-1. 
  2. Edgeworth (Sep 1908, Dec 1908)
  3. 3,0 3,1 (Newey e McFadden, 1994, Theorem 2.5.)
  4. (Newey e McFadden, 1994, Theorem 3.3.)
  5. (Cox e Snell, 1968, formula (20))

Véxase tamén[editar | editar a fonte]

Bibliografía[editar | editar a fonte]

  • Aldrich, John (1997). "R.A. Fisher and the making of maximum likelihood 1912–1922" (3). doi:10.1214/ss/1030037906. 1617519. 
  • Anderson, Erling B. 1970. "Asymptotic Properties of Conditional Maximum Likelihood Estimators". Journal of the Royal Statistical Society B 32, 283-301.
  • Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980.
  • Debabrata Basu. Statistical Information and Likelihood : A Collection of Critical Essays by Dr. D. Basu ; J.K. Ghosh, editor. Lecture Notes in Statistics Volume 45, Springer-Verlag, 1988.
  • Cox, D.R.; Snell, E.J. (1968). "A general definition of residuals". 
  • "On the probable errors of frequency-constants" (3). , F.E. (Sep de 1908). ()
  • "On the probable errors of frequency-constants" (4). , F.E. (Dec de 1908). ()
  • Ferguson, Thomas S (1996). A course in large sample theory. Chapman & Hall. 
  • Hald, Anders (1998). A history of mathematical statistics from 1750 to 1930. Wiley. 
  • Hald, Anders (1999). "On the history of maximum likelihood in relation to inverse probability and least squares" (2). 
  • Kano, E. (1996). "Third-order efficiency implies fourth-order efficiency". 
  • Lle Cam, Lucien (1990). "Maximum likelihood — an introduction" (2). 
  • Lle Cam, Lucien; O Yang, Grace (2000). Asymptotics in statistics: some basic concepts. Springer. ISBN 0-387-95036-2. 
  • Lle Cam, Lucien (1986). Asymptotic methods in statistical decision theory. Springer-Verlag. 
  • Theory of Point Estimation, 2nd ed. Springer. ISBN 0-387-98502-6. , E.L.; Casella, G. (1998).
  • Newey, Whitney K.; McFadden, Daniel (1994). Large sample estimation and hypothesis testing. Handbook of econometrics, vol.IV, Ch.36. Elsevier Science. 
  • Pratt, John W. (1976). "F. Y. Edgeworth and R. A. Fisher on the efficiency of maximum likelihood estimation" (3). 
  • Savage, Leonard J. (1976). "On rereading R. A. Fisher" (3). 
  • Stigler, Stephen M. (1978). "Francis Ysidro Edgeworth, statistician" (3). 
  • Stigler, Stephen M. (1986). The history of statistics: the measurement of uncertainty before 1900. Harvard University Press. ISBN 0-674-40340-1. 
  • Stigler, Stephen M. (1999). Statistics on the table: the history of statistical concepts and methods. Harvard University Press. ISBN 0-674-83601-4. 
  • van der Vaart, A.W. (1998). Asymptotic Statistics. ISBN 0-521-78450-6. 

Outros artigos[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]