Máxima verosimilitud

En estadística, la estimación por máxima verosimilitud (conocida también como EMV y, en ocasiones, MLE por sus siglas en inglés) es un método habitual para ajustar un modelo y estimar sus parámetros.

Historia

Ronald Fisher en 1913

Fue recomendado, analizado y popularizado por R. A. Fisher entre 1912 y 1922, aunque había sido utilizado antes por Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele y Francis Edgeworth.^[1]

Fundamento

Supóngase que se tiene una muestra $x_{1},x_{2},\dots ,x_{n}$ de $n$ observaciones independientes e idénticamente distribuidas extraídas de una función de distribución desconocida con función de densidad (o función de probabilidad) $f_{0}(\cdot )$ . Se sabe que $f_{0}$ pertenece a una familia de distribuciones $\{f(\cdot |\theta ),\theta \in \Theta \}$ , llamada modelo paramétrico, de manera que $f_{0}$ corresponde a $\theta =\theta _{0}$ , que es el verdadero valor del parámetro. Se desea encontrar el valor ${\hat {\theta }}$ (o estimador) que esté lo más próximo posible al verdadero valor $\theta _{0}$ .

Tanto $x_{i}$ como $\theta$ pueden ser vectores.

La idea de este método es la de encontrar primero la función de densidad conjunta de todas las observaciones, que bajo condiciones de independencia, es

f(x_{1},x_{2},\ldots ,x_{n}\;|\;\theta )=f(x_{1}|\theta )\cdot f(x_{2}|\theta )\cdots f(x_{n}|\theta )\,

Observando esta función bajo un ángulo ligeramente distinto, se puede suponer que los valores observados $x_{1},x_{2},\dots ,x_{n}$ son fijos mientras que $\theta$ puede variar libremente. Esta es la función de verosimilitud:

{\mathcal {L}}(\theta \,|\,x_{1},\ldots ,x_{n})=\prod _{i=1}^{n}f(x_{i}|\theta ).

En la práctica, dependiendo de la distribución que generó los datos, se suele utilizar el logaritmo de esta función:

{\hat {\ell }}(\theta \,|\,x_{1},\ldots ,x_{n})=\ln {\mathcal {L}}=\sum _{i=1}^{n}\ln f(x_{i}|\theta ).

El método de la máxima verosimilitud estima $\theta _{0}$ buscando el valor de $\theta$ que maximiza $\ln {\mathcal {L}}$ . Este es el llamado estimador de máxima verosimilitud (MLE) de $\theta _{0}$ :

{\hat {\theta }}_{\mathrm {mle} }={\underset {\theta \in \Theta }{\operatorname {arg\,max} }}\ {\hat {\ell }}(\theta \,|\,x_{1},\ldots ,x_{n}).

En ocasiones este estimador es una función explícita de los datos observados $x_{1},x_{2},\dots ,x_{n}$ , pero muchas veces hay que recurrir a optimizaciones numéricas. También puede ocurrir que el máximo no sea único o no exista.

En la exposición anterior se ha asumido la independencia de las observaciones, pero no es un requisito necesario: basta con poder construir la función de probabilidad conjunta de los datos para poder aplicar el método. Un contexto en el que esto es habitual es el del análisis de series temporales.

Propiedades del estimador de máxima verosimilitud

En muchos casos, el estimador obtenido por máxima verosimilitud posee un conjunto de propiedades asintóticas atractivas:

consistencia,
normalidad asintótica,
eficiencia,
e incluso eficiencia de segundo orden tras corregir el sesgo.

Consistencia

Bajo ciertas condiciones bastante habituales,^[2] el estimador de máxima verosimilitud es consistente: si el número de observaciones n tiende a infinito, el estimador $\scriptstyle {\hat {\theta }}$ converge en probabilidad a su valor verdadero:

{\hat {\theta }}_{\mathrm {mle} }\ {\xrightarrow {p}}\ \theta _{0}\ .

Bajo condiciones algo más fuertes,^[2] la convergencia es casi segura:

{\hat {\theta }}_{\mathrm {mle} }\ {\xrightarrow {a.s.}}\ \theta _{0}\ .

Normalidad asintótica 2

Si las condiciones para la consistencia se cumplen y, además,

$\theta _{0}\in interior(\theta )$ ;
$f(x|\theta )>0$ y es dos veces continuamente diferenciable respecto a θ en algún entorno N de θ₀;
∫ sup_θ∈N||∇_θf(x|θ)||dx < ∞, y ∫ sup_θ∈N||∇_θθf(x|θ)||dx < ∞;
I = E[∇_θlnf(x|θ₀) ∇_θlnf(x|θ₀)′] existe y no es singular;
$E[sup_{\theta \in N}\parallel \bigtriangledown _{\theta \theta }\ln(f(x|\theta ))\parallel ]<\infty$ ,

entonces el estimador de máxima verosimilitud tiene una distribución asintótica normal:^[3]

{\sqrt {n}}{\big (}{\hat {\theta }}_{\mathrm {mle} }-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,I^{-1}).

Invariancia funcional

Si ${\widehat {\theta }}$ es el EMV de θ y g(θ) es una transformación de θ, entonces el EMV de α = g(θ) es

{\widehat {\alpha }}=g({\widehat {\theta }}).\,\!

Además, el EMV es invariante frente a ciertas transformaciones de los datos. En efecto, si $Y=g(X)$ y $g$ una aplicación biyectiva que no depende de los parámetros que se estiman, entonces la función de densidad de Y es

f_{Y}(y)=f_{X}(x)/|g'(x)|

Es decir, las funciones de densidad de X e Y difieren únicamente en un término que no depende de los parámetros. Así, por ejemplo, el EMV para los parámetros de una distribución lognormal son los mismos que los de una distribución normal ajustada sobre el logaritmo de los datos de entrada.

Otras propiedades

El EMV es √n-consistente y asintóticamente eficiente. En particular, esto significa que el sesgo es cero hasta el orden n^−1/2. Sin embargo, al obtener los términos de mayor orden de la expansión de Edgeworth de la distribución del estimador, θ_emv tiene un sesgo de orden ⁻¹. Este sesgo es igual a^[4]

b_{s}\equiv \operatorname {E} [({\hat {\theta }}_{\mathrm {mle} }-\theta _{0})_{s}]={\frac {1}{n}}\cdot I^{si}I^{jk}{\big (}{\tfrac {1}{2}}K_{ijk}+J_{j,ik}{\big )},

fórmula donde se ha adoptado la convención de Einstein para expresar sumas; I^jk representa la j,k-ésima componente de la inversa de la matriz de información de Fisher y

{\tfrac {1}{2}}K_{ijk}+J_{j,ik}=\operatorname {E} {\bigg [}\;{\frac {1}{2}}{\frac {\partial ^{3}\ln f_{\theta _{0}}(x_{t})}{\partial \theta _{i}\,\partial \theta _{j}\,\partial \theta _{k}}}+{\frac {\partial \ln f_{\theta _{0}}(x_{t})}{\partial \theta _{j}}}{\frac {\partial ^{2}\ln f_{\theta _{0}}(x_{t})}{\partial \theta _{i}\,\partial \theta _{k}}}\;{\bigg ]}.

Gracias a estas fórmulas es posible estimar el sesgo de segundo orden del estimador y corregirlo mediante substracción:

{\hat {\theta }}_{\mathrm {mle} }^{*}={\hat {\theta }}_{\mathrm {mle} }-{\hat {b}}.

Este estimador, insesgado hasta el orden n⁻¹, se llama estimador de máxima verosimilitud con corrección del sesgo.

Ejemplos

Distribución uniforme discreta

Supóngase que n bolas numeradas de 1 a n se colocan en una urna y que una de ellas se extrae al azar. Si se desconoce n, su EMV es el número m que aparece en la bola extraída: la función de verosimilitud es 0 para n < m y 1/n para n ≥ m; que alcanza su máximo cuando n = m. La esperanza matemática de ${\hat {n}}$ , es (n + 1)/2. Como consecuencia, el EMV de n infravalorará el verdadero valor de n por (n − 1)/2.

Distribución discreta con parámetros discretos

Supóngase que se lanza una moneda sesgada al aire 80 veces. La muestra resultante puede ser algo así como x₁ = H, x₂ = T, ..., x₈₀ = T, y se cuenta el número de caras, "H". La probabilidad de que salga cara es p y la de que salga cruz, 1 − p (de modo que p es el parámetro θ). Supóngase que se obtienen 49 caras y 31 cruces. Imagínese que la moneda se extrajo de una caja que contenía tres de ellas y que éstas tienen probabilidades p iguales a 1/3, 1/2 y 2/3 aunque no se sabe cuál de ellas es cuál.

A partir de los datos obtenidos del experimento se puede saber cuál es la moneda con la máxima verosimilitud. Usando la función de probabilidad de la distribución binomial con una muestra de tamaño 80, número de éxitos igual a 49 y distintos valores de p, la función de verosimilitud toma tres valores siguientes:

{\begin{aligned}\Pr(\mathrm {H} =49\mid p=1/3)&={\binom {80}{49}}(1/3)^{49}(1-1/3)^{31}\approx 0.000,\\[6pt]\Pr(\mathrm {H} =49\mid p=1/2)&={\binom {80}{49}}(1/2)^{49}(1-1/2)^{31}\approx 0.012,\\[6pt]\Pr(\mathrm {H} =49\mid p=2/3)&={\binom {80}{49}}(2/3)^{49}(1-2/3)^{31}\approx 0.054.\end{aligned}}

La verosimilitud es máxima cuando p = 2/3 y éste es, por lo tanto, el EMV de p.

Distribución discreta con parámetros continuos

Ahora supongamos que sólo había una moneda pero su p podría haber sido cualquier valor 0 ≤ p ≤ 1. La función de verosimilitud a maximizar es

L(p)=f_{D}(\mathrm {H} =49\mid p)={\binom {80}{49}}p^{49}(1-p)^{31},

y que la maximización se realiza sobre todos los valores posibles de 0 ≤ p ≤ 1.

Probabilidad de diferentes valores de los parámetros de proporción para un proceso binomial con t = 3 y n = 10

Una forma de maximizar esta función es diferenciando con respecto a p y asignando a cero:

{\begin{aligned}{0}&{}={\frac {\partial }{\partial p}}\left({\binom {80}{49}}p^{49}(1-p)^{31}\right)\\[8pt]&{}\propto 49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\[8pt]&{}=p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\[8pt]&{}=p^{48}(1-p)^{30}\left[49-80p\right]\end{aligned}}

Lo cual posee las soluciones p = 0, p = 1, and p = 49/80. La solución que maximiza la verosimilitud es claramente p = 49/80 (dado que p = 0 y p = 1 resultan en una verosimilitud nula). Por lo tanto el estimador de máxima probabilidad para p es 49/80.

Este resultado es fácilmente generalizado si se sustituye una letra como ser t en lugar del 49 para representar el número de 'éxitos' observados de nuestrs ensayos de Bernoulli, y una letra por ejemplo n en lugar del 80 para representar el número de ensayos de Bernoulli. El mismo cálculo exacto provee el estimador de máxima verosimilitud t / n para toda secuencia de n ensayos de Bernoulli resultando en t 'éxitos'.

Distribución continua con parámetros continuos

Para la distribución normal ${\mathcal {N}}(\mu ,\sigma ^{2})$ que posee una función densidad de probabilidad

f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi }}\ \sigma \ }}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)},

La función densidad de probabilidad correspondiente para una muestra de n variables aleatorias normales aleatoriamente distribuidas identicamente de manera independiente (la probabilidad) es

f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\prod _{i=1}^{n}f(x_{i}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right),

o más convenientemente:

f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right),

donde ${\bar {x}}$ es la media de la muestra.

Esta familia de distribuciones posee dos parámetros: θ = (μ, σ), por lo que se maximiza la verosimilitud, ${\mathcal {L}}(\mu ,\sigma )=f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma )$ , sobre ambos parámetros simultáneamente, o si es posible, individualmente.

Dado que el logaritmo es una función continua estrictamente creciente sobre el range of the likelihood, los valores que maximizan la verosimilitud también maximizan su logaritmo. Dado que maximizar el logaritmo a menudo requiere de álgebra simple, es el logaritmo el que se maximizará a continuación. (Nota: la verosimilitid-logarítmica está estrechamente relacionada con la entropía de información y la información de Fisher.)

{\begin{aligned}0&={\frac {\partial }{\partial \mu }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\[6pt]&={\frac {\partial }{\partial \mu }}\left(\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=0-{\frac {-2n({\bar {x}}-\mu )}{2\sigma ^{2}}}\end{aligned}}

lo cual se resuelve haciendo

{\hat {\mu }}={\bar {x}}=\sum _{i=1}^{n}x_{i}/n.

Se trata efectivamente del máximo de la función, ya que es el único punto de inflexión en μ y la segunda derivada es estrictamente menor que cero. Su valor de expectativa es igual al parámetro μ de la distribución dada,

E\left[{\widehat {\mu }}\right]=\mu ,\,

lo que significa que el estimados de la versosimilitud máximan ${\widehat {\mu }}$ no está sesgado.

Similarmente se diferencia la versosimilitud logarítmica con respecto a σ y se iguala a cero:

{\begin{aligned}0&={\frac {\partial }{\partial \sigma }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\[6pt]&={\frac {\partial }{\partial \sigma }}\left({\frac {n}{2}}\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=-{\frac {n}{\sigma }}+{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{\sigma ^{3}}}\end{aligned}}

lo cual se resuelve mediante

{\widehat {\sigma }}^{2}=\sum _{i=1}^{n}(x_{i}-{\widehat {\mu }})^{2}/n.

Insertando ${\widehat {\mu }}$ se obtiene

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}x_{i}x_{j}.

Para calcular su valor esperado, es conveniente reescribir la expresión en términos de variables aleatorias de media cero (error estadístico) $\delta _{i}\equiv \mu -x_{i}$ . Expresando el estimador mediante estas variables se obtiene

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(\mu -\delta _{i})^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(\mu -\delta _{i})(\mu -\delta _{j}).

Simplificando la expresión anterior, utilizando el hecho que $E\left[\delta _{i}\right]=0$ y $E[\delta _{i}^{2}]=\sigma ^{2}$ , permite obtener

E\left[{\widehat {\sigma ^{2}}}\right]={\frac {n-1}{n}}\sigma ^{2}.

Lo cual significa que el estimador ${\widehat {\sigma }}$ es sesgado. Sin embargo, ${\widehat {\sigma }}$ es consistente.

Formalmente decimos que el estimador de máxima verosimilitud para $\theta =(\mu ,\sigma ^{2})$ es:

{\widehat {\theta }}=\left({\widehat {\mu }},{\widehat {\sigma }}^{2}\right).

En este caso, los MLE podrían obtenerse individualmente. En general, puede que no sea el caso, y los MLE tendrían que obtenerse simultáneamente.

Variables no independientes

Puede darse el caso de que las variables estén correlacionadas, es decir, que no sean independientes. Dos variables aleatorias X e Y son independientes sólo si su función de densidad de probabilidad conjunta es el producto de las funciones de densidad de probabilidad individuales, es decir

f(x,y)=f(x)f(y)\,

Supongase que se construye un vector gausiano de orden n a parir de variables aleatorias $(x_{1},\ldots ,x_{n})\,$ , donde cada variable posee valor medio corresponsiente a $(\mu _{1},\ldots ,\mu _{n})\,$ . Y sea la matriz covariante expresada mediante $\Sigma ,$

La función de densidad de probabilidad conjunta de estas n variables aleatorias viene dada entonces por:

f(x_{1},\ldots ,x_{n})={\frac {1}{(2\pi )^{n/2}{\sqrt {{\text{det}}(\Sigma )}}}}\exp \left(-{\frac {1}{2}}\left[x_{1}-\mu _{1},\ldots ,x_{n}-\mu _{n}\right]\Sigma ^{-1}\left[x_{1}-\mu _{1},\ldots ,x_{n}-\mu _{n}\right]^{T}\right)

En el caso de dos variables, la función de densidad de probabilidad conjunta viene dada por:

f(x,y)={\frac {1}{2\pi \sigma _{x}\sigma _{y}{\sqrt {1-\rho ^{2}}}}}\exp \left[-{\frac {1}{2(1-\rho ^{2})}}\left({\frac {(x-\mu _{x})^{2}}{\sigma _{x}^{2}}}-{\frac {2\rho (x-\mu _{x})(y-\mu _{y})}{\sigma _{x}\sigma _{y}}}+{\frac {(y-\mu _{y})^{2}}{\sigma _{y}^{2}}}\right)\right]

En éste y otros casos en los que existe una función de densidad conjunta, la función de verosimilitud se define como arriba, en Principios, utilizando esta densidad.

Aplicaciones

El estimador de máxima verosimilitud se usa dentro de un gran número de modelos estadísticos:

modelos lineales los modelos lineales generalizados;
Análisis factorial, tanto exploratorio como confirmatorio;
y otras muchas situaciones en el contexto de los tests estadísticos

Véase también

Notas

↑ Edgeworth (Sep 1908, Dec 1908)
↑ ^a ^b Newey y McFadden (1994, Theorem 2.5.)
↑ Newey y McFadden (1994, Theorem 3.3.)
↑ Cox y Snell (1968, formula (20))

Bibliografía

Aldrich, John (1997). «R.A. Fisher and the making of maximum likelihood 1912–1922». Statistical Science 12 (3): 162-176. doi:10.1214/ss/1030037906. MR 1617519.
Anderson, Erling B. 1970. "Asymptotic Properties of Conditional Maximum Likelihood Estimators". Journal of the Royal Statistical Society B 32, 283-301.
Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980.
Debabrata Basu. Statistical Information and Likelihood : A Collection of Critical Essays by Dr. D. Basu ; J.K. Ghosh, editor. Lecture Notes in Statistics Volume 45, Springer-Verlag, 1988.
Cox, D.R.; Snell, E.J. (1968). «A general definition of residuals». Journal of the Royal Statistical Society. Series B (Methodological): 248-275. JSTOR 2984505.
Edgeworth, F.Y. (Sep de 1908). «On the probable errors of frequency-constants». Journal of the Royal Statistical Society 71 (3): 499-512. JSTOR 2339293.
Edgeworth, F.Y. (Dec de 1908). «On the probable errors of frequency-constants». Journal of the Royal Statistical Society 71 (4): 651-678. JSTOR 2339378.
Ferguson, Thomas S (1996). A course in large sample theory. Chapman & Hall.
Hald, Anders (1998). A history of mathematical statistics from 1750 to 1930. Nueva York: Wiley.
Hald, Anders (1999). «On the history of maximum likelihood in relation to inverse probability and least squares». Statistical Science 14 (2): 214-222. JSTOR 2676741.
Kano, Y. (1996). «Third-order efficiency implies fourth-order efficiency». Journal of the Japan Statistical Society 26: 101-117. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
Le Cam, Lucien (1990). «Maximum likelihood — an introduction». ISI Review 58 (2): 153-171.
Le Cam, Lucien; Lo Yang, Grace (2000). Asymptotics in statistics: some basic concepts. Springer. ISBN 0-387-95036-2.
Le Cam, Lucien (1986). Asymptotic methods in statistical decision theory. Springer-Verlag.
Lehmann, E.L.; Casella, G. (1998). Theory of Point Estimation, 2nd ed. Springer. ISBN 0-387-98502-6.
Newey, Whitney K.; McFadden, Daniel (1994). Large sample estimation and hypothesis testing. Handbook of econometrics, vol.IV, Ch.36. Elsevier Science. pp. 2111-2245.
Pratt, John W. (1976). «F. Y. Edgeworth and R. A. Fisher on the efficiency of maximum likelihood estimation». The Annals of Statistics 4 (3): 501-514. JSTOR 2958222.
Savage, Leonard J. (1976). «On rereading R. A. Fisher». The Annals of Statistics 4 (3): 441-500. JSTOR 2958221.
Stigler, Stephen M. (1978). «Francis Ysidro Edgeworth, statistician». Journal of the Royal Statistical Society. Series A (General) 141 (3): 287-322. JSTOR 2344804.
Stigler, Stephen M. (1986). The history of statistics: the measurement of uncertainty before 1900. Harvard University Press. ISBN 0-674-40340-1.
Stigler, Stephen M. (1999). Statistics on the table: the history of statistical concepts and methods. Harvard University Press. ISBN 0-674-83601-4.
van der Vaart, A.W. (1998). Asymptotic Statistics. ISBN 0-521-78450-6.

Enlaces externos

Datos: Q1045555
Multimedia: Maximum likehood / Q1045555

[1] Edgeworth (Sep 1908, Dec 1908)

[Newey_1-2] Newey y McFadden (1994, Theorem 2.5.)

[3] Newey y McFadden (1994, Theorem 3.3.)

[4] Cox y Snell (1968, formula (20))

[1]

[2]

[3]

[4]