Modelo lineal generalizado

En estadística, el modelo lineal generalizado (GLM) es una generalización flexible de la regresión lineal ordinaria que permite variables de respuesta que tienen modelos de distribución de errores distintos de una distribución normal. El GLM generaliza la regresión lineal al permitir que el modelo lineal esté relacionado con la variable de respuesta a través de una función de enlace y al permitir que la magnitud de la varianza de cada medición sea una función de su valor predicho.

John Nelder y Robert Wedderburn formularon modelos lineales generalizados como una forma de unificar otros modelos estadíticos, como la regresión lineal, la regresión logística y la regresión de Poisson. Propusieron un método de mínimos cuadrados iterativamente ponderados para la estimación de máxima verosimilitud de los parámetros del modelo. La estimación de máxima verosimilitud sigue siendo popular y es el método predeterminado en muchos paquetes de computación estadística. Se han desarrollado otros enfoques, incluidos los enfoques bayesianos y los ajustes de mínimos cuadrados a las respuestas estabilizadas de la varianza.

Intuición

La regresión lineal ordinaria predice el valor esperado de una cantidad desconocida dada (la variable de respuesta, una variable aleatoria) como una combinación lineal de un conjunto de valores observados (predictores). Esto implica que un cambio constante en un predictor conduce a un cambio constante en la variable de respuesta (es decir, un modelo de respuesta lineal). Esto es apropiado cuando la variable de respuesta tiene una distribución normal (intuitivamente, cuando una variable de respuesta puede variar esencialmente de modo indefinido en cualquier dirección sin un "valor cero" fijo o, más generalmente, para cualquier cantidad que solo varía en una cantidad relativamente pequeña comparada con la variación en las variables predictivas, por ejemplo, la altura humana).

Sin embargo, estos supuestos son inapropiados para algunos tipos de variables de respuesta. Por ejemplo, en los casos en que se espera que la variable de respuesta sea siempre positiva y varíe en un amplio rango, los cambios constantes de entrada conducen a cambios en los resultados o salidas que presentan variaciones geométricas (es decir, exponenciales) en lugar de variaciones constantes. Como ejemplo, supóngase que un modelo de predicción aprende a partir de ciertos datos (posiblemente recogidos de grandes playas) que una disminución de 10 grados en la temperatura lleva a una disminución de 1000 personas que visitan la playa. Es poco probable que este modelo se pueda generalizar bien a playas de diferentes tamaños. Más específicamente, el problema es que si se utiliza este modelo para predecir la asistencia que habrá con una disminución de la temperatura de 10 grados en una playa que normalmente recibe 50 personas, se pronosticará una asistencia con el imposible valor de -950 personas. De manera lógica, un modelo más realista debería pronosticar una tasa constante de incremento de la asistencia a la playa (en que, por ejemplo, un incremento de 10 grados provoca una duplicación de la cantidad de visitantes, y una disminución de 10 grados lleva a una reducción a la mitad de la asistencia). Dicho modelo se denomina modelo de respuesta exponencial (o modelo log-lineal, ya que lo que se predice es que el logaritmo de la respuesta variará linealmente).

De manera similar, un modelo que pronostique la probabilidad de elegir entre sí/no (una variable de Bernoulli) es incluso menos apropiado en tanto modelo de respuesta lineal, ya que las probabilidades están limitadas en ambos extremos (deben estar entre 0 y 1). Hay que imaginar, por ejemplo, un modelo que pronostique la probabilidad de que una persona determinada vaya a la playa en función de la temperatura. Un modelo razonable podría predecir, por ejemplo, que un cambio en 10 grados hace que una persona tenga el doble de probabilidades de ir o no ir a la playa. Pero, ¿qué significa "el doble" en términos de probabilidad? No puede significar literalmente duplicar el valor de probabilidad (por ejemplo, 50% se convierte en 100%, 75% se convierte en 150%, etc.). Más bien, es la razón de oportunidades la que se duplica: de una razón de oportunidades 2:1, a una razón de oportunidades 4:1, a una razón de oportunidades 8: 1, etc. Tal modelo es un log-odds o un modelo logístico.

Los modelos lineales generalizados cubren todas estas situaciones al permitir variables de respuesta que tienen distribuciones arbitrarias (en lugar de tener simplemente distribuciones normales), y que una función arbitraria de la variable de respuesta (la función de enlace) varíe linealmente con los valores predichos. Por ejemplo, en el caso anterior, el número pronosticado de asistentes a la playa se modelaría corrientemente con una distribución de Poisson y una función de enlace log, mientras que el caso de la probabilidad pronosticada de asistencia a la playa se modelaría habitualmente con una distribución de Bernoulli (o distribución binomial, dependiendo exactamente de cómo se expresa el problema) y una función de enlace log-odds (o logit).

Introducción

En un modelo lineal generalizado (GLM), se supone que cada resultado Y de las variables dependientes se genera a partir de una distribución particular en la familia exponencial, una clase numerosa de distribuciones de probabilidad que incluye las distribuciones normal, binomial, Poisson y gamma, entre otras. La media, μ, de la distribución depende de las variables independientes, X, por medio de:

$\mathbb {E} (\mathbf {Y} )={\boldsymbol {\mu }}=g^{-1}(\mathbf {X} {\boldsymbol {\beta }}),$

donde

\mathbb {E} (\mathbf {Y} )\,

es el valor esperado de

\mathbf {Y}

;

\mathbf {X\beta } \,

es el «predictor lineal», una combinación lineal de parámetros desconocidos

\mathbf {\beta }

;

g\,

es la función de enlace.

Con esta notación, la varianza es típicamente una función $\mathbf {V}$ de la media:

$\operatorname {Var} (\mathbf {Y} )=\operatorname {V} ({\boldsymbol {\mu }})=\operatorname {V} (g^{-1}(\mathbf {X} {\boldsymbol {\beta }})).$

Es conveniente si V sigue la distribución de la familia exponencial, pero puede ser simplemente que la varianza sea una función del valor predicho.

Los parámetros desconocidos, β, se suelen calcular con técnicas de máxima verosimilitud, máxima cuasiverosimilitud o bayesianas.

Componentes del modelo

El MLG consiste de tres elementos:

Una función de distribución $f$ , perteneciente a la familia exponencial.
Un predictor lineal $\eta =\mathbf {X\beta }$ .
Una función de enlace $g$ tal que $\mathbb {E} (\mathbf {Y} )=\mathbf {\mu } =g^{-1}(\eta )$ .

Distribución de probabilidad

La familia exponencial de distribuciones sobredispersa es una generalización de la familia exponencial y el modelo de dispersión exponencial de distribuciones e incluye esas distribuciones de probabilidad, parametrizadas por $\mathbf {\theta }$ y Ƭ, cuyas funciones de densidad $f$ (o función de masa de probabilidad, para el caso de una distribución discreta) se pueden expresar en la forma

$f_{Y}(y\mid \theta ,\tau )=h(y,\tau )\exp \left({\frac {b(\theta )^{T}T(y)-A(\theta )}{d(\tau )}}\right)$

El parámetro de dispersión, $T$ , generalmente se conoce y generalmente está relacionado con la varianza de la distribución. Las funciones $h(y,\tau )$ , $b(\theta )$ , $T(y)$ . $A(\theta )$ y $d(\tau )$ son conocidas. Muchas distribuciones comunes están en esta familia, incluyendo binomial, multinomial y binomial normal, exponencial, gamma, Poisson, Bernoulli y (para un número fijo de ensayos).

Para el escalar Y y $\theta$ , esto se reduce a:

$f_{Y}(y\mid \theta ,\tau )=h(y,\tau )\exp \left({\frac {b(\theta )T(y)-A(\theta )}{d(\tau )}}\right)$

Θ está relacionado con la media de la distribución. Si $b(\theta )$ es la función de identidad, se dice que la distribución está en forma canónica (o forma natural). Tenga en cuenta que cualquier distribución se puede convertir a una forma canónica reescribiendo $\theta$ como $\theta '$ y luego aplicar la transformación $\theta =b(\theta ')$ . Siempre es posible convertir $A(\theta )$ en términos de la nueva parametrización, incluso si $b(\theta ')$ no es una función de uno a uno. Si, además, $T(y)$ es la identidad y $\tau$ se conoce, entonces $\theta$ se llama el parámetro canónico (o parámetro natural) y está relacionado con la media a través de

μ = E(Y) = ΔA(θ)

Para el escalar Y y θ, esto se reduce a

μ = E(Y) = A’(θ)

Bajo este escenario, la varianza de la distribución puede mostrarse como

Var(Y) = Δ² A(θ)d(Ƭ).

Para el escalar Y y θ, esto se reduce a

Var(Y) = A’’(θ)d(Ƭ).

Predictor lineal

El predictor lineal es la cantidad que incorpora la información sobre las variables independientes en el modelo. El símbolo η ("eta" griego) denota un predictor lineal. Está relacionado con el valor esperado de los datos a través de la función de enlace.

η se expresa como combinaciones lineales (por lo tanto, "lineales") de parámetros desconocidos β. Los coeficientes de la combinación lineal se representan como la matriz de las variables independientes X. Por lo tanto, η puede expresarse como

η=Xβ.

Función de enlace

La función de enlace proporciona la relación entre el predictor lineal y la media de la función de distribución. Existen muchas funciones de enlace de uso común, y su elección se basa en varias consideraciones. Siempre hay una función de enlace canónico bien definida que se deriva del exponencial de la función de densidad de la respuesta. Sin embargo, en algunos casos tiene sentido tratar de hacer coincidir el dominio de la función de enlace con el rango de la media de la función de distribución, o usar una función de enlace no canónica con fines algorítmicos, por ejemplo, regresión probit Bayesiana.

Cuando se utiliza una función de distribución con un parámetro canónico θ, la función de enlace canónico es la función que expresa θ en términos de μ, es decir, θ = b(μ). Para las distribuciones más comunes, la media μ es uno de los parámetros en la forma estándar de la función de densidad de la distribución, y luego b(μ) es la función como se definió anteriormente que mapea la función de densidad en su forma canónica. Cuando se utiliza la función de enlace canónico, b(μ) = θ = Xβ que permite que X^TY sea una estadística suficiente para β.

Prueba

Máxima verosimilitud

Las estimaciones de máxima verosimilitud se pueden encontrar usando un algoritmo de mínimos cuadrados iterativamente ponderados o un método de Newton-Raphson con actualizaciones de la forma:

Β^(t+1) = β^(t) + J^-1(β^(t))u(β^(t)),

Donde J(β^(t)) es la matriz de información observada (el negativo de la matriz de Hesse) y u(β^(t)) es la función de puntuación; o un método de puntuación de Fisher:

Β^(t+1) = β^(t) + I^-1(β^(t))u(β^(t)),

Donde I(β^(t)) es la matriz de información de Fisher. Tenga en cuenta que si se utiliza la función de enlace canónico, entonces son iguales.

Métodos bayesianos

En general, la distribución posterior no se puede encontrar en forma cerrada y, por lo tanto, debe ser aproximada, generalmente utilizando aproximaciones de Laplace o algún tipo de método de Monte Carlo de cadena de Markov como el muestreo de Gibbs.

Ejemplos

Modelos lineales generales

Un posible punto de confusión tiene que ver con la distinción entre modelos lineales generalizados y el modelo lineal general, dos modelos estadísticos amplios. El modelo lineal general puede verse como un caso especial del modelo lineal generalizado con enlace de identidad y respuestas normalmente distribuidas. Como los resultados de interés más exactos se obtienen solo para el modelo lineal general, el modelo lineal general ha experimentado un desarrollo histórico algo más largo. Los resultados para el modelo lineal generalizado con enlace de no identidad son asintóticos (tienden a funcionar bien con muestras grandes).

Regresión lineal

Un ejemplo simple y muy importante de un modelo lineal generalizado (también un ejemplo de un modelo lineal general) es la regresión lineal. En la regresión lineal, el uso del estimador de mínimos cuadrados se justifica por el teorema de Gauss-Markov, que no supone que la distribución sea normal.

Sin embargo, desde la perspectiva de los modelos lineales generalizados, es útil suponer que la función de distribución es la distribución normal con varianza constante y la función de enlace es la identidad, que es el enlace canónico si se conoce la varianza.

Para la distribución normal, el modelo lineal generalizado tiene una expresión de forma cerrada para las estimaciones de máxima verosimilitud, lo que es conveniente. La mayoría de los otros GLM carecen de estimaciones de forma cerrada.

Datos binarios

Cuando los datos de respuesta, $Y$ , son binarios (que toman solo los valores 0 y 1), la función de distribución generalmente se elige para ser la distribución de Bernoulli y la interpretación de $\mu _{i}$ es la probabilidad, $p$ , de que $Y_{i}$ tome el valor uno.

Hay varias funciones de enlace populares para funciones binomiales.

Función de enlace logit

La función de enlace más típica es el enlace logit canónico:

$g(p)=\ln \left({\frac {p}{1-p}}\right)$

Los GLM con esta configuración son modelos de regresión logística (o modelos logit).

Función de enlace Probit como opción popular de la función de distribución acumulativa inversa

Alternativamente, el inverso de cualquier función de distribución acumulativa continua (CDF) se puede usar para el enlace, ya que el rango del CDF es [0,1], el rango de la media binomial. El CDF normal φ es una opción popular y produce el modelo probit. Su enlace es

$g(p)=\phi ^{-1}(p)$

La razón para el uso del modelo probit es que una escala constante de la variable de entrada a un CDF normal (que se puede absorber a través de la escala equivalente de todos los parámetros) produce una función que es prácticamente idéntica a la función logit, pero probit Los modelos son más manejables en algunas situaciones que los modelos logit. (En un entorno bayesiano en el que las distribuciones anteriores normalmente distribuidas se colocan en los parámetros, la relación entre los anteriores normales y la función de enlace CDF normal significa que un modelo probit puede calcularse utilizando el muestreo de Gibbs, mientras que un modelo logit generalmente no puede).

Log-log complementario (cloglog)

La función complementaria log-log también se puede utilizar:

$g(p)=\log(-\log(1-p))$

Esta función de enlace es asimétrica y con frecuencia producirá resultados diferentes de las funciones de enlace logit y probit. El modelo de cloglog corresponde a aplicaciones en las que observamos cero eventos (por ejemplo, defectos) o uno o más, donde se supone que el número de eventos sigue la distribución de Poisson. El supuesto de Poisson significa que

${\text{Pr}}(0)=\exp(-\mu ),$

donde μ es un número positivo que denota el inverso del número esperado de eventos. Si p representa la proporción de observaciones con al menos un evento, su complemento

$(1-p)={\text{Pr}}(0)=\exp(-\mu ),$

y entonces

$(-\log(1-p))=\mu$

Un modelo lineal requiere que la variable de respuesta tome valores sobre toda la línea real. Dado que μ debe ser positivo, podemos imponer eso tomando el logaritmo y dejando que log (μ) sea un modelo lineal. Esto produce la transformación "cloglog".

$\log(-\log(1-p))=\log(\mu )$

Enlace de identidad

El enlace de identidad g (p) = p también se usa a veces para que los datos binomiales produzcan un modelo de probabilidad lineal. Sin embargo, el enlace de identidad puede predecir "probabilidades" sin sentido menores que cero o mayores que uno. Esto se puede evitar utilizando una transformación como cloglog, probit o logit (o cualquier función de distribución acumulativa inversa). Un mérito principal del enlace de identidad es que se puede estimar utilizando matemáticas lineales, y otras funciones de enlace estándar son aproximadamente lineales que coinciden con el enlace de identidad cerca de p = 0.5.

Función de varianza

La función de variación para datos "cuasibinomiales" es:

$Var(Y_{i})=\tau \mu (1-\mu _{i})$

donde el parámetro de dispersión τ es exactamente 1 para la distribución binomial. De hecho, la probabilidad binomial estándar omite τ. Cuando está presente, el modelo se denomina "cuasibinomial" y la probabilidad modificada se denomina cuasi probabilidad, ya que generalmente no es la probabilidad correspondiente a ninguna distribución de probabilidad real. Si τ excede de 1, se dice que el modelo exhibe una sobredispersión.

Extensiones

Datos correlacionados o agrupados

El GLM estándar asume que las observaciones no están correlacionadas. Se han desarrollado extensiones para permitir la correlación entre las observaciones, como ocurre, por ejemplo, en estudios longitudinales y diseños agrupados:

Las ecuaciones de estimación generalizadas (GEE) permiten la correlación entre las observaciones sin el uso de un modelo de probabilidad explícito para el origen de las correlaciones, por lo que no existe una probabilidad explícita. Son adecuados cuando los efectos aleatorios y sus variaciones no son de interés inherente, ya que permiten la correlación sin explicar su origen. El enfoque se centra en estimar la respuesta promedio sobre la población (efectos "promediados por la población") en lugar de los parámetros de regresión que permitirían predecir el efecto de cambiar uno o más componentes de X en un individuo determinado. Los GEE se utilizan generalmente junto con los errores estándar de Huber-White.

Los modelos mixtos lineales generalizados (GLMM) son una extensión de los GLM que incluyen efectos aleatorios en el predictor lineal, lo que proporciona un modelo de probabilidad explícito que explica el origen de las correlaciones. Las estimaciones de los parámetros "específicos del sujeto" resultantes son adecuadas cuando se enfoca en estimar el efecto de cambiar uno o más componentes de X en un individuo determinado. Los GLMM también se conocen como modelos multinivel y como modelo mixto. En general, el ajuste de los GLMM es más complejo e intensivo computacionalmente que el ajuste de los GEE.

Modelos aditivos generalizados.

Los modelos aditivos generalizados (GAM) son otra extensión de los GLM en los que el predictor lineal η no está restringido a ser lineal en las covariables X, sino que es la suma de las funciones de suavizado aplicadas a la $x_{i}s$ :

$\eta =\beta _{0}+f_{1}(x_{1})+f_{2}(x_{2})+...$

Las funciones de suavizado $f_{i}$ se estiman a partir de los datos. En general, esto requiere un gran número de puntos de datos y es computacionalmente intensivo.

Confusión con modelos lineales generales

El término "modelo lineal generalizado", y especialmente su abreviatura GLM, a veces se confunde con el término "modelo lineal general". El co-originador John Nelder ha expresado su pesar por esta terminología.

Véase también

- Comparison of general and generalized linear models
- Generalized linear array model
- Tweedie distributions
- GLIM (software)
- Natural exponential familyVector gen
- Veralized linear model (VGLM)
- Quasi-variance

Referencias

Datos: Q1501882
Multimedia: Generalized linear models / Q1501882