En la teoría bayesiana de la probabilidad, si la distribución posterior pertenece a la misma familia de distribuciones de probabilidad que la distribución de probabilidad ''a priori'' , las distribuciones a priori y a posteriori se denominan entonces distribuciones conjugadas, y la a priori se denomina prior conjugada para la función de verosimilitud .

Una prior conjugada es una conveniencia algebraica, que da una expresión de forma cerrada para la posterior; de lo contrario, puede ser necesaria la integración numérica. Además, las a priori conjugadas pueden ser más intuitivas al mostrar de forma más transparente cómo una función de verosimilitud actualiza una distribución a priori.

El concepto, así como el término "prior conjugada", fueron introducidos por Howard Raiffa y Robert Schlaifer en sus trabajos sobre la teoría bayesiana de la decisión.[1]​ Un concepto similar había sido descubierto independientemente por George Alfred Barnard.[2]

Ejemplo

editar

La forma de prior conjugada puede determinarse generalmente mediante la inspección de la densidad de probabilidad o la función de masa de probabilidad de una distribución. Por ejemplo, consideremos una variable aleatoria que consiste en el número de aciertos   en   Ensayo Bernoulli con probabilidad desconocida de éxito   en [0,1]. Esta variable aleatoria seguirá la distribución binomial, con una función de masa de probabilidad de la forma:  

La prior conjugada habitual es la distribución beta con parámetros ( ,  ):

 

Donde   y   se eligen para reflejar cualquier creencia o información existente (  and   daría una distribución uniforme y   es la función Beta que actúa como constante normalizadora.

En este contexto,   y   se denominan "hiperparámetros" (parámetros a priori), para distinguirlos de los parámetros del modelo subyacente (aquí  ).Una característica típica de los a priori conjugados es que la dimensionalidad de los hiperparámetros es uno mayor que la de los parámetros de la distribución original. Si todos los parámetros son valores escalares, entonces habrá un hiperparámetro más que parámetro; pero esto también se aplica a los parámetros con valores vectoriales y matriciales. (Véase el artículo general sobre la familia exponencial, y considérese también la distribución de Wishart, prior conjugado de la matriz de covarianza de una distribución normal multivariante, para un ejemplo en el que interviene una gran dimensionalidad).

Si muestreamos esta variable aleatoria y obtenemos   éxitos y   fallos, entonces tenemos

 

que es otra distribución Beta con parámetros  . Esta distribución posterior podría utilizarse como prior para más muestras, y los hiperparámetros simplemente añadirían cada dato adicional a medida que se obtuviera.


Interpretaciones

editar

Pseudo-observaciones

editar

A menudo es útil pensar que los hiperparámetros de una distribución a priori conjugada corresponden a haber observado un cierto número de pseudo-observaciones con propiedades especificadas por los parámetros. Por ejemplo, los valores   y   de una distribución beta puede considerarse como correspondiente a   éxitos y   fallos si se utiliza el modo posterior para elegir un ajuste óptimo de los parámetros, o   éxitos y   fallos si se utiliza la media posterior para elegir un ajuste óptimo de los parámetros. En general, para casi todas las distribuciones a priori conjugadas, los hiperparámetros pueden interpretarse en términos de pseudo-observaciones. Esto puede ayudar a proporcionar intuición detrás de las ecuaciones de actualización a menudo desordenadas y ayudar a elegir hiperparámetros razonables para una prioridad.

Sistema dinámico

editar

Se puede pensar en el condicionamiento prior conjugado como la definición de una especie de sistema dinámico (en tiempo discreto): a partir de un conjunto dado de hiperparámetros, los datos entrantes actualizan estos hiperparámetros, por lo que se puede ver el cambio en los hiperparámetros como una especie de "evolución temporal" del sistema, correspondiente al "aprendizaje". Comenzando en puntos diferentes se obtienen flujos diferentes a lo largo del tiempo. Esto vuelve a ser análogo al sistema dinámico definido por un operador lineal, pero hay que tener en cuenta que, dado que muestras diferentes conducen a inferencias diferentes, esto no depende simplemente del tiempo, sino más bien de los datos a lo largo del tiempo. Para enfoques relacionados, véase Estimación bayesiana recursiva y Asimilación de datos.

Ejemplo práctico

editar

Supongamos que en su ciudad opera un servicio de alquiler de vehículos. Los conductores pueden dejar y recoger los carros en cualquier lugar dentro de los límites de la ciudad. Puedes encontrar y alquilar los carros usando una aplicación.

Supongamos que desea averiguar la probabilidad de encontrar un vehículo de alquiler a poca distancia de su domicilio a cualquier hora del día.

Durante tres días miras la aplicación y encuentras el siguiente número de coches a poca distancia de la dirección de tu casa:   Supongamos que los datos proceden de una distribución de Poisson. En ese caso, podemos calcular la estimación de máxima verosimilitud de los parámetros del modelo, que es   Utilizando esta estimación de máxima verosimilitud, podemos calcular la probabilidad de que haya al menos un coche disponible un día determinado:   Se trata de la distribución de Poisson que es la más probable que haya generado los datos observados  . Pero los datos también podrían proceder de otra distribución de Poisson, por ejemplo, una con  , o  , etc. De hecho, existe un número infinito de distribuciones de Poisson que podrían haber generado los datos observados. Con relativamente pocos puntos de datos, deberíamos estar bastante inseguros sobre qué distribución de Poisson exacta generó estos datos. Intuitivamente, deberíamos tomar una media ponderada de la probabilidad de   para cada una de esas distribuciones de Poisson, ponderadas según la probabilidad de cada una de ellas, dados los datos que hemos observado  . Generalmente, esta cantidad se conoce como distribución predictiva posterior   donde   es un nuevo punto de datos,   son los datos observados y   son los parámetros del modelo. Utilizando el teorema de Bayes podemos expandir   por lo tanto,   En general, esta integral es difícil de calcular. Sin embargo, si se elige una distribución prior conjugada  ,se puede derivar una expresión de forma cerrada. Esta es la columna de predicción posterior en las tablas siguientes.

Volviendo a nuestro ejemplo, si elegimos la distribución Gamma como nuestra distribución a priori sobre la tasa de las distribuciones Poisson, entonces la predictiva a posteriori es la distribución binomial negativa, como puede verse en la tabla siguiente. La distribución Gamma está parametrizada por dos hiperparámetros   que tenemos que elegir. Observando los gráficos de la distribución gamma, elegimos  , que parece ser una prioridad razonable para el número medio de coches. La elección de hiperparámetros a priori es inherentemente subjetiva y se basa en conocimientos previos. Dados los hiperparámetros a priori   y   podemos calcular los hiperparámetros posteriores   y   Dados los hiperparámetros posteriores, podemos finalmente calcular la predicción posterior de  

Esta estimación mucho más conservadora refleja la incertidumbre en los parámetros del modelo, que la predicción posterior tiene en cuenta.

Tabla de distribuciones conjugadas

editar

Sea n el número de observaciones. En todos los casos siguientes, se supone que los datos constan de n puntos  (que serán vectores aleatorios en los casos multivariantes).

Si la función de verosimilitud pertenece a la familia exponencial, entonces existe una prior conjugada, a menudo también en la familia exponencial; véase Familia exponencial: Distribuciones conjugadas.

Cuando la función de verosimilitud es una distribución discreta

editar
Verosimilitud Parámetros del modelo Distribución a priori conjugada Hiperparámetros a priori Hiperparámetros a posteriori[nota 1] Interpretación de hiperparámetros Predicción a posteriori[nota 2]
Bernoulli p (probabilidad) Beta       éxitos,   fallas[nota 3]  
Binomio con número conocido de ensayos, m p (probabilidad) Beta       éxitos,   fallas[nota 3]  
(beta-binomio)
Binomio negativo con número de fallos conocido, r p (probabilidad) Beta       total de éxitos,   fallas[nota 3]  

(beta-binomio negativo)

Poisson λ (rate) Gamma       total ocurrencias en intervalos    
(binomio negativo)
    total ocurrencias en intervalos    
(binomio negativo)
Categórica p (vector de probabilidad), k (número de categorías; es decir, tamaño de p) Dirichlet     donde   es el número de observaciones de la categoría i   ocurrencias de categoría  [nota 3]  
Multinomio p (vector de probabilidad), k (número de categorías; es decir, tamaño de p) Dirichlet       ocurrencias de categoría  [nota 3]  
(Dirichlet-multinomio)
Hipergeométrico con un tamaño de población total conocido, N M (número de miembros objetivo) Beta-binomio[3]       éxitos,   fallas[nota 3]
Geométrico p0 (probabilidad) Beta       experimentos,   falla total[nota 3]

Cuando la función de verosimilitud es una distribución continua

editar
Verosimilitud Parámetros del modelo Distribución a priori conjugada Hiperparámetros a priori Hiperparámetros a posteriori[nota 1] Interpretación de hiperparámetros Predicción a posteriori[nota 5]
Normal con varianza conocida σ2 μ (media) Normal     la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales)   y con media muestral    [4]
Normal con precisión conocida τ μ (media) Normal     la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales)  y con media muestral    [4]
Normal con media conocida μ σ2 (varianza) Gamma inverso  [nota 6]   la varianza se estimo de observaciones   con varianza muestral   (es decir, con suma de desviaciones al cuadrado  , donde las desviaciones son respecto a la media conocida  )  [4]
Normal con media conocida μ σ2 (varianza) Chi cuadrado inverso escalado     La varianza se estimó a partir de observaciones   con varianza muestral    [4]
Normal con media conocida μ τ (precisión) Gamma  [nota 4]   La precisión se estimó a partir de observaciones   con varianza muestral   (es decir, con suma de desviaciones al cuadrado  , donde las desviaciones son respecto a la media conocida  )  [4]
Normal[nota 7] μ y σ2

Suponiendo la intercambiabilidad

Gamma normal-inversa    
 
  •   es la media muestral
La media se estimó a partir de observaciones   con media muestral  ; la varianza se estimó a partir de observaciones   con media muestral   y suma de desviaciones al cuadrado    [4]
Normal μ y τ

Suponiendo intercambiabilidad

Normal-gamma    
 
  •   es la media muestral
La media se estimó a partir de observaciones   con media muestral  , la varianza se estimó a partir de observaciones   con media muestral   y suma de desviaciones al cuadrado    [4]
Multivariante normal con matriz de covarianza conocida Σ μ (vector medio) Normal multivariante    
 
  •   es la media muestral
la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales)  y con media muestral    [4]
Multivariante normal con matriz de precisión conocida Λ μ (vector medio) Normal multivariante    
  •   es la media muestral
la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales)  y con media muestral    [4]
Normal multivariante con media conocida μ Σ (matriz de covarianza) Wishart inverso     La matriz de covarianza se estimó a partir de observaciones   con suma de productos de desviación por pares   [4]
Normal multivariante con media conocida μ Λ (matriz de precisión) Wishart     La matriz de covarianza se estimó a partir de observaciones   con suma de productos de desviación por pares    [4]
Normal multivariante μ (vector medio) y Σ (matriz de covarianza) Wishart normal-inverso    
 
  •   is the sample mean
  •  
la media se estimó a partir de observaciones   con media muestral  ; la matriz de covarianza se estimó a partir de las observaciones   con media muestral   y con suma de productos de desviación por pares   [4]
Normal multivariante μ (vector medio) y Λ (matriz de precisión) Wishart normal    
 
  •   is the sample mean
  •  
la media se estimó a partir de observaciones   con media muestral  ; matriz de covarianza se estimó a partir de observaciones   con media muestral   y con suma de productos de desviación por pares    [4]
Uniforme   Pareto       observaciones con valor máximo  
Pareto con un mínimo conocido xm k (forma) Gamma       observaciones con suma  del orden de magnitud de cada observación (es decir, el logaritmo de la relación entre cada observación y el mínimo  )
Weibull con forma β conocida θ (escala) Gamma inverso[3]       observaciones con suma   de la potencia β de cada observación
Log-normal Igual que para la distribución normal después de aplicar el logaritmo natural a los datos para los hiperparámetros posteriores. Consulte Fink (1997, pp. 21-22) para ver los detalles.
Exponencial λ (tasa) Gamma  [nota 4]     observaciones que suman   [5]  
(distribución Lomax)
Gamma con forma conocida α β (tasa) Gamma       observaciones que suman    [nota 8]
Gamma inversa con forma conocida α β (escala inversa) Gamma      observaciones que suman  
Gamma con tasa β conocida α (forma)         o   observaciones (  para estimar  ,   para estimar  ) con resultado  
Gamma α (forma), β (escala inversa)         fue estimado de observaciones   con resultado  ;   fue estimado de   observaciones con suma  
Beta α, β         y   fueron estimado de   observaciones con resultado   y producto de los complementos  
  1. a b Se denotan con los mismos símbolos que los hiperparámetros previos con primos añadidos ('). Por ejemplo,  es denotado  
  2. Esta es la distribución predictiva posterior de un nuevo punto de datos   dados los puntos de datos observados, con la distribución marginal de los parámetros. Las variables con números primos indican los valores posteriores de los parámetros.   y   se refieren a la distribución normal y a la distribución t de Student, respectivamente, o a la distribución normal multivariante y a la distribución t multivariante en los casos multivariantes.
  3. a b c d e f g <La interpretación exacta de los parámetros de una distribución beta en términos de número de aciertos y fallos depende de la función que se utilice para extraer una estimación puntual de la distribución. La media de una distribución beta es   que corresponde a   éxitos y   fallas mientras que el modo es   que corresponde a   éxitos y   fallas. En general, los bayesianos prefieren utilizar la media posterior en lugar de la moda posterior como estimación puntual, lo que se justifica por una función de pérdida cuadrática y el uso de   y   es más conveniente desde el punto de vista matemático, mientras que el uso de   y   tiene la ventaja de que   corresponde a 0 aciertos y 0 fallos. Las mismas cuestiones se aplican a la distribución Dirichlet.>
  4. a b c Beta es la tasa o escala inversa. En la parametrización de la distribución gamma
  5. Esta es la distribución predictiva posterior de un nuevo punto de datos   dados los puntos de datos observados, con la distribución marginal de los parámetros. Las variables con números primos indican los valores posteriores de los parámetros.   y   se refieren a a la distribución normal y a la distribución t de Student, respectivamente, o a la distribución normal multivariante y a la distribución t multivariante en los casos multivariantes.
  6. En términos de la gamma inversa, beta es un parámetro de escala>
  7. Una prioridad conjugada diferente para la media y la varianza desconocidas, pero con una relación fija y lineal entre ellas, se encuentra en la mezcla varianza-media normal, con la gaussiana inversa generalizada como distribución de mezcla conjugada.
  8. <  es una distribución gamma compuesta;  aquí es una distribución beta-prima generalizada

Véase también

editar

Referencias

editar
  1. Howard Raiffa y Robert Schlaifer (1961). «Applied Statistical Decision Theory». Division of Research, Graduate School of Business Administration, Harvard University. 
  2. «Earliest Known Uses of Some of the Words of Mathematics». jeff560.tripod.com. Consultado el 28 de septiembre de 2023. 
  3. a b Fink, Daniel (1997). «A Compendium of Conjugate Priors». web.archive.org. Archivado desde el original el 29 de mayo de 2009. Consultado el 3 de octubre de 2023. 
  4. a b c d e f g h i j k l m Murphy, Kevin P. (2007). Conjugate Bayesian analysis of the Gaussian distribution. 
  5. Liu, Han; Wasserman, Larry (2014). Statistical Machine Learning.