Modelo probit

En estadística, un modelo probit es un área de regresión donde la variable dependiente puede tomar solo dos valores, por ejemplo, casados o no casados. La palabra es un acrónimo, viene de probabilidad + unit (unidad).^[1] El propósito del modelo es estimar la probabilidad de que una observación con características particulares caerá en una categoría específica; además, clasificando las observaciones basadas en sus probabilidades predichas es un tipo de modelo de clasificación binario .

Un modelo probit es una especificación popular para un modelo de respuesta ordinal^[2] o binario. Como tal, trata el mismo conjunto de problemas que la regresión logística utilizando técnicas similares. El modelo probit, que emplea una función de enlace probit, se suele estimar utilizando el procedimiento estándar de máxima verosimilitud , que se denomina una regresión probit.

Los modelos Probit fueron presentados por Chester Bliss en 1934;^[3] Ronald Fisher propuso un método rápido para calcular las estimaciones de máxima verosimilitud para ellos como apéndice del trabajo de Bliss en 1935.^[4]

Marco conceptual

Supongamos que una variable de respuesta $Y$ es dicotómica, es decir, que puede tener solo dos resultados posibles que denotaremos como $1$ y $0$ . Por ejemplo, $Y$ puede representar la presencia o ausencia de una determinada condición, éxito o falla de algún dispositivo, responder sí o no en una encuesta, etc. También tenemos un vector de regresores que denotaremos por $X$ , que se supone influyen en el resultado de $Y$ . Específicamente, suponemos que el modelo toma la forma:

\operatorname {P} [Y=1\mid X]=\Phi (X^{T}\beta ),

donde $P$ denota la probabilidad, y $\Phi$ es la función de distribución acumulada (FDA) de la distribución normal estándar. Los parámetros $\beta$ se estiman típicamente por máxima verosimilitud.

Es posible motivar el modelo probit como un modelo de variable latente. Supongamos que existe una variable aleatoria auxiliar

Y^{\ast }=X^{T}\beta +\varepsilon ,

donde $\varepsilon \sim N(0,1)$ . Entonces $Y$ puede verse como un indicador de si esta variable latente es positiva:

Y=\left.{\begin{cases}1&Y^{*}>0\\0&{\text{en otro caso}}\end{cases}}\right.={\begin{cases}1&-\varepsilon <X^{T}\beta ,\\0&{\text{en otro caso}}.\end{cases}}

El uso de la distribución normal estándar no causa pérdida de generalidad en comparación con el uso de una media arbitraria y una desviación estándar porque la suma de una cantidad fija a la media puede compensarse restando la misma cantidad de la intersección y multiplicando la desviación estándar por una cantidad fija se puede compensar multiplicando los pesos por la misma cantidad.

Para ver que los dos modelos son equivalentes, tenga en cuenta que:

{\begin{aligned}\operatorname {P} [Y=1\mid X]&=\operatorname {P} [Y^{\ast }>0]\\&=\operatorname {P} [X^{T}\beta +\varepsilon >0]\\&=\operatorname {P} [\varepsilon >-X^{T}\beta ]\\&=\operatorname {P} [\varepsilon <X^{T}\beta ]&{\text{por simetría de la distribución normal}}\\&=\Phi [X^{T}\beta ]\end{aligned}}

Estimación del modelo

Estimación de máxima verosimilitud

Supongamos que el conjunto de datos $\{y_{i},x_{i}\}_{i=1}^{n}$ contiene $n$ unidades estadísticas independientes que corresponden al modelo anterior. Entonces su función conjunta de verosimilitud de $\log$ es

\ln {\mathcal {L}}(\beta )=\sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}'\beta )+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}'\beta ){\big )}{\bigg )}

El estimador ${\widehat {\beta }}$ que maximiza esta función será consistente, asintóticamente normal y eficiente siempre que $XX^{T}$ exista y sea no singular. Se puede demostrar que esta función de verosimilitud de $\log$ es cóncava globalmente en $\beta$ , y, por lo tanto, los algoritmos numéricos estándar para la optimización convergerán rápidamente al máximo único.

Distribución asintótica para ${\hat {\beta }}$ está dado por:

{\sqrt {n}}({\hat {\beta }}-\beta )\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}),

donde

\Omega =\operatorname {E} {\bigg [}{\frac {\varphi ^{2}(X'\beta )}{\Phi (X'\beta )(1-\Phi (X'\beta ))}}XX'{\bigg ]},\qquad {\widehat {\Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x'_{i}{\hat {\beta }})}{\Phi (x'_{i}{\hat {\beta }})(1-\Phi (x'_{i}{\hat {\beta }}))}}x_{i}x'_{i}

y φ = Φ' es la función de densidad de probabilidad (PDF) de la distribución normal estándar.

El método mínimo de ji-cuadrado de Berkson

Este método solo se puede aplicar cuando hay muchas observaciones de variables de respuesta y $y_{i}$ teniendo el mismo valor del vector de regresores $x_{i}$ (tal situación puede denominarse "muchas observaciones por celda"). Más específicamente, el modelo se puede formular de la siguiente manera.

Supongamos que entre n observaciones $\{y_{i},x_{i}\}_{i=1}^{n}$ solo hay T valores distintos de los regresores, que se pueden denotar como $\{x_{(1)},\ldots ,x_{(T)}\}$ . Sea $n_{t}$ el número de observaciones con $x_{i}=x_{(t)},$ y $r_{t}$ el número de tales observaciones con $y_{i}=1$ . Suponemos que efectivamente hay "muchas" observaciones por cada "célula": para cada $t,\lim _{n\rightarrow \infty }n_{t}/n=c_{t}>0$ .

Denotemos:

{\hat {p}}_{t}=r_{t}/n_{t}

{\hat {\sigma }}_{t}^{2}={\frac {1}{n_{t}}}{\frac {{\hat {p}}_{t}(1-{\hat {p}}_{t})}{\varphi ^{2}{\big (}\Phi ^{-1}({\hat {p}}_{t}){\big )}}}

Entonces, el estimador mínimo de chi-cuadrado de Berkson es un estimador de mínimos cuadrados generalizados en una regresión de $\Phi ^{-1}({\hat {p}}_{t})$ en $x_{(t)}$ con ponderadores ${\hat {\sigma }}_{t}^{-2}$ :

{\hat {\beta }}={\Bigg (}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}x'_{(t)}{\Bigg )}^{-1}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}\Phi ^{-1}({\hat {p}}_{t})

Se puede demostrar que este estimador es consistente (como n→∞ y T fijo), asintóticamente normal y eficiente. [ cita requerida ] Su ventaja es la presencia de una fórmula de forma cerrada para el estimador. Sin embargo, solo es significativo llevar a cabo este análisis cuando las observaciones individuales no están disponibles, solo sus cuentas agregadas $r_{t}$ , $n_{t}$ , y $x_{(t)}$ (por ejemplo, en el análisis del comportamiento electoral).

Referencias

↑ Oxford English Dictionary, 3rd ed. s.v. probit (article dated June 2007): Bliss, C. I. (1934). «The Method of Probits». Science 79 (2037): 38-39. PMID 17813446. doi:10.1126/science.79.2037.38. «These arbitrary probability units have been called ‘probits’.»
↑ Ordinal probit regression model UCLA Academic Technology Services http://www.ats.ucla.edu/stat/stata/dae/ologit.htm Archivado el 10 de febrero de 2017 en Wayback Machine.
↑ Bliss, C. I. (1934). «The Method of Probits». Science 79 (2037): 38-39. PMID 17813446. doi:10.1126/science.79.2037.38.
↑ Fisher, R. A. (1935). «The Case of Zero Survivors in Probit Assays». Annals of Applied Biology 22: 164-165. doi:10.1111/j.1744-7348.1935.tb07713.x. Archivado desde el original el 30 de abril de 2014. Consultado el 31 de marzo de 2014.

Datos: Q635217
Multimedia: Probit model / Q635217

[1] Oxford English Dictionary, 3rd ed. s.v. probit (article dated June 2007): Bliss, C. I. (1934). «The Method of Probits». Science 79 (2037): 38-39. PMID 17813446. doi:10.1126/science.79.2037.38. «These arbitrary probability units have been called ‘probits’.»

[2] Ordinal probit regression model UCLA Academic Technology Services http://www.ats.ucla.edu/stat/stata/dae/ologit.htm Archivado el 10 de febrero de 2017 en Wayback Machine.

[3] Bliss, C. I. (1934). «The Method of Probits». Science 79 (2037): 38-39. PMID 17813446. doi:10.1126/science.79.2037.38.

[4] Fisher, R. A. (1935). «The Case of Zero Survivors in Probit Assays». Annals of Applied Biology 22: 164-165. doi:10.1111/j.1744-7348.1935.tb07713.x. Archivado desde el original el 30 de abril de 2014. Consultado el 31 de marzo de 2014.

[1]

[2]

[3]

[4]