Prueba de Goldfeld–Quandt

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, el test de Goldfeld-Quandt (por Stephen Goldfeld y Richard E. Quandt) comprueba la homocedasticidad en análisis de regresión. Para ello divide un conjunto de datos en dos partes o grupos, y por lo tanto la prueba a veces se llama una prueba de dos grupos. La prueba Goldfeld-Quandt es uno de dos pruebas propuestas en un artículo de 1965 por Stephen Goldfeld y Richard Quandt. Tanto el método paramétrico como no paramétrico se describen en el documento, pero el término "prueba Goldfeld-Quandt" por lo general se asocian únicamente con el primero.

Prueba[editar]

Una prueba paramétrica para la igualdad de la varianza puede ser visualizado por la indexación de los datos por alguna variable, la eliminación de puntos de datos en el centro y la comparación de las desviaciones medias de la parte izquierda y derecha.

En el contexto de la regresión múltiple (o la regresión univariante), la hipótesis que es probada es que la varianza de los errores en la regresion no son constantes, pero esta monotónicamente relacionada con una variable explicativa pre-identificada. Por ejemplo, si se obtienen datos sobre ingreso y consumo, se puede construir una regresion del consumo en función del ingreso. Si la varianza aumenta a medida que aumenta el ingreso, esta variable estaria violando el supuesto de homocedaticidad necesario para regresiones por medio de Minimos Cuadrados Ordinarios.

Prueba paramétrica[editar]

La prueba no paramétrica se logra mediante la realización de diferentes análisis menos plazas en dos subconjuntos del conjunto de datos original : se especifican estos subconjuntos de modo que las observaciones de que la variable explicativa pre - identificados toma los valores más bajos se encuentran en un subconjunto , con valores más altos en el otro . Los subconjuntos necesita no ser del mismo tamaño , ni contienen todas las observaciones entre ellos. La prueba paramétrica asume que los errores tienen una distribución normal . Hay una suposición adicional aquí , que las matrices de diseño para los dos subconjuntos de datos son tanto de rango completo . La estadística de prueba usada es la relación de las medias de los errores residuales cuadrados para las regresiones en los dos subconjuntos . Esta estadística de prueba corresponde a una prueba F de la igualdad de las varianzas , y una de una o dos caras de prueba puede ser apropiado dependiendo de si o no la dirección de la supuesta relación de la varianza del error de la variable explicativa se conoce .

El aumento del número de observaciones se redujo en el "medio" de la ordenación aumente el poder de la prueba, pero reducir los grados de libertad para el estadístico de prueba. Como resultado de esta desventaja de que es común para ver el examen Goldfeld - Quandt realizado por dejar caer el tercio medio de observaciones con proporciones más pequeñas de observaciones se redujo a medida que aumenta tamaño de la muestra.

Prueba no paramétrica[editar]

La prueba no paramétrica se puede visualizar mediante la comparación del número de "picos" en los residuos de una regresión ordenada contra una variable pre-identificado con el número de picos surgirían al azar. La cifra más baja se proporciona solo para comparación, ninguna parte de la prueba consiste en la comparación visual con una estructura de error homocedástico hipotético.

La segunda prueba se propone en el documento es un uno no paramétrico y por lo tanto no se basa en la suposición de que los errores tienen una distribución normal. Para esta prueba, un modelo de regresión simple se monta en el conjunto de datos completo. Los cuadrados de los residuos se clasifican de acuerdo con el orden de la variable explicativa pre-identificados. El estadístico de prueba se utiliza para probar la homogeneidad es el número de picos en esta lista, es decir. el recuento del número de casos en los que un residuo al cuadrado es mayor que todos los cuadrados de los residuos anteriores. Límites de la estadística de prueba se construyen un argumento relacionado con las pruebas de permutación.

Ventajas y desventajas[editar]

La prueba Goldfeld-Quandt paramétrico ofrece un simple e intuitivo de diagnóstico de errores heteroscedásticos en un modelo de regresión univariante o multivariante. Sin embargo, surgen algunos inconvenientes en determinadas especificaciones o en comparación con otros diagnósticos, es decir, la prueba Breusch-Pagan, como la prueba Goldfeld-Quandt es algo así como una prueba ad hoc. En primer lugar, la prueba Goldfeld-Quandt requiere que los datos se ordenan a lo largo de una variable explicativa conocida. Las órdenes de pruebas paramétricas a lo largo de esta variable explicativa de menor a mayor. Si la estructura de error depende de una variable desconocida o una variable no observada la prueba Goldfeld-Quandt ofrece poca orientación. Además, la varianza de error debe ser una función monótona de la variable explicativa especificada. Por ejemplo, cuando se enfrentan a una función cuadrática mapeo de la variable explicativa de la varianza del error de la prueba Goldfeld-Quandt podrá aceptar incorrectamente la hipótesis nula de errores homocedásticos.

Robustez[editar]

Desafortunadamente la prueba Goldfeld-Quandt no es muy robusto a errores de especificación. La prueba Goldfeld-Quandt detecta errores no homocedásticos pero no puede distinguir entre la estructura de error heteroscedástico y un problema subyacente, como la especificación de una forma funcional incorrecta o una variable omitida. Jerry Thursby propone una modificación de la prueba Goldfeld-Quandt usando una variación de la prueba de RESET de Ramsey con el fin de proporcionar alguna medida de la robustez.

Propiedades de muestras pequeñas[editar]

Herbert Glejser, en su artículo de 1969, delineando la prueba Glejser, proporciona un pequeño experimento de muestreo para probar la potencia y la sensibilidad de la prueba Goldfeld-Quandt. Sus resultados muestran un limitado éxito para la prueba Goldfeld-Quandt, excepto en los casos de "heteroscedasticidad pura", que es donde la varianza puede ser descrita como una función de una sola variable explicativa subyacente.