Mínimos cuadrados ordinarios

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, los mínimos cuadrados ordinarios (MCO) o mínimos cuadrados lineales es el nombre de un método para encontrar los parámetros poblacionales en un modelo de regresión lineal. Este método minimiza la suma de las distancias verticales entre las respuestas observadas en la muestra y las respuestas del modelo. El parámetro resultante puede expresarse a través de una fórmula sencilla, especialmente en el caso de un único regresionador.

El método MCO, siempre y cuando se cumplan los supuestos clave, será consistente cuando los regresionadores sean exógenos y no haya perfecta multicolinealidad, este será óptimo en la clase de parámetros lineales cuando los errores sean homocedásticos y además no haya autocorrelación. En estas condiciones, el método de MCO proporciona un estimador insesgado de varianza mínima siempre que los errores tengan varianzas finitas. Bajo la suposición adicional de que los errores se distribuyen normalmente, el estimador MCO es el de máxima verosimilitud. Los MCO se utilizan en economía (econometría) y en la ingeniería eléctrica (teoría de control y procesamiento de señales), entre muchas áreas de aplicación.

Modelo Lineal[editar]

Supongamos que los datos se componen de n observaciones { y
i
, x
i
 }n
i=1
. Cada observación incluye una respuesta yi escalar y un vector de regresores o predictores xi. En un modelo de regresión lineal la variable de respuesta es una función lineal de p variables explicativas:


    y_i = x'_i\beta + \varepsilon_i, \,

donde β es un vector de parámetros desconocidos 1 ; εi es un escalar de variables no observadas aleatorias (errores) que dan cuenta de la discrepancia entre la realidad observada yi y los "resultados previstos" x′iβ, y denota la matriz transpuesta, de modo que x′ β es el producto escalar entre los vectores x y el β. Este modelo también se puede escribir en notación matricial como


    y = X\beta + \varepsilon, \,

en donde donde y y ε son vectores , y X es una matriz de regresores n×p , a lo que también se le llama la matriz de diseño. Como regla general, el término constante se incluye siempre en el conjunto de regresores X, por ejemplo, mediante la adopción dexi1 = 1 para todo i = 1, …, n. El coeficiente β1 correspondiente a este regresor se le llama el intercepto. Puede haber alguna relación entre los regresores. Por ejemplo, el regresor tercero puede ser el cuadrado del segundo regresor. En este caso (suponiendo que el primer regresor es constante) tenemos un modelo de segundo grado en el regresor segundo. Pero esto todavía se considera un modelo lineal, ya que es lineal en las βs.

Supuestos clave[editar]

Existen tres supuestos que deben cumplirse para llevar a cabo una regresión lineal, estos son:

  1. La varianza de los errores debe ser homocedastica.
  2. Las variables explicativas deben ser ortogonales a los residuos, es decir, no comparten información.
  3. Los errores no deben estar correlacionados entre sí.

Hay varios diferentes marcos en los que el modelo de regresión lineal pueden ser tratado con el fin de hacer que la técnica de MCO sea aplicable. Cada una de estas configuraciones produce las mismas fórmulas y los mismos resultados, la única diferencia es la interpretación y los supuestos que han de imponerse a fin de que el método pueda dar resultados significativos. La elección de la estructura aplicable depende principalmente de la naturaleza de los datos a la mano, y en la tarea de inferencia que se tiene que realizar.

Una de las líneas de diferencia en la interpretación es si tratar los regresores como variables aleatorias, o como constantes predefinidas. En el primer caso ("diseño aleatorio) los regresores de xi son aleatorios y se toman muestras del conjunto con los yi de alguna población, como en un estudio observacional. Este enfoque permite un estudio más natural de las propiedades asintóticas de los estimadores. En la otra interpretación (diseño fijo), los regresores de X se tratan como constantes conocidas establecidas por un diseño, y y se muestrea condicionalmente en los valores de X como en un experimento. A efectos prácticos, esta distinción a menudo carece de importancia, ya que la estimación y la inferencia se lleva a cabo mientras se condiciona en X. Todos los resultados consignados en este artículo se encuentran dentro del marco de diseño aleatorio.

Modelo clásico de regresión lineal[editar]

El modelo clásico se centra en las "muestras finitas" estimación y la inferencia, lo que significa que el número de observaciones n es fijo. Esto contrasta con otros enfoques, que estudian el comportamiento asintótico de OLS, y en el que el número de observaciones se hace tender hasta el infinito.

  • Especificación Correcta. La forma funcional lineal se ha especificado correctamente.
  • Exogeneidad estricta..Los errores en la regresión deben tener media condicionada cero.[1]
    
    \operatorname{E}[\,\varepsilon|X\,] = 0.
    La consecuencia inmediata de la hipótesis de exogeneidad es que los errores han significar cero: E[ε] = 0, y que los regresores no están correlacionadas con los errores: E[X′ε] = 0. El supuesto de exogeneidad es fundamental para la teoría de MCO. Si se mantiene entonces las variables regresoras se llaman exógeno. Si no es así, entonces los regresores que están correlacionadas con el término de error se llaman endógenas,[2] y luego las estimaciones MCO dejan de ser válidas. En tal caso, el método de variables instrumentales se pueden utilizar para llevar a cabo la inferencia.
  • No hay dependencia lineal.. Los regresores en X todos deben ser linealmente independientes. Matemáticamente esto significa que la matriz X deberá tener rango de columna completa prácticamente segura.
    
    \Pr\!\big[\,\operatorname{rank}(X) = p\,\big] = 1
    Por lo general, se supone también que los regresores tienen momentos finitos de hasta al menos segundo. En tal caso, la matriz Qxx = E [X'X / n] será finita y positiva semi-definido. Cuando esta suposición se viola los regresores se llama linealmente dependiente o multicollinear perfectamente. En tal caso, el valor de la β coeficiente de regresión no puede aprenderse, aunque predicción de los valores de y es posible que los nuevos valores de las variables independientes que se encuentran en el mismo subespacio linealmente dependientes.
  • Errores esféricos[2]
    
    \operatorname{Var}[\,\varepsilon|X\,] = \sigma^2 I_n,
    donde A es un n × n matriz de identidad, y σ2 es un parámetro que determina la varianza de cada observación. Esta σ2 se considera un parámetro molestia en el modelo, aunque por lo general, se estima. Si esta suposición se viola entonces los estimadores MCO siguen siendo válidos, pero ya no es eficaz. Es costumbre de dividir esta suposición en dos partes:
    • Homocedasticidad :E [εi2 | X] = σ2, lo que significa que el término de error tiene la misma varianza σ2 en cada observación. Cuando este requisito se viola esto se llama heterocedasticidad, en tal caso, un estimador más eficiente sería mínimos cuadrados ponderados. Si los errores tienen varianza infinita entonces las estimaciones MCO también tendrá varianza infinita (aunque por la ley de los grandes números que no obstante se tienden hacia los valores verdaderos, siempre que los errores tienen media cero). En este caso, técnicas robustas de estimación se recomiendan.
    • Autocorrelación no:los errores no están correlacionados entre observaciones: E [εiεj | X] = 0 para i ≠ j. Este supuesto puede ser violado en el contexto de los datos de series de tiempo, datos de panel, muestras de racimo, datos jerárquicos, datos de medidas repetidas, datos longitudinales, y otros datos con dependencias. En tales casos, mínimos cuadrados generalizados ofrece una mejor alternativa que el OLS.
    • Normality: A veces se supone, además, que los errores tienen distribución normal multivariante distribución normal condicional en los regresores:
    
    \varepsilon\,|\,X\ \sim\ \mathcal{N}(0,\, \sigma^2I_n).
    Este supuesto no es necesario para la validez del método OLS, aunque ciertos muestra adicionales finita propiedades se pueden establecer en el caso cuando lo hace (especialmente en el área de las pruebas de hipótesis). También cuando los errores son normales, el estimador MCO es equivalente a MLE de máxima probabilidad, y por lo tanto es asintóticamente eficiente en la clase de todos los estimadores regulares.

    Independiente e idénticamente distribuido[editar]

    En algunas aplicaciones, especialmente con datos de corte transversal, un supuesto adicional es impuesto - que todas las observaciones son independientes e idénticamente distribuidas (iid). Esto significa que todas las observaciones se toman de una muestra aleatoria que hace que todos los supuestos mencionados anteriormente sean más simples y más fáciles de interpretar. Además, este marco permite establecer resultados asintóticos (como el tamaño de la muestra n → ∞), que se entiende como una posibilidad teórica de ir a tener nuevas observaciones independientes de los datos en un proceso de generación de datos. La lista de las hipótesis en este caso es:

    • Observaciones iid: (xi, yi) son independientes entre si, y tiene la misma distribución, xj, yj) para todo i ≠ j;
    • Hay multicolinealidad perfecta: Qxx = E[ xix′i ] es una matriz indefinida positiva ;
    • Endogeneidad: E[ εi | xi ] = 0;
    • Heterocedasticidad: Var[ εi | xi ] ≠ σ2.

    Modelo de series de tiempo[editar]

    • El proceso estocástico {xi, yi} es estacionario y ergódica ;
    • Los regresores están predeterminados: E[xiεi] = 0 for all i = 1, …, n;
    • La p×p matriz Qxx es de rango completo, y por lo tanto definida positiva ;
    • {xiεi} es una secuencia de diferencia martingala , con una matriz finita de segundos momentos Qxxε² = E[ εi2xix′i ].

    Estimación[editar]

    Supongamos que b es un valor de "candidato" para el parámetro β. La cantidad yixib se denomina residual para la i-ésima observación, mide la distancia vertical entre el punto de datos (xi, yi) y el hiperplano y = x′b, y por lo tanto se determina el grado de ajuste entre los datos reales y el modelo. La suma de cuadrados de los residuos (SSR) (también llamada la suma de cuadrados del error (ESS) o suma residual de cuadrados (RSS)) [3] es una medida del ajuste del modelo general:

    
    S(b) = \sum_{i=1}^n (y_i - x'_ib)^2 = (y-Xb)^T(y-Xb),

    donde T denota la matriz de transposición . El valor de b que minimiza esta suma se llama el estimador MCO de β. La función S (b) es cuadrática en b con definida positiva de Hesse , y por lo tanto esta función posee un mínimo global único en b =\hat\beta , Que puede ser dada por la fórmula explícita: [4]

    
    \hat\beta = {\rm arg}\min_{b\in\mathbb{R}^p} S(b) =  \bigg(\frac{1}{n}\sum_{i=1}^n x_ix'_i\bigg)^{\!-1} \!\!\cdot\, \frac{1}{n}\sum_{i=1}^n x_iy_i

    o de manera equivalente en forma de matriz,

    \hat\beta = (X^TX)^{-1}X^Ty\ .

    Después hemos estimado β, los valores ajustados (o valores previstos) de la regresión se

    
    \hat{y} = X\hat\beta = Py,

    donde P = X (X T X) -1 X T es la matriz de proyección en el espacio generado por las columnas de X. Esta matriz P también a veces se llama la matriz sombrero porque "pone un sombrero" a la variable y. Otra matriz, estrechamente relacionado con P es el aniquilador matriz M = I n - P, se trata de una matriz de proyección sobre el espacio ortogonal a X. Tanto las matrices P y M son simétricas y idempotente (lo que significa que P 2 = P), y se refieren a la matriz de datos X a través de identidades PX y MX = X = 0. [7] Matriz M crea los residuos de la regresión:

    
    \hat\varepsilon = y - X\hat\beta = My = M\varepsilon.

    El uso de estos residuos se puede estimar el valor de σ2:

    
    s^2 = \frac{\hat\varepsilon'\hat\varepsilon}{n-p} = \frac{y'My}{n-p} = \frac{S(\hat\beta)}{n-p},\qquad
    \hat\sigma^2 = \frac{n-p}{n}\;s^2

    El numerador, np, son los grados de libertad estadísticos . La primera cantidad, s 2, es la estimación OLS para σ 2, mientras que el segundo, \ Scriptstyle \ hat \ sigma ^ 2 , Es la estimación MLE para σ 2. Los dos estimadores son bastante similares en muestras grandes, el primero es siempre imparcial , mientras que el segundo está sesgado, pero reduce al mínimo el error cuadrático medio del estimador. En la práctica s 2 se utiliza con más frecuencia, ya que es más conveniente para la prueba de hipótesis. La raíz cuadrada de 2 s se denomina el error estándar de la regresión (SER), o el error estándar de la ecuación (VER).[5]

    Es común para evaluar la bondad del ajuste de la regresión por mínimos cuadrados mediante la comparación de la cantidad de la variación inicial en la muestra se puede reducir mediante la regresión en X. El coeficiente de determinación R 2 se define como una proporción de "explicado" varianza de la varianza "total" de la variable dependiente y: [8]

    
    R^2 = \frac{\sum(\hat y_i-\overline{y})^2}{\sum(y_i-\overline{y})^2} = \frac{y'P'LPy}{y'Ly} = 1 - \frac{y'My}{y'Ly} = 1 - \frac{\rm SSR}{\rm TSS}

    donde TSS es la suma total de los cuadrados de la variable dependiente, L = I n - 11 '/ n, y 1 es una n × 1 vector de unos. (L es un "matriz de centrado", que es equivalente a la regresión en una constante;. Simplemente resta la media de una variable) A fin de que R2 sea significativo, la matriz X de datos sobre regresores debe contener un vector columna de unos para representar la constante cuyo coeficiente es el intercepto de regresión. En ese caso, R2 siempre será un número entre 0 y 1, con valores cercanos a 1 que indica un buen grado de ajuste.

    Modelo de regresión simple[editar]

    Si la matriz de datos X contiene sólo dos variables: una constante, y un regresor escalar x i, entonces esto se llama el "modelo de regresión simple". [9] Este caso se considera a menudo en las clases de estadísticas para principiantes, ya que ofrece mucho más simple fórmulas incluso adecuados para el cálculo manual. Los vectores de parámetros de tal modelo es de 2 dimensiones, y se denota comúnmente como (α, β):

    
    y_i = \alpha + \beta x_i + \varepsilon_i.

    Las estimaciones de mínimos cuadrados en este caso vienen dadas por fórmulas simples

    
    \hat\beta = \frac{ \sum{x_iy_i} - \frac{1}{n}\sum{x_i}\sum{y_i} }
                     { \sum{x_i^2} - \frac{1}{n}(\sum{x_i})^2 } = \frac{ \mathrm{Cov}[x,y] }{ \mathrm{Var}[x] } , \quad
    \hat\alpha = \overline{y} - \hat\beta\,\overline{x}\ .

    Derivaciones alternativas[editar]

    En el apartado anterior los mínimos cuadrados estimador \ Scriptstyle \ hat \ beta se obtuvo como un valor que minimiza la suma de los residuos al cuadrado del modelo. Sin embargo, también es posible obtener el mismo estimador de otros enfoques. En todos los casos la fórmula para estimador MCO sigue siendo el mismo: ^ β = (X'X) -1 X'y, la única diferencia está en cómo interpretamos este resultado.

    Referencias[editar]

    1. Hayashi (2000, page 7)
    2. a b Hayashi (2000, page 10)
    3. Hayashi (2000, page 15)
    4. Hayashi (2000, page 18)
    5. Hayashi (2000, page 19)