Coeficiente de determinación

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda
Ajuste ordinario por mínimos cuadrados. Mientras los puntos no disten mucho de la línea de la regresión, el coeficiente de determinación adoptará valores altos.

En estadística, el coeficiente de determinación, denominado R2 y pronunciado R cuadrado, es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros resultados o testear una hipótesis. El coeficiente determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo.[1]

Hay varias definiciones diferentes para R2 que son algunas veces equivalentes. Las más comunes se refieren a la regresión lineal. En este caso, el R2 es simplemente el cuadrado del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal simple. Si existe varios resultados para una única variable, es decir, para una X existe una Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de determinación múltiple. En ambos casos el R2 adquiere valores entre 0 y 1. Existen casos dentro de la definición computacional de R2 donde este valor puede tomar valores negativos[2] .

Cálculo[editar]

Caso general[editar]

Un modelo estadístico se construye para explicar una variable aleatoria que llamaremos dependiente a través de otras variables aleatorias a las que llamaremos factores. Dado que podemos predecir una variable aleatoria mediante su media y que, en este caso, el error cuadrático medio es su varianza, el máximo error cuadrático medio que podemos aceptar en un modelo para una variable aleatoria que posea los dos primeros momentos es la varianza. Para estimar el modelo haremos varias observaciones de la variable a predecir y de los factores. A la diferencia entre el valor observado de la variable y el valor predicho la llamaremos residuo. La media cuadrática de los residuos es la varianza residual.

Si representamos por \sigma^2 la varianza de la variable dependiente y la varianza residual por \sigma^2_r, el coeficiente de determinación viene dado por la siguiente ecuación:

 \rho^2 = 1 - { {\sigma^2_r} \over  {\sigma^2} }

Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el 100% de valor de la variable; si coincide con la varianza de la variable dependiente, el modelo no explica nada y el coeficiente de determinación es del 0%. En variables económicas y financieras, suele ser difícil conseguir un coeficiente de determinación mayor de un 30%.

Para la regresión lineal[editar]

Para la regresión basta con hacer el cuadrado del coeficiente de correlación de Pearson.

R^2={\sigma_{XY}^2 \over \sigma_X^2 \sigma_Y^2}

Donde:

Modelo lineal[editar]

En un modelo lineal, la variable dependiente y se explica mediante la ecuación y= \sum_{j=1}^n \beta_j x_j . Si observamos n veces tanto la variable aleatoria como los factores, podemos ordenar nuestras observaciones de la variable dependiente en una matriz  \bold y mientras que colocaremos las de los factores en la matriz de regresión  \bold X . Cada observación corresponderá a una coordenada de \bold y y a una fila de  \bold X . Cada columna de la matriz de regresión corresponde a las observaciones de un factor. En cada observación el modelo cometerá un error:

 y_i = \sum_{j=1}^m \beta_j x_{ij}  + \varepsilon_i

Estos errores se llaman residuos. La varianza residual es la varianza de estos residuos.

 \sigma_r^2 = \sum_{i=1}^n \varepsilon_i^2  = \bold \varepsilon ' \bold \varepsilon = (\bold y - \bold X \bold \beta ) ' (\bold y - \bold X \bold \beta )

 \sum_{j=1}^n \beta_j x_{ij}  es la parte de la variación de y_i explicada por el modelo lineal.

 \varepsilon_i es la parte de la variación de y_i que no explica el modelo lineal.

Sumando estas dos partes, obtenemos y_i.


Problema: El valor del coeficiente de determinación siempre aumenta cuando incluimos nuevas variables en el modelo, incluso cuando éstas son poco significativas o tienen poca correlación con la variable dependiente. Para resolverlo tenemos el coeficiente de determinación corregido.

Enlaces externos[editar]

  • Mail.com Coeficiente de determinación

Referencias[editar]

  1. Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill, 1960, pp. 187, 287.)
  2. «An R-squared measure of goodness of fit for some common nonlinear regression models». Journal of Econometrics 77 (2):  pp. 1790–2. 1997. doi:10.1016/S0304-4076(96)01818-0. PMID 11230695.