Diferencia entre revisiones de «Análisis de la regresión»

← Ir a diferencia anterior Ir a siguiente diferencia →

Contenido eliminado Contenido añadido

En renglón

Revisión del 21:22 5 jun 2009

La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra.

Origen del concepto

El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue confirmada por su amigo Karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable A) a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar a la media. Galton generalizó esta tendencia bajo la "ley de la regresión universal": «Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.»

Modelos de regresión

Regresión lineal

Artículo principal: Regresión lineal

Regresión lineal simple

Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = a + bX

a (ordenada en el origen, constante)

b (pendiente de la recta)

A la cantidad e=Y-Ŷ se le denomina residuo o error residual.

Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0,5X

Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre.

Regresión lineal múltiple

Regresión no lineal

Artículo principal: Regresión no lineal

Regresión Exponencial

La regresión cuadrática es el proceso por el cuál encontramos los parámetros de una parábola que mejor se ajusten a una serie de datos que poseemos, ya sean mediciones hechas o de otro tipo. Bueno, pero por que habríamos de querer ajustar nuestros datos precisamente a una parábola y no a otra función? (ver escogiendo la función de ajuste).

Una función cuadrática o de segundo grado se puede representar de manera genérica como :

Entonces lo que nos interesa es encontrar los valores de a, b y c que hacen que el valor de y calculado sea lo mas cercano posible al medido.

Deducción de las Ecuaciones:

De nuevo hacemos una definición de la función de error, y encontramos los valores de los parámetros que la minimizan, tomando derivadas parciales de la función por cada parámetro que haya:

Una vez se haya reemplazado el valor de n, y de las sumatorias, sólo habrá que solucionar el sistema de ecuaciones por su método preferido, Eliminación Gaussiana, Krammer, etc. Después de que ha solucionado el sistema de ecuaciones entonces tendrá el valor de los parámetros: a,b,c.

Ejemplo:

En determinado proceso se realizaron una serie de 24 mediciones, que luego al graficarse se determinó que es de naturaleza cuadrática. Se desea encontrar los parámetros del polinomio de segundo grado, que mejor se ajusta a esa serie de datos, y cuál es el valor de la variable dependiente, cuando el valor de la variable independiente es de 20.

La tabla con los datos medidos es la siguiente:

X Y 0 10,08 0,5 12,03 1 11,38 1,5 18,81 2 20,53 2,5 28,50 3 31,38 3,5 38,40 4 48,39 4,5 60,60 5 66,66 5,5 82,61 6 91,37 6,5 105,44 7 122,53 7,5 137,77 8 152,74 8,5 172,65 9 188,84 9,5 207,77 10 230,94 10,5 251,35 11 274,07 11,5 295,95

Ahora, teniendo en cuenta la matriz que dedujimos anteriormente, sabemos que tenemos que encontrar los valores de la suma de x, la suma de x^2, de x^3, x^4, de Yi, xYi, x^2*Yi y n=24.

X Y X^2 X^3 X^4 Xyi X^2Yi 0 10,08 0,00 0,00 0,00 0,00 0,00 0,5 12,03 0,25 0,13 0,06 6,01 3,01 1 11,38 1,00 1,00 1,00 11,38 11,38 1,5 18,81 2,25 3,38 5,06 28,21 42,31 2 20,53 4,00 8,00 16,00 41,06 82,13 2,5 28,50 6,25 15,63 39,06 71,24 178,11 3 31,38 9,00 27,00 81,00 94,14 282,41 3,5 38,40 12,25 42,88 150,06 134,39 470,36 4 48,39 16,00 64,00 256,00 193,56 774,26 4,5 60,60 20,25 91,13 410,06 272,68 1227,08 5 66,66 25,00 125,00 625,00 333,31 1666,55 5,5 82,61 30,25 166,38 915,06 454,37 2499,02 6 91,37 36,00 216,00 1296,00 548,23 3289,38 6,5 105,44 42,25 274,63 1785,06 685,39 4455,05 7 122,53 49,00 343,00 2401,00 857,74 6004,20 7,5 137,77 56,25 421,88 3164,06 1033,24 7749,32 8 152,74 64,00 512,00 4096,00 1221,90 9775,23 8,5 172,65 72,25 614,13 5220,06 1467,54 12474,08 9 188,84 81,00 729,00 6561,00 1699,55 15295,92 9,5 207,77 90,25 857,38 8145,06 1973,80 18751,13 10 230,94 100,00 1000,00 10000,00 2309,40 23093,97 10,5 251,35 110,25 1157,63 12155,06 2639,18 27711,38 11 274,07 121,00 1331,00 14641,00 3014,81 33162,86 11,5 295,95 132,25 1520,88 17490,06 3403,37 39138,76 Total 138 266,078,166 1081 9522 89452,75 22494,51 208137,88

Reemplacemos los valores en la matriz...

Aquí tenemos la matriz, resolviendo, por Gauss Jordan

24 138 1081 2660,8 138 1081 9522 22495 1081 9522 89453 208138

1 5,75 45,04 110,86 0 287,5 3306,25 7195,4 0 3306,25 40762,95 88291,13

1 0 -21,08 -33,04 0 1 11,5 25,02 0 0 2741,08 5544,03

1 0 0 9,60 0 1 0 1,76 0 0 1 2,02

Por lo tanto: a=9.6 b=1.76 c=2.02 la parábola de mejor ajuste es entonces:

Regresión Cuadratica

que pasa que no hay info?!

Enlaces externos

juan dxvid

@@ Línea 138: / Línea 138: @@
 === Regresión Cuadratica ===
 que pasa que no hay info?!
-LAREGRESION
 == Enlaces externos ==