Diferencia entre revisiones de «Jackknife (estadística)»

← Ir a diferencia anterior Ir a siguiente diferencia →

Contenido eliminado Contenido añadido

En renglón

Revisión del 11:14 4 nov 2022

En estadística, el método jackknife es una técnica de remuestreo. Es una técnica útil para la estimación del sesgo y la varianza de estimadores. Intuitivamente, la técnica estima el parámetro de interés por la media de las estimaciones conseguidas al eliminar, para cada una de ellas, una de las observaciones de la muestra original, y después aplicar una corrección para el sesgo.

Historia

La técnica jackknife es anterior a otros métodos de remuestreo comunes como el bootstrap. Fue desarrollada por Maurice Quenouille (1949, 1956) y John W. Tukey (1958) se expandió en la técnica y propuso el nombre actual jackknife, ya que, al igual que una navaja de Boy Scout, es una herramienta "áspera y lista" que puede resolver una variedad de problemas a pesar de que los problemas específicos pueden ser más eficientemente resueltos con una herramienta diseñada para tal fin.^[1] Posteriormente Bradley Efron, al proponer la técnica bootstrap, demuestra que el jackknife es una aproximación lineal de esta.^[2]

Definición del estimador jackknife

Sea $\theta$ el parámetro que se quiere estimar usando un estimador ${\hat {\theta }}$ a partir de una muestra de tamaño $n$ . Se consideran los $n$ estimadores ${\hat {\theta }}_{(j)}$ de misma forma funcional que ${\hat {\theta }}$ fruto de omitir la $j$ -ésima observación de la muestra para cada $j=1,\dots ,n$ . A estas estimaciones se las conoce como replicas jackknife y un primer estimador es su media^[3]

${\hat {\theta }}_{(\cdot )}={\frac {1}{n}}\sum _{j=1}^{n}{\hat {\theta }}_{(j)}$

que en el caso en que las replicas jackknife sean incorreladas, disminuye la varianza respecto a ${\hat {\theta }}$ .

El estimador ${\hat {\theta }}$ es en general sesgado. Una asunción razonable en la mayoría de los casos es que el sesgo del estimador tiende a 0 cuanto mayor es el tamaño muestral $n$ , así se puede suponer que $\mathbb {E} [{\hat {\theta }}]\approx \theta +{\frac {b}{n}}$ . Entonces la media de las replicas jackknife cumple

$\mathbb {E} [{\hat {\theta }}_{(\cdot )}]=\mathbb {E} [{\hat {\theta }}_{(j)}]\approx \theta +{\frac {b}{n-1}}$

de manera que

$\mathbb {E} [n{\hat {\theta }}-(n-1){\hat {\theta }}_{(\cdot )}]\approx n\theta +b-(n-1)\theta -b=\theta$

Se define el estimador jackknife con correción de sesgo como

${\hat {\theta }}^{jack}=n{\hat {\theta }}-(n-1){\hat {\theta }}_{(\cdot )}$

que se puede escribir también como la media de los pseudovalores $\theta _{j}=n{\hat {\theta }}-(n-1){\hat {\theta }}_{(j)}$

${\hat {\theta }}^{jack}={\frac {1}{n}}\sum _{j=1}^{n}{\hat {\theta }}_{j}$

Estimación del sesgo y de la varianza

De la discusión del apartado anterior se tiene que

$\mathbb {E} [{\hat {\theta }}_{(\cdot )}-{\hat {\theta }}]={\frac {b}{n(n-1)}}$

por lo tanto multiplicando por $n-1$ se tiene una estimación aproximada del sesgo de ${\hat {\theta }}$ :

${\hat {\mathbb {B} }}({\hat {\theta }})=(n-1)({\hat {\theta }}_{(\cdot )}-{\hat {\theta }})$

Si al estimador ${\hat {\theta }}$ se le resta la estimación de su sesgo, se obtiene de nuevo el estimador jackknife

${\hat {\theta }}-{\hat {\mathbb {B} }}({\hat {\theta }})={\hat {\theta }}-(n-1)({\hat {\theta }}_{(\cdot )}-{\hat {\theta }})=n{\hat {\theta }}-(n-1){\hat {\theta }}_{(\cdot )}={\hat {\theta }}^{jack}$

Dada la expresión del estimador jackknife como media de pseudovalores, una estimación natural de su varianza es ${\frac {1}{n}}S^{2}$ , siendo en este caso $S^{2}$ la cuasivarianza o variana muestral de los pseudovalores^[4]

${\hat {V}}({\hat {\theta }}^{jack})={\frac {1}{n(n-1)}}\sum _{j=1}^{n}({\hat {\theta }}_{j}-{\hat {\theta }}^{jack})^{2}$ .

Esta expresión se usa también como estimación de la varianza de ${\hat {\theta }}$ .

Referencias

↑ Trivedi, P. K. (2005). Microeconometrics : methods and applications. ISBN 978-0-521-84805-3. OCLC 56599620. Consultado el 4 de noviembre de 2022.
↑ Efron, Bradley (1992). Kotz, Samuel, ed. Bootstrap Methods: Another Look at the Jackknife (en inglés). Springer. pp. 569-593. ISBN 978-1-4612-4380-9. doi:10.1007/978-1-4612-4380-9_41. Consultado el 4 de noviembre de 2022.
↑ McIntosh, Avery (1 de junio de 2016). «The Jackknife Estimation Method». arXiv:1606.00497 [stat]. Consultado el 4 de noviembre de 2022.
↑ «Resampling methods: The jackknife». Montana State University (en inglés).

Datos: Q847158

[1] Trivedi, P. K. (2005). Microeconometrics : methods and applications. ISBN 978-0-521-84805-3. OCLC 56599620. Consultado el 4 de noviembre de 2022.

[2] Efron, Bradley (1992). Kotz, Samuel, ed. Bootstrap Methods: Another Look at the Jackknife (en inglés). Springer. pp. 569-593. ISBN 978-1-4612-4380-9. doi:10.1007/978-1-4612-4380-9_41. Consultado el 4 de noviembre de 2022.

[3] McIntosh, Avery (1 de junio de 2016). «The Jackknife Estimation Method». arXiv:1606.00497 [stat]. Consultado el 4 de noviembre de 2022.

[4] «Resampling methods: The jackknife». Montana State University (en inglés).

[1]

[2]

[3]

[4]

@@ Línea 1: / Línea 1: @@
-En [[estadística]], el '''método Jackknife''' es una técnica especialmente útil para corregir el sesgo de estimación. El Jackknife es anterior a otros métodos de remuestreo común tales como el [[Bootstrapping (estadística)|Bootstrapping]]. El [[estimador]] Jackknife de un parámetro se encuentra aplicando sistemáticamente el método de estimación al conjunto de datos resultante de eliminar cada una de las observaciones. El estimador de Jacknife será el promedio de dichas estimaciones. Es decir, dada una muestra de tamaño <math>n</math>, la estimación jackknife se encuentra mediante la agregación de las estimaciones de <math>n-1</math> observaciones en la muestra.
+En [[estadística]], el '''método ''jackknife''''' es una técnica de remuestreo. Es una técnica útil para la estimación del sesgo y la varianza de estimadores. Intuitivamente, la técnica estima el parámetro de interés por la media de las estimaciones conseguidas al eliminar, para cada una de ellas, una de las observaciones de la muestra original, y después aplicar una corrección para el sesgo.
+== Historia ==
-La técnica jackknife fue desarrollada por [[Maurice Quenouille]] (1949, 1956). [[John W. Tukey]] (1958) se expandió en la técnica y propuso el nombre de "Jackknife", ya que, al igual que una navaja de [[Boy Scout]], es una herramienta "áspera y lista" que puede resolver una variedad de problemas a pesar de que los problemas específicos pueden ser más eficientemente resueltos con una herramienta diseñada para tal fin.{{sfn|Cameron|Trivedi|2005|p=375}}
+La técnica ''jackknife'' es anterior a otros métodos de remuestreo comunes como el [[Bootstrapping (estadística)|bootstrap]]. Fue desarrollada por [[Maurice Quenouille]] (1949, 1956) y [[John W. Tukey]] (1958) se expandió en la técnica y propuso el nombre actual jackknife, ya que, al igual que una navaja de [[Boy Scout]], es una herramienta "áspera y lista" que puede resolver una variedad de problemas a pesar de que los problemas específicos pueden ser más eficientemente resueltos con una herramienta diseñada para tal fin.<ref>{{Cita libro|título=Microeconometrics : methods and applications|url=https://www.worldcat.org/oclc/56599620|fecha=2005|fechaacceso=2022-11-04|isbn=978-0-521-84805-3|oclc=56599620|nombre=P. K.|apellidos=Trivedi}}</ref> Posteriormente [[Bradley Efron]], al proponer la técnica ''bootstrap'', demuestra que el ''jackknife'' es una [[aproximación lineal]] de esta.<ref>{{Cita libro|título=Bootstrap Methods: Another Look at the Jackknife|url=https://doi.org/10.1007/978-1-4612-4380-9_41|editorial=Springer|fecha=1992|fechaacceso=2022-11-04|isbn=978-1-4612-4380-9|páginas=569–593|doi=10.1007/978-1-4612-4380-9_41|idioma=en|nombre=Bradley|apellidos=Efron|nombre-editor=Samuel|apellido-editor=Kotz}}</ref>
+==Definición del estimador ''jackknife''==
-Jackknife es una [[aproximación lineal]] del Bootstrapping.{{sfn|Cameron|Trivedi|2005|p=375}}
+Sea <math>\theta</math> el parámetro que se quiere estimar usando un estimador <math>\hat{\theta}</math> a partir de una muestra de tamaño <math>n</math>. Se consideran los <math>n</math> estimadores <math>\hat{\theta}_{(j)}</math> de misma forma funcional que <math>\hat{\theta}</math> fruto de omitir la <math>j</math>-ésima observación de la muestra para cada <math>j=1,\dots, n</math>. A estas estimaciones se las conoce como ''replicas jackknife'' y un primer estimador es su media<ref>{{Cita publicación|url=http://arxiv.org/abs/1606.00497|título=The Jackknife Estimation Method|apellidos=McIntosh|nombre=Avery|fecha=2016-06-01|publicación=arXiv:1606.00497 [stat]|fechaacceso=2022-11-04}}</ref>
-==Estimación==
+<math>\hat{\theta}_{(\cdot)} = \frac{1}{n}\sum_{j=1}^n \hat{\theta}_{(j)}</math>
-La estimación jackknife de un parámetro se puede encontrar estimando el parámetro para cada submuestra omitiendo la observación i-ésima para estimar el valor previamente desconocido de un parámetro (digamos <math>\bar{x}_i</math>).{{sfn|Efron|1982|p=2}}
+que en el caso en que las replicas ''jackknife'' sean incorreladas, disminuye la varianza respecto a <math>\hat \theta</math>.
-:<math id="Redundant parentheses.">\bar{x}_i =\frac{1}{n-1} \sum_{j \neq i}^n x_j</math>
+El estimador <math>\hat \theta</math> es en general sesgado. Una asunción razonable en la mayoría de los casos es que el sesgo del estimador tiende a 0 cuanto mayor es el tamaño muestral <math>n</math>, así se puede suponer que <math>\mathbb E[\hat \theta] \approx \theta + \frac{b}{n}</math>.  Entonces la media de las replicas ''jackknife'' cumple
-==Estimación de la varianza==
+<math>\mathbb E[\hat\theta_{(\cdot)}] = \mathbb E[\hat\theta_{(j)}] \approx \theta + \frac{b}{n-1}</math>
-La estimación de la varianza del estimador se puede calcular con la siguiente expresión:
+de manera que
-: <math>\operatorname{Var}_\mathrm {(jackknife)}=\frac{n-1}{n} \sum_{i=1}^n (\bar{x}_i - \bar{x}_\mathrm{(.)})^2</math>
+<math>\mathbb E [n\hat \theta - (n-1)\hat \theta_{(\cdot)}] \approx n\theta + b- (n-1)\theta - b = \theta</math>
-dónde <math>\bar{x}_i</math> es la [[Estimación estadística|estimación de parámetros]] basada en dejar fuera la observación i-ésima, y <math>\bar{x}_\mathrm{(.)} =\frac{1}{n} \sum_{i}^n \bar{x}_i</math> es el estimador basado en todas las submuestras. {{sfn|Efron|1982|p=14}}<ref>{{cita web|last1=McIntosh|first1=Avery I.|título=The Jackknife Estimation Method|url=http://people.bu.edu/aimcinto/jackknife.pdf|website=Boston University|editorial=Avery I. McIntosh|fechaacceso=30 de abril de 2016|fechaarchivo=14 de mayo de 2016|urlarchivo=https://web.archive.org/web/20160514022307/http://people.bu.edu/aimcinto/jackknife.pdf|deadurl=yes}}</ref>
+Se define el estimador ''jackknife'' con correción de sesgo como
-==Estimación y corrección del Sesgo==
+<math>\hat \theta^{jack} = n\hat \theta - (n-1)\hat \theta_{(\cdot)}</math>
-La técnica jackknife puede usarse para estimar el sesgo de un estimador calculado sobre toda la muestra. Sea <math>\hat{\theta}</math> el estimador calculado del parámetro de interés basado en las <math>{n}</math>observaciones y sea:
-:<math>\hat{\theta}_\mathrm{(.)}=\frac{1}{n} \sum_{i=1}^n \hat{\theta}_\mathrm{(i)}</math>
-donde <math>\hat{\theta}_\mathrm{(i)}</math>es la estimación de interés basada en la muestra con la i-ésima observación eliminada, y <math>\hat{\theta}_\mathrm{(.)}</math>es el promedio de las estimaciones con <math>{n-1}</math> observaciones.
-La estimación jackknife del sesgo de <math>\hat{\theta}</math>viene dada por:
+que se puede escribir también como la media de los ''pseudovalores'' <math>\theta_j = n\hat \theta - (n-1)\hat \theta_{(j)}</math>
-:<math>\widehat{\text{Bias}}_\mathrm{(\theta)}=(n-1)(\hat{\theta}_\mathrm{(.)} - \hat{\theta})</math>
+<math>\hat \theta^{jack} = \frac{1}{n}\sum_{j=1}^n \hat \theta_j</math>
-Y la estimación de jackknife corregida por sesgo resultante de <math>\theta</math>viene dada por:
-:<math>\hat{\theta}_{\text{Jack}}=n\hat{\theta} - (n-1)\hat{\theta}_\mathrm{(.)}</math>
+==Estimación del sesgo y de la varianza==
-Esto elimina el sesgo en el caso especial de que el sesgo sea <math>O(N^{-1})</math>y para <math>O(N^{-2})</math>en otros casos.{{sfn|Cameron|Trivedi|2005|p=375}}
+De la discusión del apartado anterior se tiene que
-Este método proporciona una corrección del sesgo debido al método de estimación pero no corrige el sesgo debido a un muestreo inapropiado.
+<math>\mathbb E[\hat\theta_{(\cdot)} - \hat \theta ]= \frac{b}{n(n-1)}</math>
+por lo tanto multiplicando por <math>n-1</math> se tiene una estimación aproximada del sesgo de <math>\hat \theta</math>:
+<math>\hat {\mathbb B}(\hat \theta) = (n-1) (\hat\theta_{(\cdot)}-\hat \theta)</math>
+Si al estimador <math>\hat \theta</math> se le resta la estimación de su sesgo, se obtiene de nuevo el estimador ''jackknife''
+<math> \hat \theta - \hat{\mathbb B}(\hat \theta) =   \hat \theta - (n-1) (\hat \theta_{(\cdot)} - \hat\theta) = n\hat \theta - (n-1)\hat \theta_{(\cdot)}=\hat \theta^{jack}</math>
+Dada la expresión del estimador ''jackknife'' como media de pseudovalores, una estimación natural de su varianza es <math>\frac{1}{n}S^2</math>, siendo en este caso <math>S^2
+</math>la cuasivarianza o variana muestral de los pseudovalores<ref>{{Cita web|url=https://math.montana.edu/jobo/thainp/jack.pdf|título=Resampling methods: The jackknife|sitioweb=Montana State University|idioma=inglés}}</ref>
+<math>\hat V (\hat \theta^{jack})=  \frac{1}{n(n-1)}\sum_{j=1}^n(\hat \theta_j - \hat \theta^{jack})^2</math>.
+Esta expresión se usa también como estimación de la varianza de <math>\hat \theta</math>.
 ==Referencias==