Cota de Cramér-Rao

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, la cota de Cramér-Rao (abreviada CRB por sus siglas del inglés) o cota inferior de Cramér-Rao (CRLB), llamada así en honor a Harald Cramér y Calyampudi Radhakrishna Rao, expresa una cota inferior para la varianza de un estimador insesgado, basado en la información de Fisher.

Establece que la inversa multiplicativa de la información de Fisher de un parámetro \theta, \mathcal{I}(\theta), es una cota inferior para la varianza de un estimador insesgado del parámetro (denotado mediante \widehat{\theta}).


\mathrm{var} \left(\widehat{\theta}\right)
\geq
\frac{1}{\mathcal{I}(\theta)}
=
\frac{1}
{
 \mathrm{E}
 \left[
  \left[
   \frac{\partial}{\partial \theta} \log f(X;\theta)
  \right]^2
 \right]
}

En algunos casos, no existe un estimador insesgado que alcance la cota inferior.

A esta cota se la conoce también como la desigualdad de Cramér-Rao o como la desigualdad de información.

Condiciones de regularidad[editar]

La cota depende de dos condiciones de regularidad débiles de la función de densidad de probabilidad, f(x; \theta), y del estimador T(X):

  • La información de Fisher siempre está definida; en otras palabras, para todo x tal que f(x; \theta) > 0,
 \frac{\partial}{\partial\theta} \ln f(x;\theta)
es finito.
  • Las operaciones de integración con respecto a x y de diferenciación con respecto a \theta pueden intercambiarse en la esperanza de T; es decir,

 \frac{\partial}{\partial\theta}
 \left[
  \int T(x) f(x;\theta) \,dx
 \right]
 =
 \int T(x)
  \left[
   \frac{\partial}{\partial\theta} f(x;\theta)
  \right]
 \,dx
siempre que el miembro derecho de la ecuación sea finito.

En algunos casos, un estimador sesgado puede tener tanto varianza como error cuadrático medio por debajo de la cota inferior de Cramér-Rao (la cota inferior se aplica solo a estimadores insesgados).

Si se extiende la segunda condición de regularidad a la segunda derivada, entonces se puede usar una forma alternativa de la información de Fisher para obtener una nueva desigualdad de Cramér-Rao


\mathrm{var} \left(\widehat{\theta}\right)
\geq
\frac{1}{\mathcal{I}(\theta)}
=
\frac{1}
{
 -\mathrm{E}
 \left[
  \frac{d^2}{d\theta^2} \log f(X;\theta)
 \right]
}

En algunos casos puede resultar más sencillo tomar la esperanza con respecto a la segunda derivada que tomarla respecto del cuadrado de la primera derivada.

Parámetros múltiples[editar]

Extendiendo la cota de Cramér-Rao para múltiples parámetros, defínase el vector columna de parámetros

\boldsymbol{\theta} = \left[ \theta_1, \theta_2, \dots, \theta_d \right]^T \in \mathbb{R}^d

con función de densidad de probabilidad f(x; \boldsymbol{\theta}) que satisface las dos condiciones de regularidad definidad anteriormente.

La matriz de información de Fisher es una matriz de dimensión d \times d con elementos \mathcal{I}_{m, k} definidos según


\mathcal{I}_{m, k}
=
\mathrm{E}
\left[
 \frac{d}{d\theta_m} \log f\left(x; \boldsymbol{\theta}\right)
 \frac{d}{d\theta_k} \log f\left(x; \boldsymbol{\theta}\right)
\right]

entonces, la cota de Cramér-Rao es


\mathrm{cov}_{\boldsymbol{\theta}}\left(\boldsymbol{T}(X)\right)
\geq
\frac
 {\partial \boldsymbol{\psi} \left(\boldsymbol{\theta}\right)}
 {\partial \boldsymbol{\theta}^T}
\mathcal{I}\left(\boldsymbol{\theta}\right)^{-1}
\frac
 {\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)^T}
 {\partial \boldsymbol{\theta}}

donde

  • 
\boldsymbol{T}(X) = \begin{bmatrix} T_1(X) & T_2(X) & \cdots & T_d(X) \end{bmatrix}^T
  • 
\boldsymbol{\psi}
=
\mathrm{E}\left[\boldsymbol{T}(X)\right]
=
\begin{bmatrix} \psi_1\left(\boldsymbol{\theta}\right) &
 \psi_2\left(\boldsymbol{\theta}\right) &
 \cdots &
 \psi_d\left(\boldsymbol{\theta}\right)
\end{bmatrix}^T


  • \frac{\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)}{\partial \boldsymbol{\theta}^T}
=
\begin{bmatrix}
 \psi_1 \left(\boldsymbol{\theta}\right) \\
 \psi_2 \left(\boldsymbol{\theta}\right) \\
 \vdots \\  \\
 \psi_d \left(\boldsymbol{\theta}\right)
\end{bmatrix}
\begin{bmatrix}
 \frac{\partial}{\partial \theta_1} &
 \frac{\partial}{\partial \theta_2} &
 \cdots &
 \frac{\partial}{\partial \theta_d}
\end{bmatrix}
=
\begin{bmatrix}
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \cdots &
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_d} \\  \\
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \cdots &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_d} \\  \\
 \vdots &
 \vdots &
 \ddots &
 \vdots \\  \\
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_d}
\end{bmatrix}


  • 
\frac{\partial \boldsymbol{\psi}\left(\boldsymbol{\theta}\right)^T}{\partial \boldsymbol{\theta}}
=
\begin{bmatrix}
 \frac{\partial}{\partial \theta_1} \\
 \frac{\partial}{\partial \theta_2} \\
 \vdots \\
 \frac{\partial}{\partial \theta_d}
\end{bmatrix}
\begin{bmatrix}
 \psi_1 \left(\boldsymbol{\theta}\right) &
 \psi_2 \left(\boldsymbol{\theta}\right) &
 \cdots &
 \psi_d \left(\boldsymbol{\theta}\right)
\end{bmatrix}
=
\begin{bmatrix}
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_1} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_1} \\  \\
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_2} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_2} \\  \\
 \vdots &
 \vdots &
 \ddots &
 \vdots \\  \\
 \frac{\partial \psi_1 \left(\boldsymbol{\theta}\right)}{\partial \theta_d} &
 \frac{\partial \psi_2 \left(\boldsymbol{\theta}\right)}{\partial \theta_d} &
 \cdots &
 \frac{\partial \psi_d \left(\boldsymbol{\theta}\right)}{\partial \theta_d}
\end{bmatrix}

Y \mathrm{cov}_{\boldsymbol{\theta}} \left( \boldsymbol{T}(X) \right) es una matriz semi-definida positiva, es decir

 x^{T} \mathrm{cov}_{\boldsymbol{\theta}} \left( \boldsymbol{T}(X) \right) x \geq 0 \quad \forall x \in \mathbb{R}^d

Si \boldsymbol{T}(X) = \begin{bmatrix} T_1(X) & T_2(X) & \cdots & T_d(X) \end{bmatrix}^T es un estimador insesgado (es decir, \boldsymbol{\psi}\left(\boldsymbol{\theta}\right) = \boldsymbol{\theta}) entonces la cota de Cramér-Rao es


\mathrm{cov}_{\boldsymbol{\theta}}\left(\boldsymbol{T}(X)\right)
\geq
\mathcal{I}\left(\boldsymbol{\theta}\right)^{-1}


Ejemplos[editar]

Distribución normal multivariada[editar]

Para el caso de una distribución normal multivariada de dimensión d


\boldsymbol{x}
\sim
N_d
\left(
 \boldsymbol{\mu} \left( \boldsymbol{\theta} \right)
 ,
 C \left( \boldsymbol{\theta} \right)
\right)

con función de densidad de probabilidad


f\left( \boldsymbol{x}; \boldsymbol{\theta} \right)
=
\frac{1}{\sqrt{ (2\pi)^d \left| C \right| }}
\exp
\left(
 -\frac{1}{2}
 \left(
  \boldsymbol{x} - \boldsymbol{\mu}
 \right)^{T}
 C^{-1}
 \left(
  \boldsymbol{x} - \boldsymbol{\mu}
 \right)
\right),

la matriz de información de Fisher tiene entradas


\mathcal{I}_{m, k}
=
\frac{\partial \boldsymbol{\mu}^T}{\partial \theta_m}
C^{-1}
\frac{\partial \boldsymbol{\mu}}{\partial \theta_k}
+
\frac{1}{2}
\mathrm{tr}
\left(
 C^{-1}
 \frac{\partial C}{\partial \theta_m}
 C^{-1}
 \frac{\partial C}{\partial \theta_k}
\right)

donde tr es la traza de una matriz.

En particular, si w[n] es ruido blanco gaussiano (una muestra de N observaciones independientes) con varianza conocida \sigma^2, es decir,

w[n] \sim \mathbb{N}_N \left(\boldsymbol{\mu}(\theta), \sigma^2 {\mathcal I} \right),

y \theta es un escalar, entonces la matriz de información de Fisher es de dimensión 1 × 1


\mathcal{I}(\theta)
=
\left(\frac{\partial\boldsymbol{\mu}(\theta)}{\partial\theta_m}\right)^TC^{-1}\left(\frac{\partial\boldsymbol{\mu}(\theta)}{\partial\theta_k}\right) = \sum^N_{i=0}\frac{1}{\sigma^2} = \frac{N}{\sigma^2},

y por lo tanto la cota de Cramér-Rao es


\mathrm{var}\left(\theta\right)
\geq
\frac{\sigma^2}{N}.