这个 blog 来讲一下克拉默-拉奥下限(Cramér-Rao Lower Bound, CRLB),主要是根据《Mathematical Statistics and Data Analysis, 3rd Ed.》中的内容做的整理。

1. 核心思想与目的

在统计学中,我们常常有多种方法来估计同一个未知参数 θ\theta。CRLB 为我们提供了一个客观的基准来判断哪种估计方法更好。它的核心思想是,对于任何无偏估计量 (unbiased estimator),其方差不可能无限小,它必须大于或等于一个特定的理论最小值。这个最小值就是克拉默-拉奥下限。

主要作用:

  • 提供一个 benchmark:我们可以将不同无偏估计量的方差与这个下限进行比较。
  • 定义“最优”估计量:如果一个无偏估计量的方差能够达到这个下限,我们就称它为有效估计量 (efficient estimator),这意味着在所有无偏估计中,没有比它更精确的了。

2. 克拉默-拉奥不等式 (Cramér-Rao Inequality)

书中第 8.7 节的定理 A 给出了这个不等式的正式表述。

假设 X1,,XnX_1, \dots, X_n 是来自概率密度(或质量)函数为 f(xθ)f(x|\theta) 的独立同分布样本。令 T=t(X1,,Xn)T = t(X_1, \dots, X_n) 是参数 θ\theta 的一个无偏估计量。在 f(xθ)f(x|\theta) 满足适当的平滑性条件下,我们有:

Var(T)1nI(θ)\text{Var}(T) \ge \frac{1}{nI(\theta)}

这里的关键组成部分是:

  • TT:任何一个对 θ\theta 的无偏估计量,即满足 E(T)=θE(T) = \theta
  • nn:样本量。
  • I(θ)I(\theta):单个观测值的费雪信息量 (Fisher Information)

3. 证明思路(根据书中内容)

书中的证明非常巧妙,它基于相关系数的绝对值小于等于1这一基本事实。

  1. 定义一个辅助随机变量:首先定义分数函数 (score function) Z=i=1nθlogf(Xiθ)Z = \sum_{i=1}^n \frac{\partial}{\partial\theta} \log f(X_i|\theta)。我们知道 E(Z)=0E(Z)=0Var(Z)=nI(θ)\text{Var}(Z) = nI(\theta)

  2. 应用相关系数不等式:对于任意两个随机变量 ZZTT,它们协方差的平方小于等于方差的乘积:

    Cov(Z,T)2Var(Z)Var(T)\text{Cov}(Z, T)^2 \le \text{Var}(Z) \text{Var}(T)

  3. 计算协方差:证明的关键一步是计算 Cov(Z,T)\text{Cov}(Z, T)。通过交换积分和求导的顺序(这需要满足书中所说的“平滑性条件”),可以证明 Cov(Z,T)=θE(T)\text{Cov}(Z, T) = \frac{\partial}{\partial\theta} E(T)。 又因为 TTθ\theta 的无偏估计量,所以 E(T)=θE(T) = \theta,因此:

    Cov(Z,T)=θ(θ)=1\text{Cov}(Z, T) = \frac{\partial}{\partial\theta}(\theta) = 1

  4. 整合结果:将 Var(Z)=nI(θ)\text{Var}(Z) = nI(\theta)Cov(Z,T)=1\text{Cov}(Z, T) = 1 代入第2步的不等式:

    12(nI(θ))Var(T)1^2 \le (nI(\theta)) \cdot \text{Var}(T)

​ 整理后即得到克拉默-拉奥不等式。

详细证明可以看后面的附录。

4. 费雪信息与最大似然估计的关系

CRLB 与最大似然估计 (MLE) 之间有着深刻的联系。

  • 书中第 8.5.2 节指出,在大样本下,MLE 的渐近方差 (asymptotically variance) 恰好是 1nI(θ)\frac{1}{nI(\theta)}
  • 这意味着,当样本量足够大时,MLE 的方差能够达到克拉默-拉奥下限。因此,我们称最大似然估计是渐近有效的 (asymptotically efficient)

这为我们优先选择使用最大似然估计法提供了强有力的理论支持。

5. 一个具体的例子:泊松分布

书中在第 8.7 节的例 B 中,用泊松分布很好地诠释了 CRLB 的应用。

  • 背景:对于来自泊松分布的样本,其参数 λ\lambda 的最大似然估计量是样本均值 λ^MLE=Xˉ\hat{\lambda}_{\text{MLE}} = \bar{X}。我们知道 Xˉ\bar{X} 是无偏的,即 E(Xˉ)=λE(\bar{X}) = \lambda
  • 计算费雪信息:对于泊松分布,单个观测值的费雪信息是 I(λ)=1/λI(\lambda) = 1/\lambda
  • 计算CRLB:因此,对于样本量为 nn 的情况,任何无偏估计量 TT 的方差都必须满足:

    Var(T)1n(1/λ)=λn\text{Var}(T) \ge \frac{1}{n(1/\lambda)} = \frac{\lambda}{n}

  • 比较:我们来计算 Xˉ\bar{X} 的实际方差。因为 Var(Xi)=λ\text{Var}(X_i) = \lambda,所以 Var(Xˉ)=Var(Xi)n=λn\text{Var}(\bar{X}) = \frac{\text{Var}(X_i)}{n} = \frac{\lambda}{n}
  • 结论:样本均值 Xˉ\bar{X} 的方差精确地达到了克拉默-拉奥下限。因此,对于泊松分布,样本均值是估计 λ\lambda 的一个有效估计量

附录:详细证明

目标

我们要证明的是,对于一个参数 θ\theta 的任何无偏估计量 TT,其方差 Var(T)\text{Var}(T) 必须满足以下不等式:

Var(T)1nI(θ)\text{Var}(T) \ge \frac{1}{nI(\theta)}

其中 nn 是独立同分布样本的样本量,I(θ)I(\theta) 是单个观测值的费雪信息量。

证明所需的基石

这个证明巧妙地运用了以下几个核心的概率论和统计学概念:

  1. 柯西-施瓦茨不等式 (Cauchy-Schwarz Inequality) 的概率论版本:对于任意两个随机变量 UUVV,它们协方差的平方小于等于它们方差的乘积。

    Cov(U,V)2Var(U)Var(V)\text{Cov}(U, V)^2 \le \text{Var}(U)\text{Var}(V)

  2. 分数函数 (Score Function) 的性质:我们在之前的讨论和书中的 8.5.2 节 中知道,对于分数函数 Z=i=1nθlogf(Xiθ)Z = \sum_{i=1}^n \frac{\partial}{\partial\theta} \log f(X_i|\theta),它有以下两个重要性质:
    • 期望为零:E(Z)=0E(Z) = 0
    • 方差为费雪信息量:Var(Z)=nI(θ)\text{Var}(Z) = nI(\theta)
  3. 无偏估计量的定义TTθ\theta 的无偏估计量,意味着 E(T)=θE(T) = \theta
  4. 积分和求导的可交换性:这是书中所述的“适当的平滑性条件 (smoothness conditions)” 所保证的,它允许我们交换求期望(积分)和对参数求导的顺序。

详细证明步骤

第一步:设定我们的随机变量

我们定义两个随机变量,以便应用柯西-施瓦茨不等式:

  • 第一个随机变量是我们正在研究的无偏估计量 T=t(X1,,Xn)T = t(X_1, \dots, X_n)
  • 第二个随机变量是整个样本的分数函数 Z=i=1nθlogf(Xiθ)Z = \sum_{i=1}^n \frac{\partial}{\partial\theta} \log f(X_i|\theta)

第二步:应用柯西-施瓦茨不等式

TTZZ 代入柯西-施瓦茨不等式,我们得到:

Cov(Z,T)2Var(Z)Var(T)(1)\text{Cov}(Z, T)^2 \le \text{Var}(Z)\text{Var}(T) \quad (*_1)

我们的目标是分别计算出 Var(Z)\text{Var}(Z)Cov(Z,T)\text{Cov}(Z, T),然后代入这个不等式。

第三步:计算 Var(Z)\text{Var}(Z)

这一步直接利用分数函数的性质。书中在 8.5.2 节 中证明了单个观测值的分数函数 θlogf(Xiθ)\frac{\partial}{\partial\theta} \log f(X_i|\theta) 的方差是 I(θ)I(\theta)。因为我们的样本是独立同分布的,所以总分数函数 ZZ 的方差是各个分数函数方差的和:

Var(Z)=Var(i=1nθlogf(Xiθ))=i=1nVar(θlogf(Xiθ))=i=1nI(θ)=nI(θ)(2)\text{Var}(Z) = \text{Var}\left(\sum_{i=1}^n \frac{\partial}{\partial\theta} \log f(X_i|\theta)\right) = \sum_{i=1}^n \text{Var}\left(\frac{\partial}{\partial\theta} \log f(X_i|\theta)\right) = \sum_{i=1}^n I(\theta) = nI(\theta) \quad (*_2)

第四步:计算 Cov(Z,T)\text{Cov}(Z, T) (这是证明最关键的一步)

根据协方差的定义,Cov(Z,T)=E(ZT)E(Z)E(T)\text{Cov}(Z, T) = E(ZT) - E(Z)E(T)
因为我们知道 E(Z)=0E(Z) = 0,所以协方差简化为:

Cov(Z,T)=E(ZT)(3)\text{Cov}(Z, T) = E(ZT) \quad (*_3)

现在我们来计算 E(ZT)E(ZT)。我们将 ZZTT 的表达式代入期望的定义中。为了书写方便,我们用 x\mathbf{x} 代表样本 (x1,,xn)(x_1, \dots, x_n),用 dxd\mathbf{x} 代表 dx1dxndx_1 \dots dx_n

E(ZT)= ⁣t(x)(i=1nθlogf(xiθ))f(xθ)dxE(ZT) = \int \dots \int t(\mathbf{x}) \left( \sum_{i=1}^n \frac{\partial}{\partial\theta} \log f(x_i|\theta) \right) f(\mathbf{x}|\theta) d\mathbf{x}

其中 f(xθ)=j=1nf(xjθ)f(\mathbf{x}|\theta) = \prod_{j=1}^n f(x_j|\theta) 是联合概率密度函数。

书中用了一个非常关键的恒等式:

(i=1nθlogf(xiθ))j=1nf(xjθ)=θ(j=1nf(xjθ))=θf(xθ)\left( \sum_{i=1}^n \frac{\partial}{\partial\theta} \log f(x_i|\theta) \right) \prod_{j=1}^n f(x_j|\theta) = \frac{\partial}{\partial\theta} \left( \prod_{j=1}^n f(x_j|\theta) \right) = \frac{\partial}{\partial\theta} f(\mathbf{x}|\theta)

这个恒等式可以通过对 f(xθ)=f(xjθ)f(\mathbf{x}|\theta) = \prod f(x_j|\theta) 取对数、求导、再乘以 f(xθ)f(\mathbf{x}|\theta) 得到。

将这个恒等式代入期望的积分表达式中,我们得到:

E(ZT)= ⁣t(x)(θf(xθ))dxE(ZT) = \int \dots \int t(\mathbf{x}) \left( \frac{\partial}{\partial\theta} f(\mathbf{x}|\theta) \right) d\mathbf{x}

现在,我们利用“适当的平滑性条件”,交换积分和求导的顺序

E(ZT)=θ( ⁣t(x)f(xθ)dx)E(ZT) = \frac{\partial}{\partial\theta} \left( \int \dots \int t(\mathbf{x}) f(\mathbf{x}|\theta) d\mathbf{x} \right)

我们注意到,括号里的积分正是估计量 T=t(X)T = t(\mathbf{X}) 的期望值 E(T)E(T) 的定义。所以:

E(ZT)=θE(T)E(ZT) = \frac{\partial}{\partial\theta} E(T)

因为 TTθ\theta 的一个无偏估计量,所以根据定义 E(T)=θE(T) = \theta。因此:

E(ZT)=θ(θ)=1E(ZT) = \frac{\partial}{\partial\theta} (\theta) = 1

结合 (3)(*_3),我们最终得到:

Cov(Z,T)=1(4)\text{Cov}(Z, T) = 1 \quad (*_4)

第五步:将所有结果代入不等式,完成证明

现在我们将 (2)(*_2)(4)(*_4) 的结果代回到最初的不等式 (1)(*_1) 中:

Cov(Z,T)2Var(Z)Var(T)\text{Cov}(Z, T)^2 \le \text{Var}(Z)\text{Var}(T)

12(nI(θ))Var(T)1^2 \le (nI(\theta)) \cdot \text{Var}(T)

1nI(θ)Var(T)1 \le nI(\theta) \cdot \text{Var}(T)

将不等式两边同时除以 nI(θ)nI(\theta) (因为费雪信息量是非负的),即可得到克拉默-拉奥不等式:

Var(T)1nI(θ)\text{Var}(T) \ge \frac{1}{nI(\theta)}

证明完毕。✅