这个 blog 来讲一下克拉默-拉奥下限(Cramér-Rao Lower Bound, CRLB),主要是根据《Mathematical Statistics and Data Analysis, 3rd Ed.》中的内容做的整理。
1. 核心思想与目的
在统计学中,我们常常有多种方法来估计同一个未知参数 θ。CRLB 为我们提供了一个客观的基准来判断哪种估计方法更好。它的核心思想是,对于任何无偏估计量 (unbiased estimator),其方差不可能无限小,它必须大于或等于一个特定的理论最小值。这个最小值就是克拉默-拉奥下限。
主要作用:
- 提供一个 benchmark:我们可以将不同无偏估计量的方差与这个下限进行比较。
- 定义“最优”估计量:如果一个无偏估计量的方差能够达到这个下限,我们就称它为有效估计量 (efficient estimator),这意味着在所有无偏估计中,没有比它更精确的了。
2. 克拉默-拉奥不等式 (Cramér-Rao Inequality)
书中第 8.7 节的定理 A 给出了这个不等式的正式表述。
假设 X1,…,Xn 是来自概率密度(或质量)函数为 f(x∣θ) 的独立同分布样本。令 T=t(X1,…,Xn) 是参数 θ 的一个无偏估计量。在 f(x∣θ) 满足适当的平滑性条件下,我们有:
Var(T)≥nI(θ)1
这里的关键组成部分是:
- T:任何一个对 θ 的无偏估计量,即满足 E(T)=θ。
- n:样本量。
- I(θ):单个观测值的费雪信息量 (Fisher Information)。
3. 证明思路(根据书中内容)
书中的证明非常巧妙,它基于相关系数的绝对值小于等于1这一基本事实。
-
定义一个辅助随机变量:首先定义分数函数 (score function) Z=∑i=1n∂θ∂logf(Xi∣θ)。我们知道 E(Z)=0 且 Var(Z)=nI(θ)。
-
应用相关系数不等式:对于任意两个随机变量 Z 和 T,它们协方差的平方小于等于方差的乘积:
Cov(Z,T)2≤Var(Z)Var(T)
-
计算协方差:证明的关键一步是计算 Cov(Z,T)。通过交换积分和求导的顺序(这需要满足书中所说的“平滑性条件”),可以证明 Cov(Z,T)=∂θ∂E(T)。 又因为 T 是 θ 的无偏估计量,所以 E(T)=θ,因此:
Cov(Z,T)=∂θ∂(θ)=1
-
整合结果:将 Var(Z)=nI(θ) 和 Cov(Z,T)=1 代入第2步的不等式:
12≤(nI(θ))⋅Var(T)
整理后即得到克拉默-拉奥不等式。
详细证明可以看后面的附录。
4. 费雪信息与最大似然估计的关系
CRLB 与最大似然估计 (MLE) 之间有着深刻的联系。
- 书中第 8.5.2 节指出,在大样本下,MLE 的渐近方差 (asymptotically variance) 恰好是 nI(θ)1。
- 这意味着,当样本量足够大时,MLE 的方差能够达到克拉默-拉奥下限。因此,我们称最大似然估计是渐近有效的 (asymptotically efficient)。
这为我们优先选择使用最大似然估计法提供了强有力的理论支持。
5. 一个具体的例子:泊松分布
书中在第 8.7 节的例 B 中,用泊松分布很好地诠释了 CRLB 的应用。
附录:详细证明
目标
我们要证明的是,对于一个参数 θ 的任何无偏估计量 T,其方差 Var(T) 必须满足以下不等式:
Var(T)≥nI(θ)1
其中 n 是独立同分布样本的样本量,I(θ) 是单个观测值的费雪信息量。
证明所需的基石
这个证明巧妙地运用了以下几个核心的概率论和统计学概念:
- 柯西-施瓦茨不等式 (Cauchy-Schwarz Inequality) 的概率论版本:对于任意两个随机变量 U 和 V,它们协方差的平方小于等于它们方差的乘积。
Cov(U,V)2≤Var(U)Var(V)
- 分数函数 (Score Function) 的性质:我们在之前的讨论和书中的 8.5.2 节 中知道,对于分数函数 Z=∑i=1n∂θ∂logf(Xi∣θ),它有以下两个重要性质:
- 期望为零:E(Z)=0
- 方差为费雪信息量:Var(Z)=nI(θ)
- 无偏估计量的定义:T 是 θ 的无偏估计量,意味着 E(T)=θ。
- 积分和求导的可交换性:这是书中所述的“适当的平滑性条件 (smoothness conditions)” 所保证的,它允许我们交换求期望(积分)和对参数求导的顺序。
详细证明步骤
第一步:设定我们的随机变量
我们定义两个随机变量,以便应用柯西-施瓦茨不等式:
- 第一个随机变量是我们正在研究的无偏估计量 T=t(X1,…,Xn)。
- 第二个随机变量是整个样本的分数函数 Z=∑i=1n∂θ∂logf(Xi∣θ)。
第二步:应用柯西-施瓦茨不等式
将 T 和 Z 代入柯西-施瓦茨不等式,我们得到:
Cov(Z,T)2≤Var(Z)Var(T)(∗1)
我们的目标是分别计算出 Var(Z) 和 Cov(Z,T),然后代入这个不等式。
第三步:计算 Var(Z)
这一步直接利用分数函数的性质。书中在 8.5.2 节 中证明了单个观测值的分数函数 ∂θ∂logf(Xi∣θ) 的方差是 I(θ)。因为我们的样本是独立同分布的,所以总分数函数 Z 的方差是各个分数函数方差的和:
Var(Z)=Var(i=1∑n∂θ∂logf(Xi∣θ))=i=1∑nVar(∂θ∂logf(Xi∣θ))=i=1∑nI(θ)=nI(θ)(∗2)
第四步:计算 Cov(Z,T) (这是证明最关键的一步)
根据协方差的定义,Cov(Z,T)=E(ZT)−E(Z)E(T)。
因为我们知道 E(Z)=0,所以协方差简化为:
Cov(Z,T)=E(ZT)(∗3)
现在我们来计算 E(ZT)。我们将 Z 和 T 的表达式代入期望的定义中。为了书写方便,我们用 x 代表样本 (x1,…,xn),用 dx 代表 dx1…dxn。
E(ZT)=∫⋯∫t(x)(i=1∑n∂θ∂logf(xi∣θ))f(x∣θ)dx
其中 f(x∣θ)=∏j=1nf(xj∣θ) 是联合概率密度函数。
书中用了一个非常关键的恒等式:
(i=1∑n∂θ∂logf(xi∣θ))j=1∏nf(xj∣θ)=∂θ∂(j=1∏nf(xj∣θ))=∂θ∂f(x∣θ)
这个恒等式可以通过对 f(x∣θ)=∏f(xj∣θ) 取对数、求导、再乘以 f(x∣θ) 得到。
将这个恒等式代入期望的积分表达式中,我们得到:
E(ZT)=∫⋯∫t(x)(∂θ∂f(x∣θ))dx
现在,我们利用“适当的平滑性条件”,交换积分和求导的顺序:
E(ZT)=∂θ∂(∫⋯∫t(x)f(x∣θ)dx)
我们注意到,括号里的积分正是估计量 T=t(X) 的期望值 E(T) 的定义。所以:
E(ZT)=∂θ∂E(T)
因为 T 是 θ 的一个无偏估计量,所以根据定义 E(T)=θ。因此:
E(ZT)=∂θ∂(θ)=1
结合 (∗3),我们最终得到:
Cov(Z,T)=1(∗4)
第五步:将所有结果代入不等式,完成证明
现在我们将 (∗2) 和 (∗4) 的结果代回到最初的不等式 (∗1) 中:
Cov(Z,T)2≤Var(Z)Var(T)
12≤(nI(θ))⋅Var(T)
1≤nI(θ)⋅Var(T)
将不等式两边同时除以 nI(θ) (因为费雪信息量是非负的),即可得到克拉默-拉奥不等式:
Var(T)≥nI(θ)1
证明完毕。✅