Statistics---Sufficiency

这篇 blog 主要讲一讲 statistics 里面的 sufficiency 这一个概念，主要是根据《Mathematical Statistics and Data Analysis》第 8.8 节的内容写的。充分性是统计推断中的一个核心概念，是一个用于衡量一个统计量对数据中关于未知参数信息的概括能力的指标。

1. 核心思想

充分性的核心思想是数据的无损压缩。教材在第 305 页开头提出了一个关键问题：

有没有一个统计量（它是样本的函数），能够包含样本中关于未知参数 $\theta$ 的所有信息？

如果这样的统计量存在，我们就可以用它来替代整个原始数据集，而不会损失任何与推断 $\theta$ 相关的信息。这个包含了所有信息的统计量，就被称为充分统计量 (sufficient statistic)。

例如，在分析一系列独立的伯努利试验时，我们的直觉是，只需要知道成功的总次数就可以推断成功的概率 $\theta$ ，而不需要关心成功和失败发生的具体顺序。在这个例子中，“成功的总次数”就是一个充分统计量。

当然这只是理论上如此，实际上顺序还是涵盖很多信息的，比如如果你扔 100 次硬币，前 50 次正好是 head，后 50 次正好是 tail，这个极端的 case 当然是可能发生的，但如果你遇到了你肯定会感觉这个硬币不对劲，不可能是普通的 $p = 0.5$ 的伯努利试验。

2. 正式定义

书中给出了充分性的严格数学定义：

定义：一个统计量 $T(X_1, \dots, X_n)$ 被称为是参数 $\theta$ 的充分统计量，如果给定 $T$ 的值（ $T=t$ ）之后，样本 $X_1, \dots, X_n$ 的条件分布与参数 $\theta$ 无关。

这个定义的含义是，一旦我们知道了充分统计量 $T$ 的具体数值，原始样本 $X_1, \dots, X_n$ 的具体排列方式的概率就不再提供任何关于 $\theta$ 的额外信息了。所有的信息已经被 $T$ “榨干”了。

书中在第 306 页用伯努利分布的例子验证了这个定义。它证明了，在已知总共有 $t$ 次成功的条件下，任何一种特定的成功排列方式（比如前 $t$ 次成功，后 $n−t$ 次失败）出现的条件概率是 $\frac{1}{\binom{n}{t}}$ ，这个结果与参数 $\theta$ (即成功的概率) 完全无关。

3. 如何找到充分统计量：因子分解定理

直接使用定义来寻找或验证一个充分统计量通常非常困难。因此，书中介绍了一个更实用、更强大的工具——因子分解定理 (Factorization Theorem)。

因子分解定理 (8.8.1节定理 A)：统计量 $T$ 是 $\theta$ 的充分统计量，当且仅当样本的联合概率（密度）函数 $f(x_1, \dots, x_n|\theta)$ 可以被分解为两个函数的乘积：

$f(x_1, \dots, x_n|\theta) = g(T(x_1, \dots, x_n), \theta) \cdot h(x_1, \dots, x_n)$

这个分解的两个部分分别是：

一个函数 $g$ ，它包含了所有与参数 $\theta$ 相关的项，但它对数据的依赖完全通过统计量 $T$ 来体现。
另一个函数 $h$ ，它只依赖于数据点本身，完全不包含参数 $\theta$ 。

示例：正态分布
对于一个来自正态分布 $N(\mu, \sigma^2)$ 的 i.i.d. 样本，其 joint PDF 在代数展开后，对数据的依赖完全通过两个量来体现： $\sum X_i$ 和 $\sum X_i^2$ 。因此，根据因子分解定理， $(\sum X_i, \sum X_i^2)$ 是 $(\mu, \sigma^2)$ 的一个二维充分统计量。

4. 为什么充分性如此重要？

充分性不仅仅是一个理论概念，它有非常重要的实际意义。

与最大似然估计 (MLE) 的关系：因为似然函数本身就是联合概率函数，根据因子分解定理，似然函数对 $\theta$ 的依赖也完全通过充分统计量 $T$ 来体现。因此，最大化似然函数得到的结果必然是充分统计量的函数。
与贝叶斯推断的关系：在贝叶斯分析中，后验分布正比于“先验 × 似然”。由于似然函数只通过 $T$ 依赖于数据，那么后验分布也只通过 $T$ 依赖于数据。
改进估计量：拉奥-布莱克韦尔定理 (Rao-Blackwell Theorem)：这是书中在 8.8.2 节介绍的一个深刻定理。它给出了为什么我们应该基于充分统计量来构建估计量的定量理由。

定理内容：如果你有一个任意的估计量 $\hat{\theta}$ ，并且存在一个充分统计量 $T$ ，那么你可以通过计算 $\hat{\theta}$ 在给定 $T$ 下的条件期望来构造一个新的估计量 $\tilde{\theta} = E(\hat{\theta}|T)$ 。这个新的估计量 $\tilde{\theta}$ 在均方误差的意义上，至少和原来的估计量一样好（通常会更好）。

简单来说，这个定理告诉我们，任何一个不是充分统计量函数的估计量，都可以被改进。

总结

方面	解释
直观概念	一个“无损压缩”数据的统计量，它保留了样本中所有关于未知参数的信息。
严格定义	一旦知道了充分统计量的值，原始数据的具体排列方式的条件概率就与参数无关了。
核心工具	因子分解定理是判断和寻找充分统计量的最实用方法。
重要意义	1. 数据压缩：允许我们在不损失信息的前提下简化数据。 2. 理论指导：为寻找“好”的估计量提供了方向。MLE 和贝叶斯后验都依赖于充分统计量。 3. 估计改进：拉奥-布莱克韦尔定理证明了任何非充分统计量的函数都可以被改进。

附录：因子分解定理的详细证明

根据教材 8.8.1 节，该定理是一个充要条件，需要双向证明。以下证明以离散情况为例。

A.1 证明：因子分解 → 充分性

前提: 假设联合概率质量函数 (PMF) 可以被分解为 $f(\mathbf{x}|\theta) = g(T(\mathbf{x}), \theta) \cdot h(\mathbf{x})$ 。
目标: 证明 $T$ 是充分的，即证明条件概率 $P(\mathbf{X}=\mathbf{x} | T=t)$ 在 given $T = t$ 的情况下，不依赖于 $\theta$ 。

证明步骤：

根据条件概率的定义:

$P(\mathbf{X}=\mathbf{x} | T=t) = \frac{P(\mathbf{X}=\mathbf{x} \text{ and } T=t)}{P(T=t)}$
分析分子:
事件 “ $\mathbf{X}=\mathbf{x}$ and $T=t$ ” 只有在 $T(\mathbf{x})=t$ 时才可能发生，而我们的目标只关心 $T(\mathbf{x})=t$ 的时候，此时该事件等同于 “ $\mathbf{X}=\mathbf{x}$ ”。因此，分子的概率就是 $f(\mathbf{x}|\theta)$ 。

$\text{分子} = f(\mathbf{x}|\theta) = g(T(\mathbf{x}), \theta) \cdot h(\mathbf{x}) = g(t, \theta) \cdot h(\mathbf{x})$
分析分母:
事件 “ $T=t$ ” 的概率是所有能使 $T(\mathbf{x}')=t$ 的不同样本 $\mathbf{x}'$ 的概率之和。

$P(T=t) = \sum_{\mathbf{x}' \text{ s.t. } T(\mathbf{x}')=t} f(\mathbf{x}'|\theta) = \sum_{T(\mathbf{x}')=t} [g(T(\mathbf{x}'), \theta) \cdot h(\mathbf{x}')]$

在求和范围内， $T(\mathbf{x}')$ 的值恒为 $t$ ，因此 $g(T(\mathbf{x}'), \theta)$ 是一个常数 $g(t, \theta)$ ，可以被提出来。

$\text{分母} = g(t, \theta) \sum_{T(\mathbf{x}')=t} h(\mathbf{x}')$
组合与结论:
将分子和分母代入，包含参数 $\theta$ 的项 $g(t, \theta)$ 被完全约掉。

$P(\mathbf{X}=\mathbf{x} | T=t) = \frac{g(t, \theta) \cdot h(\mathbf{x})}{g(t, \theta) \sum_{T(\mathbf{x}')=t} h(\mathbf{x}')} = \frac{h(\mathbf{x})}{\sum_{T(\mathbf{x}')=t} h(\mathbf{x}')}$

这个最终结果完全不包含 $\theta$ ，因此证明了 $T$ 是充分的。

A.2 证明：充分性 → 因子分解

前提: $T$ 是一个充分统计量，即条件概率 $P(\mathbf{X}=\mathbf{x} | T=t)$ 不依赖于 $\theta$ 。
目标: 证明联合 PMF $f(\mathbf{x}|\theta)$ 可以被分解为 $g(T(\mathbf{x}), \theta) \cdot h(\mathbf{x})$ 的形式。

证明步骤：

根据条件概率的乘法法则:
因为 sufficiency 的定义，我们知道 $t=T(\mathbf{x})$ ，所以对于任意样本 $\mathbf{x}$ 。

$f(\mathbf{x}|\theta) = P(\mathbf{X}=\mathbf{x} | \theta) = P(\mathbf{X}=\mathbf{x} \text{ and } T=t | \theta) = P(\mathbf{X}=\mathbf{x} | T=t, \theta) \cdot P(T=t | \theta)$
识别 g 和 h 函数:
- 我们定义 $g(t, \theta) = P(T=t | \theta)$ 。这个函数是统计量 $T$ 的 PMF，它对数据的依赖完全通过 $t$ 来体现，并且依赖于 $\theta$ 。这符合 $g$ 函数的要求。
- 我们定义 $h(\mathbf{x}) = P(\mathbf{X}=\mathbf{x} | T=t, \theta)$ 。根据我们的前提（ $T$ 是充分的），这个条件概率不依赖于 $\theta$ 。因此，它只是一个关于数据 $\mathbf{x}$ 的函数。这符合 $h$ 函数的要求。
得出结论:
将上面定义的 $g$ 和 $h$ 替换回表达式中，就得到了：

$f(\mathbf{x}|\theta) = h(\mathbf{x}) \cdot g(t, \theta) = g(T(\mathbf{x}), \theta) \cdot h(\mathbf{x})$

我们成功地将联合概率函数分解成了所需的形式。