本篇内容主要就来讲一讲 likelihood ratio,感觉这部分在大部分的理工科统计中是没有被覆盖的,但却是一个有关 hypothesis test 的重要内容。

一、 简单假设下的似然比检验 (Simple Hypothesis)

似然比检验 (Likelihood Ratio Test, LRT) 提供了一种构造检验统计量(test statistic)的通用方法。首先考虑最简单的情况:检验两个完全指定了概率分布的假设。

1. 定义似然比

假设观测数据 X=(X1,,Xn)\vec{X} = (X_1, \dots, X_n) 具有联合概率密度函数或频率函数 f(xθ)f(x | \theta)。我们设定两个简单假设:

  • 原假设 (H0H_0): Xf0(x)\vec{X} \sim f_0(\vec{x})
  • 备择假设 (HAH_A): XfA(x)\vec{X} \sim f_A(\vec{x})

在观测到数据 x\vec{x} 后,似然比统计量 LRLR 定义为:

LR(x)=L(θ0x)L(θAx)=f0(x)fA(x)LR(\vec{x}) = \frac{L(\theta_0 | \vec{x})}{L(\theta_A | \vec{x})} = \frac{f_0(\vec{x})}{f_A(\vec{x})}

2. 最优性:Neyman-Pearson 引理

Neyman-Pearson 引理证明了基于似然比构造的检验是最优的。最优性是指在固定第一类错误概率 α\alpha(显著性水平)时,似然比检验能够提供最大功效 (1β1-\beta)。

  • LRT 决策规则 d(x)d(\vec{x}): 如果似然比 LR<cLR < c,则拒绝 H0H_0

    dLRT(x)={1if LR<c    x prefers HA (Reject H0)0if LRc    x prefers H0 (Fail to reject H0)d_{\text{LRT}}(\vec{x}) = \begin{cases} 1 & \text{if } LR < c \implies \vec{x} \text{ prefers } H_A \text{ (Reject } H_0 \text{)}\\ 0 & \text{if } LR \ge c \implies \vec{x} \text{ prefers } H_0 \text{ (Fail to reject } H_0 \text{)}\end{cases}

  • 结论:α\alpha 水平下,LRT 是功效最大的检验。

二、 推广到复合假设 (General Case)

在大多数实际问题中,假设是复合假设(Composite Hypothesis)。在这种情况下,我们使用广义似然比检验 (Generalized Likelihood Ratio Test, GLRT)。

1. 广义似然比统计量 (Λ)(\Lambda)

假设 Ω\Omega 是总参数空间,ω0\omega_0 是原假设下的参数子空间。广义似然比统计量 (Λ)(\Lambda) 的定义为:

Λ=maxθω0[lik(θ)]maxθΩ[lik(θ)]\Lambda = \frac{\max_{\theta \in \omega_0} [\text{lik}(\theta)]}{\max_{\theta \in \Omega} [\text{lik}(\theta)]}

  • 取值范围: 0Λ10 \le \Lambda \le 1
  • 拒绝域: 小的 Λ\Lambda 值支持备择假设,故拒绝域形式为 Λλ0\Lambda \le \lambda_0

2. 拒绝域的确定

临界值 λ0\lambda_0 的选择需要保证检验的显著性水平为 α\alpha

P(Λλ0H0)=αP(\Lambda \le \lambda_0 | H_0) = \alpha

3. 渐近分布:Wilk’s Theorem

对于大样本量,Wilk’s Theorem 提供了 2logΛ-2 \log \Lambda 的渐近分布:

  • 定理: 在适当的条件下,当样本量 nn \to \infty 时,统计量 2logΛ-2 \log \Lambda 的空分布趋近于一个卡方 (χ2\chi^2) 分布

  • 自由度: 自由度 dd 等于参数空间维度的差值:

    d=dim(Ω)dim(ω0)d = \dim(\Omega) - \dim(\omega_0)

对于大样本,检验的拒绝域近似为:

拒绝 H0,如果 2logΛ>χα,d2\text{拒绝 } H_0 \text{,如果 } -2 \log \Lambda > \chi^2_{\alpha, d}

Appendix:详细证明与原理

A.1 Neyman-Pearson 引理的核心论证

引理: 对于给定的显著性水平 α\alpha,基于似然比 LR(x)=f0(x)fA(x)LR(\vec{x}) = \frac{f_0(\vec{x})}{f_A(\vec{x})} 构造的检验 d(x)d(\vec{x}) 是最优检验(功效最大)。

证明步骤:

  1. 定义 LRT 决策函数 d(x)d(\vec{x})

    d(x)={1if f0(x)<cfA(x)    cfA(x)f0(x)>00if f0(x)cfA(x)    cfA(x)f0(x)0d(\vec{x}) = \begin{cases} 1 & \text{if } f_0(\vec{x}) < c f_A(\vec{x}) \implies c f_A(\vec{x}) - f_0(\vec{x}) > 0\\ 0 & \text{if } f_0(\vec{x}) \ge c f_A(\vec{x}) \implies c f_A(\vec{x}) - f_0(\vec{x}) \le 0\end{cases}

  2. 定义约束:

    对于任何其他决策规则 d(x)d^*(\vec{x}),必须满足显著性水平约束:

    P(d(X)=1H0)P(d(X)=1H0)=αP(d^*(\vec{X})=1|H_0) \le P(d(\vec{X})=1|H_0) = \alpha

    即:

    E0[d(x)]E0[d(x)]E_0[d^*(\vec{x})] \le E_0[d(\vec{x})]

  3. 建立核心不等式:

    对于所有的 x\vec{x},根据 d(x)d(\vec{x}) 的构造方式,以下不等式成立:

    d(x)[cfA(x)f0(x)]d(x)[cfA(x)f0(x)]d^*(\vec{x}) \cdot [c f_A(\vec{x}) - f_0(\vec{x})] \le d(\vec{x}) \cdot [c f_A(\vec{x}) - f_0(\vec{x})]

  4. 对不等式两侧求期望(积分):

    d(x)[cfA(x)f0(x)]dxd(x)[cfA(x)f0(x)]dx\int d^*(\vec{x}) \cdot [c f_A(\vec{x}) - f_0(\vec{x})] d\vec{x} \le \int d(\vec{x}) \cdot [c f_A(\vec{x}) - f_0(\vec{x})] d\vec{x}

    展开并转换为期望形式:

    cd(x)fA(x)dxd(x)f0(x)dxcd(x)fA(x)dxd(x)f0(x)dxcEA[d(x)]E0[d(x)]cEA[d(x)]E0[d(x)]c \int d^*(\vec{x}) f_A(\vec{x}) d\vec{x} - \int d^*(\vec{x}) f_0(\vec{x}) d\vec{x} \le c \int d(\vec{x}) f_A(\vec{x}) d\vec{x} - \int d(\vec{x}) f_0(\vec{x}) d\vec{x} \\ c E_A[d^*(\vec{x})] - E_0[d^*(\vec{x})] \le c E_A[d(\vec{x})] - E_0[d(\vec{x})]

  5. 得出结论 (功效比较):

    整理不等式:

    E0[d(x)]E0[d(x)]c[EA[d(x)]EA[d(x)]]E_0[d(\vec{x})] - E_0[d^*(\vec{x})] \le c \left[ E_A[d(\vec{x})] - E_A[d^*(\vec{x})] \right]

    • 根据约束 (2),不等式左侧 E0[d(x)]E0[d(x)]0E_0[d(\vec{x})] - E_0[d^*(\vec{x})] \ge 0
    • 由于 c>0c > 0
    • 因此,右侧的中括号部分必须是非负的:EA[d(x)]EA[d(x)]0E_A[d(\vec{x})] - E_A[d^*(\vec{x})] \ge 0

        Power(d)=EA[d(x)]EA[d(x)]=Power(d)\implies \text{Power}(d) = E_A[d(\vec{x})] \ge E_A[d^*(\vec{x})] = \text{Power}(d^*)

A.2 Wilk’s Theorem 渐近分布的原理

Wilk’s Theorem 阐述了 2logΛ-2 \log \Lambda 的渐近分布为 χ2\chi^2 分布,自由度为 dim(Ω)dim(ω0)\dim(\Omega) - \dim(\omega_0)

启发式解释:

2logΛ-2 \log \Lambda 统计量渐近等价于皮尔逊卡方统计量,其中皮尔逊卡方统计量本身是 mm 个正态随机变量平方和的近似,而 mm 个正态随机变量的平方和服从卡方分布。

具体来说,通过将对数似然函数在无约束 MLE 处进行泰勒级数展开,可以证明:

i=1mxilog(xi/npi(θ^))12ni=1m(xinpi(θ^))2pi(θ^)\sum_{i=1}^{m} x_i \log \left(\frac{x_i/n}{p_i(\hat{\theta})}\right) \approx \frac{1}{2n} \sum_{i=1}^{m} \frac{(x_i - n p_i(\hat{\theta}))^2}{p_i(\hat{\theta})}

左侧的 2n2n 倍即为 2logΛ-2 \log \Lambda。因此,2logΛ-2 \log \Lambda 渐近等价于右侧的皮尔逊卡方统计量 χ2\chi^2,其自由度反映了模型在约束解除后增加的自由参数数量。