2025-11-01
算法
00

目录

1️⃣原(零)假设与备选假设
2️⃣显著性水平$\alpha$
3️⃣$p$值与检验统计量之间的定义和关系
4️⃣检验统计量的计算方式
5️⃣检验统计量的深入理解
检验类型表格

假设检验是一种统计推断方法,用于根据样本数据来判断我们对总体的某个假设是否成立。它是一个有固定步骤的、严谨的决策过程。

这个过程主要围绕着两个相互对立的假设进行。假设检验的四个核心要素:

  • 原假设 H₀
  • 备择假设 H₁
  • 显著性水平 α
  • p 值(判断依据)

1️⃣原(零)假设与备选假设

在假设检验中,零假设默认偏向“无效”或“无差异”。这样做有两个重要原因:

  • 谨慎原则: 轻易得出“有效”和“有差别”的假设可能会误导决策。所以宁愿先假设“无效”和“没差别”,再用强有力的数据去推翻它。
  • 逻辑清晰: 统计检验是基于概率的推理。我们只能计算“如果H₀是真的,数据出现这样的结果的概率”。 所以从“假设H₀为真”出发,是唯一能让数学推理严密的方法。

这就是我们默认的、“无罪推定”的立场。

2️⃣显著性水平α\alpha

总结

显著性水平α\alpha:错误拒绝零假设H0H_0的概率。

如果我们设定 α = 0.05,意思是:我愿意接受 5% 的概率,去错误地拒绝原假设. 这样说也些拗口,或者说是错误接受备选假设的概率

举个例子:

H0H_0:假设药物促进治疗效果无效

H1H_1:假设药物促进治疗有效

错误拒绝原假设就是有百分之5的可能认为无效的药物会促进治疗。

3️⃣pp值与检验统计量之间的定义和关系

p值就是原假设成立的条件下,观测到当前数据的概率。 p越高,越符合原假设,p越低,越要拒绝原假设。

所以重点就是如何计算p值,计算p值的核心是根据样本数据来计算,样本可以计算出检验统计量,根据分布函数,输入检验统计量输出其概率。

检验统计量(Test Statistic)是假设检验中基于样本数据计算的一个数值指标,用于衡量观测数据与原假设(Null Hypothesis,H₀)的偏差程度【检验统计量绝对值越大,偏差越大,概率越小】。而p值(p-value)则是基于这个统计量的概率分布计算得到的概率值,表示在原假设正确的情况下,观察到当前或更极端统计量的可能性。简单来说,检验统计量是“输入”,p值是其在分布尾部的“输出”概率——统计量越极端,p值越小,从而提供更强的证据来拒绝原假设。

4️⃣检验统计量的计算方式

检验统计量的计算通常根据数据类型(连续/分类)、样本大小和分布假设,选择合适的检验,如t检验(小样本均值)、z检验(大样本均值)、卡方检验(分类数据)或F检验(方差比较)。

让我们通过一个完整的例子来计算P值。

场景:一家工厂声称他们生产的螺栓平均长度是10cm。你怀疑这批螺栓的长度不符合标准,于是随机抽取了16个螺栓进行测量。

零假设 (H₀): 螺栓的平均长度 μ = 10 cm。

备择假设 (H₁): 螺栓的平均长度 μ ≠ 10 cm。(这是一个双尾检验) 你的样本数据:

样本数量 (n) = 16 样本平均长度 (x̄) = 10.2 cm 样本标准差 (s) = 0.4 cm 第1步:计算检验统计量 (t值) 对于单样本均值检验,t值的计算公式是: t = (样本均值 - 假设的总体均值) / (样本标准差 / √样本数量)

代入我们的数据:

t=(10.210)/(0.4/16)t = (10.2 - 10) / (0.4 / \sqrt{16})

t=2.0t = 2.0

这个 t=2.0 的意思是:你的样本均值(10.2cm)比零假设的均值(10cm)高出了2个标准误的距离。现在的问题是,这个距离算不算“极端”?

第2步:确定概率分布 因为我们的样本量较小 (n < 30) 且总体标准差未知,我们使用 t分布。 t分布需要一个参数:自由度 (degrees of freedom, df)。 对于单样本t检验,df = n - 1 = 16 - 1 = 15。 所以,我们的参照系是“自由度为15的t分布”。

第3步:查找P值 我们要做的是,在自由度为15的t分布图上,找到比 t=2.0 更极端的区域的面积。因为是双尾检验,所以我们要计算 t > 2.0 和 t < -2.0 两个尾部区域的面积之和。

在统计学教科书的附录找到t分布表。 在表中找到自由度为15的那一行。 沿着这一行去找到最接近2.0的数值。你会发现2.0介于某个t值(对应p=0.05)和另一个t值(对应p=0.025)之间。例如,你可能会看到df=15时,t值为2.131对应的双尾概率是0.05。我们的t值2.0比2.131小。

这个 P值 (0.064) 大于我们通常设定的显著性水平 α (0.05)。因此,我们不能拒绝零假设。这意味着,尽管我们的样本均值是10.2cm,但这个差异还不够显著,我们没有足够的统计证据来断定这批螺栓的平均长度不是10cm。

5️⃣检验统计量的深入理解

检验统计量本质

衡量观测数据与原假设H₀的偏差程度

公式通常是:(观测值 - 期望值) / 标准误差。

大多数检验统计量的计算都遵循一个非常直观的逻辑,可以理解为一个信噪比(Signal-to-Noise Ratio)

检验统计量 = (观察到的效应 / 随机波动)

或者更具体一点:

检验统计量 = (样本统计量 - 零假设下的参数) / 标准误差

分子 (信号 Signal):(样本统计量 - 零假设下的参数) 这就是你实际观察到的“差异”或“效应”。 比如,(样本均值 10.2 - 假设的均值 10) = 0.2。这是故事的“主角”。

分母 (噪音 Noise):标准误 (Standard Error) 标准误衡量了样本统计量由于抽样而产生的随机波动大小。它综合考虑了数据的原始标准差和样本量。样本量越大,标准误越小;数据波动越小,标准误也越小。 它代表了系统中的“背景噪音”有多大。 所以,检验统计量的本质是:你观察到的效应是你随机噪音的多少倍?

如果检验统计量很大(比如 t=4.0),说明你的“信号”是“噪音”的4倍,这是一个非常强的信号,你很有可能发现了真实存在的效应。 如果检验统计量很小(比如 t=0.5),说明你的“信号”还没有“噪音”大,这个差异很可能只是随机产生的,不足为奇。

检验类型表格

检验类型备择假设 (H₁)什么样的检验统计量会导致“拒绝H₀”?例子
双尾检验 (不等于)绝对值非常大 (足够大的正数 足够小的负数)新药的疗效与旧药不同
右尾检验> (大于)非常大 (一个足够大的正数)新教学方法使学生平均分提高
左尾检验< (小于)非常小 (一个绝对值足够大的负数)新轮胎使刹车距离缩短

本文作者:James

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!