统计推断方法：假设检验

假设检验是一种统计推断方法，用于根据样本数据来判断我们对总体的某个假设是否成立。它是一个有固定步骤的、严谨的决策过程。

这个过程主要围绕着两个相互对立的假设进行。假设检验的四个核心要素：

原假设 H₀
备择假设 H₁
显著性水平 α
p 值（判断依据）

1️⃣原（零）假设与备选假设

在假设检验中，零假设默认偏向“无效”或“无差异”。这样做有两个重要原因：

谨慎原则：轻易得出“有效”和“有差别”的假设可能会误导决策。所以宁愿先假设“无效”和“没差别”，再用强有力的数据去推翻它。
逻辑清晰：统计检验是基于概率的推理。我们只能计算“如果H₀是真的，数据出现这样的结果的概率”。所以从“假设H₀为真”出发，是唯一能让数学推理严密的方法。

这就是我们默认的、“无罪推定”的立场。

2️⃣显著性水平 $\alpha$

总结

显著性水平 $\alpha$ ：错误拒绝零假设 $H_0$ 的概率。

如果我们设定 α = 0.05，意思是：我愿意接受 5% 的概率，去错误地拒绝原假设. 这样说也些拗口，或者说是错误接受备选假设的概率。

举个例子：

$H_0$ :假设药物促进治疗效果无效

$H_1$ :假设药物促进治疗有效

错误拒绝原假设就是有百分之5的可能认为无效的药物会促进治疗。

3️⃣ $p$ 值与检验统计量之间的定义和关系

注

p值就是原假设成立的条件下，观测到当前数据的概率。 p越高，越符合原假设，p越低，越要拒绝原假设。

所以重点就是如何计算p值，计算p值的核心是根据样本数据来计算，样本可以计算出检验统计量，根据分布函数，输入检验统计量输出其概率。

检验统计量（Test Statistic）是假设检验中基于样本数据计算的一个数值指标，用于衡量观测数据与原假设（Null Hypothesis，H₀）的偏差程度【检验统计量绝对值越大，偏差越大，概率越小】。而p值（p-value）则是基于这个统计量的概率分布计算得到的概率值，表示在原假设正确的情况下，观察到当前或更极端统计量的可能性。简单来说，检验统计量是“输入”，p值是其在分布尾部的“输出”概率——统计量越极端，p值越小，从而提供更强的证据来拒绝原假设。

4️⃣检验统计量的计算方式

检验统计量的计算通常根据数据类型（连续/分类）、样本大小和分布假设，选择合适的检验，如t检验（小样本均值）、z检验（大样本均值）、卡方检验（分类数据）或F检验（方差比较）。

让我们通过一个完整的例子来计算P值。

场景：一家工厂声称他们生产的螺栓平均长度是10cm。你怀疑这批螺栓的长度不符合标准，于是随机抽取了16个螺栓进行测量。

零假设 (H₀): 螺栓的平均长度 μ = 10 cm。

备择假设 (H₁): 螺栓的平均长度 μ ≠ 10 cm。（这是一个双尾检验）你的样本数据：

样本数量 (n) = 16 样本平均长度 (x̄) = 10.2 cm 样本标准差 (s) = 0.4 cm 第1步：计算检验统计量 (t值) 对于单样本均值检验，t值的计算公式是： t = (样本均值 - 假设的总体均值) / (样本标准差 / √样本数量)

代入我们的数据：

$t = (10.2 - 10) / (0.4 / \sqrt{16})$

$t = 2.0$

这个 t=2.0 的意思是：你的样本均值（10.2cm）比零假设的均值（10cm）高出了2个标准误的距离。现在的问题是，这个距离算不算“极端”？

第2步：确定概率分布因为我们的样本量较小 (n < 30) 且总体标准差未知，我们使用 t分布。 t分布需要一个参数：自由度 (degrees of freedom, df)。对于单样本t检验，df = n - 1 = 16 - 1 = 15。所以，我们的参照系是“自由度为15的t分布”。

第3步：查找P值我们要做的是，在自由度为15的t分布图上，找到比 t=2.0 更极端的区域的面积。因为是双尾检验，所以我们要计算 t > 2.0 和 t < -2.0 两个尾部区域的面积之和。

在统计学教科书的附录找到t分布表。在表中找到自由度为15的那一行。沿着这一行去找到最接近2.0的数值。你会发现2.0介于某个t值（对应p=0.05）和另一个t值（对应p=0.025）之间。例如，你可能会看到df=15时，t值为2.131对应的双尾概率是0.05。我们的t值2.0比2.131小。

这个 P值 (0.064) 大于我们通常设定的显著性水平 α (0.05)。因此，我们不能拒绝零假设。这意味着，尽管我们的样本均值是10.2cm，但这个差异还不够显著，我们没有足够的统计证据来断定这批螺栓的平均长度不是10cm。

5️⃣检验统计量的深入理解

检验统计量本质

衡量观测数据与原假设H₀的偏差程度

公式通常是：(观测值 - 期望值) / 标准误差。

大多数检验统计量的计算都遵循一个非常直观的逻辑，可以理解为一个信噪比（Signal-to-Noise Ratio）：

检验统计量 = (观察到的效应 / 随机波动)

或者更具体一点：

检验统计量 = (样本统计量 - 零假设下的参数) / 标准误差

分子 (信号 Signal)：(样本统计量 - 零假设下的参数) 这就是你实际观察到的“差异”或“效应”。比如，(样本均值 10.2 - 假设的均值 10) = 0.2。这是故事的“主角”。

分母 (噪音 Noise)：标准误 (Standard Error) 标准误衡量了样本统计量由于抽样而产生的随机波动大小。它综合考虑了数据的原始标准差和样本量。样本量越大，标准误越小；数据波动越小，标准误也越小。它代表了系统中的“背景噪音”有多大。所以，检验统计量的本质是：你观察到的效应是你随机噪音的多少倍？

如果检验统计量很大（比如 t=4.0），说明你的“信号”是“噪音”的4倍，这是一个非常强的信号，你很有可能发现了真实存在的效应。如果检验统计量很小（比如 t=0.5），说明你的“信号”还没有“噪音”大，这个差异很可能只是随机产生的，不足为奇。

检验类型表格

检验类型	备择假设 (H₁)	什么样的检验统计量会导致“拒绝H₀”？	例子
双尾检验	≠ (不等于)	绝对值非常大 (足够大的正数或足够小的负数)	新药的疗效与旧药不同
右尾检验	> (大于)	值非常大 (一个足够大的正数)	新教学方法使学生平均分提高
左尾检验	< (小于)	值非常小 (一个绝对值足够大的负数)	新轮胎使刹车距离缩短

目录