假设检验是一种统计推断方法,用于根据样本数据来判断我们对总体的某个假设是否成立。它是一个有固定步骤的、严谨的决策过程。
这个过程主要围绕着两个相互对立的假设进行。假设检验的四个核心要素:
在假设检验中,零假设默认偏向“无效”或“无差异”。这样做有两个重要原因:
这就是我们默认的、“无罪推定”的立场。
总结
显著性水平:错误拒绝零假设的概率。
如果我们设定 α = 0.05,意思是:我愿意接受 5% 的概率,去错误地拒绝原假设. 这样说也些拗口,或者说是错误接受备选假设的概率。
举个例子:
:假设药物促进治疗效果无效
:假设药物促进治疗有效
错误拒绝原假设就是有百分之5的可能认为无效的药物会促进治疗。
注
p值就是原假设成立的条件下,观测到当前数据的概率。 p越高,越符合原假设,p越低,越要拒绝原假设。
所以重点就是如何计算p值,计算p值的核心是根据样本数据来计算,样本可以计算出检验统计量,根据分布函数,输入检验统计量输出其概率。
检验统计量(Test Statistic)是假设检验中基于样本数据计算的一个数值指标,用于衡量观测数据与原假设(Null Hypothesis,H₀)的偏差程度【检验统计量绝对值越大,偏差越大,概率越小】。而p值(p-value)则是基于这个统计量的概率分布计算得到的概率值,表示在原假设正确的情况下,观察到当前或更极端统计量的可能性。简单来说,检验统计量是“输入”,p值是其在分布尾部的“输出”概率——统计量越极端,p值越小,从而提供更强的证据来拒绝原假设。
检验统计量的计算通常根据数据类型(连续/分类)、样本大小和分布假设,选择合适的检验,如t检验(小样本均值)、z检验(大样本均值)、卡方检验(分类数据)或F检验(方差比较)。
让我们通过一个完整的例子来计算P值。
场景:一家工厂声称他们生产的螺栓平均长度是10cm。你怀疑这批螺栓的长度不符合标准,于是随机抽取了16个螺栓进行测量。
零假设 (H₀): 螺栓的平均长度 μ = 10 cm。
备择假设 (H₁): 螺栓的平均长度 μ ≠ 10 cm。(这是一个双尾检验) 你的样本数据:
样本数量 (n) = 16 样本平均长度 (x̄) = 10.2 cm 样本标准差 (s) = 0.4 cm 第1步:计算检验统计量 (t值) 对于单样本均值检验,t值的计算公式是: t = (样本均值 - 假设的总体均值) / (样本标准差 / √样本数量)
代入我们的数据:
这个 t=2.0 的意思是:你的样本均值(10.2cm)比零假设的均值(10cm)高出了2个标准误的距离。现在的问题是,这个距离算不算“极端”?
第2步:确定概率分布 因为我们的样本量较小 (n < 30) 且总体标准差未知,我们使用 t分布。 t分布需要一个参数:自由度 (degrees of freedom, df)。 对于单样本t检验,df = n - 1 = 16 - 1 = 15。 所以,我们的参照系是“自由度为15的t分布”。
第3步:查找P值 我们要做的是,在自由度为15的t分布图上,找到比 t=2.0 更极端的区域的面积。因为是双尾检验,所以我们要计算 t > 2.0 和 t < -2.0 两个尾部区域的面积之和。
在统计学教科书的附录找到t分布表。 在表中找到自由度为15的那一行。 沿着这一行去找到最接近2.0的数值。你会发现2.0介于某个t值(对应p=0.05)和另一个t值(对应p=0.025)之间。例如,你可能会看到df=15时,t值为2.131对应的双尾概率是0.05。我们的t值2.0比2.131小。
这个 P值 (0.064) 大于我们通常设定的显著性水平 α (0.05)。因此,我们不能拒绝零假设。这意味着,尽管我们的样本均值是10.2cm,但这个差异还不够显著,我们没有足够的统计证据来断定这批螺栓的平均长度不是10cm。
检验统计量本质
衡量观测数据与原假设H₀的偏差程度
公式通常是:(观测值 - 期望值) / 标准误差。
大多数检验统计量的计算都遵循一个非常直观的逻辑,可以理解为一个信噪比(Signal-to-Noise Ratio):
检验统计量 = (观察到的效应 / 随机波动)
或者更具体一点:
检验统计量 = (样本统计量 - 零假设下的参数) / 标准误差
分子 (信号 Signal):(样本统计量 - 零假设下的参数) 这就是你实际观察到的“差异”或“效应”。 比如,(样本均值 10.2 - 假设的均值 10) = 0.2。这是故事的“主角”。
分母 (噪音 Noise):标准误 (Standard Error) 标准误衡量了样本统计量由于抽样而产生的随机波动大小。它综合考虑了数据的原始标准差和样本量。样本量越大,标准误越小;数据波动越小,标准误也越小。 它代表了系统中的“背景噪音”有多大。 所以,检验统计量的本质是:你观察到的效应是你随机噪音的多少倍?
如果检验统计量很大(比如 t=4.0),说明你的“信号”是“噪音”的4倍,这是一个非常强的信号,你很有可能发现了真实存在的效应。 如果检验统计量很小(比如 t=0.5),说明你的“信号”还没有“噪音”大,这个差异很可能只是随机产生的,不足为奇。
| 检验类型 | 备择假设 (H₁) | 什么样的检验统计量会导致“拒绝H₀”? | 例子 |
|---|---|---|---|
| 双尾检验 | ≠ (不等于) | 绝对值非常大 (足够大的正数 或 足够小的负数) | 新药的疗效与旧药不同 |
| 右尾检验 | > (大于) | 值非常大 (一个足够大的正数) | 新教学方法使学生平均分提高 |
| 左尾检验 | < (小于) | 值非常小 (一个绝对值足够大的负数) | 新轮胎使刹车距离缩短 |
本文作者:James
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!