p 值概述
假设检验是一种检验群体假设的方法。它使用统计学方法,通过计算所谓的 p 值来确定给定假设为真的概率。p 值是在零假设(即人群之间没有差异的假设)成立的情况下,观察到这种极端值的概率。p 值越小,就越能证明零假设是假的,人群之间确实存在差异。
- 收集代表性样本: 在实验开始时,估计回答问题所需的样本量是一种好的做法。功效分析(power analysis)可以估算出观察到有意义差异所需的样本数量。
- 确定显著性阈值 (α): 在进行统计检验之前,必须定义显著性临界值或 "α",用于确定数据是否提供了支持或反对假设的证据。传统上,p<0.05 被用作标准临界值;然而,这个值是任意的。可接受的临界值取决于研究问题。例如,在测试药物治疗严重疾病的有效性时,5% 的零假设为真的概率可能是不可接受的。
- 检验假设: 收集到足够的样本后,就可以对假设进行检验。通常情况下,我们会提出零假设,即样本来自同一人群。换句话说,样本之间没有差异。备择假设则认为样本来自不同的人群,它们之间存在差异。
- 用于检验假设的特定统计检验应与数据相匹配。例如,如果数据是配对的,配对 t 检验可能最合适。如果数据不是正态分布或非参数数据,则应使用 Mann-Whitney U 检验。
- 解释结果: 统计检验会输出一个概率值或 "p 值",表示如果零假设成立(即组间没有差异),观察到这种极值的可能性。换句话说,数据是否符合零假设?p 值越小,零假设为真的可能性就越小。
p 值的优点
- 由于通常不可能对整个人群进行测量,因此假设检验和由此得出的 p 值是一种有用的方法,可以根据代表性样本对人群进行推断。
p 值的注意事项
- 不应仅根据 p 值得出科学结论。应结合整个实验和其他数据来解释 p 值。
- p 值并不表示结果仅偶然发生的概率或假设为真的概率。p 值表示在零假设成立的情况下观察到这种极端值的可能性。
- p 值并不能衡量效应的大小或结果的重要性。p 值越小并不一定表示效应越大或越重要。如果样本量非常大或测量非常精确,即使很小的效应也能产生很小的 p 值。相反,如果样本量小或测量不精确,则大效应也会产生大 p 值。
- P 值本身并不能很好地衡量模型或假设的正反证据。必须结合其他证据来解释 p 值。
注意事项
- 考虑研究中使用的样本量。具有统计学意义的 p 值并不一定意味着重要性。P 值受样本量的影响。样本量越大,P 值越小,样本量越小,P 值越大。样本量非常大的研究可能会发现 "真正的 "差异,但这种差异非常小,可能并不重要。
- 收集数据前是否进行了功效分析?充分的研究已确定了研究预期效果所需的样本量。功效不足的研究不太可能检测到真正的效应,而且偏倚的风险更大(即产生更多的假阴性,夸大真正的效应)。
- 是否根据多重比较调整了 p 值?多重统计比较会增加得出 "显著 "结果的可能性。进行多重比较的研究应调整 p 值,以考虑到这一点。
- 不显著的 p 值不能证明零假设。换句话说,没有证据表明两组之间存在差异,并不能证明两组之间没有差异。不显著的结果可能意味着多种情况:例如,研究的投入不足,没有采用适当的研究设计,或者测量不精确。
相关阅读: