
统计在科学中的作用是什么?
统计学是学术研究中非常重要的组成部分。统计方法用于设计实验和分析数据,以便对研究结果做出有意义的解释。虽然统计在研究中发挥着重要作用,但研究中使用的统计方法的细节往往不完整。不详细的方法就像只提供食谱的一部分。要烤一块面包,光知道需要哪些配料是不够的。每种配料添加多少、添加顺序以及烤箱温度都是确保结果一致所需的重要细节。如果细节没有明确规定,最终产品的质量就会参差不齐。使用不完整的食谱烘烤面包可能会导致面包烤过头、烤不熟或烤得恰到好处。
与不完整的食谱一样,遗漏了重要分析细节的方法可能会严重影响未来复制实验的尝试,并使研究结果难以解释。不明确的方法是导致不可重复研究的一个主要因素。不可再现的研究是一个值得关注的重大问题,因为无效的论述会延缓科学进步、浪费时间和资源,并导致公众对科学的不信任。
在报告统计分析时,关键是要足够详细地描述统计方法,以便其他研究人员可以通过精确复制原始研究中的分析来验证研究结果。在报告统计结果时,必须提供足够的细节,以便读者能够评估信息的可信度和有用性,并做出适当的决定。在本文中,我们将讨论如何描述你的统计方法和结果,以确保为其他科学家提供准确重复你的分析所需的信息。下面我们将介绍在报告统计方法和结果时需要考虑的一系列指导原则。
报告统计方法
- 样本量: 样本量告诉我们所掌握的信息量,并在一定程度上决定了我们对样本估计值的置信度。在 "方法 "部分,提供并定义研究中使用的样本量,并说明如何确定样本量。如果样本量是通过统计方法确定的(如效力分析),请说明所使用的统计方法。对于样本量的计算,请务必说明效力、效应大小和α值。如果没有进行样本量计算,请说明如何确定样本量,并提供样本量足够的理由。
- 数据转换: 如果在分析前对原始数据进行了转换(如归一化、对数变换、比率),请描述转换过程,并说明为什么要对数据进行转换。
- 统计检验: 通常在 "方法 "中,你会看到一份所用统计检验的清单,但没有说明每种检验的相应分析。如果采用这种方法,就不可能知道每项分析使用了哪种检验。为确保你的方法能够被精确复制,请确保方法中包含对每项分析所用统计检验的详细说明。避免只列出研究中使用的所有统计检验。
对于每项统计分析:
- 假设: 验证数据是否符合用来分析数据的检验假设。例如,使用参数检验(如 t 检验)时,应证明数据呈正态分布。
- 定向检验(directional test): 如果适用,请说明是单侧检验(one-sided test)还是双侧检验。使用单侧检验时,一定要说明使用定向检验的理由。试想,你想检验一种廉价药物的疗效不低于一种昂贵药物的假设。在这种情况下,单侧检验是合理的,因为你只想证明药物的疗效不差,而不关心它是否更有效。
- 多重比较: 如果分析涉及多重比较,请说明是否考虑了多重比较。如果是,请务必说明如何对多重比较进行调整(如 Bonferroni 校正)。
- 异常值: 如果与研究相关,请说明如何处理异常值。数据集中的异常值可能会扭曲统计分析,因此可能有必要将其剔除。在剔除异常值时,请务必说明如何定义异常值,并解释该程序的合理性。
- α值水平: 一定要报告用于定义统计显著性的阿尔法水平(如 p<0.05)。确定结果的统计显著性取决于开始实验前确定的α值。在开始实验前选择显著性水平,可避免任何可能的结果偏差或统计 "挑剔"。
- 软件/工具: 同样重要的是,要命名用于在研究中进行分析的统计软件包或软件,并注明所使用的版本号(如 SPSS v.21.0)。不同软件包执行分析的方式可能会有所不同,尤其是对于较为复杂的分析。因此,一个软件包得出的结果可能与另一个软件包得出的结果不完全相同。在提供完整的统计方法记录时,精确的软件包信息可能是一个重要的细节。
报告统计结果
描述性统计(Descriptive statistics): 描述性统计用于总结和描述数据集合的主要特征。通过描述性统计,我们可以将数据可视化,并以更有意义的方式呈现数据。
在展示描述性统计时,应注意以下几点:
- 样本量: 确保标明样本量(n)。确保以精确值而不是范围来报告每次分析的样本量。
- 百分比: 在报告所有百分比时,确保包含分子和分母。
- 变异性测量(Measures of variability): 当数据呈正态分布时,使用均值和标准差来概括数据。应使用标准差 (SD) 而不是标准误差 (SE) 报告数据的变异性。标准误差是对样本平均数与总体平均数相差多少的估计,因此不是对观测值之间变异性的适当估计。标准差是对一组数值的变化或离散程度的测量。对于非正态分布的数据,可使用中位数和百分位间距、范围或两者兼而有之。
- 推论统计(Inferential statistics): 推论统计是根据样本观测数据的子集对总体进行推断和预测,然后得出超出描述性统计所能显示的结论。
在介绍推论统计时:
- 假设: 在介绍统计检验结果之前,一定要说明所检验的假设,并描述分析的目的。
- 变量: 确定分析中使用的变量,并使用适当的描述性统计对每个变量的数据进行总结。
- 样本大小: 确保提供并描述样本量。每项分析的样本量应报告为精确值,而不是范围。例如,如果 A 组有 10 只小鼠,B 组有 13 只小鼠,则不要用 "n=10-13 mice"来报告样本量。相反,应明确指出每组的精确样本量(即 Group A, n=10 mice; Group B, n=13 mice)。
- 统计检验: 说明所用的统计检验。如果适用,请指明是单侧还是双侧检验,并说明为进行多重比较而做出的任何调整。
- 结果: 推论统计得出的结果应包括检验统计量、自由度、置信区间、P 值和效应大小。
- P 值: 在可能的情况下,以精确值而不是范围(如 p=0.049 而不是 p<0.05)来报告 p 值。在报告非显著性结果时,精确的 P 值尤为重要。假设一项研究的主要结果是 p=0.054 和 p=0.54,但在论文中这两个结果都被简单地报告为 "不显著"。对这两个结果的解释是不同的,但由于没有提供精确的 p 值,这种差异并没有传达给读者。对于未达到你设定的显著性水平的结果,请报告精确的 p 值;避免将这些结果报告为 p>0.05、"不显著 "或 NS。
统计学是学术研究的重要工具。它们用于规划实验、检验假设和解释数据。对研究的统计方法和结果进行详细描述,可使研究具有可重复性,并让读者清楚地了解你做了什么、为什么这样做以及为什么这样做很重要。
有关统计报告的更多信息,请参阅《SAMPL 指南》 :https://www.equator-network.org/wp-content/uploads/2013/07/SAMPL-Guidelines-6-27-13.pdf。
总结
统计是学术研究中非常重要的组成部分。虽然统计在研究中发挥着重要作用,但研究中使用的统计方法的细节往往不完整。未详细说明的方法就像只提供食谱的一部分。如果细节不明确,最终产品的质量就会参差不齐。在本文中,我们讨论了如何描述你的统计方法和结果,以确保为其他科学家提供准确重复你的分析所需的信息。希望本文对你所有帮助,AJE祝您科研顺利!