数据大解密:科研中的数据分类全攻略!

研究人员往往不能完全理解不同的数据类型。这会造成很多问题,并限制出版物和项目的研究潜力。本文AJE将讨论不同类型数据的分类、这些类别或数据类型代表什么以及如何在研究中使用它们。

更新于2024年5月8日

数据大解密:科研中的数据分类全攻略!

数据是当今研究的主要驱动力。“数据 ”实际上是指可以存储并用作研究参考的各类信息。

信息可以通过多种方式存储为数据。为了能够有效地分析数据,我们必须了解在研究中具有特定特征和使用原则的数据类型。本文AJE将进一步讨论 “数据分类 ”( classifying data)这一概念。

研究人员往往不能完全理解不同的数据类型。这会造成很多问题,并限制出版物和项目的研究潜力。本文AJE将讨论不同类型数据的分类、这些类别或数据类型代表什么以及如何在研究中使用它们。

数值数据(Numerical data)

说到 “数据”,大多数研究人员都会想到 “数字”。但这只是众多数据中的一种。有了数字,我们就可以量化,因此数字非常重要。

数字是研究中最丰富的数据形式。它们用于描述样本、测量和比较不同的类群。数字数据还用于展示研究结果。平均值、标准误差、中位数、风险、频率和其他许多用于呈现结果的指标大多采用数字形式。

数值测量可以按行(横向)和列(纵向)组织,如 Microsoft Excel 等软件和其他电子表格程序中的表格结构。

数字表格可以有组织地存储所需的数字信息。研究人员可以轻松地比较表格中表示的数量。

但数字可以有不同的形式。用于创建数值数据的数字有两种类型。这两种数被称为整数和有理数。

请看下图 1 中的空气质量和臭氧辐射数值表示例。它包含变量 “Ozone”、“Solar.R”、“Wind”、“Temp”、“Month”和“ Day”。这些变量实际上是空气质量不同特征的测量数值列。

变量 “ Day”是一个整数。它没有小数位,是一个整数。

另一方面,变量 “Wind”有小数位,是有理数。

整数和有理数数据示例

资料来源-- air quality dataset: Chambers et al (1983). Graphical Methods for Data Analysis

让我们进一步讨论整数和有理数数据。正如你所看到的,数值数据通常有以下几种形式:

1. 整数

这些整数代表不可再分的计量单位,如上面的例子中的第 1 天、第 2 天、第 3 天或 55、56、57 的计数。整数不含小数位。它们是整数。通常,整数用于存储有关观察结果的数据,而这些观察结果是不能再除以整数的。

2. 有理数

这些数值数据可以分割成更小的计量单位。它们相当于整数的比率。 它们被称为有理数(例如 ¼ 是 0.25 的有理数)。如上图所示,它们的特点是有小数位。如果测量和观察结果可以被分成越来越小的分数,这就为测量提供了更精确的标度。这些刻度通常称为连续刻度(continuous scales)。数据本身就是连续数据。

高度就是连续数据的一个例子。身高可以表示为 180.1324 厘米或 185.4367 厘米。体重可以表示为 70.4366 千克或 65.0001 千克。由于增加了四位小数,数据将提供更详细、更准确的测量结果。

还有其他类别的数值数据,如自然数、实数、无理数等,但科研中最常用的两种形式是整数和有理数。

字符(文本/字符串)

研究中几乎随处可见的另一种数据类型是字符。有时,我们需要为某些类群命名,或为某些观察结果添加其他类别名称。这些名称实际上是字母序列。它们代表了某种定性的观察结果。换句话说,我们无法量化名称,但名称可以代表某种定性观察结果。这些变量被称为名义变量( nominal variables)。

文本文件

文本文件是另一种基于字符的数据类型。它可用于许多翻译和自然语言处理科学。

文本也可以包含数字;它可以用作同时存储数字和字符数据的数据文件。

尽管数值数据能更好地量化观察和测量结果,但字符数据更适合创建和处理序列。这些序列就是简单的字符序列。大量序列数据可以存储在小型文本文件中,并进行进一步分析。

在生物信息学中使用文本序列就是一个例子。

生物体 DNA 中包含的遗传信息由 4 个核苷酸编码:A-腺嘌呤、T-胸腺嘧啶、C-胞嘧啶和 G-鸟嘌呤。可以编码为 ATCG。这些字母的序列代表核苷酸。

以下是人类胰岛素序列的示例:

人类基因组序列示例

来源:NCBI - National Center for Biotechnology Information

如前所述,这是一个字母序列(ATCG)。它代表了在 DNA 转录过程中从 DNA 转录到 mRNA(信使核糖核酸)的基因序列。

有时,数据中的分类群或类别可以用其名称来进行最佳逻辑描述。

例如 不同的花卉类群可以用物种名称标出,代表分类数据,有时在统计中也称为因子或等级。不同类群既有数值数据又有因子数据(标注字符)的情况很常见。

下面是另一个例子,数据可能同时包含数字和字符数据:

数字和字符数据示例

来源-- Iris dataset by Anderson, 1936

鸢尾花(Iris) "数据集中的数字列最后一列包含名称(setosa 和 versicolor)。但这些也是因子。我们可以称其为物种因子(species factors ),因为不同物种的数据可能会被检查出差异。

音频数据

音频数据在讨论中并不经常被提及。但它对许多研究领域都非常重要。鸟类学就是一个例子,研究人员经常研究鸟类声音的音频文件,以检查鸟类的交流情况,确定鸟类的生物生活模式,并根据音频数据确定物种。

音频数据之所以特殊,是因为它可以用来高精度地识别研究模式。

基于像素的数据(图像和视频)

图像是一种特殊的数据类型,包含研究项目的视觉信息。在放射学中,核磁共振成像扫描、超声波图像(以及其他类型的基于图像的扫描)向医生和研究人员揭示了生物医学信息。

此外,许多类型的图像都可用于人工智能研究。图像数据由称为像素的特定小段组成。这些像素存储了颜色和空间信息。数以百万计的微小像素组合在一起,就形成了我们可以轻松解读并用于科学观察的图像。

在研究中,图像不仅信息量大,而且非常直观。它们能让读者从更真实的角度了解研究问题和分析结果。展示研究成果的最佳方法之一就是将详细的数值数据与图像相结合,为读者提供更全面的视角。

基于像素的数据示例:红细胞的显微图片

基于像素的数据示例:红细胞的显微图片

(Photo by Dr. Mae Melvin, USCDCP on Pixnio)

图像可以表示和存储有关观察结果的宝贵数据。在上面的例子中,微生物研究人员可以对不同类型的血细胞进行进一步分析。数以千计的类似图像可以存储在数据库中,并保存有关人类和其他生物体微生物学的宝贵信息。

图像可用于得出定量(数字)和定性(分类形式)的数值数据。从图像中观察到的信息可以为其他数据类型提供更多细节。视频数据是图像数据的延伸,其中的像素会随时间发生变化。视频对于跟踪实验在不同时间段内的变化非常有用。实验通常需要花费大量时间。通过视频数据,研究人员可以跟踪实验过程,而不会丢失相关信息。

最后

请记住,对于任何研究项目来说,出于多种原因,对数据进行分类都是非常重要的:

  • 我们必须确保存在正确类别的数据,并能回答研究问题。
  • 正确的数据类别还能对数据进行验证。
  • 研究分析方法通常需要特定的数据类别。

此外,高质量的研究项目一般都有元数据,可以解释数据的来龙去脉。在本节中,定义哪些数据类别用于研究目的非常重要。这对于研究的可重复性和数据验证非常重要。希望本期内容对你有帮助,AJE祝您科研顺利!

撰稿人
标签
研究数据科研数据论文数据
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

AJE科学评审编辑:全面提升文稿整体质量

AJE的科学评审编辑是在英文润色的基础之上,为科研学者打造的一款从文稿的结构、科学逻辑、实验过程、研究细节等方面提出全面修改建议的服务。