研究中使用数据源时需要注意的事项

本文,AJE将讨论数据源(Data Sources):使用数据源的最佳方法以及需要了解的一些重要事项。

更新于2024年3月15日

研究中使用数据源时需要注意的事项

本文,AJE将讨论数据源(Data Sources):使用数据源的最佳方法以及需要了解的一些重要事项。

数据源为何重要?

数据源与研究问题密切相关,因为数据源通常能为研究问题提供答案。了解数据的定义以及研究人员如何与之互动至关重要。

数据总是有来源的,而如何定义、理解和使用这些来源来回答研究问题,则有具体的规则和技巧。

什么是数据和数据源?

数据是指在特定研究中可以测量、访问或以任何方式使用的任何类型的信息。这些数据信息用于回答某些研究问题。从逻辑上讲,研究中的数据越多,用于回答研究问题的信息就越多。

如何使用数据?

我们使用这些信息来分析研究,并得出有助于回答研究问题的结果。

在开始探索使用数据源的最佳实践和理论之前,我们必须首先了解什么是数据源以及数据本身的性质。

提出正确的研究问题

在开始任何研究或分析之前,必须明确我们在这一过程中要回答的研究问题。这些问题必须明确,而且必须与研究本身相关。

使用数据源来回答这些问题

数据源有助于回答这些问题。在制定研究计划时,了解数据源与研究问题之间的关系非常重要。

需要考虑的一些重要方面 :

  • 哪个数据源与研究问题相关,如何相关?
  • 数据是否与研究课题相关?
  • 数据是否可信?
  • 数据是否准确?
  • 数据与研究问题的关联程度如何?
  • 数据样本是否足以代表整个人群或样本?

要回答这些问题 "是 "或 "否",你需要详细了解数据来源和数据性质。

原始数据来源

如果研究人员直接收集数据,无论他们使用什么方法,这样的数据源都称为原始数据源。

以下是一些直接从原始数据源收集数据的方法:

直接定量测量

获取直接定量测量值的方法之一是使用不同的仪器或方法测量规定参数内的数值。这些测量值可以来自不同的环境,如大自然或实验室的不同实验。

这些测量值还取决于仪器的准确性,因此,在研究中使用的任何仪器都应经过验证,并具有可信度,这一点非常重要。此外,仪器的相关信息也是数据的一部分,不应被忽视或遗忘。

这类直接测量通常是定量测量,也可以来自医学诊断等诊断程序或生物等其他生命科学领域的其他类型观察。在社会科学中,数据通常来自调查、问卷和其他形式的受试者答案收集。

观察

很多时候,数据不是测量出来的,而是观察出来的,并通过这些观察得出结论。生命科学领域中不同物种、疾病或生物结构的确定,分类学以及科学中其他类型的数据,都是根据研究人员的观察得出信息的例子。

观察通常需要较高水平的知识或专业技能,才能以可信的方式与数据源进行最佳互动。

原始数据来源的优势

原始数据来源有很多优势,例如

  • 能够更灵活地获取作者定义的信息或项目预先定义的其他信息。
  • 作者可以直接确定一些观察结果。因此,他们可以从研究中得出更详细的结论。

另一方面,也有一些缺点。

直接测量、使用不同的仪器、构建调查系统、与调查对象沟通、收集数据所需的材料往往成本高昂。这意味着研究的预算对所能收集到的数据量起着决定性作用。

二手数据来源

如今,二手资料来源非常重要。在数字世界中,越来越多的数据存储在不同的在线数据库中。在过去几年中,在线形式的数据量大幅增长,现在已经有成千上万个这样的数据源,其中包含大量数据。那么,使用原始数据源和二手数据源有什么区别呢?

使用二手来源时,数据已经收集并存储在安全的环境中,需要时可以访问。使用此类数据源的优点是速度快、数据量大且易于使用;但使用二手数据也有一些限制和规则。这些限制和规则包括:

  • 尊重数据提供者规定的使用条款
  • 正确引用数据提供者
  • 数据背景已经确定,如果缺少背景,就很难完成背景说明

数据库和数据储存库

数据库是存储数据的环境,通常采用在线形式。数据库通常也是安全的,可以添加和保存新数据,以供将来使用。

使用公开数据源

公共可用数据在过去几年中已变得非常容易获得,是当今研究领域最重要的驱动力之一。不同的公司和研究机构正在向世界各地的研究人员提供大量数据。

存储这些数据的来源通常被称为数据存储库。以下是一些可公开获取数据的存储库和其他来源:

  • NCBI - 生物医学和基因组数据
  • EMBL - 生物医学和分子生物学数据
  • Data.world - 可免费访问不同类型数据的社区
  • Uniprot - 蛋白质/氨基酸数据
  • Reactome - 生物相互作用和注释数据
  • Paleoportal - 古生物学数据
  • HEP 数据 - 物理数据
  • 谷歌数据集--提供了一种在线搜索不同数据源的绝佳方式,也是利用搜索引擎查找适用数据的最简单方法之一。

使用数据源时,查找其他信息非常重要。可能会有数据使用条款。例如,有些数据可用于研究目的,但可能不能用于商业目的。

了解数据的来龙去脉

了解数据收集类型很重要。如前所述,了解数据的来龙去脉非常重要。上下文的例子包括位置、时间或任何其他与数据相关的情况;但如果与数据源相关,上下文也可以是其他数据源。

以下是一些上下文示例,以及上下文为何如此重要:

  • 地点 - 不同地点的数据可能不同。
  • 时间 - 10 年前的测量结果与当前研究中的测量结果不同,研究可能会随着时间的推移而发生变化。对于大多数研究来说,最好使用最新的数据来源。
  • 环境 - 我们应始终明确数据是在什么环境下收集的,因为这些环境可以确定数据来源。为了了解如何有效地使用数据,我们必须了解这些情况。
  • 测量/观察方法 - 这一点非常重要。不同的方法可能会影响数据,因此必须验证这些方法的正确性。
  • 收集数据的局限性 - 了解从数据源收集数据的局限性,可以让我们了解数据源的局限性、可信度和准确性。
  • 关于研究人员的信息 - 了解研究人员收集数据的背景是非常重要的背景信息。
  • 数据中潜在的偏差来源 - 研究中经常会进行分析,因此从一开始就列出数据中潜在的偏差来源非常重要。
  • 用于确定数据样本大小的信息 - 样本大小需要有精确的定义,不应随意界定。通常情况下,样本大小是根据以前的研究确定的。

应牢记的数据源观点

数据源并不总能代表整个数据集。请记住,如果数据源是从不同地点和不同时间收集的,那么数据源可能会有所不同。数据源中的数据量越大越好。这意味着数据的可信度更高。

确保明确规定哪些数据源可用于研究或其他类型的项目。这些规则在我们所说的项目 "纳入标准 "(the inclusion criteria)中有所描述。

数据源的 "纳入标准 "定义了研究的讨论和结论,说明了结果和分析所参考的人群或样本的组成部分。

数据源与参考源

在解释分析结果时,通常会将其与其他研究或研究项目的结果进行比较。研究这些参考资料对于确定哪些类型的数据源最适合与这些数据源进行比较--以及有哪些潜在差异需要讨论--至关重要。参考文献也有自己的数据源,也需要与研究中的数据源进行比较。

撰稿人
标签
论文数据研究数据科研数据
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

您只需关注研究本身,AJE帮您彻底解决论文语言问题!

来自Nature的实验数据表明, 使用AJE的润色服务之后,来自中国的稿件接收率平均由28%提高到了42%。