前几天我们刚刚讨论了人工智能(AI)在基因研究领域频繁出错的问题,显示出技术在处理复杂生物学数据时的局限性。然而,在其他领域,AI正以令人瞩目的表现为人类带来新可能。
近日,一项发表在《Nature Human Behaviour》上的研究表明,大型语言模型(LLMs)已经超越人类专家,成为预测神经科学实验结果的佼佼者。这一发现不仅刷新了我们对AI潜力的认识,也为科学研究的未来指明了新方向。
人类vs AI,谁更懂科学?
研究团队开发了一个名为“BrainBench”的测试平台,通过模拟科学预测场景,测试人类专家和AI模型的表现。参与者需要从两种版本的实验结果中,判断哪一种才是真实的实验结果。任务并非简单的事实回忆,而是要求深度理解研究方法和背景信息。
结果显示,LLMs的平均准确率达到81.4%,而人类专家仅为63.4%。这15种主流AI模型,包括ChatGPT、Mistral等,无论面对行为认知研究还是分子细胞层面的实验,都表现出色。值得注意的是,即便是经验丰富的博士后或教授,也未能击败这些AI模型。
不仅如此,LLMs的预测结果与其信心水平呈高度相关。换句话说,当模型对其判断更加“自信”时,正确率显著提高。这一特性与人类专家的表现类似,为未来AI与人类协作提供了理论依据。
AI为什么这么强?
AI能在预测任务中击败人类,原因不仅在于其记忆力,更在于它对文献中多层次信息的整合能力。这种能力使得AI模型能够从背景信息、研究方法甚至语言结构中提取出隐藏的模式,帮助其推断实验结果。
为了进一步提升性能,研究团队还对一款名为Mistral-7B的基础模型进行了微调(fine-tuning)。通过引入神经科学领域的专业文献数据,他们开发出专属AI模型“BrainGPT”。这一经过优化的模型在BrainBench平台上的表现较基础版本提高了3%,展示了AI在特定领域专精方面的巨大潜力。
不仅是工具,还是伙伴
AI是否会彻底取代科学家?研究人员认为答案是否定的。尽管AI能够提供方向性指导,但真正的科学突破依然需要人类的创造力。例如,当AI预测低可能性的结果时,科学家可能恰恰从这些“反常”中发现新的理论契机。
AI与人类的互补性在实验中表现尤为突出。研究显示,AI和人类在解决困难预测任务上的表现互为补充。AI擅长处理海量数据并识别模式,而人类则在复杂情境中具备独特的直觉和灵活性。未来,结合双方优势的“人机协作”系统,或将大幅提高科学研究的效率。
未来已至
从预测实验结果到优化研究设计,AI正在重塑科学研究的方式。研究团队相信,未来AI模型可以不断更新,实时吸收最新文献,甚至生成多种可能性供研究人员选择。而这些进展不仅适用于神经科学,也可能扩展到医学、材料科学等其他领域。
当然,AI的崛起也伴随着挑战。科学家是否会过于依赖AI预测?是否会因AI的结果放弃潜在的突破性研究?这些问题仍需深思。然而可以肯定的是,AI的加入,让科学研究正迈向一个全新的时代。