摘要:由上海人工智能实验室联合上海创智学院、牛津大学、上海市科学学研究所等多家机构提出的虚拟科学家(Virtual Scientists,VirSci)系统,是一个基于大语言模型(LLM)的多智能体协作平台,专注于模拟科学家团队的合作过程,以推动科研创新。
编辑 | ScienceAI
由上海人工智能实验室联合上海创智学院、牛津大学、上海市科学学研究所等多家机构提出的虚拟科学家(Virtual Scientists,VirSci)系统,是一个基于大语言模型(LLM)的多智能体协作平台,专注于模拟科学家团队的合作过程,以推动科研创新。
不同于以往的单智能体科研模型,VirSci 使用匿名化后的真实科学家语料与背景信息来模拟跨学科、多成员协作的科学团队。系统通过团队成员之间的角色扮演、合作讨论,生成更具原创性与学术影响力的科研构想。
更重要的是,论文进一步深入分析了科研团队协作机制本身,探索不同的团队结构与成员组成如何影响生成结果的创新性。这不仅为构建更强的 AI 科研系统提供了启示,也为理解 “协作如何塑造创新” 这一科学问题提供了新的视角。
研究背景
依托人工智能的进步,科学家有望在假设生成、实验设计等多个科研阶段实现流程自动化,从而加速科研创新。近期的一些工作,如 AI Scientist、ResearchTown 和 HypoGen,利用大语言模型(LLMs)模拟科研过程中的不同环节,包括文献综述和实验设计等。
然而,这些方法多数采用单智能体系统,忽视了现实科研中协作的重要性;或使用简化的多智能体框架与人为构造的数据,难以体现真实科研团队中复杂多变的合作关系。
因此,它们在模拟科研协作和推动自主科学发现方面仍存在显著局限。为了解决上述瓶颈,上海人工智能实验室的科研团队构建了一个复刻真实科学家数据的虚拟科研生态系统,并在此之上提出了基于多智能体系统的自动化科研团队 VirSci,模拟科学家在选题、讨论、创意生成与写作中的协作过程。
研究方法
VirSci 多智能体系统
VirSci 主要包含两个部分:一个科研生态系统和一个用于模拟科学家合作的多智能体系统。其中科学研究生态系统包含匿名后的作者信息,历史论文信息和未来论文信息,作者信息为多智能体系统提供不同的科研背景信息及合作关系来模拟真实的科研场景,历史论文信息为模拟提供论文参考以生成有价值的科研内容,当代论文信息则用来验证最终生成论文的创新性。
VirSci 的科研模拟流程主要分为五个核心步骤:合作者选择、主题选择、创意生成、新颖性自评估,以及摘要撰写。
在合作者选择阶段,系统会随机指定一位智能体作为团队负责人。该负责人将基于其合作历史和个人背景信息选择合作者,过往合作者会被优先选择,但同时也会探索与团队目标在研究兴趣和专长上高度契合的潜在合作者。
在主题选择阶段,科学家们围绕共同感兴趣的话题展开讨论。当大多数成员无法达成共识时,讨论将被终止并重新开始。不感兴趣的成员可以自由退出,否则讨论将持续进行,直到确定最终的研究主题。
进入创意生成阶段,虚拟科学家将从过去论文库中检索相关文献,并开展团队内部与外部的双重讨论。团队内部的协作基于每位成员的背景信息进行深入对话,而 “邀请机制” 则允许团队成员主动向外部团队中的智能体寻求建议,从而实现跨团队合作与团队内部合作的结合。这一设计区别于以往的群体讨论模式。
当讨论结束后,团队会对生成的 Idea 进行投票来评价其新颖性,若超过半数成员认为 Idea 足够新颖则团队进入下一阶段进行摘要撰写,否则继续对 Idea 进行改进。
在摘要撰写阶段,团队会生成一段凝练的摘要,以完整呈现所提出的研究创意。
试验结果
评价指标
在本文中,VirSci 团队采用了更为客观的评估方式,选用了三种与人类直觉相符的常用指标来衡量科学创意的新颖性:
(1) 历史差异性(Historical Dissimilarity, HD):指生成摘要的向量与过去论文数据库中最相似的 5 篇摘要向量之间的平均欧几里得距离。该距离越大,说明与已有研究差异越大,潜在的新颖性越高。
(2) 当代差异性(Contemporary Dissimilarity, CD):指生成摘要的向量与当代论文数据库中最相似的 5 篇摘要之间的平均欧几里得距离。该距离越小,说明与当前研究趋势越相似,也代表更有可能提出具有前沿意义的新观点。
(3) 当代影响力(Contemporary Impact, CI):指与生成摘要最相似的当代 5 篇论文的平均引用次数。引用数越高,表示生成的摘要更有可能具有较强的科研影响力。为确保各项指标具备可比性,我们对每个指标进行了归一化处理:将指标值除以其对应数据库中与该摘要年份相同的所有论文的平均值。
此外,VirSci 还引入了一个用于衡量科研创意新颖性的代理指标:整体新颖性(Overall Novelty, ON)。由于新颖性难以直接量化,该指标综合考虑了 HD、CD 和 CI,其具体计算公式为:ON = (HD × CI) / CD。为验证指标的有效性,论文使用提出的整体新颖性指标(ON)对系统生成的研究摘要进行评估,并辅以人工打分。结果显示,两者之间的皮尔逊相关系数为 0.52,表明该指标与人工评估结果呈正相关,能够较为有效地反映科研想法的新颖性水平。
VirSci 系统在创新性和影响⼒上的提升
为了验证 VirSci 在科研创新上的优势,研究团队将系统⽣成的科研想法与⽬前的单智能体 SOTA 模型(AI Scientist)所⽣成的进⾏了对⽐分析。结果显⽰,VirSci 在创新性和影响⼒上的表现均显著优于 AI Scientist。
具体⽽⾔,VirSci 系统⽣成的研究摘要在 CD 和 CI 两⽅⾯均表现突出,既能贴近当前学术趋势(即 CD 低),⼜具备较⾼的潜在引⽤影响⼒(即 CI ⾼)。此外,在 AI Scientist 中提出的基于⼤语⾔模型的评价指标(LLM Review Score)和人工评估上,VirSci 也展现出优势,这说明多智能体协作模式对提升科研创新性具有积极作⽤。
探索协作机制
尽管群体协作的动态机制在科学学(Science of Science)中已有广泛研究,但其在人工多智能体系统中的适用性及潜在效应仍不明确。为此,VirSci 系统进一步分析了影响科研想法新颖性的关键因素,包括团队规模、新鲜度(首次合作比例)以及研究背景多样性 —— 这些因素在以往的人类团队研究中已被证实具有重要作用。该分析有助于揭示多智能体协作中创新生成的机制规律,并为未来的科学学领域应⽤提供初步探索。
1. 团队规模与讨论轮数对新颖性的影响:
在两个不同数据集下的实验发现,当团队规模为 8 人、讨论轮数为 5 轮时,科研想法的新颖性达到峰值。相比之下,过大的团队规模或过多的讨论轮次可能导致协同效率下降或创意枯竭,从而抑制创新表现。此外,为保证比较公平性,引入了 “推理开销”(Inference Cost)指标,定义为团队人数与讨论轮数的乘积,用于衡量不同团队规模与讨论轮数的推理成本。
2. 团队新鲜度对新颖性的影响:
团队中新老成员的协作比例对创新性具有显著影响。实验表明,当团队的新鲜度(即首次合作成员占比)为 50% 时,所生成想法在历史差异性和整体新颖性上均达到最高,尤其在大规模团队中这一趋势更为明显。适度融合新成员与熟悉搭档,有助于在保持协作默契的同时引入多样化视角,从而激发更具创新性的科研构想。
3. 团队多样性对新颖性的影响:
团队多样性定义为团队成员中不同研究方向所占的比例。实验结果表明,适度的多样性能够有效提升与旧论文的语义距离(HD):对于 4 人团队,在 25%–50% 多样性区间效果最佳;而对于 8 人团队,则在 50%–75% 区间达到峰值。
此外,在多样性达到 50% 之前,与新论文的语义距离(CD)呈下降趋势,说明多样性较高的团队更能契合新兴研究趋势。值得注意的是,大团队在多样性提升后带来的 CI 增长更明显,而小团队则表现出更稳定的提升效果。整体来看,整体新颖性(ON)在不同多样性水平下呈现出 “倒 U 型” 变化,凸显了研究多样性平衡的重要性。
总结与展望
本文提出了一个基于大语言模型的多智能体系统 VirSci,用于模拟科学研究中的协作过程,重点聚焦于科学想法的生成阶段。系统通过虚拟科学家之间的协同互动,展现了多样化的观点碰撞与知识融合,较传统单智能体方法在创新性和趋势对齐方面表现更优,同时揭示了影响协作效果的关键机制。
未来,研究团队计划进一步拓展系统对现实科研生态的建模能力,使智能体能参与多个项目并跨团队协作,更贴近真实科研环境;同时持续优化数据的多样性,推动系统在更广泛科研场景中的应用。
来源:miniappan1iur7n