摘要:那么在这新赛道,关于大模型我们还有什么可做的创新?要知道,如今的大模型研究已经从单纯的"规模竞赛"转向"效能突破"与"应用重构",研究者们致力于构建可持续进化的智能生态系统。因此,多模态大模型、智能体agent等这类围绕大模型技术演进核心矛盾的方向尤其值得关注
近两年LLM在学术界与工业界的发展大家都有目共睹。到了今年,以预训练LLM为代表的大模型PK上半场已然结束,接下来就要进入下半场大模型2.0时代了。
那么在这新赛道,关于大模型我们还有什么可做的创新?要知道,如今的大模型研究已经从单纯的"规模竞赛"转向"效能突破"与"应用重构",研究者们致力于构建可持续进化的智能生态系统。因此,多模态大模型、智能体agent等这类围绕大模型技术演进核心矛盾的方向尤其值得关注。
为了帮助大家了解LLM技术进展,同时也给论文er做一些创新点推荐,这次我从输入、模型/范式、输出3个方面整理了203篇大模型前沿论文,包含热门的RAG、LLM推理等方向,基本都有开源代码方便复现,希望可以给各位的论文添砖加瓦。
输入 TrustRAG: Enhancing Robustness and Trustworthiness in RAG
方法:论文提出了 TrustRAG,一个用于增强检索增强生成系统鲁棒性和可信度的框架,通过 K-means 聚类过滤潜在恶意文档,并结合语言模型的内部知识与外部信息进行冲突解决和自评估,生成准确可信的回答。
创新点:
通过K-means聚类结合余弦相似度与ROUGE指标,高效识别过滤恶意文档,显著降低攻击成功率。
融合语言模型内部知识与外部文档,通过自评估机制解决冲突,提升回答准确性与可信度。
无需训练,可灵活集成至任意语言模型,多数据集验证其防御效果优越。
方法:论文提出了一种新的在线强化学习框架StepGRPO,通过引入逐步推理奖励机制,帮助多模态大模型提升推理能力。它利用软关键步骤匹配和逻辑评估为推理过程提供密集奖励,解决了传统方法中奖励稀疏的问题,从而让模型更好地理解和生成推理路径。
创新点:
提出了一种新的在线强化学习框架StepGRPO,专门用于提升多模态大模型的推理能力。
引入了两种基于规则的逐步推理奖励机制:StepRAR 和StepRVR,分别奖励包含关键中间步骤和逻辑一致的推理路径。
通过组内相对优化和密集奖励信号,解决了传统方法中奖励稀疏的问题,显著提升了模型的推理性能。
TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and Agent Generation
方法:论文提出了一种用于解决复杂现实任务的多智能体方法,通过动态地将复杂任务分解为更小的子任务,并为每个子任务生成专门的子智能体,从而提高智能体在多样化和不可预测现实任务中的适应性和上下文感知能力。
创新点:
提出了基于动态任务分解和智能体生成的多智能体框架TDAG,动态分解任务并生成子智能体,提升复杂任务适应性。
构建ItineraryBench基准,能够更准确地评估智能体在复杂多步骤任务中的表现。
实验验证了TDAG框架在ItineraryBench上的有效性,显著优于现有基线方法。
方法:论文提出了一种基于“空中计算”的分布式设备上大模型推理框架,通过利用无线多址信道的模拟叠加特性来加速张量并行化中的频繁全归约操作,从而显著降低推理延迟并提高准确性,使资源受限的边缘设备能够高效地进行大模型推理。
创新点:
提出基于“空中计算”的分布式大模型推理框架,利用无线信道模拟叠加特性加速张量并行全归约,显著降低通信开销。
针对传输误差,设计联合模型分配与收发器优化方法,建模为混合时间尺度随机非凸问题,结合SDR与SCA算法求解。
仿真实验表明,该方法有效降低推理延迟、提升准确性,证实其在资源受限边缘设备上的实用可行性。
来源:科学迷思