打破瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化
残差连接(residual connections)自何恺明在 2015 年开山之作 ResNet [1] 中提出后,就成为深度学习乃至 Transformer LLMs 的一大基石。但在当今的深度 Transformer LLMs 中仍有其局限性,限制了信息
北邮 transformer 彩云 muddformer 架 2025-06-27 18:08 4
残差连接(residual connections)自何恺明在 2015 年开山之作 ResNet [1] 中提出后,就成为深度学习乃至 Transformer LLMs 的一大基石。但在当今的深度 Transformer LLMs 中仍有其局限性,限制了信息
北邮 transformer 彩云 muddformer 架 2025-06-27 18:08 4
在深度学习领域,模型训练过程中的性能优化一直是一个备受关注的话题。特别是在处理复杂任务如自然语言理解时,模型的每一层网络都会增加计算负担,可能导致梯度下降过程中的不稳定现象。梯度在下降过程中,有时会跳过最优解,或在最优解附近徘徊,这不仅消耗了大量计算资源,还可
transformer 残差 前馈 残差网络 前馈网络 2025-06-26 21:54 4
医疗视频的生成一直是人工智能领域的重要挑战。2025年6月,来自北京航空航天大学、清华大学、中国医学科学院肿瘤医院和字节跳动的研究团队联合发表了一篇创新性论文《FEAT: Full-Dimensional Efficient Attention Transfo
视频 医疗 北航 transformer feat 2025-06-10 21:25 3
国家知识产权局信息显示,哈尔滨理工大学;常州铭赛机器人科技股份有限公司申请一项名为“基于Transformer模型的端到端点云配准方法及系统”的专利,公开号CN120125625A,申请日期为2025年02月。
transformer 端点 点云 哈尔滨理工大学 配准 2025-06-10 16:51 4
以下基于提供的学术证据,针对“LSTM对极端事件(如战争、资源民族主义)预测能力弱于Transformer”的命题展开系统性分析,涵盖架构原理、数据适应性、训练动态及实证依据四个维度,并结合稀土供应链预测场景提出优化路径: 一、模型架构原理:长尾事件建模的固有
预测 长尾 transformer lstm lstm预测 2025-06-10 11:04 6
本文将深入分析Mamba架构中交叉注意力机制的集成方法与技术实现。Mamba作为一种基于选择性状态空间模型的新型序列建模架构,在长序列处理方面展现出显著的计算效率优势。通过引入交叉注意力机制,Mamba能够有效处理多模态信息融合和条件生成任务。本文从理论基础、
架构 序列 transformer 建模 mamba 2025-06-10 10:12 6
近年来,截面策略(Cross-Sectional Strategy)作为量化投资的主流方法,通过因子 排序组成多头股票组合的方式在公募量化领域得到广泛应用。然而,随着市场发展,此类 策略正面临新的挑战。一方面,传统财务、量价等基础因子的挖掘已趋于饱和,模型迭代
transformer t 动量 动量transformer 2025-06-10 09:34 6
注意力机制的「平方枷锁」,再次被撬开!一招Fenwick树分段,用掩码矩阵,让注意力焕发对数级效率。更厉害的是,它无缝对接线性注意力家族,Mamba-2、DeltaNet 全员提速,跑分全面开花。长序列处理迈入log时代!
华人 transformer 掩码 对数 门控deltane 2025-06-09 05:07 6
变换器改变了人工智能在语言理解和数据学习等方面的工作方式,大语言模型的核心是张量(一种帮助处理信息的通用数学矩阵)。当数据通过变换器的不同部分时,张量会发生不同的变换,从而帮助模型理解句子或图像等内容。了解变换器中的张量是如何工作的,有助于理解当今最智能的人工
魔术 张量 transformer 解码器 变换器 2025-06-10 07:08 6
近日,美国斯坦福大学教授李飞飞等人打造出一种名为“嫁接”(grafting)的新型架构编辑方法,它能在有限的算力条件之下重构预训练扩散 Transformer。研究团队表示这种嫁接法既简单又轻便,采用 8 块英伟达 H100 GPU 在 24 小时内即可完成单
模型 架构 transformer 架构设计 嫁接法 2025-06-09 16:32 4
2023年,ChatGPT大爆发之后,一年一度的高考季就来临了。从知识体系的传播角度看,两个事情的诡异同框,让“小镇做题家”的人生令人怀疑。于是,写了《AI时代的绝命高考》「链接」。由于文章过于真实,命被“头条”绝了,但“知乎”良知尚存,让它活了下来。
高考 chatgpt transformer 创造力 cla 2025-06-09 00:17 7
RNN太老,Transformer太慢?谷歌掀翻Transformer王座,用「注意力偏向+保留门」取代传统遗忘机制,重新定义了AI架构设计。全新模型Moneta、Yaad、Memora,在多个任务上全面超越Transformer。这一次,谷歌不是调参,而是换
谷歌 transformer 谷歌transformer 清 2025-06-07 17:47 8
OpenAI的GPT-4.5已能自主编程、微软Copilot彻底重塑办公生态、Anthropic的Claude 4在长文本推理上独步天下,而DeepSeek则凭架构创新跻身世界前列。
gemini 谷歌 chatgpt transformer 2025-06-07 12:58 5
在当今竞争激烈的汽车市场中,想要找到一款真正能满足多方面需求的座驾并非易事。但如果对那些令人眼花缭乱却华而不实的宣传“不闻不问” ,你会发现,昊铂是个不错之选。它在豪华体验、智驾科技、高效补能、全维安全、美学设计方面都有出色表现,堪称汽车界的全能选手。
解锁 游艇 transformer hl occ 2025-06-06 10:57 8
人工智能生成内容(AIGC)技术确实是当今科技领域的热点话题,它似乎拥有"读心术"般的能力,能够理解上下文并生成连贯、有创意的文本、图像甚至视频。然而,当我拨开这些高科技的迷雾,会发现其核心原理其实非常简单,本质就是大规模的统计学分析。这正是为什么AIGC技术
aigc 智能 transformer 统计学 aigc技术 2025-06-06 09:46 4
想象一下,当你使用ChatGPT时,AI需要一个一个地生成单词,就像一个人一次只能写一个字一样。这种方式虽然确保了文本质量,但速度较慢。研究人员发现,如果AI能够"猜测"接下来的几个单词,然后一次性验证这些猜测,就能大大提高生成速度。这就是所谓的"推测解码"技
模型 技术 transformer 语言 clasp 2025-06-04 16:37 5
随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是学术界,探索如何扩展 Transformer 模型日益成为一种趋势。
模型 微软 范式 transformer transform 2025-06-02 17:46 5
在2025未来汽车先行者大会上,华为常务董事余承东再次语出惊人:“在智能驾驶上,我们不是第一阵营——我说话不是很谦虚——我们是第一名。”这句直白的宣言,成为整场会议最具传播力的爆点。
华为 鸿蒙 余承东 transformer 鸿蒙智行 2025-05-31 22:36 4
在这个 AI 技术与应用大爆发的时代,我们最不缺的就是「热词」,从自回归到扩散模型,从注意力机制到状态空间模型,从思维链到推理模型…… 有时候,其中一些热词会聚拢一处,为 AI 世界创造出新的可能性。
视频 模型 transformer mamba ssm 2025-05-31 18:23 4
在自然语言处理(NLP)领域,BERT(Bidirectional Encoder Representations from Transformers)是一个具有里程碑意义的大模型,它凭借强大的预训练能力和广泛的应用价值,深刻改变了语言理解的范式。本文将从BE
模型 gpt transformer bert 搜索词 2025-05-30 10:02 7