KAIST团队:如何让AI模型更高效?
想象一下,如果你的手机能够在处理复杂任务时既快速又节能,那该多好?韩国科学技术院(KAIST)的研究团队刚刚在2025年3月的《机器学习研究汇刊》上发表了一项令人兴奋的研究成果,他们开发出了一种让人工智能模型变得更高效的全新方法。这项研究的第一作者是宋佑民(W
想象一下,如果你的手机能够在处理复杂任务时既快速又节能,那该多好?韩国科学技术院(KAIST)的研究团队刚刚在2025年3月的《机器学习研究汇刊》上发表了一项令人兴奋的研究成果,他们开发出了一种让人工智能模型变得更高效的全新方法。这项研究的第一作者是宋佑民(W
本文将深入分析Mamba架构中交叉注意力机制的集成方法与技术实现。Mamba作为一种基于选择性状态空间模型的新型序列建模架构,在长序列处理方面展现出显著的计算效率优势。通过引入交叉注意力机制,Mamba能够有效处理多模态信息融合和条件生成任务。本文从理论基础、
架构 序列 transformer 建模 mamba 2025-06-10 10:12 6
推理大模型中的注意力机制可以去掉吗?这是当下最具挑战性的开放问题之一。过去半年,伴随长思维链的爆火,模型在复杂推理任务中普遍需要生成成千上万的 tokens 才能产出高质量解答。然而,这也与 Transformer 架构天然矛盾:随着生成长度的增长,Atten
其一,提出Grouped-Tied Attention(GTA),与已集成到Llama 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。
在这个 AI 技术与应用大爆发的时代,我们最不缺的就是「热词」,从自回归到扩散模型,从注意力机制到状态空间模型,从思维链到推理模型…… 有时候,其中一些热词会聚拢一处,为 AI 世界创造出新的可能性。
视频 模型 transformer mamba ssm 2025-05-31 18:23 4
日前,全球权威大模型公开竞技场 -Chatbot Arena 评测榜单公布最新排名,腾讯混元旗舰大语言模型 TurboS 位列全球第 7,在国内大模型中仅次于 Deepseek。放眼国际,排在前面的也仅有谷歌 Gemini、 OpenAI 以及 xAI 三家国
国家知识产权局信息显示,无锡创擎科技有限公司申请一项名为“基于Mamba框架的工业视觉缺陷检测方法及系统”的专利,公开号CN 119785113 A,申请日期为2024年12月。
英国爱丁堡大学博士毕业生、沙特阿卜杜拉国王科技大学博士后研究员李南伯一直在研究世界模型,这种模型能够根据事物的状态和背后规律预测未来,这一显著特征让李南伯深深着迷。
对于球鞋玩家来说,即将到了的 4 月份,绝对是上半年「含金量」最高的一段时期!
通过大量实验验证,研究团队发现Vamba在同等硬件条件下可处理的视频帧数较传统Transformer架构提升4倍,训练内存消耗降低50%以上,并且可实现单步训练速度的翻倍。
视频 架构 transformer mamba 显存 2025-03-27 13:03 10
不难发现,无论是营收、交付量还是市占率,地平线持续强劲增长并创历史新高。进一步来讲,作为智驾平权时代的“幕后英雄”,地平线真正在推动国民智驾登上国民车。
在众多非 Transformer 架构中,Mamba 无疑是声量较大且后续发展较好的一个。然而,与最初发布时那种仿佛「水火不容」的局面不同,最近一段时间,这两种架构似乎正在走向融合。
这样做有啥好处呢:简单地说,混合Mamba架构通过降低计算复杂度、缓存占用,同时发挥其在处理长序列和捕捉复杂上下文方面的优势,成功应对了大规模强化学习训练的挑战,显著提升了系统的整体效率和吞吐量。还实现了实现了训练跟推理成本的双下降!
t1 transformer deepseek mamba 2025-03-24 11:18 10
当用户还在感叹“AI生成速度不够快”“长文本处理总丢上下文”时,腾讯混元大模型团队在3月21日深夜投下一枚“技术炸弹”——混元T1正式版。这款号称“秒回消息、打字快到飞起、超长文本轻松拿捏”的深度思考模型,以全新架构和“腰斩级”价格,直击行业痛点,或将改写国产
该模型的前身是,今年2月中旬混元团队在腾讯元宝APP上线的基于混元中等规模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。
腾讯混元今日通过官方公众号宣布,全新的推理模型T1将于本周五(即3月21日)正式发布。与此同时,腾讯宣布,混元大模型首次登上Chatbot Arena榜单,跻身全球Top 15。
近年来,大型语言模型(LLM)通过大量计算资源在推理阶段取得了解决复杂问题的突破。推理速度已成为 LLM 架构的关键属性,市场对高效快速的 LLM 需求不断增长。
1 MambaOut:在视觉任务中,我们真的需要 Mamba 吗?(来自 NUS,MetaFormer 原作者)1 MambaOut 论文解读1.1 在视觉任务中,我们真的需要 Mamba 吗?1.2 本文有哪些新的发现?1.3 概念讨论1.4 视觉任务有长序
奔四老JR 最早是KG球迷 KG 2004年打成那样都没冲出西部 一直耿耿于怀 从2003-2010年都觉得Kobe是反派时间变幻 虽然Kobe阻止火箭冲出西部 2010年完成对我凯的复仇 但这个反派又强又韧 强悍又迷人 主角的强大是由反派衬托起来的 这段时间
反派 mamba mambamentality 2025-01-28 09:59 16
·One bite,and it's dead in seconds.·humans don't fare much better without immediate treatment.·100% of black mamba bites.·kill the