DeepSeek“开源周”技术落地 元脑企智一体机R1性能超10404 Tokens/s

360影视 动漫周边 2025-04-03 11:09 2

摘要:浪潮信息元脑企智DeepSeek一体机近日完成重大升级,通过多重优化策略,元脑企智EPAI平台实现与DeepSeek“开源周”技术的深入融合,显著提升大模型推理运行性能。在饱和压力测试场景下,元脑DeepSeek一体机单机运行R1的峰值吞吐性能超越10404

浪潮信息元脑企智DeepSeek一体机近日完成重大升级,通过多重优化策略,元脑企智EPAI平台实现与DeepSeek“开源周”技术的深入融合,显著提升大模型推理运行性能。在饱和压力测试场景下,元脑DeepSeek一体机单机运行R1的峰值吞吐性能超越10404 tokens/s,通常应用场景下每用户R1推理性能平均提升50%,极大地提升了元脑一体机的服务支撑能力和实际使用体验。

元脑企智DeepSeek一体机是浪潮信息推出的面向企业级大模型私有化部署的软硬件集成解决方案。一体机基于元脑推理服务器,集成元脑企智EPAI企业大模型开发平台,兼容和适配多种深度学习框架和算力芯片。自发布以来,元脑企智DeepSeek一体机持续结合业界先进的计算方案,迭代优化计算性能。本次更新全面升级了EPAI开发平台的DeepSeek推理引擎,结合芯片架构特点,对多头潜在注意力机制(MLA)和矩阵乘(GEMM)进行了深度优化,并成功融合DeepSeek在2月份“开源周”发布的核心技术成果FlashMLA和DeepGEMM。通过异步数据传输和多级流水线编排、共享内存分配优化、精细缓存管理等策略,系统计算能力得到显著提升。

实测数据表明,针对需要较高计算精度的注意力计算,MLA算子的BF16计算效率(MFU)最高达到85%;针对矩阵乘这一大模型中最为核心的计算单元,FP8计算效率最高达到93%,近乎完全地释放了元脑企智DeepSeek一体机的硬件潜能。在此基础上,通过深层次并发调度优化,元脑企智DeepSeek一体机NF5688G7在系统吞吐量和推理延迟等核心性能指标上实现了显著突破。在2000并发的饱和压力测试场景下,单机运行DeepSeek R1 671B的吞吐性能超越10404 tokens/s。

2000路并发性能测试日志,使用4000个request,实现了10404.98 tokens/s的总设备吞吐

在通常应用场景下(如并发量1-128用户,输入长度100-8192 tokens),元脑企智DeepSeek一体机NF5688G7可为每位用户提供持续稳定的10 tokens/s以上的解码速度,确保了流畅的对话体验。这使得单台设备能够同时服务更多用户,且在相同并发条件下,用户平均解码性能较上一版本提升约50%。

EPAI平台后台管理界面截图,系统并发请求数达到128时,请求成功率为100%

128并发下,EPAI用户界面截图,可以保证用户流畅使用

元脑企智DeepSeek一体机提供知识检索、智能体编排和低代码工具链等功能,支持完全离线部署和多层数据安全防护。元脑企智DeepSeek一体机通过软硬件高度协同的架构设计,能够帮助企业快速实现AI应用落地,目前已在金融、制造、医疗等领域实现规模化应用。

浪潮信息团队正专注于全方位技术优化,包括计算架构升级、算子性能调优、并行策略改进、框架适配优化和调度管理提升等,通过元脑企智EPAI平台,旨在打造性能卓越、稳定可靠且具有极高性价比的DeepSeek大模型部署方案。

浪潮信息是全球领先的IT基础设施产品、方案和服务提供商,通过发展新一代以系统为核心的计算架构,打造开放、多元、绿色的元脑智算产品和方案。浪潮信息致力于AI计算平台、资源平台和算法平台的研发创新,并通过元脑生态携手领先伙伴,加速人工智能的创新和应用落地。

来源:卷毛丸圆

相关推荐