智能算力与云计算融合解决方案 2025

360影视 2025-02-08 00:17 3

摘要:当前,全球人工智能技术迅猛发展,已经成为世界科技强国重点布局的关键赛道。随着智能算力逐渐成为算力结构的主要组成,传统 的通用云计算正加速与智算融合,升级成为可服务于人工智能技术和 应用发展的智能云。

一、云计算与智算加速融合,开启智能化新纪元

当前,全球人工智能技术迅猛发展,已经成为世界科技强国重点布局的关键赛道。随着智能算力逐渐成为算力结构的主要组成,传统 的通用云计算正加速与智算融合,升级成为可服务于人工智能技术和 应用发展的智能云。

智能云通过对大规模异构智算资源的融合与调度, 能够屏蔽各种底层复杂的计算资源、兼容多种芯片架构和开源框架, 提供丰富的云计算工具,提高算力资源利用率,保障各种 AI 模型算 法在智能云平台上实现高效便捷地运行。

从体系架构来看,智能云通 常包括智能云基础设施服务 AIIaaS、智能云平台服务AIPaaS、大模 型服务 MaaS、智能云应用服务AISaaS 等。

具体如图 17 所示。智能 云作为新一代人工智能发展的驱动力量,正在重构云服务产业格局, 加速形成新质生产力。

图 17 智能云体系架构图

(一)AIIaaS 夯实云计算技术底座,持续提升智能软硬件效能

AIIaaS 以智算资源为核心,依托对智算资源的融合提供智能化云服务,并使用调度管理工具充分发挥智能云资源池能力。

在传统模式 的 IaaS 中,云资源池以通用计算为主体,随着全球 AI 大模型的井喷 式发展,智能算力需求增速远超芯片性能提升和产能扩张速度的上限, 其中以 GPU(Graphics Processing Unit,图形处理器)为代表的芯片 成为提供智能算力的主力军,借助云计算能够实现零散智算资源集中 与纳管的优势,各大云厂商纷纷在智算领域进行布局,形成千卡、万 卡智能云集群,AIIaaS 成为云计算新范式--以云服务的方式提供可便 捷获取的智能算力。

云计算与智算资源融合形成的智能云能够为大模 型训练和推理提供充足的算力资源,已经成为促进人工智能领域发展 的坚实技术底座。

AIIaaS 提供智算基础支撑,为智能云提供坚实的底层资源。

一是智能计算能够提供丰富多样的智能云资源池。区别于传统的依靠 CPU提供算力,在 AIIaaS 中主要依靠 GPU、NPU(Neural Processing Unit, 神经网络处理单元)、TPU(Tensor Processing Unit,张量处理单元) 等新型芯片提供智算资源,例如谷歌云通过其云服务平台 Google Cloud 将 TPU 作为服务提供给外部用户,使得开发者和企业能够利用 TPU 的强大计算能力进行机器学习模型的训练和推理。

二是智能网络 能够提供适用于智算场景的组网选择。区别于传统的以太网组网选择, 智算场景对云资源池的网络提出了高带宽、低延时和高可靠的要求, 以 IB(InfiniBand,无限带宽)、RoCE(Remote Direct Memory Access over Converged Ethernet,基于聚合以太网的远程内存直接访问技术)为代表的高性能远程直接内存访问(Remote Direct Memory Access, RDMA)网络成为智能网络的首选,例如火山引擎在高性能计算集群 内使用 RDMA 技术实现高速网络互联,腾讯云的高性能计算集群以 高性能云服务器为节点,通过 RDMA 互联,大幅提升网络性能。

三是智能存储能够提供适用于智算场景的存储能力。目前云计算的后端 存储系统多为基于开源的软件存储协议,主要使用 Ceph(一种开源 的分布式存储系统),iSCS(I InternetSmallComputerSystemInterface, 互联网小型计算机系统接口)或者厂商自研的存储平台。

由于目前使 用的 Ceph 和 iSCSI在协议上的限制,在高性能块存储的场景下,需 要在存储的后端和前端通过基于 SPDK(Storage Performance Development Kit,存储性能开发工具包)和 DPDK(Data Plane Development Kit,数据平面开发套件)的用户态框架来提升带宽性能, 在新型的块存储上,各大厂商正在向 NVMe(Non-Volatile Memory Express,非易失性快速存储器)接口演进。

AIIaaS 调度管理层提供资源管理功能,助力智能云提效升级。

一是资源管理能够提升智能云多类型资源的调度分配能力。在 AIIaaS 中 存在多种资源管理模块,包括容器平台、虚拟化平台和裸金属服务器 等,各个资源管理模块使用智能调度和管理功能自动分配和优化资源 调度,实现提高整个系统工作效率的目标。

二是基础软件创新优化智 能云调度管理能力。GPU 作为智能云的核心计算资源,在对外提供云 服务时仍存在异构化的特点,为满足用户的不同需求,在 AIIaaS 中部署统一的 GPU 开发框架有助于消除支撑层智算资源异构化带来的 弊端,加速 AI 应用落地。

在调度管理层面,使用算网云操作系统完 成智算资源的调度管理,充分发挥智算集群的工程化能力,实现大规 模芯片资源高效协同工作。

三是关键技术突破提升智能云资源利用效率。虚拟化作为云计算领域的核心技术之一,能够使计算资源更加灵 活和高效。在 AIIaaS 中,GPU 虚拟化技术能够通过虚拟化管理器实 现对 GPU 资源的抽象和管理,提升智能云对计算资源尤其是智算资 源的高效使用。

例如微软云和谷歌云都提供了 GPU 虚拟化的实现方 案,允许将单个物理 GPU 分为多个虚拟 GPU,供不同的虚拟机使用; 火山引擎具备容器共享功能,实现 GPU 算力与显存的灵活切分与隔 离,提升 GPU 的使用率。

(二)AIPaaS 聚焦智算服务开发能力,成为 AI 工程化 实践最优解

随着大模型技术的火热以及云计算技术的发展,打造智能算力、 通用算法和开发平台一体化的新型智能云工程平台成为云服务商竞 相发力的方向。

智能云工程平台在传统的云服务基础上融合智算资源, 更加注重平台在智算服务开发能力的丰富和创新,为人工智能的发展 提供更加高性能的计算、更加智能的运维、更加稳定的平台性能和更 加灵活的应用生成能力。

AIPaaS 提供丰富的 AI 工具组件和模型及算法仓库,让用户模块化、 定制化进行人工智能开发。AIPaaS 通过融合强大的智算资源,提供高效的开发工具、通用模型仓库、私域模型仓库以及集成高质量的数据 集,为满足人工智能从零开始训练大规模模型、处理复杂计算任务的 需求提供了强有力的支撑。

平台丰富的算法库、数据集和开发工具, 通过自动化的流程管理和优化,降低了人工智能应用的开发门槛。平台内置的通用大模型和私域模型,还可以实现模型的开箱即用,提高 开发效率。

例如腾讯云 TI 平台、火山云方舟平台,支持多种编程语 言、框架和工具,满足不同开发者的需求,提供包含各种预训练模型 的通用模型仓库,可以供开发者直接使用或作为迁移学习的起点。

这些平台还提供丰富的数据集,包括公开数据集和定制数据集,帮助开 发者进行模型训练和测试。

AIPaaS 是一站式模型开发训练推理部署平台,成为大模型时代应 用生成的加速器。随着模型规模的不断增大和复杂度的不断提高,其 对计算资源和开发效率的要求也越来越高。

AIPaaS 在智算资源的加持 下,提供一站式的大模型开发部署流程,包括数据预处理、模型训练、 模型评估、模型部署等。这些流程可以通过自动化工具进行高效执行, 减少了开发者的重复劳动,提高了开发效率。

这种集中化的资源管理、 自动化的流程执行、高效的协作方式、弹性扩展的能力,为大模型时 代的人工智能应用生成提供了强有力的支持。

智能云工程平台继承了 传统通用云平台开发和部署流程的优势,支持多用户协作开发,不同 的开发者可以同时在平台上进行工作,通过版本控制等工具进行代码 和数据的共享和协作,这种高效的协作方式可以加快模型的迭代和优化速度,提高模型的性能。

例如阿里云灵骏、天翼云慧聚以及移动云 九天智算,这些智能云工程平台提供了从数据到模型应用的全流程开 发服务,通过自动化的流程管理和优化,突破原有 AI 能力构建效率 低、成本高、迭代混乱等限制,构建通用 AI 中台,加速模型快速生 成和应用落地。

AIPaaS 提供安全稳定的运行环境,为人工智能模型开发提供支撑和保障。AIPaaS 通过多层次的安全保障和稳定性措施,确保了 AI 模型从训练到部署的整个过程都处在一个安全、可靠的环境中。

在安全方面,智能云工程平台全面考虑了数据安全、模型安全、通信安全、 平台安全、网络安全和算法安全等多个维度。通过数据加密、访问控 制、模型鉴权、算法认证、入侵检测与防御等手段,防止了未经授权 的访问和恶意攻击。同时,平台还对 AI 模型进行了严格的安全防护, 防止了模型被篡改或滥用。这些安全措施共同构成了一个全方位的安 全体系,为 AI 模型的开发和应用提供了坚实的保障。

在稳定性方面,面对大规模集群训练中断频繁,恢复时间长,重复训练等困境,智能 云工程平台通过容灾建设、可观测性和混沌工程等手段,确保了平台 的稳定性和可靠性。

平台具备强大的容错和恢复能力,能够在发生故 障或异常情况时迅速恢复服务,保障业务的连续性。同时,平台提供 了全面的监控和日志记录功能,使管理员能够实时了解平台的运行状 态和性能表现,及时发现潜在问题并进行处理。

此外,平台还通过混 沌工程等手段模拟各种故障和异常情况,测试平台的容错能力和恢复能力,进一步提高平台的稳定性和可靠性。

(三)MaaS 定义云上服务新范式,赋能 AI 创新与效率 提升

MaaS 将复杂的 AI 模型应用开发能力进行标准化封装,为用户提供 了一个便捷化的模型服务平台。在传统模式下,大模型的训练、推理和 部署通常需要庞大的底层算力、丰富的训练数据以及先进的模型算法支撑。

此外,数据管理、模型安全、应用编排、性能监控等环节也需要大 数据、云原生、网络安全等复杂技术的支撑。

这些因素不仅增加了企业 的技术投入和运营成本,也限制了 AI 技术的广泛应用。然而,MaaS 的 出现彻底改变了这一局面,它在 AIPaaS 基础上通过标准化封装,深度 整合计算资源、模型算法资源以及数据管理、模型安全、应用编排、性 能监控等能力,形成了面向应用开发的覆盖训练、推理到部署的全生命 周期模型服务方案,用户只需通过 API 和 SDK 即可进行模型服务的调 用和使用。

这种一站式的服务模式为用户提供了便捷化的模型服务体验, 极大地降低了用户管理模型和开发应用的门槛,使得 AI 技术成为每个 企业都可以轻松利用的工具。

MaaS 提供通用模型管理和垂域模型训练服务,助力企业推动 AI 产 品创新。在 MaaS 平台中,常见的通用大模型和 AI 算法可以被接入纳 管,面向企业不同的 AI 大模型使用需求和垂域模型的训练需求,可以 通过预设的模型和算法智能调整参数、优化模型性能、自动部署模型到 生产环境、实时监控模型运行状态和更新微调模型,使得用户无需过多关注包括 AIPaaS 层在内的底层大模型训练、部署等技术细节,只需专 注于业务核心逻辑和应用场景,大大提高了垂域模型训练的效率。

为实现通用大模型便捷使用和垂域模型的高效训练,国内外云厂商纷纷推出 MaaS 模型管理平台,例如 Azure的 Azure AI Studio,Google 的 Vertex AI Studio 以及阿里云的百炼大模型服务平台、百度智能云的千帆大模型 平台,使得用户可根据需要灵活构建和管理模型,提高 AI 产品的上线 速度,更好地满足市场需求。

MaaS 提供基于模型的全流程应用开发工具链,助推 AI 应用价值落地。AI 应用开发涉及了数据处理、AI 模型、分布式计算、部署推理等 一系列复杂的技术栈,而 MaaS 提供了全流程的 AI 应用开发能力,覆 盖数据管理、模型训练、模型微调、编排部署等,帮助下游用户更加高 效、便捷地实现大模型的应用开发。

为实现 AI 应用价值落地,国内外 各大厂商都推出了全流程应用开发的 MaaS 平台,包括亚马逊云的 Amazon Bedrock、腾讯云 TI 平台、华为云 ModelArts 等。

这些平台覆盖 了数据管理、模型训练、模型调优、模型评估、推理部署、提示工程、 测试编排等完整的 AI 应用开发工具链,并逐步在政府、金融、制造、 能源、医疗、零售等多个行业中进行应用开发,助力 AI 应用价值落地。

MaaS 提供丰富的基础 AI 云服务,赋予了企业定制开发 AI 应用的 能力,支撑各行业生产力变革。随着 ChatGPT、Gemini 等 AI 大模型的 涌现,人工智能 2.0 时代已经来临,各行业都在积极探索更加智能化、 自动化的 AI 大模型应用落地。

在政府、金融、制造等行业中,智能办公、文档写作等应用需求日益增长,而智能交互、应用商店则成为零售、 电商、文娱等行业中的关键需求。

针对这些 AI 应用需求,MaaS 提供了 丰富的基础 AI 云服务,赋予了企业定制开发 AI 应用的能力,企业只需 要选择需要的 AI 应用类型和功能、上传企业专有训练数据,即可获得 企业专属的 AI 应用,进一步降低了企业开发专属 AI 应用的难度和工作量。

国内外厂商已推出多种 MaaS 基础 AI 云服务,例如亚马逊云的 Amazon Transcribe、微软云的 Copilot 代码助手、谷歌云的 Document AI 等智能办公产品,阿里云的 AI 数字人、华为云的智能客服等智能交互 产品。此外,腾讯云、百度智能云、讯飞星火等服务商也相继推出大模 型应用商店,为企业业务拓展和 AI 创新需求提供了更多可能性,进而 实现企业数字化转型和行业生产力变革。

(四)AISaaS 推动 AI 应用落地实践,加速企业数字化 转型进程

AISaaS 推动 AI 技术深入行业企业,助力用户快速应用 AI 服务。SaaS 是云技术的综合体现和应用形式,通过结合云与 AI 技术,面向 企业与各行业需求开发,包装形成开箱即用的 AISaaS,为用户提供便 捷的 AI 服务入口。SaaS 与 AI 的深度融合不仅加速 AI 本身的创新和 训练过程,而且极大地拓展了 AI 技术的应用边界。

一是 SaaS 模式助 力 AI 理解业务细节。AI 技术实现大范围应用,需要深入了解行业业 务的运作机制、业务流程和痛点难点。与深入各个业务领域的 SaaS 紧 密合作,有助于 AI 能够深度融入业务需要,解决实际问题。

二是 SaaS模式推动用户快速接入 AI。SaaS 即开即用的业务模式帮助快速部署 落地生产级的可用 AI 能力,避免为搭建 AI 基础设施和组建研发团队 投入大量成本,并且 SaaS 模式按需使用、按量付费的收费方式也降 低了用户的智能化成本。

三是 SaaS 模式提供高质量业务数据提升模 型质量。SaaS 服务商通过积累的大量业务数据训练 AI,使其提供的 人工智能服务能够根据用户需求和市场趋势持续迭代更新,使用户在 没有充足数据训练的情况下,也能享受经过完善训练后的 SaaS 化智 能服务。

AISaaS 在通用业务场景中展现广泛应用。在市场业务方面,通过 AI 增强的客户关系管理平台分析客户行为数据,预测客户需求,为用 户定制个性化营销策略;通过分析销售数据识别市场趋势,针对性配 置销售团队资源投入,分析客户质量,制定对应销售策略,提高转化 率;通过 AI 驱动的市场营销自动化 SaaS 划分消费者兴趣点,执行定 制化营销活动,提高营销行为的投资回报率。

在公司管理方面,人力 资源管理SaaS 通过结合 AI 技术辅助建立简历筛选、智能匹配职位, 预测员工离职风险,以及个性化培训建议等功能,提升企业人力部门 的工作效率和效果;财税管理 SaaS 结合 AI 技术进行自动化账务处 理,发票识别、财务预测、风险评估等重复性财会工作,减少人工错 误,进而提高财务部门的准确性和速度。

在协同办公方面,企业员工 通过 AIGC 增强的办公系统提高工作效率,如智能会议纪要、智能助 手、文本生成,自动化审批等;项目管理者通过 AI 分析进行资源分配、工作量预测和进度跟踪,提高项目管理的效率和精确度,确保按 时完成项目目标。

AISaaS 赋能垂直行业快速转型,适应市场变化。面向垂直行业的 SaaS 服务可以对特定行业的需求提供高度定制化的解决方案,结合 大模型等 AI 技术后,能够更好地理解行业特有的数据特征和业务需 求,从而提供更加精准的服务。

农业领域,SaaS 化物联网设备管理与 AI 算法分析,极大提升了作物种植、畜牧和水产等子行业的种植和养 殖效率,推动农业管理的现代化和精细化。如某农业数字化 SaaS 平 台整合物联网设备收集的农田环境和作物生长等数据,结合 AI 算法 进行分析,为农业企业提供作物管理建议、病虫害预警和精准施肥指 导等服务。

医疗领域,医疗领域大模型辅助医生在复杂诊断任务中作 出更准确的判断,当前已有多家医疗行业 SaaS 服务商提供医疗影像 SaaS 服务用于存储、统计和标注医学影像数据,在接入影像分析专项 的 AI 后,医学影像 SaaS 的分析能力得到显著增强,有效解决基层医 疗机构的服务能力不足,提高患者就医体验。

工业领域,将生产、运 维、质量监测等 SaaS 接入大模型,对生产过程中的各种参数进行精 细调整以提高生产效率,同时结合计算机视觉自动检测产品缺陷,提 高产品质量控制的准确性和效率。如某云服务商开发了针对制造质检 的 SaaS 方案,对生产过程中的产品进行拍照分析,检测产品质量,如尺寸、缺陷等,实现对传统人工质检的替代。

零售领域,通过结合 智能分析的供应链管理 SaaS,预测市场需求变动,优化采购计划,实现供应链的快速响应和灵活调整,降低物流成本,提升整体供应链效 率。如某大型零售公司的补货系统,通过分析销售数据、节假日、天 气预测等因素调整订单内容和频率,确保库存在客户满意度和周转率 之间实现平衡。

二、建议与展望

(一)发展建议

云计算是信息技术发展和服务模式创新的集中体现,是信息化发 展的重大变革和必然趋势,是信息时代国际竞争的制高点和经济发展 新动能的助燃剂。做大做强我国云计算产业,加快推动云计算的普及 应用,提升核心技术能力,有助于加快形成新质生产力。

资源供给方面。在云资源供给基础上,各地应加强与技术突破形 成合力,多层面均衡基础资源供需关系。一方面,增加智算中心、超 算中心等云基础设施节点建设,同时降低现有方案损耗,优化现有算 力和云存储资源供给效力。

另一方面,从技术侧突破跨地域跨形态资 源调度难关,打破资源“混而不合”的痒点,形成各区域、各省份间 资源互联互通网,完成分级分层的资源调度方案和供给策略制定,促 进地区数字经济快速发展。

服务水平方面。一方面,持续提高云应用与服务的易用性和丰富 度,深挖制造、交通、医疗、农业等传统行业需求,针对性升级迭代 云上应用和服务,加速千行百业深度上云。

另一方面,引导云计算与 人工智能等新一代信息技术加速融合、积极创新,推动云应用与服务在弹性、便捷、普惠的基础上,进一步向高效化、个性化、智能化演 进,提高用户使用体验。

技术融合方面。

一是推动算力建设起步晚、云化程度较低的省份 深化云技术融合,加大技术、资金和人才的投入,引导企业发挥好云 计算弹性按需的能力特点,利用云技术提高已建成算力资源的利用率, 充分发挥算云融合赋能企业数智转型的作用;

二是提高各场景的数智 云化水平,尤其是云化部署比例较低的科学计算等场景,应针对性地 加快向智算云服务转型,充分利用云计算资源弹性调度的优势,纳管 CPU、GPU 等多种异构芯片,形成千卡、万卡规模化集群,支撑人工 智能应用场景对智能算力的需求,赋能千行百业。

(二)发展展望

随着数字中国建设持续深化,产业变革不断加速,云计算作为人 工智能、大数据等数字技术产业底层助力的重要性将日益凸显,正在 成为持续推进新一代科技革命和产业变革的关键技术引擎,加速新质 生产力发展,构筑国家竞争新优势。

未来数年,云计算在提升人工智 能算力、算效等方面的价值将被接续发掘,并深度影响社会发展、产 业变革、人类生产生活。聚焦云计算产业,将呈现如下趋势:

战略上,全球主要国家本土云计算战略仍将继续升级,全球云计 算开放度或将收紧。随着人工智能算力成为全球性紧缺战略资源,云 计算的算、调一体属性将天然使其成为解决算力供应问题的最优方式, 从而决定人工智能竞争胜负的关键。

美欧等国一方面将持续提升云计算在本土领域的战略价值,推升云计算对其政务、工业、制造等行业 的价值供给,另一方面出于国家安全和战略优势考虑,将不断收紧对 外国厂商和外国用户的政策包容度,这一趋势预计在当前国际形势下 会得以延续。我国将持续聚焦云计算赋能价值,助力企业数字化智能 化发展。

路径上,云计算产业关注点不断上移,将更加侧重提升易用、安 全、稳定、优化等精细化管理水平。经过十余年发展,云计算产业发 展已至成熟阶段,主要表现为市场增速稳定、核心技术成熟、竞争格 局稳定、产业链条完整。

云计算底层技术已基本完善,产业发展特征 推动其发展重点上移,应用现代化、稳定性保障、云原生安全、云成 本优化、行业云平台等云计算“工程实施”层面的内容将愈发成为今后 发展的核心关注点。

模式上,“云+AI”服务模式创新发展,将开启 云计算产业智能化新纪元。

技术侧,云算加速融合,算网云调度操作 系统推动算力、网络、云计算协同发展,加速高效互联的算力互联网 体系构建,算力标识、高性能传输协议 RDMA 等核心技术将成为创新发展方向。

服务侧,人工智能技术演进正加速算力结构变革,智能 算力成为未来算力主要竞争点,“计算能力+AI 服务能力”的智能云 计算将成为关键,智能云服务技术和应用发展成为趋势。

应用侧, MaaS、AISaaS 以标准化、便捷化等为特征的云计算基础设施封装 AI 能力,将极大地推进人工智能大模式的落地应用,成为未来数年的发 展重点。

“九万里风鹏正举,五千年云鹤长鸣!”中国云计算人将接续奋 斗,砥砺前行,以推动云计算产业融合升级,助力新质生产力与新型 工业化发展,为中国式现代化和中华民族伟大复兴贡献创新力量!

来源:马少华

相关推荐