摘要:“与互联网技术和移动互联网技术相比,如今的GPT4 / ChatGPT影响的用户还非常有限,AI技术还远远未到‘技术普惠点’,我们正处在‘1995年的互联网’时代。”
GMI Cloud亚太区总裁King Cui
“与互联网技术和移动互联网技术相比,如今的GPT4 / ChatGPT影响的用户还非常有限,AI技术还远远未到‘技术普惠点’,我们正处在‘1995年的互联网’时代。”
12月7日,GMI Cloud亚太区总裁King Cui出席参加了2024T-EDGE创新大会暨钛媒体财经年会的平行论坛EDGE Founders Demo Day,在现场分享了他们在AI出海大潮中的趋势洞察,并介绍了GMI Cloud在GPU云平台构建方面的探索。
以下为King 演讲精华:
AI出海大潮与算力需求King Cui将云计算的发展分为三个阶段,每个阶段都标志着技术和社会的一次重大飞跃。
Cloud 1.0(2010-2015):Cloud Base,企业开始将传统的IDC业务迁移到云端,这一时期的云服务主要以裸金属形态存在,企业开始尝试和适应云的新模式。Cloud 2.0(2016-2022):Cloud Native,用户和企业从简单的云上云转变为深度用云,PaaS 产品从裸金属 base 转变为VM及Container Base,客户开始更多地使用云厂商提供的PaaS产品,专注于自身业务的研发提效。Cloud 3.0(2023年至今):Cloud 3.0标志着AI Native Cloud时代的到来,以 OpenAI发布 GPT 为起点,AI浪潮席卷全球。这一阶段的云产品形态与前两个阶段有显著不同,计算、存储和网络产品都发生了重大变化,如从CPU计算转向GPU计算,存储需求也从传统的文件存储、对象存储转变为需要更高速的存储,如GPFS,网络也同样需要适应GPU集群的高速网络需求。AI推动了云计算的发展。然而,在这个AI时代,AI企业在全球的发展将是一个确定性趋势,未来三年将进入高速发展阶段。AI技术的发展速度和对人类生活的影响日益增强,尽管AI 技术的发展处于早期阶段,但已经展现出巨大的潜力和机会。截止至2024年8月,全球AI WEB产品总数共1717个,其中中国AI WEB产品数量280个,出海AI WEB 产品数量95个。也就是说,有34%的AI产品从一开始的定位就是全球化。
中国 AI 企业在海外市场的布局正在加速。然而,机会与挑战并存,在“AI三要素”(数据、算法和算力)中,算力——因其高昂的硬件成本和稳定运维的高难度,都是一个初创AI企业没有能力去自己承担的核心生产资料。
目前在AI出海过程中,以算力为中心的生产矛盾逐渐增多。具体矛盾主要表现在以下几个方面:
1、国内高端算力资源不足,导致业务进展缓慢;
2、AI Infra的建设经验不足,软件和硬件基础设施构建需消耗大量时间及经济成本;
3、供应商(机房、能源、设备等)可靠性、稳定性难保障,选型困难。
而所有上述问题产生的直接结果就是——AI Infra稳定性不足,导致公司承担了更多的经济以及时间成本。
以Meta为例, 其披露的报告显示,为期54天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419 次是意外的,且大部分都来自硬件问题,GPU又是最多的,占了其中的 58.7%。
然而,维持AI Infra层的稳定性并不是一件简单的事情。所以,这就意味着我们需要在组网、硬件、软件、工程化等方面做大量工作,以减少GPU的掉卡率,保持任务的连续性,最大化GPU的使用效率!
很多AI企业在选择Infra团队的时候,优先考虑的往往是单价最低的GPU。但其实,GPU集群的稳定性才是更为重要的考虑因素。稳定性越高,模型训练、研发整体成本才会下降。
所以,选择具有软件加持和极强运营能力的云平台,一定比单纯选择价格低的GPU硬件更具性价比。
GMI Cloud的解决方案作为一个全栈AI应用平台,GMI Cloud在GPU硬件架构层和IaaS层拥有完全自研和掌控的硬件和云平台。在Iaas层GMI Cloud会基于硬件构建自己的Cloud云平台,把计算、存储、网络这些能力通过API的方式更好地提供给Paas层的客户。而在硬件层GMI Cloud会提供高端的GPU服务器,包括高速存储和高速网络能力。
GMI Cloud致力于支持AI应用开发者,提供高稳定性的GPU集群,以提高AI应用的研发效率和产品竞争力。
在Cluster Engine层面,GMI Cloud的Cluster Engine是一个端到端的全栈AI应用平台,从底层GPU硬件架构层到应用层,提供统一的资源管理和调度。GMI Cloud 通过Kubernetes和HPC Slurm开展工作。GMI Cloud将Slurm应用到容器化中,实现硬件资源(尤其是GPU资源)像任务一样灵活调度和分配,并由云集群引擎统一管理,满足AI和HPC的资源需求。
除了软件能力,“验证体系”也是保证用户体验关键因素之一。GMI Cloud具有独特的双验证体系。作为NCP(Nvidia Cloud Partner),GMI Cloud的集群设计要首先通过经过Nvidia认证,从一开始构建集群的时候,构建方案就需要Nvidia review。GMI的集群构建完毕之后,英伟达会进行再次的check,形成一个双重的Nvidia认证体系。另一方面,GMI Cloud在给客户构建私有集群之前,自己也会对于整个硬件和系统做测试。包括单机和跨机的这种分布式模型的训练,GMI Cloud会做一些压力和功能测试。确保这个集群交给客户是完全可以运行的。在这套双验证体系的加持之下,GMI Cloud可以保证交付给客户的集群是一个完全可用的状态。
云服务不可能说永远不出问题,但是GMI Cloud会关注一旦出现问题,响应速度是否足够快,对问题的定位是否足够快,集群的恢复是否足够快。
GMI Cloud与GPU供应商、IDC合作伙伴间共筑了三角合作的关系,为客户提供更高水平的服务、更贴近源头的问题追溯。GMI Cloud提供24x7x365的全年全天候的监控和支持服务。一旦出现问题,GMI会以最快速度恢复我们的集群,减少故障时间,确保系统稳定性。
GMI Cloud目前为AI Infra选型提供两种方案,第一种是PRIVATE CLOUD,如果企业需要长期占有一个独立集群,GMI Cloud会推荐这种私有的PRIVATE CLOUD,GMI Cloud会帮助完成模型从底层到上层的全部优化,让企业“拎包入住”。如果只是临时使用一两张卡、用几天,那就推荐用ON-DEMAND来节约成本。
GMI Cloud的融资情况与发展规划由Google X 的AI专家与硅谷精英共同参与创立的GMI Cloud是一家领先的AI Native Cloud 服务商,拥有遍布全球的数据中心网络,为企业AI应用提供最新、最优的GPU资源,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的AI云服务解决方案。
GMI Cloud凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的GPU产品阵容(如拥有AI 强大算力的H100;能够精准平衡AI 成本与效率的H200;以及未来即将上线的具有卓越性能的GB200等),确保企业客户在高度数据安全与计算效能的基础上,高效低本地完成 AI 落地。
据悉,GMI Cloud在10月完成了A 轮8200 万美元融资,由Headline Asia领投,同时获得亚太区智能能源解决方案提供商Banpu (BANPU.BK)以及全球科技大厂纬创资通(3231.TW)的战略投资。这笔资金将用于科罗拉多州数据中心的建设,以强化GMI Cloud 在全球AI算力服务方面的布局。
在接下来的一年内,GMI Cloud的主要发展目标是继续提升GPU云服务的性能和稳定性,除了Cluster Engine以外,还将重点发展Inference Engine,解决AI推理相关需求。(本文首发于钛媒体APP,作者|郭虹妘 ,编辑|陶天宇)
来源:钛媒体