摘要:在近日举办的2024T-EDGE创新大会暨钛媒体财经年会平行论坛EDGE Founders Demo Day上,GMI Cloud亚太区总裁King Cui发表了关于AI出海趋势及算力需求的深刻见解,并分享了GMI Cloud在GPU云平台构建领域的探索成果。
在近日举办的2024T-EDGE创新大会暨钛媒体财经年会平行论坛EDGE Founders Demo Day上,GMI Cloud亚太区总裁King Cui发表了关于AI出海趋势及算力需求的深刻见解,并分享了GMI Cloud在GPU云平台构建领域的探索成果。
Cui指出,云计算的发展经历了三个重要阶段,每个阶段都标志着技术的重大飞跃。Cloud 1.0阶段,企业开始将传统IDC业务迁移至云端,云服务主要以裸金属形态存在。Cloud 2.0阶段,用户和企业逐渐深入使用云,PaaS产品形态从裸金属转向VM及Container Base,客户更多地使用云厂商提供的PaaS产品,以提高业务研发效率。而Cloud 3.0阶段,则以OpenAI发布GPT为标志,AI浪潮席卷全球,云计算进入了AI Native Cloud时代。这一阶段的云产品形态发生了显著变化,计算从CPU转向GPU,存储需求也从传统的文件存储、对象存储转变为更高速的存储,如GPFS,网络也需适应GPU集群的高速需求。
Cui强调,AI推动了云计算的发展,AI企业在全球的发展已成为确定性趋势,未来三年将进入高速发展阶段。截至2024年8月,全球AI WEB产品总数已达1717个,其中中国AI WEB产品数量280个,出海AI WEB产品数量95个,占比34%,显示出中国AI企业海外布局的加速。
然而,AI出海也面临着诸多挑战。算力作为AI三要素之一,因其高昂的硬件成本和运维难度,成为初创AI企业难以承担的核心生产资料。在AI出海过程中,算力为中心的生产矛盾逐渐增多,如国内高端算力资源不足、AI Infra建设经验不足、供应商可靠性难保障等问题,导致AI Infra稳定性不足,增加了企业的经济和时间成本。
以meta为例,其披露的报告显示,在为期54天的预训练阶段中,总共出现了466次工作中断,其中419次是意外的,且大部分来自硬件问题,GPU占比最高,达58.7%。因此,维持AI Infra层的稳定性至关重要,需要在组网、硬件、软件、工程化等方面做大量工作,以减少GPU掉卡率,保持任务连续性,最大化GPU使用效率。
Cui指出,在选择Infra团队时,GPU集群的稳定性比单价低的GPU硬件更具性价比。GMI Cloud作为一个全栈AI应用平台,在GPU硬件架构层和IaaS层拥有完全自研和掌控的硬件和云平台。GMI Cloud致力于提供高稳定性的GPU集群,以提高AI应用的研发效率和产品竞争力。
GMI Cloud的Cluster Engine是一个端到端的全栈AI应用平台,从底层GPU硬件架构层到应用层,提供统一的资源管理和调度。GMI Cloud还拥有独特的双验证体系,确保交付给客户的集群是完全可用的状态。在出现问题时,GMI Cloud提供24x7x365的全年全天候监控和支持服务,以最快速度恢复集群,减少故障时间,确保系统稳定性。
GMI Cloud目前为AI Infra选型提供两种方案:PRIVATE CLOUD和ON-DEMAND。PRIVATE CLOUD适用于需要长期占有一个独立集群的企业,GMI Cloud将帮助企业完成模型从底层到上层的全部优化,让企业“拎包入住”。而ON-DEMAND则适用于临时使用一两张卡、用几天的情况,以节约成本。
据悉,GMI Cloud由Google X的AI专家与硅谷精英共同创立,是一家领先的AI Native Cloud服务商,拥有遍布全球的数据中心网络。GMI Cloud凭借高稳定性的技术架构、强大的GPU供应链以及丰富的GPU产品阵容,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的AI云服务解决方案。在10月,GMI Cloud完成了A轮8200万美元融资,由Headline Asia领投,同时获得亚太区智能能源解决方案提供商Banpu以及全球科技大厂纬创资通的战略投资。这笔资金将用于科罗拉多州数据中心的建设,以强化GMI Cloud在全球AI算力服务方面的布局。
来源:ITBear科技资讯