摘要:随着企业在数字化转型之路上越走越远,一场新的技术革命正在发生。近几年涌现的生成式AI技术正在迅速改变科技、商业和整个社会的格局。这种强大的技术能够从数据中学习并生成预测性输出,生成式AI既是未来的趋势,也是一场实时颠覆各行各业的革命。
科技云报到原创。
生成式AI,正在让行业重新认识云的价值。
随着企业在数字化转型之路上越走越远,一场新的技术革命正在发生。近几年涌现的生成式AI技术正在迅速改变科技、商业和整个社会的格局。这种强大的技术能够从数据中学习并生成预测性输出,生成式AI既是未来的趋势,也是一场实时颠覆各行各业的革命。
云计算和生成式AI的融合协同无疑充满潜力,通过两者的深度融合,企业可以获得更强大的计算能力、更高效的数据处理方式,以及更多样化的应用场景。然而,如何平衡技术创新与可持续发展,以及如何解决数据安全、能源消耗等问题,将成为未来行业需要共同面对的挑战。
云计算,生成式AI的冰山底部
如果用冰山来比喻,露在海面上方的冰山一角就是基础模型。而在冰山的底部,需要大量的基础模型以外的服务来支撑,如加速芯片、数据库、数据分析、数据安全服务等等。云计算与生成式AI的发展处于彼此影响、互为促进的状态,没有云计算的生成式AI就像是无源之水、无本之木,而没有生成式AI的云计算,其潜力也无法最大限度发挥出来。
透过近两年云计算厂商在生成式AI领域的布局可以看出,从亚马逊云科技,到百度智能云、阿里云,在自家模型能力的基础上,各家都在强调生成式AI的基础设施和开放平台能力。
在冰山的底部,以亚马逊云科技为代表的全栈云厂商提供了完整的端到端的生成式AI技术堆栈,从底层的加速层如加速芯片、存储优化,到中间层模型构建工具和服务,再到最上层的生成式AI相关应用,每一层都在针对客户的不同需求持续创新。
云计算本身是企业去运用生成式AI最好的方式。生成式AI模型尤其是大规模语言模型,如GPT、BERT,需要在训练阶段处理数十亿甚至数百亿个参数,这对计算资源提出了巨大的需求。典型的大语言模型训练过程需要大量的GPU和TPU(张量处理单元)集群进行并行计算,而这些算力通常依赖于云计算平台提供的弹性资源。云计算的按需扩展和灵活性使得企业能够在短时间内部署和训练生成式AI模型。
如: Anthropic与亚马逊云科技合作,训练和部署Claude系列模型,并提供推理支持,企业用户可以通过API访问Claude模型,利用其生成内容、回答问题和自动化任务。这种按需调用的模式展现了云计算的灵活性,以及生成式AI对计算资源的极大需求。反过来,云计算的创新也在不断优化模型的性能、速度和成本表现。
生成式AI模型不仅对计算能力提出了挑战,还需要处理大量的数据。云计算提供的分布式存储和高速数据传输能力,能够处理模型训练所需的海量数据,并在推理阶段高效地生成高质量的内容。数据存储、处理和访问的能力成为生成式AI模型在实际应用中的核心基础。
云平台中的数据湖和数据仓库技术进一步支持了AI模型对多样化数据的高效处理,提升了生成内容的准确性与多样性。
生成式AI技术的发展使得云平台进一步完善了AI即服务(AIaaS)的生态系统。各大云服务提供商,如亚马逊云科技、谷歌云、微软Azure等都推出了基于生成式AI的预训练模型及其API,以及快速使用模型的平台型服务,帮助开发者和企业快速集成生成式AI的功能。通过这些云端AI服务,企业无需具备深厚的AI技术背景,也可以轻松利用生成式AI进行产品创新。
例如,Google Cloud推出的AI Platform,包含了对文本生成、图像生成以及自动编程的支持,使得开发者能够快速创建AI驱动的应用程序。
生成式AI模型的高度复杂性和多样化应用场景,使得云计算服务需要更加灵活和定制化。不同企业在使用生成式AI时,对计算资源、存储和网络的要求各不相同。例如,在内容生成领域,媒体企业需要快速生成高质量的文本和图像,这要求云平台提供高性能计算集群和低延迟的推理服务。
为了应对这些多样化需求,云服务提供商正在开发针对行业的定制化解决方案。例如,亚马逊云科技通过Amazon SageMaker平台为生成式AI提供了定制的训练和部署方案,使用户能够灵活调整资源配置,并根据模型大小、复杂度和应用场景进行优化。
生成式AI的广泛应用,促进了云计算中的高性能计算(HPC)技术的快速发展。为了满足生成式AI对算力的极高需求,云服务提供商正在整合HPC集群、分布式计算技术以及图形处理单元(GPU)等高性能硬件资源。云计算平台越来越多地提供针对AI的专用硬件加速器,如亚马逊云科技新推出的Trainium2、Google的TPU、NVIDIA的A100GPU,这些硬件极大提高了生成式AI模型的训练速度和推理效率。
生成式AI的普及也推动了无服务器计算架构的演进。在传统云计算模式中,用户需要管理底层基础设施,而无服务器架构让用户无需关心服务器配置或负载平衡等技术细节。这一架构与生成式AI的按需计算需求高度契合,用户可以通过无服务器平台在需要时调用AI生成内容,降低了计算资源的闲置成本。
Amazon Lambda和Google Cloud Functions就是典型的无服务器计算平台。值得一提的是,亚马逊云科技在生成式AI领域的关键服务Amazon Bedrock也是一项无服务器服务。这些服务使企业能够灵活调用生成式AI模型,快速响应用户需求,尤其适用于生成内容量波动较大的应用场景。
生成式AI的全栈联动
当前的云计算厂商,正在面临激烈的竞争,从今年的花式降价信息也能看出白热化程度。一直以来,云厂商的差异化竞争愈演愈烈,以往大家主要拼基础设施,或者进行单点突破。
但是目前来看,“一招鲜吃遍天”的时代已经过去了。对于大厂而言,如果只做云、或者只做大模型、只做芯片都会存在短板。事实上,全球巨头们都已经在这些领域有所布局,云和大模型不必多言,芯片的竞赛也更加凶猛。比如谷歌TPU的研发已久,已经推出第五代芯片TPUv5e,用于大模型训练和推理;微软也发布了首款自研AI芯片Azure Maia 100 AI芯片和Cobalt 100 CPU;而涉足自研芯片最早的亚马逊云科技,新近推出了Trainium2和64核的超级集群,并透露出了下一代3nm制程的Trainium3。
业界的共识是,至少要涉足,才能有更多可能性,或者说企业需要要懂这个领域,才能更好地开展系统性的AI业务。拓展大模型也好、芯片也好,并非要做成主营业务,但是为长远计不能没有这些产品线,尤其是对大厂来说,需要标配这些要素。
从云基础设施扩展到芯片和大模型的过程中,新的战场已经开启,在生成式AI的征程上,云厂商也有各自路径。云厂商三巨头在生成式AI发展策略上从AI硬件基础设施投资、AI软件基础设施服务规划、AI基础模型开发、ModelOps服务编排、应用开发赋能、解决方案侧重、模型生态构建、关联开发与应用服务协同、商业投资方式等诸多领域都各有差异。
亚马逊云科技的核心理念是将应用程序分解为几个核心构建单元,通过构建优秀的服务,让用户自由搭建这些单元,满足特定场景下的业务需求。这种模块化的思路不仅体现了亚马逊云科技对客户需求的深刻理解,也是其持续创新的动力源泉。
在计算服务领域,亚马逊云科技提供的计算实例类型比其他任何云服务提供商都要多。Amazon EC2为用户提供了更多选择、更多实例类型和更多功能,让客户能为应用和工作负载找到更具性价比的解决方案。Amazon Nitro System的推出,更是将虚拟化系统的性能推向了新的高度,提供了裸机性能、高安全性、隔离性和灵活性,推动了计算领域的创新。
在存储领域中,Amazon S3作为亚马逊云科技在2006年推出的首个服务,彻底改变了人们管理数据的方式。如今,Amazon S3存储的对象数量已突破400万亿,这一数字的背后是亚马逊云科技对数据爆炸式增长的深刻洞察和前瞻性设计。Amazon S3 Tables和Amazon S3 Metadata的推出,进一步提升了数据湖的查询速度和元数据管理能力,为数据分析和AI应用场景提供了更强大的支持。
在数据库服务领域,亚马逊云科技提供了多种适用于不同场景下专门构建的数据库。Amazon Aurora作为完全兼容MySQL和PostgreSQL的数据库服务,迎来了其发布10周年的纪念。Amazon Aurora DSQL的推出,结合Amazon Time Sync服务,采用完全无服务器设计,可在多区域实现近乎无限扩展,可用性高达99.999%,支持强一致性,具备低延迟的读写性能,完全兼容PostgreSQL。
另外,数据分析服务是亚马逊云科技的另一个重要构建单元。新一代Amazon SageMaker的推出,整合了最全面的数据分析和AI工具,覆盖了分析、数据处理、搜索、数据准备、AI模型训练和推理等必需的功能,所有功能都可以通过统一的企业数据视图实现。
亚马逊云科技大中华区产品部总经理陈晓建表示:“亚马逊云科技不仅在云的核心服务层面持续创新,更在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化。我相信,只有这样全栈联动的大规模创新才能真正满足当今客户的发展需求,加速前沿技术的价值释放,助力各行各业重塑未来。”
生成式AI作为当前技术发展的热点,其背后正是亚马逊云科技的全栈联动创新,包括上面提到的计算、存储、数据库、分析,更有生成式AI领域三层技术栈的爆发式联动创新。
Amazon Nova系列模型的推出,标志着亚马逊云科技在生成式AI领域的深入布局。Nova Micro、Nova Lite、Nova Pro以及即将推出的Nova Premier,这些模型覆盖了从文本到文本到多模态的全方位需求,为用户提供了丰富的选择,无论在什么样的应用场景,都能找到一个最适合的模型。
亚马逊云科技还对Amazon SageMaker、Amazon Bedrock及Amazon Q等核心服务进行了强化,并提供更多样化的模型选项,深化应用场景的融合,降低训练与推理成本,致力于让企业更便捷、更经济地将生成式AI技术融入业务实践,全面推动企业加快生成式AI的创新步伐。
而Amazon Bedrock作为构建和扩展生成式AI应用的关键平台,为客户提供了将推理功能整合到生产环境所需的工具。Amazon Bedrock推出的延迟优化选项、模型蒸馏功能、知识库支持GraphRAG、自动推理检查功能和多智能体协作功能,都是亚马逊云科技在生成式AI领域的重要创新。
亚马逊云科技一个最大的差异化是具有广泛的模型选择。可以把更多的LLM放到Amazon Bedrock上,为客户提供丰富的自由选择的空间,包括目前Anthropic发布的最新Claude 3.5模型。
一方面,亚马逊云科技拥有自研芯片的技术,Anthropic选择亚马逊云科技作为其主要云服务提供商,并使用Amazon Trainium和Amazon Inferentia芯片进行训练和部署未来的基础模型。所以可以直接从Anthropic获得很多一手的反馈,用于芯片技术的完善。另一方面,亚马逊云科技在大模型上既有外部的合作伙伴,还有Amazon Nova系列基础模型,应用范围广泛。
随着亚马逊云科技在re:Invent 2024全球大会上一系列新品的重磅发布,其作为全球云计算开创者和引领者的地位再次得到巩固,同时也彰显亚马逊云科技作为企业构建和应用生成式AI首选平台的强大实力。
从云的核心服务到芯片、模型再到应用,亚马逊云科技在每一个技术堆栈上都取得显著突破,实现全栈联动的大规模创新。这种创新模式将满足当今客户的发展需求,推动前沿技术的价值释放,助力更多企业实现数字化转型与业务增长。
【关于科技云报到】
企业级IT领域Top10新媒体。聚焦云计算、人工智能、大模型、网络安全、大数据、区块链等企业级科技领域。原创文章和视频获工信部权威认可,是世界人工智能大会、数博会、国家网安周、可信云大会与全球云计算等大型活动的官方指定传播媒体之一。
来源:科技云报到