技术应用 | 证券行业异构GPU池化平台建设与探索

360影视 动漫周边 2025-05-13 09:23 1

摘要:自从2022年11月OpenAI发布了ChatGPT后,掀起了新的一波AI热潮,带火了以大语言模型(LLM)和生成式人工智能(Generative AI,AIGC)为代表的大模型应用。在这之后的一年多时间里,大模型更新迭代速度日新月异,模型的数量与参数量均呈指

文/中信建投证券股份有限公司信息技术部总监 李剑戈  

中信建投证券股份有限公司信息技术部 周立斌 刘达 魏尧

自从2022年11月OpenAI发布了ChatGPT后,掀起了新的一波AI热潮,带火了以大语言模型(LLM)和生成式人工智能(Generative AI,AIGC)为代表的大模型应用。在这之后的一年多时间里,大模型更新迭代速度日新月异,模型的数量与参数量均呈指数级增长,对算力的需求急剧攀升。英伟达作为GPU芯片行业龙头,其GPU产品在AI算力领域占据最领先位置,性能与生态是其最明显的优势。然而,B端的AI业务本身具有多样化落地场景需求,对GPU芯片的需求也呈现多元化;再加之复杂的国际局势,各行业对芯片的安全可控、持续稳定交付有强烈需求,因此探索一套能够针对不同架构GPU资源进行有效管理与调度的解决方案迫在眉睫。

本文从业务迁移适用性角度出发,介绍了中信建投股份有限公司在建设异构GPU资源池探索实践中的思路与经验,同时尝试从业务的适配性、生态过渡的平滑性、多种GPU芯片并存的融合管理等方向进行探索实践,验证了信创GPU支撑证券业务的可行性,从建设异构并存的GPU算力的角度为证券行业AI场景赋能。

在证券行业中,AI技术的应用领域正逐步拓展,在市场营销、产品设计、风险管控、客户服务、量化投资等领域已经有了众多较为成熟的产品和解决方案。AI技术正助力证券公司提供更加个性、精准的服务。随着AI技术应用的不断深入,证券行业对算力需求的日益增长,GPU芯片作为AI算力的核心,是推动AI技术发展的关键,但是当前证券行业在GPU资源池建设领域仍面临诸多挑战。

1. 证券业AI算力建设领域面临的困境

GPU芯片供需不平衡。随着AI技术在证券行业的广泛应用,各大厂商对于高性能GPU芯片的需求也不断增加。然而,国际政治因素导致国内机构难以采购高端GPU芯片,造成供需不平衡。这不仅限制了金融机构的技术进步,也间接增加了研发成本。

GPU芯片成本高昂。企业级GPU芯片的单价极高,且随着金融产品和服务的迭代创新,对更高性能GPU芯片的需求也不断增加,导致金融机构的持续投入成本不断攀升。

信息安全风险。金融业是数据密集型行业,信息安全至关重要。国内芯片符合国家加密算法相关标准,能够从硬件、算法等方面保障信息安全,但同时也面临与国际主流芯片的兼容性和性能差距等问题。

2. 芯片发展趋势与存在的问题

GPU芯片是AI的基石,金融行业出于对安全、信创、供应链可持续等方面考虑,会更加注重考察GPU芯片替代方案。虽然目前国内GPU芯片的发展趋势迅猛,但也普遍存在一定的问题。

首先,国内GPU芯片正在崛起,海光、华为、寒武纪、昆仑芯等众多厂商加入这一领域,且能够提供与国际主流芯片相媲美的性能。国内GPU芯片符合国家加密算法标准,能够提供更高的数据安全性。

其次,国内GPU芯片存在一定问题。一是生态隔离。AI芯片发展主要包括GPGPU(通用GPU,代表厂商:英伟达、海光)和NPU(Neural-network Processing Unit,神经网络处理器,属于一种DSA,代表厂商:华为、寒武纪)两个技术路线。不同厂商的AI芯片架构不同,导致生态隔离,形成算力孤岛,影响资源的充分利用。二是适配问题。国内芯片在与国际主流AI框架和算法模型的适配上存在挑战,需要更多的技术支持和优化。三是性能匹配。尽管国内芯片在某些方面表现优异,但在性能上仍需进一步提升,以满足证券行业对高性能计算的需求。

3. 解决方案与途径

结合证券行业的AI技术发展需求,以及信创工作的不断推进,越来越多证券公司逐步开始采用信创AI芯片替代国外GPU芯片。从算力供给的角度看,当采用信创GPU芯片后,有多种异构芯片在较长时间内将会同时并存,因此从企业角度可供选择的算力集群建设路线有以下两种。

一是分散建设GPU算力资源池。分散的算力资源池可以根据不同的业务需求和工作负载进行定制,提供相应类型的算力芯片。缺点在于分散的多个资源池需要更多的管理和维护工作,增加了管理的复杂性和成本,同时,由于资源分散,可能导致资源利用率不均,某些资源池可能存在资源闲置的情况。

二是统一建设异构GPU算力资源池。将多种异构AI芯片统一池化管理,不仅能够简化管理和维护工作,降低了管理成本,还可以更有效地进行资源调度和优化,提高资源的利用率。长期来看,建设统一的资源池的优势是更容易实现技术整合,便于实现不同芯片之间的协同工作,缺点在于异构芯片的整合和管理需要诸多芯片进行适配、兼容与优化,门槛较高。

根据上述建设路线分析,中信建投结合本公司的实际情况及业务系统特征,选择了统一建设异构GPU资源池路线,并选取了2个系统进行试点,取得了较好的效果。

1. 方案设计

中信建投在2020年就开始了在GPU池化建设方面对英伟达GPU的池化管理的探索,目前已经有网上开户OCR识别系统、量化计算平台、智能外呼系统等30多个业务系统在该平台的支持下实现了对GPU的调用,涵盖OCR、ASR、TTS、量化计算等众多AI业务领域及并行加速计算等业务场景。此次在信创GPU池化管理方面进行了拓展,并通过对海光DCU的纳管调度,完成了异构GPU资源池的搭建与管理方案的验证。

为能够验证中信建投异构GPU池化管理平台的能力,我们在前期已完成了业务系统在海光DCU上单独运行的适配工作,并在英伟达GPU资源池中加入海光DCU资源。我们借助中信建投异构GPU池化管理平台实现在异构GPU资源池中业务系统服务对GPU/DCU资源的加载,并通过观察业务系统的运行情况,达到验证平台功能的目的,并在后续的验证过程中,通过调整异构GPU资源的规格,完成对平台的异构GPU虚拟化、性能等内容的验证工作。

为更好对异构GPU资源管理平台的适用性进行验证评估,我们选取了生产环境客户流量较大且对GPU资源使用量较多的网上开户OCR识别系统和中信建投人工智能量化平台,这两个系统涵盖了传统AI模型中的推理和训练场景,具备一定的通用性和代表性,其能够充分评估异构GPU资源池管理调度的效果。

(1)网上开户OCR识别系统

网上开户OCR识别系统是基于多任务Multitask深度学习技术开发的识别算法,采用一种全新的DeepOCR识别流程,将自然场景下图片的数据信息进行智能检测,通过对该识别模型及流程进行大量优化,并利用高性能GPU芯片并行计算加速能力,从而大幅提高识别精度与速度。该系统能够完成对多种身份证件、行驶证件、企业证件以及财务票据的识别,适配企业多种场景的业务(如图1所示)

图1 网上开户OCR识别系统架构图

(2)量化计算平台

中信建投人工智能量化平台完整提供了一套为加速量化交易策略的数据、因子、研究、开发的整个投研开发流程的引擎及众多配套组件与服务(如图2所示)。该平台支持在线编写量化策略,并能实时获取CPU、内存、存储及GPU等资源进行策略验证,此外还提供了完整的股票、期货、债券等行情数据及各类特色因子数据,能够为策略编写者提供完善的数据支撑,并通过简洁、可视化的操作界面,为用户带来优异的使用体验(见表1、表2)。集群拓扑图(如图3所示)。

图2 中信建投人工智能量化平台架构图

表1 验证集群GPU节点配置

表2 验证系统及数据集

图3 集群拓扑图

2. 方案验证

(1)异构GPU资源池纳管能力

异构GPU资源池化平台的核心能力在于能够将不同厂商的GPU资源,进行统一的池化管理和部署,通过构建一个集中的管理平面,有效地整合并管理与调度这些异构的GPU资源。

在中信建投异构GPU池化管理平台中可以同时对NVIDIA和海光DCU等不同来源和类型的GPU资源进行统一监控和管理,简化了运维工作。

AI业务运行之后,通过智能调度算法,中信建投异构GPU池化管理平台能够根据业务需求和资源使用情况,动态地分配和调整对应的算力资源,提高资源利用率,降低资源闲置率。

(2)DCU的切分与隔离

与GPU的管理模式类似,DCU在大多数证券业务场景下,很难发挥一张物理卡的所有性能,普遍存在性能浪费的情况。通过中信建投异构GPU池化管理平台可以完成对单张DCU的切分与隔离能力,进而有效提高DCU的利用率。

中信建投异构GPU池化管理平台支持从算力与显存两个维度对DCU进行切分,算力切分的最小颗粒度为原物理卡的1%;显存切分的最小颗粒度为1MB。

通过设置不同的算力、显存规格并在不同压力的场景下对网上开户OCR系统推理场景进行压力测试,可以看出在各种资源粒度下的性能输出表现稳定,单线程与多线程的表现符合预期(见表3)。

表3 DCU切分场景下网上开户OCR系统测试结果

通过设置不同的算力、显存规格并在不同压力的场景下对中信建投人工智能量化平台训练场景进行业务压力测试。经过多轮测试,从一个任务单独运行到多个任务同时并发运行,所有任务运行正常,并且从测试结果(如图4所示)可以看出,通过对DCU进行逻辑切分,可以有效提缩短多个训练任务的执行时间。

图4 模型训练测试数据

从上面业务模型的测试结果可以看出,中信建投异构GPU池化管理平台可以完全适配海光DCU产品,并实现对DCU产品的虚拟化逻辑切分能力、按需调度能力及业务叠加能力,现有的网上开户OCR识别系统和中信建投人工智能量化平台均能在DCU虚拟卡环境中正常运行,对于信创生态的支持更加完善,结合前期对英伟达GPU的监控管理能力,可以有效实现对异构GPU资源池的纳管能力。

在性能方面,通过中信建投异构GPU池化管理平台在虚拟卡100%资源下,与物理卡性能接近,性能损耗可以忽略;在效率方面,多个虚拟卡等分资源下,可以实现多业务叠加,共享同一个物理卡,实现多业务通量的有效提升。中信建投人工智能量化平台进行两个训练任务(如图4所示),虚拟化前需要一张物理卡轮流训练或两张物理卡同时训练,利用虚拟化之后单张物理卡可同时提供两组数据量一致的训练任务进行并行训练,训练效率提升约为57%。在隔离性方面,多任务并发运行过程中,故意让其中一个任务在运行中出现显存溢出的错误,观察并行中的其他任务,仍然正常运行,无任何异常。由此可见,中信建投异构GPU池化管理平台对DCU的虚拟化依然提供了显存强隔离保护能力,当多个业务应用叠加至同一张物理卡上时,某些应用由于显存错误异常退出时,并不会影响其他业务应用。

(3)DCU远程调用

DCU远程调用是指在一台无GPU资源的服务器上部署AI任务,并通过网络远程调用外部DCU资源进行加速计算,我们在测试过程中通过TensorFlowBench-mark程序进行了验证。在远程调用的过程中依然可以实现DCU的切分、动态申请与释放等能力,可以满足业务系统的诸多场景需求。

借助远程调用能力,我们可以在多主机之间灵活地调配AI芯片资源,提高系统的灵活性和可扩展性。典型应用场景如下。CPU与GPU资源的解耦:通过远程调用,可以无需在每台主机上都安装独立的GPU资源,这样可以有效节约硬件成本,并减少能源消耗;扩大调度域:远程调用可以使多台计算机或服务器共享GPU资源,GPU资源的算力辐射范围从单机扩大到整个数据中心。这样可以简化部署方式与流程,扩大调度域,大幅提高数据中心内异构GPU资源的整体效能。

表4 DCU远程调用测试任务类型和结果

(4)DCU、GPU交叉拉远

随着信创GPU芯片在基础设施建设中的占比的提升,异构GPU芯片将在数据中心内长期并存。在涉及多样化的AI业务和多种GPU芯片的场景下,传统的资源调用方式可能面临灵活性不足、效率低下等问题。基于以上问题,可以通过异构GPU交叉拉远的方式来解决。

异构GPU交叉拉远是指通过高效的网络传输技术、算力池化和调度算法,将不同厂商、型号的算力设备资源调度到单一算力需求侧,以实现多样化的算力资源协同调度和灵活使用的能力,提高整体算力利用效率和业务灵活性。比如AI程序可以运行在NVIDIA GPU节点上,并通过网络调用DCU资源,以实现CPU、内存、存储等资源的高速响应。

中信建投异构GPU池化管理平台具备了混合多种异构芯片的管理与远程调用能力,并可以凭借这一能力实现异构GPU资源交叉拉远的特性,从而有效地实现多芯算力的灵活调度和共享,从而提高整体AI业务的运行效率和灵活性(如图5所示)。

图5 多异构AI芯片交叉拉远示意图

在异构多芯算力环境中,通过多芯算力交叉拉远技术统一管理不同厂商AI芯片,屏蔽不同算力芯片的软件生态差异,实现在单个计算节点内对外部GPU资源的跨机调用,从而规避了传统模式下,AI业务只能运行在本地算力节点的问题,因此能够有效提高了整体资源利用效率,最终实现企业管理降本增效这一最终目标。

中信建投异构GPU资源管理平台经过六个多月的方案论证、系统搭建、验证测试及最终验收,符合信创要求且全栈技术自主可控,在多种GPU芯片上可以实现算力资源按需分配、资源切分、远程调用、无缝迁移、交叉拉远、动态分配、统一调度等功能。该平台的升级完成并投入使用,预示着在今后多种并行加速计算场景下,AI基础设施层实现了对GPU资源的集中整合,可以为更多的AI服务场景提供更优质的服务,相比传统的AI基础设施具有更多的优势。

1. 技术优势

该技术方案实现GPU资源池全栈自主可控,可以为证券行业人工智能应用场景提供可靠、稳定、高效、可持续的算力资源供应。

支持信创算力和非信创算力的异构池化管理,从而实现算力的平滑迁移、逐步替代、安全可控。

各类算力硬件资源抽象化,上层应用可以算力1%、显存1MB为基本单位进行异构算力资源的申请和使用,异构算力资源使用更加精细,算力硬件利用率大幅提升。

资源池内各类算力资源通过网络远程调用、交叉拉远方式实现资源整合,形成算力资源池,一方面突破单服务器硬件配置限制,另一方面可减少资源池内硬件资源碎片。

资源池内各类算力资源按需挂载,用完立即回收,资源高效流转。

AI应用可在资源池任意位置进行部署,无需关注底层物理硬件配置细节。

2. 使用收益

异构AI芯片资源池化显著提高了硬件资源利用效率,降低证券公司人工智能相关应用建设运营成本、降低芯片切换带来的适配成本、降低外资芯片断供带来的卡脖子风险。

通过资源池化技术实现了异构算力灵活、动态、高效的调用和分配能力,有利于证券公司快速进行AI中台的升级转换。

异构AI芯片资源池化使得证券公司可以更加灵活地根据业务需求调用不同厂商的算力资源,最大程度发挥各算力设备的优势。

证券公司可以更加充分地利用现有的AI算力资源,避免过度投入单种类型算力设备的锁定风险,降低IT设备的购置和运维成本。

对于不同业务需求,证券公司无需针对性地购置不同类型的AI算力设备,可通过多芯算力交叉拉远技术,轻松应对多样化的业务场景,实现业务的便捷扩展。

GPU芯片作为人工智能技术的硬件底座,是实现大算力、大模型的“发动机”和“加速器”,如何最大程度的发挥GPU芯片的效能是现阶段摆在所有人面前的一道难题。中信建投异构GPU资源管理平台的构建和应用是一个关键的技术创新方向,旨在解决AI算力资源的高效管理和利用问题,并提出了一种解决该问题的具体思路和方法。在目前的条件下,多种异构GPU芯片并存的情况将会持续较长时间,在此期间,国内AI芯片与国际主流AI框架和算法模型的适配仍然会存在较多的问题与挑战。

我们希望未来的异构GPU池化平台可以往以下方向进行优化:首先,可以兼容更多AI芯片,验证更多的芯片技术路线;其次,加强信创GPU芯片与国际主流AI框架的适配工作,提升兼容性,降低技术迁移成本,加快信创GPU芯片对新框架的适配速度;最后,希望可以通过算力池化技术,构建底层异构硬件的统一抽象模型,实现全生态GPU资源的统一管理和调度。

来源:金融电子化

相关推荐