摘要:在"十四五"规划全面推进数字中国建设的战略背景下,2025年政府工作报告明确提出要"激发数字经济创新活力",持续推进"人工智能+"行动。作为我国系统重要性银行之一,兴业银行积极响应国家号召,将人工智能、数字孪生等前沿技术与金融业务深度融合,构建新一代智能运维体
在"十四五"规划全面推进数字中国建设的战略背景下,2025年政府工作报告明确提出要"激发数字经济创新活力",持续推进"人工智能+"行动。作为我国系统重要性银行之一,兴业银行积极响应国家号召,将人工智能、数字孪生等前沿技术与金融业务深度融合,构建新一代智能运维体系。
如今,我们正处于由AI驱动的第五次工业革命的前夜,AI技术已经渗透到包括金融在内的千行百业中,逐渐成为产业创新的关键抓手和驱动新质生产力的关键引擎。GPT-4、Deepseek、千问等大模型既能提升银行竞争力,也能帮助银行为客户提供更加优质的金融服务,驱动整个金融生态系统的变革。因此,越来越多的银行正在积极推动用AI激活金融创新、风险管理、投资管理、交易监管、客户服务等。
从数字化到数智化的转变意味着服务能力与应用模式的升级。推广的大模型需要具备训练与微调能力,这要求网络能满足AI集群训练的通信需求,确保各NPU间参数与数据的高速传输,实现无拥塞、高稳定及自优化的算网协同。AI推理服务将广泛部署于数据中心、分支网点及移动设备,网络需支持全行统一的流量视图与调度,确保AI能力全覆盖。此外,网络复杂性指数级增长,而金融行业对系统稳定性要求极高,任何网络中断都可能造成重大经济损失和声誉风险。传统依赖人工经验的运维模式已难以应对日益复杂的网络环境。
金融行业网络运维面临几大核心挑战:
首先,人工智能+的大背景下,各大银行积极推进数智化转型。而DeepSeek的横空出世,也凭借着超高的性价比点爆了AI智算市场,进一步加速金融行业对基于AI大模型的应用,如智能客服、智能投研以及智能运营等。与此同时,大模型的充分使用对于数据中心网络提出了更高的要求,网络需要保障算力的高利用率,以缩短大模型的训练和反馈时间。
其次,系统复杂度呈指数级增长,网络变更频繁,变更风险居高不下。CNCF(云原生计算基金会)在其《2023云原生状态报告》中指出,约40%生产环境中的故障与变更或更新相关。Gartner也曾指出,约60%-70%的系统故障是由变更管理不善导致的。而随着金融业务的不断拓展与创新,金融行业网络规模日益庞大,网络架构也愈发复杂。新业务的持续推出,需要频繁地对网络进行配置和调整。网络变更的频繁性不仅增加了运维管理的难度,还容易引发网络配置错误等问题,给网络的稳定性和安全性带来潜在风险。传统的网络运维模式在面对大规模、频繁变更的网络时,已难以有效保障网络的正常运行。由于缺乏科学的评估方式,在进行网络配置变更前,难以准确判断变更对网络性能、业务运行的具体影响,无法提前发现诸如 IP 地址冲突、黑洞路由、路由环路等潜在问题,也难以在短时间内完成复杂配置的合规性检查。这使得变更成为引发故障和错误的高危环节,一旦变更出现问题,可能导致业务中断、用户体验下降等严重后果,严重影响金融服务的连续性和稳定性。
最后,故障定位效率低下,人工诊断与修复过程耗时耗力。尽管大部分故障的业务恢复可以通过应急预案快速实现,但故障的根本原因定位仍面临着诸多挑战,运维人员需要确认网络拓扑架构、分析网络流量、逐一查看网络设备日志等大量信息,通过人工分析来寻找故障根源,这种方式不仅耗时耗力,而且容易受到人为因素的影响,导致故障根因定位不准确、不及时。尤其是在面对复杂的网络故障时,应急预案无法全面覆盖,人工排障则可能需要耗费数小时甚至更长时间,不仅影响业务恢复速度,更难以满足金融业务对网络高可用性的要求。如果是在支付业务高峰时段的面客类或交易类的信息系统故障,这种延迟将可能造成严重经济损失并引发声誉损害。
兴业银行数据中心呈多地多中心发展,网络复杂度成倍提升,数据中心计划围绕目前金融线上化、数据化、智能化、平台化、生态化的特点,加大前沿科技应用探索,以科技创新驱动产品、模式、业务创新。网络作为关键基础设施的数字底座,需要考虑如何通过自身的数字化能力建设,提升数据中心网络整体运维效率及质量,为上层业务提供更加稳定、敏捷、安全、智慧的网络服务。
兴业银行在AI智算业务规划初期,就与业界主流厂家就数据中心网络产品及方案进行了深度沟通与交流,明确提出打造一张业界领先的高品质智能金融网络,提供更高的性能,更高的效率及更强的韧性,以匹配AI时代业务诉求,为金融业务智能化保驾护航。通过与华为联合创新,打造具有AI能力的大规模网络孪生系统,后续将基于该系统进行运力规划、网络管理、监测、变更仿真和故障定位,大幅提升算力利用率、运维效率和服务水平。
随着网络复杂度成指数级增长,完全通过人工进行变更影响评估已无法满足业务的快速上线和变更需求。网络配置变更频繁,人为因素导致网络故障的概率也大大提升,进而影响业务的稳定性和可靠性。因此要做到配置的100%正确,依靠专家人工设计并不够可靠,必须要有办法评估事前感知变更配置对网络产生的影响。为解决这一问题,兴业银行通过与华为公司和厦门大学进行联创,对数据中心业务场景进行网络仿真开发,完成数据中心多品牌、多类型、多区域的网络数字孪生。孪生网络提供的API接口可直接对接自动化运维系统,在日常变更流程中嵌入仿真网络的检测引擎,运维变更脚本在提交审批前即可通过检测引擎进行仿真下发,通过数字人自动生成变更影响评估结果,不仅能够提前验证生产变更的有效性和影响面,也为更高层级的变更审批提供参考,极大地降低了变更带来的业务风险。
兴业银行通过网络数字化建模构建的网络孪生系统,实现了拓扑还原以及路径的动态呈现,使设备告警、配置和表项信息清晰可见。在网络数字孪生基础上,引入配置仿真算法,通过配置模型还原所有网络协议模型,并对网络协议集中演算,推演出所有设备明细表项,进而实现精准的流量路径仿真。相比于模拟器仿真分布式演算方案,兴业银行的创新方案实现了仿真资源消耗大幅降低,只需通过一个VM就能完成1000网元级规模仿真,并将仿真结果通过网络拓扑直观呈现,实现结果可视化。
传统业务流分析和网络监测系统割裂,需要人工整合数据进行分析,影响故障定位效率。为高效保障业务质量,实现全面流量镜像,兴业银行将华为iMaster NCE-FabricInsight和UPM系统进行深度对接,实现业务—会话—网络的端到端一体化分析。
一方面,我行在DC出口、Fabric出口、防火墙、LB等关键节点进行边界出口全流镜像,由流量监测系统进行会话与网络性能分析;另一方面,通过FabricInsight在Fabric内部基于TCP特征报文进行ERSPAN流镜像,结合Telemetry的网络性能指标进行大数据分析,还原Fabric内转发路径和质量。最后,通过两种流量镜像叠加,实现了“业务质量分析→网络会话分析→网络路径分析→故障根因定位”的端到端运维,能够提供覆盖Underlay与Overlay的业务和网络性能分析能力;打通业务、会话、网络问题分析路径,快速发现并定位问题。
经过实践验证,该联合方案能够快速实现交换机路由黑洞、路由环路等通断类问题的定位。告警上报UPM后,可直接关联下钻到FabricInsight进行网络路径分析和根因分析位,有效提升定位效率。
图 流量镜像部署示意
AI场景业务的特征是流数少、流量大,因此会导致传统ECMP方案的HASH算法失效而引发网络拥塞,网络吞吐率下降至50%~60%,会造成10%左右的算力损失,这对建设成本高昂的AI集群是无法接受的。兴业银行本次与华为的联创项目通过引入NSLB负载均衡方案解决了传统HASH算法负载不均的网络拥塞问题,将网络吞吐效率提升到95%左右,训练效率相比提升10%+,相当于将单个AI模型的训练周期缩短10%。
尽管兴业银行在网络仿真与AI运维领域已取得显著成效,但技术发展永无止境。未来,兴业银行将继续探索更先进的技术融合,进一步提升网络仿真的精度和AI运维的智能化水平。同时,持续拓展应用场景,将网络仿真与AI运维技术应用到更多金融业务环节中。通过不断创新,兴业银行将持续强化金融科技实力,为金融高质量发展注入源源不断的动力,在数智化转型的道路上书写更加精彩的篇章。
来源:金融电子化