摘要:随着金融机构数字化转型的深入,网络逐渐从信息传递的通道,演进为推动新质生产力发展的核心驱动因素。与此同时,金融机构业务迅猛发展,对网络性能的要求越来越高,网络规模和复杂度剧增,但运维人力并不会对应增长,这给网络运维及业务连续性带来了极大的挑战。一旦金融机构数据
下面让我们来看一看本期内容之“华讯网络——网络故障诊断定位平台在金融机构数据中心故障管理中的应用实践”。
前言
随着金融机构数字化转型的深入,网络逐渐从信息传递的通道,演进为推动新质生产力发展的核心驱动因素。与此同时,金融机构业务迅猛发展,对网络性能的要求越来越高,网络规模和复杂度剧增,但运维人力并不会对应增长,这给网络运维及业务连续性带来了极大的挑战。一旦金融机构数据中心发生网络故障,如何通过统一平台实现网络故障的预防、发现、定位和处置,减少故障持续时间并提高故障恢复效率,已然成为金融机构数据中心在网络运维过程中的当务之急。
本文围绕某金融机构数据中心通过构建网络故障诊断定位平台,完成网络故障全生命周期管理的实践经验,阐述综合运用机器学习算法、PingMesh态势感知等技术完成故障预测和发现;通过排障工作台抽取、汇总并联动各类运维关键数据,提升整体故障定位效率;结合自动化场景和知识经验沉淀,精准完成故障处置,减少人为操作风险。
建设背景
金融机构数据中心在面对网络运维管理过程中遇到诸多挑战,故障发现难、定位慢、分析诊断低效等问题成为制约提升网络服务质量的关键因素。当前用户的主要痛点问题集中在以下几个方面:
故障感知滞后于业务报障。传统的监控工具对故障发生前微小的异常难以捕捉,网络故障感知往往滞后于业务系统报障。
故障定位受限于查询手段。网络运维人员日常管理数千台网络设备,需要重点关注的设备端口、关键线路更是不计其数,故障发生时需要花费大量时间穿梭于不同工具平台中,难以通过统一排障平台迅速定位问题。
故障处置依赖于专家经验。故障处置主要依靠人员经验,缺乏应急操作预案,知识经验无法沉淀共享,缺少故障复盘回溯环节。
在此背景下,某金融机构数据中心基于全栈信创环境构建起网络故障诊断定位平台,通过AI智能分析场景、网络态势分析矩阵、排障工作台等解决方案,实现业务需求和运维场景联动,全面提升网络故障感知、定界与分析诊断能力。
解决方案
为了提升业务网络服务质量,网络故障诊断定位平台从故障生命周期管理角度出发,根据故障不同阶段的问题和诉求提供相应的解决方案。综合运用数据采集、流程自动化、算法和大模型能力,贯穿预防、发现、定位、处置等环节,有效缩短故障时间,保障整体业务网络服务的稳定性,提升业务连续性。
网络故障诊断定位平台通过AI运维场景,识别异常情况及趋势,对故障进行提前预警;通过网络可观测能力,全面感知网络态势,进行故障发现和初步定界;通过排障工作台,整合排障工具及数据,运维人员可沉浸式定位分析故障;基于知识库及应急自动化场景,实现常见故障的快速处置及事后复盘。
故障预防
故障预防模块通过机器学习算法实现趋势预测、异常检测、关联分析等功能,提前发现风险隐患,避免落入响应故障的被动处境。通过时序指标预测算法,对线路容量、资源利用率等指标进行趋势预测,提前感知问题;通过异常检测算法,对核心业务的关键指标进行检测分析,识别异常波动;通过日志挖掘与关联分析算法,发现日志相关性并进行问题预警。
在系统稳定运行时,运维人员能够根据线路、存储容量的预警,并结合当前实际使用情况,提前1-3月发现将来会遇到的资源瓶颈,从而做出响应和应对方案。对于各类性能、流量等关键指标,除根据运维经验设定的静态告警阈值以外,运维人员还能够通过异常检测和动态阈值功能,发现与历史状态不同的异常变化情况,并进行针对性检查,判断是否为夜间传输大文件等业务行为,或是的确存在风险隐患,需要干预排除。基于日志相关性分析,能够在出现问题苗头时及时预警,并将告警收敛降噪,运维人员得以判断后续可能形成的故障问题,提高分析效率。
故障发现
网络可观测是故障发现解决方案的核心组成部分,通过采用PingMesh系统架构,构建全网各业务区域互Ping结果监测矩阵,网络运维人员可实时观测业务网络服务质量。
网络态势分析矩阵分为横纵两个维度,纵向为源业务区域,横向为目的业务区域。网络正常情况下,源区域到目的区域互Ping丢包延迟数据正常,所有矩阵区块为“绿色”;当目的区域单个区块呈现“黄色”异常时,此情况定义为“设备级故障”,代表该目的区域个别设备发生异常;当目的区域所有区块呈现“黄色”异常时,此情况定义为“区域级故障”,代表该目的区域整体发生网络服务异常。通过此种方式,运维人员可及时发现并感知故障影响范围,并为接下来的故障定位和处置提供信息参考。
具体实现层面上,我们将接入交换机所关联服务器作为可选探针,随机选取探针参与Ping拨测任务。服务器信息通过CMDB数据完成设备信息丰富;每个Ping拨测任务周期为秒级,在规定时间内完成所有区域和接入交换机的互Ping拨测任务及数据落盘;通过健康度分析算法,计算出全局业务网络健康度评分,并为运维人员发送异常情况告警。
故障定位
故障定位模块通过抽取各类运维关键数据并进行整合联动,实现故障定位效率提升。通过将排障工作台与网络可观测结合,运维人员能够获得从宏观到微观的全景式故障定位能力。排障工作台中集成了拓扑、路径、告警事件、性能指标、配置表项、设备日志、终端窗口等故障分析定位时需要使用的功能和数据。当通过网络态势感知模块发现故障问题后,运维人员能够在一个平台页面内完成80%以上的排查工作,有效缩短问题定位时间,为高效应急响应奠定基础。
在实际使用过程中,对于设备类问题,运维人员可以在排障工作台中快速定位设备所处区域、查看拓扑。同时一键检查该设备相关的硬件信息、业务影响范围、监控指标以及配置表项变化情况,还能够在同一个页面查询是否存在Error或变更等异常日志。如果上述信息仍不能实现问题定位,运维人员还可以快速登录设备终端进行排查,省去切换工具、寻找用户口令的时间。对于业务会话类问题,运维人员能够在排障工作台中快速查询业务访问路径,并根据关键节点上该会话对的连接失败率、服务器重传时延等流量数据缩小排查范围,再逐步检查路径中的设备状态,最终实现故障定位。
故障处置
故障定位后需要快速进行问题处置,恢复业务。通过提前设计应急预案,运维人员在故障发生时可以采用自动化手段,快速、准确地进行故障处置,减少人为操作风险。在故障修复后,通过运维知识库将故障现象、问题根因以及处置方案总结沉淀,当再次发生类似问题时,运维人员能够参考历史知识经验进行分析处理,缩短整体故障时间。
在实际使用过程中,故障处置模块借助平台自动化能力,为网络环境中关键设备节点预设一键切换、一键旁路等应急场景。在排障工作台中定位到问题后,运维人员能够直接对设备发起处置操作,通过预设的自动化脚本完成应急动作,优先恢复业务运行。在复盘环节,运维人员可以将故障现象、故障定位过程、处置动作等记录信息以自然语言交互的形式输入大模型。由运维大模型辅助完成故障报告的总结与文档处理,极大减少了运维人员由于漏记、少记导致知识经验流失的情况发生。最终,将故障报告存入大模型知识库,方便后续日常运维中共享使用。
成果与收益
通过网络故障诊断定位平台建设,客户实现了故障发生前通过智能分析算法识别和发现故障征兆,故障发生时通过排障工作台集成多源数据,快速定位问题,故障发生后通过知识库积累,实现运维经验沉淀共享。
智能分析算法提升风险预警能力。借助成熟的智能分析算法,通过对端口指标、线路流量等数据进行综合分析,实现智能风险点监测,结合日志异常检测能力,在实际应用中已提前数十次向运维部门发出风险点预警。网络可观测助力故障发现和定界。建立多维网络可观测体系,在精准捕捉业务区之间网络延迟、丢包等细微波动的同时,也融入了外联关键业务拨测数据。平台上线后,网络业务区域监测覆盖度由60%提高到100%,平均故障发现时间由5分钟提升至30秒。排障工作台缩短故障定位时间。排障工作台整合并关联各个运维子系统数据,基于网络运维排障最佳实践,抽取、整合和关联故障定位过程中的各类关键数据,一个工作台满足排障过程中的大部分需求,减少平台和工具切换开销,平均故障定位时长由15分钟缩短到5分钟。总结与展望
本文主要介绍了国内某金融机构数据中心在建设网络多维故障诊断分析平台中的实践经验,平台建设过程中不仅合理有效的管理和利用了网络运维数据,还实现了高效故障排查和预测性运维,从而有效提升业务系统连续性、运维效率以及降低了潜在风险。
未来,我们将持续关注智能运维领域发展新趋势、新动向,帮助客户提升整体运维自动化、服务化、智能化水平,致力建设具备实时洞察及辅助决策能力的网络智能运维平台。
“实践案例分享-华讯网络”编委介绍
特别鸣谢
上海华讯网络系统有限公司 王腾蛟
上海华讯网络系统有限公司 张伊娜
上海华讯网络系统有限公司 崔华华
上海华讯网络系统有限公司 陆 勇
双态IT论坛成员单位来源:双态IT论坛