摘要:党的二十届三中全会明确提出,要加快构建现代化经济体系,推动新质生产力的发展,提升信息技术在各行业的应用水平。中国人民银行编制的《金融科技发展规划(2022—2025年)》也从宏观层面,对我国金融科技的发展提出了顶层设计和统筹部署的要求,明确了要建立健全金融数据
文/华泰证券股份有限公司信息技术部基础设施中心 沈波 程飞 段炼 徐磊 王丽雪
党的二十届三中全会明确提出,要加快构建现代化经济体系,推动新质生产力的发展,提升信息技术在各行业的应用水平。中国人民银行编制的《金融科技发展规划(2022—2025年)》也从宏观层面,对我国金融科技的发展提出了顶层设计和统筹部署的要求,明确了要建立健全金融数据中心智能化运维机制,加强多场景协同联动、多节点一体管控,提升态势感知、异常发现和故障预测能力,降低人工操作风险,推动运维管理模式转型升级。
传统网管平台为网络管理构筑了基础框架,但在应对现代网络环境飞速变革时,其局限性愈发凸显:故障发现难、定位慢、诊断复杂等问题成为制约提升网络服务质量的关键因素。同时,网络故障类型纷繁复杂,网络中断型故障较易通过传统网络监控工具感知、定位,对于网络服务本身的监控手段有待提升。在大行情、高并发场景下,发生网络服务故障、服务响应延迟、错报丢包等隐性故障并引起区域级业务影响时,运维人员难以在海量告警中及时、直观地发现故障现象及其影响范围。在网络运行正常的情况下,如何快速排除网络层故障可能性,帮助应用运维团队快速缩小排障范围亦是网络运维人员的重要工作之一。
为积极响应国家对金融科技发展的政策要求,提升网络运维效率和服务质量,不断夯实“1-5-10”(1分钟发现、5分钟定位、10分钟恢复)的故障处置时效目标,我们构建了一套面向场景、业务和服务的新型网络多维态势感知体系。通过全网态势感知、AIOps智能运维场景、网络挂图作战、业务场景联动的落地与推广,实现了业务需求和运维场景的联动,全方位提升故障发现感知以及故障定界定位能力,并为故障恢复提供决策依据及数据支撑,从而有效保障了网络服务的连续性、可靠性和稳定性,助力网络运维模式从原先单一网络资源监控的形式,转型至网络资源结合网络服务监控的全方位监控体系。
1. 整体设计
为了达到故障处置“1-5-10”的时效目标,我们在原有传统网络告警体系基础上,结合了多维态势感知体系,通过网络态势感知及智能运维场景构建高实时性、立体化、智能化的故障发现能力;依托挂图作战系统结合业务场景联动分析实现由“点”“线”到“面”的故障定位能力;基于故障定位结论结合网络与业务的关联关系为故障恢复提供决策依据及数据基础。
全场景多维态势感知体系以挂图作战作为异常感知的入口,以网管平台、IT资源平台等基础数据底座为依托,实现Pingmesh网络态势感知、智能运维场景、业务场景联动。
数据采集:统一纳管网络基础设施各类数据,将配置、性能、日志数据统一采集、存储并制定告警规则。
数据处理:结合网管平台、自动化平台以及IT资源平台等系统进行数据关联、丰富、过滤和计算,形成全网统一标准的数据服务。
功能场景:以机房区域和分支机构维度,以全网计算资源作为可用探针进行互Ping,进行全网网络质量感知,辅助故障发现;挂图作战整合基础监控告警以及Pingmesh网络质量感知数据,进行故障快速定位;同时以应用视图视角结合AIOps能力,进行故障分析,提升故障快速处置能力。
基于多维态势感知体系整体系统设计,以及该体系与现有工具、系统的数据联动整合设计,在发生业务故障时,网络运维人员的具体使用场景如图所示。
图 用户使用场景
收到告警:当出现业务故障时,网络运维人员从基础网络监控系统、网络态势感知系统、AI智能运维系统可分别收到设备、线路类故障告警,网络IP层服务故障告警以及趋势预测/异常检测类问题告警。
进入挂图作战系统:挂图作战系统是多维态势感知体系的核心入口,聚合了多类型数据信息。网络运维人员可通过挂图作战系统了解故障在拓扑层面的影响范围,从网络设备、网络线路、网络IP层服务、网络应用层服务、网络设备监控状态等维度,直观了解故障类型,以便第一时间进行故障分析及定界。
设备、线路类故障分析定位:网络运维人员直接通过挂图作战系统中呈现、钻取出的故障事件信息,定位出发生故障的设备及线路。
网络IP层故障分析定位:当网络运维人员在挂图作战系统中发现IP层服务出现异常时,可快速跳转至网络态势感知系统中,通过业务区域质量矩阵及MTR链路追踪能力,定位出网络服务层问题及影响的业务区域。
趋势及异常类问题排查:当AI智能运维系统发出趋势及异常类告警时,运维人员可在挂图作战系统拓扑图中直接定位到发生相关告警的设备,并直接钻取出AI智能运维系统提供的判断数据及依据。
辅助业务层排障:基于挂图作战系统中所反映的网络应用层服务状态,以及业务与网络平面的关联关系,可快速为业务层排障提供判断依据及相关数据。
2. 故障发现
作为故障处置的第一个环节,故障发现的及时性是业务快速恢复的重要前提。为了构建故障及时发现的能力,完整的故障发现过程需包含感知、分析、预测三个层次,即态势感知能力。同时,高频率的数据采集及业务拨测为态势感知能力提供数据支撑。
(1)网络态势感知。首先,我们通过网络态势感知系统构建了业务区域质量矩阵、健康度趋势分析以及MTR路径诊断能力。采用Pingmesh系统架构进行网络态势感知能力建设,形成一个全网态势感知矩阵以提升故障发现能力。通过定义不同区域间时延等级要求,实时展示区域健康状态,支持历史回溯和异常波动检测,从而达到全面观测整体网络运行状态的目的。
当故障发生时,网络运维人员可以通过区域间Ping测的结果矩阵,快速感知到故障发生以及故障影响的业务区域。同时,基于系统对于异常链路发起的MTR链路追踪,运维人员可直观定位到路径上的异常数据点。在网络态势感知矩阵中,以纵向目的区域维度观察矩阵态势变化,可直观地通过三种主要色块特征判断网络业务情况。
绿色色块:该目标区域网络访问正常。
个别黄色块:目的区域出现个别黄色块时,判定为交换机级故障。
大片黄色块:当目的区域黄色块超过一定比例时,判定为业务区域故障。
为了更真实地反映数据中心内部和分支机构网络质量,我们针对采集器策略选取和任务策略调度进行了精心论证,从以下几个方面进行架构设计。
采集和任务策略:将现网所有可用的服务器作为可选探针,按照接入交换机的维度,随机选取交换机下联的若干服务器作为探针。服务器信息通过CMDB数据结合ARP、MAC地址表扫描进行信息丰富。每个分钟级任务周期mesh数据覆盖全网所有区域和每台接入交换机。
架构选择:平台采用无代理架构模式,借助自动化平台能力,通过自动化平台接口实现命令下发及结果获取。
数据分析:数据分析模块根据区域或者交换机进行聚合,通过设定的健康度算法,对于健康度异常的区域或者交换机进行智能化告警。
分支机构监测:对分支机构内部业务IP发起Ping监测,感知分支机构网络质量状况。
(2)智能运维场景。在构建高实时性故障感知能力的基础上,我们进一步通过智能运维技术构建了故障理解及预测能力。通过机器学习算法实现智能化分析、异常检测和相似故障推荐功能;通过算法试点检测设备指标异常,并灵活调整动态阈值以优化检测效果,借助算法辅助运维人员提前发现指标异常;通过日志模式识别和时序异常检测,从统计角度分析各类异常日志的数量变化,实现日志异常预警。
基于历史日志数据和告警数据进行模型训练。将模型开放成接口服务,以“模型即服务”的模式提供AI能力,同监控系统解耦。
日志异常检测:采用基于日志数量和基于日志文本语义的异常检测算法。
相似故障推荐:对网络日志进行全量和增量模板解析,将相似日志归于一类模板,再将告警工单的处置记录和根因分析结论写入模板备注,提供故障建议推荐。
指标异常检测:以历史同时间段数据作为参照,发现异常突变指标,填补固定阈值的不足。
动态阈值告警:根据近期历史数据,动态划定上下基线,以提高告警准确度,减少误告警。
3. 故障定位
故障定位效率至关重要,在发现故障之后,运维人员需快速、准确地进行故障定位。影响网络故障定位时间的因素通常包括查看设备配置、检查关键指标状态、上下游设备关联分析、网络服务质量拨测等。为了缩短故障定位时间,需全面采集、汇聚相关数据,映射于网络拓扑之上。我们通过挂图作战系统以及业务场景联动分析实现故障快速定位。
(1)挂图作战系统。挂图作战系统通过整合多平台数据形成视图,打造从宏观到微观的全景式故障定位能力。对网络质量信息进行深度分层与聚合,涵盖网络设备、通讯线路、IP层、应用层的网络健康状况,自下而上精准汇聚并直观呈现网络质量数据。帮助网络运维团队能够迅速且准确地从全局视角定位故障位置,并清晰评估故障影响范围,为高效应急响应奠定基础。
使用统一的API网关整合底层各个监控工具和运维工具的原子能力,通过可视化平台进行数据呈现,提升故障定位的时效性和准确性。
网络分层拓扑:网管平台通过LLDP、CDP协议自动采集的互联端口数据,结合流程管控形成完整全网互联端口CMDB数据,实现拓扑自动绘制。
网元状态:集成网管平台API获取网元指标数据及告警数据。
端口状态:集成网管平台API,结合互联端口CMDB数据,获取网络互联端口状态及告警数据。
网络态势感知:集成网络态势感知平台提供的原子能力API。
其他场景数据:基于API网关提供开放接入能力,开发对应的场景视图,整合到挂图作战平台。
(2)业务场景联动。通过标记业务与网络平面之间关联关系,构建业务态势全景一体化监测视图。从业务视角出发,自底层网络设备到上层业务指标监控维度进行健康度分析,从而使业务和网络之间数据互联互通,直观展示网络承载的业务信息,辅助业务快速排障,提高系统的可靠性,从而减少系统故障对业务的影响,保障业务连续性。
业务指标监控和网络基础设施监控进行结合,以统一面板呈现,用以保障重点业务的正常运行。从业务监控指标关联应用状态、云资源状态、网络设备状态以及通讯线路状态,方便快速定位故障原因,提高处置效率。
4. 故障恢复
作为故障处置的最终环节,常见的故障恢复操作包括重启自愈、故障隔离、流量切换等。故障恢复的时效性取决于故障定位准确性、应急预案完整性以及自动化手段丰富度。
通过多维态势感知体系的建设,网络运维团队在快速发现故障的情况下,可基于以挂图作战系统为核心的故障定位环节得出的结果,快速决策故障恢复的方案以及恢复对象,更早地完成业务恢复。
目前,多维态势感知体系已经应用在公司网络运维管理实践中,并与基础网络监控手段相结合,构建全面、高效、精准的网络运维及故障管理体系。
基于传统基础网管告警,网络运维人员可以有效感知到网络设备及线路层面的故障;通过网络态势感知及智能运维场景建设,网络运维人员可以感知到对网络服务有实质影响的故障,包括非设备或线路层面的故障,故障发现时效从分钟级演进至秒级;基于挂图作战系统结合业务场景联动分析,网络运维人员在故障定位时可获取丰富的影响面分析及具体故障信息,并可通过拓扑关联关系索引到故障的实际位置,大幅缩短故障定位时间;依托多维态势感知体系得出的故障定位结果以及丰富的数据,有效帮助网络运维人员进行故障恢复决策。
本文主要介绍了构建网络运维新型多维态势感知体系的应用与实践,实践过程中不仅合理有效地管理和利用了网络运维数据,还实现了高效故障排查和预测性运维,从而有效提升业务系统稳定性、运维效率以及降低潜在风险。
智能运维体系建设并非一朝一夕、一蹴而就。后续,我们将持续关注智能运维领域发展新趋势、新动向,努力建设具备实时洞察及辅助决策能力的智能运维系统。以业务场景为驱动,提升日常运维操作及故障处置的效率,减少人工操作的复杂性与不确定性,提升整体网络运维自动化、服务化、智能化水平,不断推动运维数智化转型。
来源:金融电子化