运维场景 | 以业务全链路观测视角拉通全域数据,提升数据分析能力

摘要:现代企业的IT架构日趋复杂,从单体应用演进为分布式微服务架构,业务系统间的依赖关系也变得错综复杂。传统的监控方式局限于单点指标的采集和告警,难以应对跨服务、跨系统的复杂故障场景。业务全链路观测作为新一代智能运维的核心能力,正发挥着越来越重要的作用。

现代企业的IT架构日趋复杂,从单体应用演进为分布式微服务架构,业务系统间的依赖关系也变得错综复杂。传统的监控方式局限于单点指标的采集和告警,难以应对跨服务、跨系统的复杂故障场景。业务全链路观测作为新一代智能运维的核心能力,正发挥着越来越重要的作用。

擎创科技业务全链路观测场景通过综合利用调用链、日志、指标、配置、网络等不同领域的运维数据,构建以业务为观测视角的横向到边、纵向到底的端到端链路,提升了多系统同时告警时的业务影响分析能力以及快速故障定界能力。

1.企业生产运行部

提供面向业务视角的预警以及影响分析能力,协助生产运行团队掌握受影响的业务范围和严重程度,辅助生产运维决策

2.企业应用二线运维人员

通过对业务以及应用路径的实时分析,基于路径和多维智能算法,自动识别和推荐异常终点,实现横纵两向的下钻及关联分析,协助应用二线运维人员快速识别根因故障边界,提高应急排障效率。

某国有大行的生产运行部,在每次出现故障问题的时候,仅能知道受影响的系统数量,很难直接找到重点,只能广播式召集,以至于业务影响分析十分困难。

另外,该行还存在多系统横向排障困难的情况。企业二线应用/系统部仍保留传统人工方式,依赖经验判断上下游影响关系,常耗费大量时间去逐一对系统进行排查,且给出的处置方案具有不确定性,中间还牵扯大量的一二线重复沟通成本。

根据对该行整体运维阶段的评估,擎创给出两期建设规划。

1.一期(已完成)

建设交易链路端到端的智能分析能力,兼容云上云下,并基于三大关键数据实现端到端追踪。

协助一线值班团队定位多系统异常根因,提高客诉问题的排查效率。

辅助二线运维团队查看故障系统上下游、寻找错误、性能热点,定位故障对象。

可观测系统架构

2.二期(建设中)

梳理18个关键业务场景,实现关键业务的一键根因诊断。

优化业务影响分析旅程和体验,基于系统调用路径,提供系统级别的告警拓扑。

聚焦故障路径以及异常终点,增强从业务场景到链路的下钻分析能力。

1.提供统一且完整的业务影响认知

面向一线生产运行部和二线运维团队提供统一且完整的业务影响分析视图,提高了一线生产运行团队的召集效率。

2.提升复杂故障的排查能力

综合利用链路、指标、日志、配置等领域的运维数据,实现从业务、应用、到基础架构的纵向下钻分析,关联分析链路、指标、日志等相关运维数据,协助二线运维团队快速确定故障边界,提高应急排障效率。

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

来源:小璇科技论

相关推荐