数字化转型网人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

中国农业银行申报的“AIOps智能根因分析场景案例”入选了“智能运维示范引领案例”。
一、案例背景
业务数字转型与架构分布式转型对商业银行业务系统的运维保障工作带来了巨大挑战,如何在海量的监控指标、复杂的调用关系中快速识别和定位故障根因成为一个亟需解决的难题。主要体现在以下三个方面:一是数据量大,分布式架构下,告警、指标、链路等数据体量庞大,而根因定位又对时效性有较高要求,需要能够保证较高的算法性能;二是定位数据源种类繁杂,除了监控指标体现出的异常,关联应用、运维活动、链路调用等各类数据均可能导致系统故障,不同类型的数据须采用不同的算法进行分析;三是定位效果差,由于故障根因分析缺少大量有效的训练集,因此完全依赖算法在前期较难达到预期效果,往往需要结合一定的专家经验进行辅助决策。 数字化转型网www.szhzxw.cn
二、解决方案
针对故障根因定位面临的难点问题,农行通过构建系统运行健康度实时评估体系、优化海量资源指标算法分析手段、打造AI算法与专家经验相结合的全方位根因定位平台等方式,实现对系统运行情况的智能洞察与快速定位,有效提升了运维故障的发现和处置效率。

1. 运行健康度实时评估体系
为从海量告警和监控指标中萃取有效数据,精准分析系统运行风险,保证系统根因定位的及时有效,农行构建自下而上的应用系统健康度实时评估模型,基于业务指标、性能指标、告警级别、告警趋势、关联应用监控情况等多个维度,全方位立体化对系统运行监控情况开展评价,并在系统健康度出现波动的情况下自动发起根因分析流程,提升了故障风险和定位的效率。
2. 海量指标异常检测算法增强
针对根因指标数据量大、种类多的问题,对指标异常检测算法进行针对性的增强以提高算法性能。首先基于相关性分析算法实现指标的分组分析,大幅降低需要检测的指标数量,解决海量指标全量异常检测的性能瓶颈,此外,还针对不同的指标分类自适应选择不同的检测模型,提升指标异常检测准确率。
3. 打造AI算法与专家经验相结合的全方位智能根因分析工作台
为提升根因定位准确性,一方面,农行基于指标异常检测结果、关联及调用链依赖关系、运维活动时序、系统告警聚类等数据构建了AI分析算法,能够在故障出现异常时快速推荐可能根因,另一方面,还支持专家在线编排根因诊断流程,实现专家决策经验的固化和快捷执行,并将专家经验分析结果与AI算法分析结果汇总验证。 数字化转型网www.szhzxw.cn
此外,农行还打造了线上化的智能根因分析工作台,实现系统关联信息、资源拓扑信息、运维时间线信息、性能指标信息、根因定位结果的一站式全景汇聚,提供沉浸式根因分析体验。



三、建设成效
目前农行智能根因定位场景已在生产上得到了广泛应用,为生产异常的“及时发现、准确定位、快速处置”提供了有力支持,其中AI根因定位已覆盖全部应用系统,专家定位流程覆盖70余个系统共积累200余条专家经验,生产异常的定位时间压缩至5分钟以内。
数字化转型网人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入! 数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 CAICT数字化治理;编辑/翻译:数字化转型网宁檬树。




