数字化转型网人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

总书记强调,人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。大数据、人工智能技术已然成为大型商业银行提升竞争力的核心技术。农业银行突出“服务乡村振兴领军银行”和“服务实体经济主力银行”两大定位,面对数字化浪潮带来的快速变革,围绕科技支撑、智慧渠道建设、企业级架构与大数据应用四个关键领域,实施数字化转型“十大工程”。截至2021年末,农业银行手机银行注册客户超过4亿户,月活客户超过1.5亿户,位居同业第一,线上贷款“农银e贷”余额突破2万亿元。这一系列标志性成果的取得,与数字化转型的科技支撑建设紧密相关,科技创新在赋能业务增长的同时,也对IT运维提出了新的挑战。
一、智能时代,运维转型迫在眉睫
在业务数字化转型方面,银行的研发运维体系需要适应快速的产品需求变化和海量的随机用户请求。DevOps的广泛应用显著提升了银行业务产品推陈出新、敏捷交付的速度,也让以“稳健”见长的银行系统不得不拥抱时刻而来的变化。同时,随着业务量的逐年攀升、Bank4.0时代金融业务场景的愈加丰富,“双十一”、纪念币发售、爆款基金理财产品秒杀抢购等都需要IT运维能够应对随时可能到来的交易洪峰。
在业务连续性提升方面,大型国有商业银行已普遍使用分布式微服务架构提升系统的整体可用性,但多地多中心的运行架构和每年动辄数以万计的增量服务器资源,使得系统的复杂度和运维难度远超想象,加之监管机构日趋严格的系统恢复点目标(RPO)和恢复时间目标(RTO)要求,传统“人肉运维”模式已经无法满足金融行业严苛的业务连续性要求。 数字化转型网www.szhzxw.cn
在技术栈转型方面,云原生、分布式数据库等新兴技术快速落地,如何让传统运维体系与新技术栈更好适配,从而充分发挥云原生弹性可扩展的特性,如何利用云原生的“不可变基础设施”、Serverless、ServiceMesh等技术能力提升运维工作的效率与质量,均需要尽快探索落地。
金融数据中心作为关键信息基础设施,其稳定运行事关国家金融安全。人民银行《金融科技发展规划(2022—2025年)》指出,金融数据中心要建立健全智能化运维机制,推动运维管理模式转型升级。农业银行数据中心作为IT运维的主体承担部门,积极响应国家发展人工智能的号召,稳中求变,提出数据中心2022—2024年总体发展思路(如图1所示),通过智能化赋能运维转型,将数据中心建设成为金融科技“数智中心”;通过智能运维(AIOps)赋能数据中心各项运维工作,通过“组织管理、数据中台、运维中台”三大举措落地智能运维体系,提升“可感可知、可计可析、可管可控”三大智能运维能力,为金融科技创新和稳定运行提供基础资源保障。 数字化转型网www.szhzxw.cn

二、行业共识,智能运维有章可循
Gartner将智能运维定义为融合大数据、机器学习等先进的分析技术,通过主动化、个性化、动态化的洞察能力,直接或间接提升IT运维的监控、自动化和服务管理能力。
德勤的调研表明,智能告警、根因分析、异常检测、容量优化和故障自愈是智能运维排在前五名的落地场景。通常来讲,业界普遍将运维能力划分为五个阶段:第一阶段强调专家经验,通过人工执行脚本方式进行运维;第二阶段强调工具化,通过各专业自己的运维工具进行运维;第三阶段强调开发运维一体化(DevOps),通过高度的自动化和简单的智能化进行运维,这一阶段基本建成运维工具体系和运维数据体系;第四阶段强调数据化运维(DataOps),通过数据串联智能化场景,实现高度的自动化运维;第五阶段强调智能运维,通过平台、数据、算法辅助运维决策,并形成不断迭代优化的闭环。

金融企业在不断向高阶AIOps迈进的过程,实质都是沿着从运维数据中找知识的方向不断深化。在这一过程中,获取数据、分析处理数据、从数据中提炼出运维知识、让知识自动化地应对各种运维场景均需要对感知能力、计算分析能力和管控能力这三项基础能力的建设。其中,感知能力实现了智能化运维场景所需原始数据的采集和监测;计算分析能力实现了对知识的提炼、分析、决策和迭代更新;管控能力实现了运维指令对基础设施和应用系统的规范高效操作。
三、“三横三纵”,数智运维体系初建
农业银行智能运维体系建设经历了三个阶段:2019年之前处于脚本化和工具化阶段,在设备、网络、系统、应用等垂直专业领域完成标准化监控和操作方式的沉淀提炼;2019—2021年处于DevOps和初步DataOps的自动化阶段,达成“场景贯通、流程整合、数据精准”的目标,实现企业级全栈运维的一体化、数字化、智能化;2021年至今处于深度DataOps和AIOps的智能化阶段,逐步建立“三横三纵”智能运维体系(如图2所示),依托完备的组织管理体系,全面贯穿系统的建设态和运行态,通过运维平台开展资源交付、日常变更、监控定位、应急抢修等专业运维工作,为业务发展和经营管理提供科技服务支撑。

1. “三横”是指从组织管理、数据中台、运维中台三大横向维度提供底层支撑。
组织管理侧重打破专业竖井,横向统一整合人力物力资源和系统建设目标。运维一线人员(用户)、业务管理方(产品)和技术团队(项目组)组成AIOps常态化柔性团队,通过分工协作、流程管控等组织形式进行工程管理,建立工作指引、技术标准规范和迭代优化的工作方式。
数据中台侧重运维数据的统一沉淀和抽象提炼。一方面建立标准化、体系化数据中台,通过数据采集、清洗、加工形成运维大数据集市;另一方面注重配置、监控、操作数据的及时、准确和保鲜。以配置中心数据为例,通过数据全生命周期管理,形成资源上下线与投产交付联动、配置变更与生产变更联动的管理闭环,建立自动准确性校验和人工纠偏流程,让配置信息“管得住、看得见、用得准”。
运维中台侧重构建体系化、工程化的AI运维平台,建立AIOps分析引擎,具备针对海量数据环境、大规模运维数据处理的方法和工具。通过中台建设抽象基础运维能力,将自动化操作管控、标准化数据治理、数字化运营监控、生态化运维应用进行整合,实现资源打通、数据打通、功能打通。
2. “三纵”是指纵向上提升运维系统可感可知、可计可析、可管可控三大运维能力。
可感可知能力是运维之“眼”,通过打造标准化、多元化、智能化的数据采集体系和监控体系,针对分布式和微服务架构特点,通过全链路监控、日志分析、智能诊断等技术,实时分析快速定位故障,满足平时监控、战时定位的要求,实现对IT运行情况全方位可感可知。
可计可析能力是运维之“脑”,以数据为基础,以算法为支撑,以场景为驱动,利用AIOps能力,实现新技术栈下多维分析洞察、运行风险预测、故障智能诊断、无阈值告警、指标化运营,解决新技术栈的实际运维痛点,实现智能化可计可析。 数字化转型网www.szhzxw.cn
可管可控能力是运维之“手”,以配置中心作为运维基石、管理平台串接流程,形成“监-管-控-配-析”五位一体联动的全栈支撑、全面管控的操作体系,支撑云上云下资源一站式交付和弹性容量管控,建立启停、隔离、限流、回退、切换的“五板斧”快处快恢应急能力,高效实现运维可管可控。
农业银行通过“三横三纵”智能运维体系实现生产运行状态的趋势预测、生产事件的精准定位、运维操作的自动执行、系统的灵活扩展、服务的快速交付,全面提升“数智中心”运维水平。

四、点面结合,智能运维成效显现
下面通过四个事例说明农业银行在建成“三横三纵”智能运维体系后,在弹性架构、监控告警、故障诊断、效能优化等智能化运维场景取得的成效。 数字化转型网www.szhzxw.cn
一是弹性架构。农业银行作为人民银行首家试点纪念币独家发行工作的主办行,在承担“世界文化和自然遗产—武夷山普通纪念币”独家发行工作任务期间,将运维平台融合云原生弹性能力,采用动态扩容、动态流控等技术,实现数千规模资源池的分钟级动态扩缩容,显著增强系统性能与应急处置能力,有效保障了预约期间系统的稳定运行。在正式发售期间,纪念币预约系统平稳支撑100万并发在线人数和64万TPS,为金融同业承担纪念币独家发行工作提供了良好示范。
二是监控告警。针对海量资源指标数据阈值配置复杂、人工维护困难、周期类指标无法精准配置等问题,运维平台采用深度学习算法,实现指标预测模型的自动适配、时序数据的趋势预测。通过量化对比监控指标相对于动态基线的偏离程度,实现无阈值智能监控,做到无人工干预的准确告警;通过重要系统无阈值告警100%覆盖,使阈值类告警误告率下降34%,显著降低了日常运维配置复杂度和人工成本。
三是故障诊断。运维平台通过建立智能化故障诊断能力,对系统运行指标、链路、日志、事件等各类数据采用分类异常检测算法进行全方位分析,应用图数据学习模型,挖掘关联关系和潜在异常,以故障推理和验证相结合的方式有效定位故障根因,目前平台可在2分钟内完成故障系统各类异常的自动筛查和根因初步定位。针对重要系统交易响应时间延长、成功率下降等生产问题,故障诊断模块通过精准匹配触发问题的异常方法及相关SQL语句,显著提升系统应急处置效率。
四是效能优化。随着Kubernetes平台的深化使用,海量容器资源的效能可以通过更合理的资源配额和智能化的扩缩容策略得到进一步提升。运维平台具有资源配额推荐功能,参考系统历史资源消耗峰值,智能推荐出相对合理的资源配额,在保障业务稳定的前提下,有效提升资源使用效能。同时,容量预测模块通过分析监控指标的时间序列数据,智能预测识别适合自动水平缩放的应用程序,与Kubernetes原生自动水平扩展能力相比,解决了缩放滞后的问题。 数字化转型网www.szhzxw.cn
农业银行在AIOps取得成效的实践中逐步总结出三点经验:一是数据优先,数据质量是AIOps成功落地的前提条件,直接决定了算法模型的质量和效果;二是点面结合,金融系统的复杂程度和高可用要求意味着很多场景很难找到标准普适的“银弹”算法,要意识到算法的局限性,点面结合去推广应用;三是人机协作,虽然通过AIOps实现系统自愈是智能运维永恒的追求目标,但高等级金融系统的应急还需要一线运维人员结合AI判断和专家经验进行综合研判,人机协作永远是金融IT运维的沧桑正道。
五、展望未来,“数智中心”基石长青
作为金融企业稳健行远的基石,农业银行数据中心的未来发展将始终以习近平新时代中国特色社会主义思想为指导,准确把握新发展阶段、深入践行新发展理念,坚持目标导向和问题导向,严守生产安全和网络信息安全底线,以数字新基建为基础,以数智化新运维为主线,融入科技条线协同新机制,加快构建数据中心发展新格局,将数据中心建设成为业务连续的保障中心、网络安全的运营中心、数据驱动的智能中心和转型发展的支持中心,为全行数字化转型奠定稳健发展的长青基石。
数字化转型网人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入! 数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于中国金融电脑+;编辑/翻译:数字化转型网宁檬树。




