评论

必示科技:必示智能运维解决方案

原标题:必示科技:必示智能运维解决方案

来源:“鑫智奖”第四届金融数据智能优秀解决方案评选

一、解决方案简介

必示智能运维解决方案集中纳管已有的各类运维数据,包括业务指标数据、机器指标数据、各类监控工具的告警数据,通过数据汇聚、标准化、关联、计算、查询等数据处理功能实现数据统一治理和对外提供数据服务,并进一步构建业务指标异常检测、业务明细多维定位、机器指标定位、调用链根源系统定位和指标趋势预测五大核心场景,建立涵盖数据管理、故障发现、故障定位和故障预警的综合运维体系。

1.智能业务排障管理

必示智能运维平台大幅提升监控覆盖率,异常检测细化至交易码级别,全面捕获系统异常情况;平台自动实时生成业务明细多维定位、调用链根源系统定位报告,帮助运维人员立即锁定故障源头,显著缩短故障处理时间,提升故障处理可扩展能力。

2.统一事件管理

统一集成多源事件;告警数据标准化,并关联CMDB进行告警丰富,增强事件规范化和可读性;利用智能算法进行告警压缩,防止告警风暴;展示告警定位结果。

3.应用日志集中管理

提升海量、多种日志统一采集、分析、存储和查询展示的能力;提供日志智能异常检测和智能分析能力,快速发现日志中的业务异常。

4.数据管理平台

提供数据全生命周期管理能力,基于图形界面的可视化拖拽操作方式,涵盖数据采集、标准化、过滤、关联等众多功能,构建运维数据的收集、汇聚和使用的完整链条。

二、应用场景痛点简介

金融行业作为关系国计民生的重要行业,一直是技术架构和系统运维最严苛的领域,在拥抱新技术方面一直追求卓越创新和稳定传承之间的平衡,更加全面综合地考虑技术领先度、架构成熟度、业务驱动力、运维可靠度等多个维度。

近年来,以“稳态”著称的金融行业也在不断云原生化,IT基础架构不断演进,系统规模不断扩大,业务系统越来越复杂、网络更新越来越频繁,这些使得运维面临新挑战。传统运维方式已经无法满足业务敏捷化的需求,构建面向未来的智能运维体系成为金融机构数字化转型的关键。

金融机构运维工作面临的痛点场景如下:

(1)数据采集成本高,统一管理难。运维数据种类多、规模大,标准化程度低且质量不高;数据管理和应用缺乏统一的管控工具。

(2)被动运维,故障发现“后知后觉”。缺乏预警机制,当故障被发现时,用户体验已经受到极大影响。

(3)告警漏报、误报多,可读性差。运维人员无法用、用不好、不想用。

(4)系统故障根因定位困难。主要依靠专家经验或手工分析,耗时耗力,无法快速判定故障点。

(5)IT资源规划缺少明确依据。基础资源的容量规划多依赖于历史经验,需要科学的资源规划指导IT建设。

三、解决方案亮点介绍

必示智能运维解决方案正在为金融客户提供业务指标异常检测、日志异常检测、调用链根源系统定位、机器指标定位、业务明细多维定位和指标趋势预测等智能运维场景,融合多种自研的人工智能算法,开创了多项技术创新。

1.业务指标异常检测

由于业务忙时和闲时的存在,反映业务系统健康状态的指标(如交易量、响应率、响应时间、成功率等)往往在不同时段呈现出不同的波动特征,导致固定阈值监控方式难以适应业务指标的数据特点,且人工配置告警规则的方式工作量大,无法满足大范围、细粒度业务指标的监控需求。

业务指标异常检测通过构建智能基线对业务黄金指标进行异常检测,识别业务指标时序曲线的反常变化,及早发现问题和风险,提升告警准确率,缩短故障发现和业务系统恢复时间。

场景主要特征:根据每条指标数据的不同,自动选择合适的算法进行异常检测;无需人工标注异常数据;自动识别无规律性指标,给出极限阈值。

2.业务明细多维定位

当业务指标产生告警时(如交易量骤降、响应时间陡增),针对交易明细数据往往由人工逐个选定业务维度(如不同省份、城市、渠道等)进行分析,寻找根因维度。但当业务维度数量众多且每种维度取值众多的时候,待分析的数据规模将呈指数级增长,人工排查的方式在效率和准确性方面面临挑战。

业务明细多维定位从业务交易明细数据中提取众多细分维度属性信息进行分析,挖掘异常交易共性因素,判断故障影响范围,定位异常根因维度。

场景主要特征:根因定位准确率高;多维数据分析速度快。

3.机器指标定位

当业务指标产生异常时,对于基础架构层面的原因排查,通常由管理员逐个查看监控对象视图,以检查某些基础组件的性能指标是否异常。这种方式比较依赖运维经验,且效率不高。

机器指标定位在业务指标产生告警时,从业务系统关联的海量监控对象(如主机、数据库、中间件等)的性能指标中,快速排查出异常指标和对象,帮助运维人员快速、准确完成基础架构层面的问题排查,提升故障定位效率。

场景主要特征:指标定位准确率高;海量数据分析速度快。

4.调用链根源系统定位

在大型系统中,往往需要多个系统或服务间的相互调用来完成一个确定的任务。当故障发生时,多个系统可能会因彼此连带影响而同时产生告警。由于系统和服务间调用关系的复杂性,人工逐一排查系统耗时耗力。

调用链根源系统定位利用系统或服务间的调用关系数据,从中快速定位可能导致故障的根源系统或服务,解决运维人员需要逐个排查效率低的问题。

场景主要特征:快速排查关联系统;不依赖于全局流水号。

5.指标趋势预测

在数据中心建设规划中,IT系统的资源管理通常基于经验,对历史容量数据进行分析来判断未来所需的资源容量规模。但缺少更加科学的计算规划,容易导致容量不足或资源闲置的情况,影响业务系统上线效率或浪费建设成本。

指标趋势预测主要针对时序容量指标(如磁盘空间、表空间、文件系统使用率等)进行预测,描绘其未来可能出现的变化趋势,当其趋势达到阈值时,及时发现容量风险,保障系统的安全稳定运行,同时为IT资源规划和系统优化提供科学建议。

场景主要特征:趋势预测精度高;自适应指标特征;长周期预测。

截至目前,必示智能运维解决方案已经获得以金融行业为代表的数十家行业头部用户采购,同时在真实生产环境中不断反复打磨、积淀,凭借可靠成熟的性能得到多家头部金融客户的高度认可和信任。

四、金融行业客户名单

中国人民银行清算总中心、中国建设银行、工商银行、中国银行、交通银行、中国农业发展银行、民生银行、招商银行、广发银行、华夏银行、光大银行、浦发银行、北京银行、上海银行、南京银行、中原银行、天津银行、阜新银行、九江银行、温州银行、泰隆银行、台州银行、金华银行、湖州银行、绍兴银行、浙江民泰商业银行、浙江农信、吉林省农村信用社、威海市商业银行、国泰君安证券、光大证券、中银国际证券、兴业证券、深圳证券交易所、国信证券、泰康保险等。

五、客户评价

1.中国建设银行

随着业务系统快速发展、业务架构调整和新技术广泛使用,运维规模和复杂度不断增加,我行运维水平在前几年发展的基础上已经从标准化、自动化逐步向数字化、智能化方向演进,在数据中心智能运维平台统一规划中,必示科技合作建设的运维知识图谱的系统投产作为支撑类基础组件,为其他运维业务组件提供基础服务,支持包括智能搜索、智能运维画像、根因定位等运维场景,准确、及时的解决了运维知识分散、运维数据信息难以有效检索等问题,使我行运维场景智能化水平大幅提升。

2.光大证券

必示科技注重智能运维场景与行业特点的融合,作为光大证券智能运维项目的合作方,必示智能运维产品提供了异常发现和异常定位两方面的能力,为我司提供了有效的运维支撑作用。在数月的运行过程中,帮助我司发现并优化近百个潜在风险点,切实提升了系统可用性和稳定性。

3.南京银行

必示科技智能运维产品依托独有、领先的运维算法,简单、易用的系统配置,以及实时、精准的业务指标异常定位能力,能够提前发现部分故障场景的系统隐患,快速给出根因指向,有力保障系统的稳定运行。为我行大力发展AIOps智能运维业务,以及数字化升级,提供了有力保障。希望必示科技智能运维产品在功能和性能上不断提高,继续挑战新巅峰。

更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社官网案例库、选型库查看。返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
大家都在看
推荐阅读