当前位置:首页 > IT资讯 >

智能运维AIOps关键技术概览IT资讯

来源:天之家 发表于:2021-03-06 07:56 阅读:

  传统运维管理的人工及被动响应方式,已经无法支撑数字化业务灵活、快速的发展,要靠智能运维(AIOps)能力来获得数据分析和决策支持。而从传统ITOM到智能运维的演进过程中,需要一系列关键技术的支撑。本文试图就智能运维落地过程所需关键技术点进行概要说明。

智能运维AIOps关键技术概览

  图片来源:Gartner

  从智能运维的平台架构来看,可抽象为几个层面:数据采集层、数据汇聚层、数据存储层、建模应用层、分析学习层、应用反馈层。这是一个非常理想的层次划分,但在智能运维实践落地过程中,却存在着诸多坑壑,需要我们正视和解决。

  数据采集与传输

  运维数据的产生和采集来自于ITOM监控工具集,通常包括:基础服务可用性和性能监控、网络性能监测与诊断、中间件服务可用性和性能监控、应用性能管理、系统运行日志管理、IT资产管理、IT服务支持管理等。

  这些基础监控工具采集的运行状态数据和运行性能数据,需要具备足够存量的数据和数据增量;以及足够的数据维度覆盖度(时间维度、空间维度、系统级维度、应用级维度等)才能进行建模利用。与此同时,运维数据的时效性强、多维数据源割裂采集的现状、以及如何在后续建模过程中进行多维数据的高效关联,因此智能运维平台对数据采集层提出以下技术要求:

  • 跨平台、跨语言栈、高兼容性的多模式统一采集质量标准;

  • 兼容多种非容器化与容器化运行环境;

  • 一致的维度关联属性;

  • 在资源占用、数据压缩比、时效性之间可权衡、可调节的传送机制;

  • 可靠的熔断和止损机制;

  • 易于部署和维护、统一的配置和任务管理。

  数据汇聚、存储与建模

  数据的增量是迅猛的,或将达到网络的上行极限或磁盘的写入极限,因此对汇聚层的服务自身可用性和吞吐性能要求极高。汇聚层更像“数据湖”,提供元数据限制更为宽松的数据写入和获取途径、简易的数据清洗任务创建与管理、灵活的数据访问控制和使用行为审计、具备从原始数据的发掘中更便利的进行价值发掘、具备更敏捷的扩展特性等。

  同时,在设计汇聚存储层的建设方案时,需要避免数据泥沼、无法自助建模、无法执行权限管控等困境。在智能运维实践落地时,要由一组大数据业务专家/架构师,明确地为汇聚与存储层设计一系列的能力项,这些能力项不仅要满足“数据湖”的诸多特征,还要具备便捷的开发和实施友好性,降低数据接入与抽取清洗的成本,它应该具备至少以下关键技术能力:

  • 多数据源、海量数据的快速接入能力;

  • 元数据提取和管理能力;

  • 极其简易的、高性能的数据清洗转换能力;

  • 可根据数据字典或特征算法对数据进行关键字识别、模式识别的标记能力;

  • 自动的、自助的,对敏感数据进行脱敏或加密处理能力;

  • 对数据质量检验并对质量标准进行归一化处置的能力;

  • 数据可依据某种维度或特征进行所属和应用权限控制的能力;

  • 自动的、自助的,数据建模探索能力;

  • 对已建立的搜索、过滤、关联、探索模型,友好的进行数据输出能力;

  • 自动的、自助的,分布式集群伸缩能力;

  • 对外提供高效、敏捷数据服务的能力。

智能运维AIOps关键技术概览

  图:DODB逻辑架构(2017-2020)

  云智慧专业运维数据库DODB(Digital Operation Database)正是符合上述设计目标的一款专业运维数据库,基础运行环境搭建在CDH/HDP之上,包含了HDFS、Kafka集群、Zookeeper集群以及Spark集群。

  DODB可方便地进行采集任务的配置和管理,支持数百种数据源,包括日志数据采集、数据库和中间件数据性能数据采集、数十种数据库中表数据采集、数十种数据消息中间件中数据采集等,支持集群部署、中心化配置管理、状态自监控与高效熔断等能力,支持高可扩展性,同时巧妙的解决了数据泥沼和无法自助建模的困扰。

  算法体系建设

  在智能运维(AIOps)落地实践中,算法体系的建设是至关重要的一个环节。算法体系建设方面,应从三个角度来去考虑实现思路:

  • 感知:如异常检测、趋势预测、问题定位、智能告警;

  • 决策:如弹性扩缩容策略、告警策略;

  • 执行:如扩缩容执行、资源调度执行。