《中国智能运维实践年度报告(2021通用要求

Hi朋友,本期将围绕思路和内容两个方面对《信息技术服务智能运维第1部分:通用要求》国家标准进行解读。

智能运维系列国标设计—一个好汉三个帮

在标准建设方面,系列国标的第1部分是通用要求,侧重于智能运维框架的构建。在此基础上,工作组聚焦于数据、算法、技术等三个核心能力要素,致力于为智能运维框架打造坚实的“地基”。其中,数据是支撑智能运维的基石,算法是挖掘数据价值的关键,技术是实现智能运维的手段,上述三种要素也同时构成了系列国标的第2、第3和第4部分。智能运维系列标准之间的关系如图1所示。

图1智能运维系列标准之间的关系

智能运维框架解析—“三驾马车”

《信息技术服务智能运维第1部分:通用要求》国家标准的核心内容大体可归结为“三驾马车”,即“以组织治理为引领、以场景实现为中心、以能力域构建为支撑”。智能运维框架如图2所示。

图2智能运维框架

1)以组织治理为引领

智能运维是基于数据和算法驱动的新型运维方式,旨在打破原有职能团队间的“竖井”,消除数据壁垒,同时以组织治理为引领实现融合创新,进而高效应对各种错综复杂的环境。换言之,组织是保障智能运维可持续发展的重要力量。

举例来说,在构建智能运维模式的过程中,如果仍依赖各自为政的开发模式,没有将不同运维场景与共同用到的数据、技术等进行整合和沉淀,并实现能力共享,难免会出现大量重复建设,从而增加后续迭代的复杂度,甚至造成前台“烟囱林立”、后台支撑乏力的局面,此后更是要面对需求与开发间的大量矛盾,最终落得“用不好、不好用”的差评。因此,智能运维建设首先应作为“一把手工程”,从组织层面进行统筹规划、统一建设。

从实践角度,智能运维是一项对创新性要求很高的工作,运维组织需打破传统思维墙,建立柔性工作团队等新型的协作机制,并引入灵活的创新人才激励措施,同时广泛地发动运维人员参与创意挖掘、需求沟通、开发测试和体验调优等活动;此外,还可通过开展竞品分析、创客演说等活动营造创新氛围,建立可跟踪的沟通反馈渠道来及时获得需求建议,进而不断强化内部协作和创新机制。换言之,“以组织治理为引领”即坚持以人为本、管理与技术并重的发展理念,逐步实现运维人员在智能化建设工程中的角色转换。

2)以场景实现为中心

传统运维通常是基于流程梳理来界定各类角色职责,进而打破运维职能团队的部门墙,推动运维活动有序、高效地开展。与之相比,智能运维通过将新一代信息技术,尤其是人工智能技术应用到运维领域,可替代部分重复繁琐的人工操作,同时为管理角色赋能,帮助其处理复杂的分析决策活动,而实现运维场景分析则是首要环节。

一般情况下,运维场景主要指一系列实现具体运维目标时所需的人员、活动与对象的组合。场景既是智能运维需求的起点,也是最终效果的体现,其通过智能特征宣示了与以往传统运维场景的区别。简言之,“以场景实现为中心”旨在表明智能运维应以运维为中心,而不是脱离运维单纯在技术上“闭门造车”。

举例来说,在场景实现过程中,应首先根据场景复杂度、技术实现难度、数据质量情况、资源支持情况、需求紧迫性等要素,明确场景构建的阶段和步骤,之后再采用列举、分析、归纳等方法,识别场景建设的运维角色、运维活动、运维对象、智能特征等内容,最后则是应设立可评估或可量化的指标体系,如故障发现准确率、平均故障修复时间等。

3)以能力域构建为支撑

能力域建设既是场景实现过程中的经验沉淀,也是后续打造更多场景的储备与支撑。在标准编制过程中,工作组提出了数据管理、分析决策、自动控制等三大能力域,并将其定义为智能运维场景建设的根基。一般情况下,运维数据主要用于监控和排障,经常被看作是一次性消费,并未得到足够的重视。但是,随着运维数字化程度的逐步提升,智能运维要求有高质量数据作为基础支撑,甚至数据质量还将直接决定运维智能化的最终水平。

一旦具备了高质量的运维数据,运维数据分析决策即成为了智能运维领域的重要课题,其实现方式既可以基于海量数据进行机器学习,也可以依靠运维专家的经验和知识获得。在此基础上,企业可以根据不同的场景需求对运行系统作出合理判断或结论,并驱动自动控制能力执行运维操作,进而构建形成智能运维“大脑”。

值得注意的是,如要将分析决策中得到的运维判断与各个工具、平台、流程有效联动,离不开强大的自动控制能力。从某种意义上讲,自动控制能力是大幅提升运维工作效率的关键,它相当于运维的“手”和“脚”,不仅可以替代人工执行大量重复性的日常运维工作,还有助于促进运维操作标准化,提高运维流程的可控性,最终将运维知识进一步固化和沉淀到数字系统中。

要点问答

Q1:智能运维标准为什么要以场景为中心?

A1:运维场景,指为实现具体运维目标所需的人员、活动与对象的组合。场景无穷无尽,可以不断组合。场景是抓手,没有场景的建设方案是不可行的;能力是底座,构建能力项要特别关注其组合性和可复用性。只有同时兼顾“自上而下的场景驱动”和“自下而上的能力支撑”,才能真正把智能运维场景建设好。

Q2:智能运维场景实现有哪些关键要点?

A2:

第一,场景实现不等同于平台建设。

为了智能而智能的建设模式是不可持续的。工具和平台的作用是赋能场景,如果无法满足运维场景本身的需要,平台建设得再好也没有意义。智能运维是一套解决方案。建设智能运维场景,不仅需要工具和平台的能力支撑,还要结合组织文化、流程机制、队伍建设等维度进行落地。

第二,场景实现是一项系统工程。

站在信息系统建设的全生命周期视角来看,很多系统在运维过程中暴露出来的问题,其根治方案不在运维本身,而在信息系统的需求规划、架构设计、研发测试等前道环节。如果没有一种可持续、工程化的解决方案,运维工作就会很被动,运维压力也会不断增加。在研制标准过程中,我们总结出一套适用于场景建设的方法论。更多关注在前期的场景分析阶段,尤其是识别出场景建设的运维角色、运维活动、运维对象、智能特征等内容。场景实现也并非一锤子买卖,建议提前设立场景建设可评估、可量化的指标,在场景建设过程中不断比照、不断迭代等等。

第三,场景实现建议关注两个重点——运维数据治理和安全风险。

随着业务与技术的不断发展,运维数据量正呈现出爆发式增长。过去,运维数据通常从各业务系统和监控工具中产生和采集,缺少统一管理和数据标准,数据容易形成孤岛。因此在使用这些运维数据时存在很大的难度,更谈不上将它们整合运用、关联分析。如今,随着大数据采集、计算、处理、分析等技术日趋成熟,运维数据治理的紧迫性和重要性逐渐显现。

运维就是守底线。当我们使用人工智能(AI)技术替代运维人员的经验判断时,如何让AI守住底线,这是智能运维需要面对的新课题。这里的安全风险,一方面是运维本身就要面对的安全风险,另一方面是由“智能”技术次生的安全风险,如模型安全、算法安全等。这些安全问题,在智能运维建设过程中同样需要重点关注。

Q3:数据管理能力域建设的关键要点是什么?

A3:

第一,形成数据管理的标准

数据管理标准是为了规范对数据的统一理解,促进数据共享,增强跨团队协作中对数据定义与使用的一致性,降低沟通成本。数据管理标准通常包括组织架构、标准制度、管控流程、技术体系四个方向,应用统一的数据定义、数据分类等。在运维领域数据管理标准可以考虑如下:

·组织架构:确定运维领域数据管理所涉及的管理决策、数据运营、质量、消费等团队或岗位角色,以及所涉及的职责。

·标准制度:围绕源端数据制定分类、格式等规范,制定日志、告警、性能指标等数据管理标准。

·管控流程:要对运维数据管理的供应、变更、申请、共享、质量、运营等流程进行规范化、线上化。

·技术体系:综合考虑数据管理涉及的关键技术、应用场景等,围绕运维数据的“采存算管用”建立数据管理的技术体系。

第二,以场景驱动数据管理

运维领域的数据管理要直击实际问题,以应用场景为驱动,选择必要的管理内容,有侧重、有步骤的推行。要明确数据消费场景,根据数据管理工作中的痛点与价值期望,逐步建设数据管理标准规范,数据消费机制,数据质量管理规范,数据服务场景,数据安全管控等能力。

第三,洞察、决策、执行闭环

将“洞察、决策、执行”贯穿于数据管理过程中,在开始做之前就要想好需要数据发现什么问题,发现问题后要如何处理,如何跟进这个处理的执行。

数据管理能力域中对于数据的管理方法,技术实现以及知识的沉淀进行了总结,帮助智能运维方案的提供方、构建方与应用方有效管理运维数据。

Q4:分析决策能力域建设的关键要点是什么?

A4:数据+算法驱动的分析决策能力是智能运维场景落地的核心能力。基于数据管理能力提供的高质量数据,分析决策能力应能够根据不同的场景需求对运行系统做出合理判断或结论,并驱动自动控制能力执行运维操作。

智能运维是一个新的领域,通过对分析决策能力的能力项和能力要素进行定义,能够给企业数字化运维引入人工智能技术的过程中起到了细颗粒分解动作级的指导作用,其体现在:

·规范性:分析决策过程中不同步骤对运维数据的使用方法和目的各不相同,通过对数据探索、特征提炼、分析决策能力项提出数据、技术、算法上的约束以及安全可控能力项对于风险隐患上的考量,能够提升分析决策能力的整体质量。

·算法白盒化:使用人工智能技术进行数据分析的过程不只是一个黑盒的过程,能力域中的可视化能力项保证了智能分析决策中间过程的可调、可观测性,而特征提炼能力项保证了整个分析决策过程的可解释性。

·领域知识集成:算法和知识结合是有效分析决策的前提,能力域中通过对知识、过程提出要求将领域知识和经验集成到人工智能技术中,使得运维决策结果能够更加准确。

·可复用:能力域中对于数据、技术的标准化以及对经验、模板知识的总结提炼,使人工智能技术能复用于多个运维场景中。

Q5:自动控制能力域建设的关键要点是什么?

A5:自动化运维能够帮助我们解决很多重复性的工作,提高整体的工作效率,但自动化运维不是智能运维。在自动化运维发展的过程中,人工智能和机器学习等先进技术会被拿来优化自动化技术,借助算法和数据,朝着智能运维的方向不断延展。

从战略角度来看,自动控制能力域的建设要把握以下几个要点:

·明确规范:在运维领域,自动化往往落地到脚本执行上,因此对于脚本执行的环境、脚本编写的方式、脚本执行调度等等方面的规范性,有助于形成良好的自动控制发展循环,减少很多不必要的错误。

·控制权限:自动化一旦发生错误,其后果通常比手工误操作严重的多。因此,借助身份认证、双人授权、IP控制等多种安全措施,让自动化在受控制的条件下执行,确保不发生任何意外的情况。

· “标准解读-通用要求”编委介绍 ·

· 精彩预告 ·

下期将分享“标准解读”之运维数据治理标准、运维算法治理标准、运维技术治理标准,主要从“为何写标准”和“标准讲什么”两个角度进行解读,详情敬请关注“双态IT联盟BOA”公众号!

双态IT联盟成员单位

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#loooy.com)删除。
(0)
上一篇 2022年11月4日 15:15
下一篇 2022年11月4日 15:16

相关推荐