制作公司网站步骤,上海公关公司排名,瑞安门户网站建设,网站建设如何在宣传部备案简简单单 Online zuozuo #xff1a;本心、输入输出、结果 文章目录DevOps中的人类瓶颈#xff1a;使用AIOps和SECI自动化知识管理前言1、问题#xff1a;对“英雄”的依赖2、第一层#xff1a;AIOps 自动化#xff08;1#xff09;自动修复#xff08;Auto-remediation…简简单单 Online zuozuo 本心、输入输出、结果文章目录DevOps中的人类瓶颈使用AIOps和SECI自动化知识管理前言1、问题对“英雄”的依赖2、第一层AIOps 自动化1自动修复Auto-remediation2根因分析RCA3智能告警4实施策略3、第二层SECI 模型处理人类知识4、DevOps 中的 SECI 循环1社会化隐性→隐性2外化隐性→显性3组合显性→显性4内化显性→隐性5、组合架构6、成果效率指标DevOps中的人类瓶颈使用AIOps和SECI自动化知识管理编辑 | 简简单单 Online zuozuo地址 | https://blog.csdn.net/qq_15071263如果觉得本文对你有帮助欢迎关注、点赞、收藏、评论谢谢前言在现代IT运维ITOps中我们面临一个悖论我们的基础设施是动态的、可扩展的、云原生的但我们的运维流程往往是静态的、手工的并且依赖于少数英雄工程师。当发生故障时平均恢复时间MTTR往往更多地取决于谁是值班人员而不是技术栈本身。如果专家不在场系统就会持续瘫痪。这就是知识瓶颈。基于最近对效率管理的研究本文提出了一种双层解决方案AIOps用于自动化已知已知SECI模型用于民主化已知未知。#DevOps #AIOps #SECI #知识管理 #自动化 #运维 #机器学习 #IT运维1、问题对“英雄”的依赖分析典型的运维故障会发现一个重复出现的模式知识孤岛修复依赖资深工程师掌握的“部落知识”手动分诊运维人员手动登录检查日志告警疲劳数千条告警涌向仪表板这导致了高昂的运维成本和缓慢的恢复时间。为了解决这个问题我们必须将知识视为代码将运维视为数据。2、第一层AIOps 自动化**AIOpsIT运维人工智能**不仅仅是一个流行词它是一种将机器学习应用于大规模运维数据流的实用机制。研究表明AIOps在三个关键领域提供最高投资回报率1自动修复Auto-remediation执行已知问题的脚本例如重启卡住的服务2根因分析RCA自动识别零号病人服务3智能告警不再为CPU高、“延迟高”、Pod崩溃分别发送100条告警而是将它们关联为单一事件并指向根因例如“数据库锁”影响分诊噪音减少高达90%4实施策略不要试图一次性自动化所有内容。从容易实现的部分开始。阶段描述阶段一日志聚合集中日志ELK、Splunk喂养AI阶段二告警关联使用聚类算法对相关事件进行分组阶段三自动修复将AIOps引擎连接到Ansible或Kubernetes Operator以触发修复3、第二层SECI 模型处理人类知识自动化无法解决所有问题。复杂的、新颖的故障仍然需要人类直觉。挑战在于这种直觉往往被锁在资深工程师的头脑中作为隐性知识。SECI模型社会化、外化、组合、内化提供了一种结构化方式将这种隐性知识转化为可共享的显性资产。4、DevOps 中的 SECI 循环1社会化隐性→隐性传统方式跟随资深工程师学习新方式每周作战室复盘。不再是正式会议而是让初级和高级工程师一起讨论过去一周的困难工单。记录这些讨论2外化隐性→显性技巧不要要求工程师写文档。让他们录制一段5分钟的视频解释如何修复问题使用语音转文本对这些视频进行索引。这将直觉转化为可搜索的知识3组合显性→显性将这些成果组合成知识图谱或结构化手册例如在Confluence或Git仓库中。按服务或错误类型对故障进行分组4内化显性→隐性初级工程师在值班前复习手册和视频。他们在沙箱环境中模拟修复逐步建立自己的直觉5、组合架构通过集成AIOps和SECI我们创建了一个自我强化循环SECI确保一旦新问题被解决它就被文档化并最终转化为自动修复脚本——反馈改进到机器层人类处理新颖问题AIOps处理重复性噪音6、成果效率指标实施这种双重方法可以带来可量化的改进改进项描述成本优化初级工程师使用共享知识解决复杂事件而高级工程师专注于架构和创新知识冗余通过系统性地外化知识组织不再依赖单个英雄分诊时间减少90%AIOps过滤噪音让工程师专注于真正的事件生如逆旅一苇以航欢迎关注、欢迎联系交流、欢迎沟通想法、欢迎交换意见、欢迎合作咨询感谢亲的关注、点赞、收藏、评论一键三连支持谢谢