课程简介
完整系统的介绍在分布式架构体系下,如何以应用为核心,建设应用架构管理体系和运维体系,包括CMDB建设、IT对象建模、运维自动化、3S稳定性体系建设、SRE&CRE实践经验、故障管理、持续交付、组织架构探讨,业务上云等内容。
旨在帮助,正处于数字化转型阶段的传统行业,以及处于分布式架构实施阶段的中小型公司,提供互联网运维优秀经验。
目标收益
1.掌握分布式架构体系下,架构管理及运维模式的核心思想
2.掌握IT对象建模方法论
3.掌握运维体系基石CMDB,以及运维自动化建设思路
4.掌握SLO、SLI及SLA等稳定性核心概念,及稳定性体系建设思路
5.掌握持续交付思路
6.深入了解业界行业内,平台类技术的发展趋势及面临的各种问题
培训对象
运维工程师、开发工程师、架构师、IT主管、研发主管,3-8年,传统行业如电信运营商、IT服务商、金融、物流等,以及中小型互联网公司。
课程大纲
微服务架构下的运维体系思路 |
• 业界技术发展趋势(淘宝、Twitter案例)
• 微服务带来的挑战,运维跟架构的紧密相关性 • 技术体系建设思路:大中台、小前台策略(蘑菇街、阿里案例) • 探讨:微服务是银弹吗? |
应用为核心的架构管理体系 |
1、应用为核心的运维管理思路 • 应用起源-为什么要以应用为核心 • 应用模型及其关系模型的建立 2、应用架构管理的基石-CMDB • 传统CMDB及应用CMDB的区别对比 • 五大能力1:元数据和元关系管理能力 • 基于CMDB的运维自动化建设 • 五大能力2:数据采集能力 • 五大能力3:数据同步能力 • 五大能力4:模型拓展能力 • 五大能力5:拓扑展现能力 3、标准化体系建设 • 运维对象标准化及对象建模 • 分布式架构标准化实践 4、应用生命周期管理 • 生命周期管理的重要性 • 如何从生命周期的视角去分析运维对象和场景 5、应用运维到应用架构管理角色的转变 |
稳定性体系建设 |
1、如何保证稳定性? • 未雨绸缪,如何做好保障? • 临危不惧,快速恢复(Design for Failure) • 为时未晚,有效复盘 2、Google SRE实践 • SRE的关键原则 • 3S(SLO、SLI、SLA)稳定性体系实践 • CRE实践 4、稳定性保障体系 • 极端业务场景 • 容量规划 • 限流降级 • 开关预案 • 全链路跟踪 • 故障模拟(Chaos Engineering) |
有效的故障管理模式 |
1、探讨:如何面对、理解和认识故障?出了故障是否要处罚? 2、故障的定级定责 • 关键角色岗位:技术支持 • 定级&定责标准 • 鼓励做事,而不是惩罚错误 3、故障应急和复盘 • 应急机制和组织 • 复盘机制 • 定期的案例汇总和总结 |
持续最佳交付实践 |
1、持续交付全流程介绍 2、持续交付-需求管理 • 项目管理与需求分解 • 发布协调 3、持续交付-开发模式选择 • 主干模式 • Gitflow模式 • 分支模式 4、持续交付-多环境管理 • 集成测试环境 • 项目环境 • 预发环境 • Beta环境 • 生产环境 5、持续交付-配置管理 • 多配置文件模式 • 占位符模式 • AutoConfig模式 6、持续交付-功能性及非功能性质量保障 • 单元和接口测试 • 非功能性能验证 7、持续交付-发布/部署模式 • 蓝绿部署 • 金丝雀(灰度)发布 • 滚动发布 |
大型互联网公司云上运维实践 |
1、我们为什么要选择上云 • 传统运维模式下所面临的问题和挑战 • 技术发展趋势的解析 • 我们的建设发展过程 2、云上建设实践 • 我们的选择-混合云建设模式 • CDN和云存储 • 静态化建设和二级CDN架构 • 边缘计算 3、面向应用层的云架构解决方案 • Spring Cloud • CNCF • 面向应用层云架构的运维体系建设思路分享 4、云计算和AI时代,运维转型问题 |
运维组织架构建设 |
1、国内外运维组织架构建设分享 • Google SRE模式 • Netflix Core SRE模式 • 阿里技术保障模式 • 腾讯技术运营模式 2、运维发展趋势和转型探讨 • DevOps • AIOps • SRE • 技术运营 |
微服务架构下的运维体系思路 • 业界技术发展趋势(淘宝、Twitter案例) • 微服务带来的挑战,运维跟架构的紧密相关性 • 技术体系建设思路:大中台、小前台策略(蘑菇街、阿里案例) • 探讨:微服务是银弹吗? |
应用为核心的架构管理体系 1、应用为核心的运维管理思路 • 应用起源-为什么要以应用为核心 • 应用模型及其关系模型的建立 2、应用架构管理的基石-CMDB • 传统CMDB及应用CMDB的区别对比 • 五大能力1:元数据和元关系管理能力 • 基于CMDB的运维自动化建设 • 五大能力2:数据采集能力 • 五大能力3:数据同步能力 • 五大能力4:模型拓展能力 • 五大能力5:拓扑展现能力 3、标准化体系建设 • 运维对象标准化及对象建模 • 分布式架构标准化实践 4、应用生命周期管理 • 生命周期管理的重要性 • 如何从生命周期的视角去分析运维对象和场景 5、应用运维到应用架构管理角色的转变 |
稳定性体系建设 1、如何保证稳定性? • 未雨绸缪,如何做好保障? • 临危不惧,快速恢复(Design for Failure) • 为时未晚,有效复盘 2、Google SRE实践 • SRE的关键原则 • 3S(SLO、SLI、SLA)稳定性体系实践 • CRE实践 4、稳定性保障体系 • 极端业务场景 • 容量规划 • 限流降级 • 开关预案 • 全链路跟踪 • 故障模拟(Chaos Engineering) |
有效的故障管理模式 1、探讨:如何面对、理解和认识故障?出了故障是否要处罚? 2、故障的定级定责 • 关键角色岗位:技术支持 • 定级&定责标准 • 鼓励做事,而不是惩罚错误 3、故障应急和复盘 • 应急机制和组织 • 复盘机制 • 定期的案例汇总和总结 |
持续最佳交付实践 1、持续交付全流程介绍 2、持续交付-需求管理 • 项目管理与需求分解 • 发布协调 3、持续交付-开发模式选择 • 主干模式 • Gitflow模式 • 分支模式 4、持续交付-多环境管理 • 集成测试环境 • 项目环境 • 预发环境 • Beta环境 • 生产环境 5、持续交付-配置管理 • 多配置文件模式 • 占位符模式 • AutoConfig模式 6、持续交付-功能性及非功能性质量保障 • 单元和接口测试 • 非功能性能验证 7、持续交付-发布/部署模式 • 蓝绿部署 • 金丝雀(灰度)发布 • 滚动发布 |
大型互联网公司云上运维实践 1、我们为什么要选择上云 • 传统运维模式下所面临的问题和挑战 • 技术发展趋势的解析 • 我们的建设发展过程 2、云上建设实践 • 我们的选择-混合云建设模式 • CDN和云存储 • 静态化建设和二级CDN架构 • 边缘计算 3、面向应用层的云架构解决方案 • Spring Cloud • CNCF • 面向应用层云架构的运维体系建设思路分享 4、云计算和AI时代,运维转型问题 |
运维组织架构建设 1、国内外运维组织架构建设分享 • Google SRE模式 • Netflix Core SRE模式 • 阿里技术保障模式 • 腾讯技术运营模式 2、运维发展趋势和转型探讨 • DevOps • AIOps • SRE • 技术运营 |