课程简介
Google 对 SRE 解释是(via Site Reliability Engineering - Wikipedia):
Site reliability engineering (SRE) is a discipline that incorporates aspects of software engineering and applies that to operations whose goals are to create ultra-scalable and highly reliable software systems.
与 DevOps 工程师的高效能有所不同,SRE 的关键词包括:高扩展性、高可用性。其职责包括:
为应用、中间件、基础设施等提供选型、设计、开发、容量规划、调优、故障处理,为业务系统提供基于可用性、可扩展性考虑决策,参与业务系统设计和实施定位、处理、管理故障,优化导致故障发生相关部件,提高各部件资源利用率。
目标收益
1. SRE的历史及其在Google中的实践
2. SRE与DevOps和其他流行框架的相互关系
3. SRE背后的基本原则
4. 可观测性可以指示服务的运行状况
5. SRE工具,自动化技术和安全性的重要性
6. 抗脆弱性,我们的失败和失败测试方法
7. 引入SRE带来的组织影响
培训对象
适用于开发业务相关的软件架构师、软件设计师、运维架构师、高级运维、运维经理、运维总监
课程大纲
第一单元 概念拉齐 SRE原则与实践 |
什么是站点可靠性工程? SRE和DevOps:有什么区别? SRE原则与惯例 SRE工作的流程是什么?(涉及多个团队相关的) |
第二单元 流程与规范 SRE工作的流程与规划的建议 |
变更流程 变更控制表标准 故障处理流程(涉及一线、产研之间的流程) 故障演练设计 故障复盘报告模板 |
第三单元 IDC建设思路 IDC建设 |
IDC 整体设计 机房、硬件、网络、电源、链路、UPS 高可用网络保障方法 跨IDC网络保障 IDC的监控与自动化方法 |
第三单元 案例介绍 企业SRE案例 |
背景 SRE团队规模介绍 SRE 职责 SRE 处理工作流程 整体运维工具支撑介绍 能力构建路径串讲 |
第四单元 监控系统 监控系统介绍 |
监控源:物理,平台,虚拟机,业务,链路, 监控核心指标定义 拔测系统构架设计 网络链接监控的定义与方法 监控与其它系统的自动化建设 |
第五单元 组织架构 组织如何采用SRE |
SRE的规模 人员能力 基础架构 产品sla 定义 |
第六单元 AIOPS 2个AIOPS场景介绍 |
根因分析场景 故障预测场景 |
讨论 |
公有云运维工具简介 客户场景讨论 |
第一单元 概念拉齐 SRE原则与实践 什么是站点可靠性工程? SRE和DevOps:有什么区别? SRE原则与惯例 SRE工作的流程是什么?(涉及多个团队相关的) |
第二单元 流程与规范 SRE工作的流程与规划的建议 变更流程 变更控制表标准 故障处理流程(涉及一线、产研之间的流程) 故障演练设计 故障复盘报告模板 |
第三单元 IDC建设思路 IDC建设 IDC 整体设计 机房、硬件、网络、电源、链路、UPS 高可用网络保障方法 跨IDC网络保障 IDC的监控与自动化方法 |
第三单元 案例介绍 企业SRE案例 背景 SRE团队规模介绍 SRE 职责 SRE 处理工作流程 整体运维工具支撑介绍 能力构建路径串讲 |
第四单元 监控系统 监控系统介绍 监控源:物理,平台,虚拟机,业务,链路, 监控核心指标定义 拔测系统构架设计 网络链接监控的定义与方法 监控与其它系统的自动化建设 |
第五单元 组织架构 组织如何采用SRE SRE的规模 人员能力 基础架构 产品sla 定义 |
第六单元 AIOPS 2个AIOPS场景介绍 根因分析场景 故障预测场景 |
讨论 公有云运维工具简介 客户场景讨论 |