课程简介
案例背景:
云原生架构下,容器实例动态运行,在实例多、微服务调用关系复杂的场景下,提升可观测性成为了降低系统复杂度的重要手段。指标、链路追踪,以及日志目前已经成为了云原生应用的“必备品”,当把它们集成在一起时,需要拥有一个更加成熟的现代化可观测体系来支撑,以便了解应用系统内发生的事情。OpenTelemetry 简称 OTel,作为 CNCF 的孵化项目,它重新定义了数据范式以及标准,同时还拥有非常丰富的周边生态,看起来可以承担未来可观测发展的重任。但往往我们在实际生产环境结合 OpenTelemetry 进行大规模落地可观测的过程当中,会遇到系统的稳定性,维护成本,以及如何与存量监控系统互通等等一系列问题,这些问题都将成为了落地一套完整可观测体系的障碍,给 SRE 运维工作带来了极大的困扰。本次分享将这一系列问题重新进行了梳理,给出了解决方案,通过最佳实践的形式来告诉听众,如何来构建一套完整的可观测体系,相比传统的监控体系,云原生时代的可观测体系又能给我们带来哪些增值收益。
解决思路:
1、OpenTelemetry 设计理念及社区动态;
2、云原生可观测以及 OpenTelemetry,跟 Jeager、Zipkin 及商业化可观测产品之间的关系,如何迁移、互通;
3、大规模生产环境下落地可观测体系所遇到的那些“坑”,及解决方案;
4、可观测的未来与展望。
成果:
通过 OpenTelemetry 的技术落地,构建了一套完善的云原生时代的可观测体系,实现了可观测性三大支柱:Metrics、Tracing、Logging 的融合与统一,并在实际生产环境中得到应用,提升SRE的运维效率,使得在故障发生时能够大幅度降低恢复时间。
目标收益
1、了解 OpenTelemetry 的前世与今生,以及目前的问题;
2、了解 在大规模生产环境落地过程中,遇到的系统稳定性,兼容性,以及在异步池化等场景下的问题及解决方案;
3、了解 相比传统的监控系统,云原生可观测体系所带来的增值收益。
培训对象
课程内容
案例方向
测试前沿/元宇宙与Web3/云原生架构
案例背景
云原生架构下,容器实例动态运行、实例多,微服务调用关系复杂,提升可观测性成了降低复杂度的重要手段。OpenTelemetry 简称 OTel,是 CNCF 的孵化项目,实现了可观测性三大支柱:Metrics、Tracing、Logging 的融合及大一统,目前正逐步成为在生产环境下构建可观测体系的首选,并且越来越受到大家的关注。相比主流的开源可观测项目如 Jeager、Zipkin、SkyWalking 等,OpenTelemetry 重新定义了数据范式以及标准,同时还拥有非常丰富的周边生态。在云原生时代,指标和链路追踪,以及日志已经成为云原生应用的“必备品”,当你把它们集成在一起时,需要拥有一个更加成熟的现代化可观测体系来支撑,以便了解应用系统内发生的事情,当发生故障时能够及时发出报警,快速的进行问题的定界以及根因定位,以此来降低故障恢复时间。
收益
1、了解 OpenTelemetry 社区的最新动态及核心的设计理念;
2、了解与主流开源项目如 Jeager、Zipkin、SkyWalking 的区别;
3、了解如何从 0 到 1,基于 OpenTelemetry 来构建可观测体系以及如何实际在生产环境中应用。
解决思路
内容提纲
1、OpenTelemetry 设计理念及数据范式解读;
2、OpenTelemetry 社区最新动态;
3、阿里云在生产环境下大规模应用的最佳实践;
4、可观测的未来与展望。
结果
通过 OpenTelemetry 的技术落地,构建了一套完善的云原生时代的可观测体系,实现了可观测性三大支柱:Metrics、Tracing、Logging 的融合与统一,并在实际生产环境中得到应用,提升SRE的运维效率,使得在故障发生时能够大幅度降低恢复时间。
课前准备