课程简介
一、《百度云金融级数据库高可用保障》
数据库的高可用和数据一致性一直是业务对数据库的强需求,在金融级业务场景下更为突出。本演讲为各位分享百度多年积累的数据库高可用经验和架构设计,介绍百度云如何快速、准确地感知故障,并进行故障恢复,尽可能地降低数据库服务故障的RTO、RPO,为百度云支撑金融级业务数据库服务保驾护航。
二、《百度海量指标异常检测设计与实践》
自动异常检测是智能监控系统的精髓所在。百度的业务种类繁多,业务的监控需求也不尽相同,面对监控系统所采集的数以亿计的监控指标,如何能够实现全自动化的异常检测,是一个巨大的挑战。怎样支持百度各类业务的流量、收入、PVLOST、响应时间等业务指标监测?如何解决海量指标的自动算法选择与参数自动训练问题?这次演讲,我们将介绍百度自动异常检测系统面临的主要挑战,在各种典型场景下的智能异常检测算法以及系统架构和策略模型。此外,我们不仅会展示百度自动异常检测系统在实际场景中的良好效果,还会开放一个试用的站点,欢迎大家申请试用。
三、《AIOps平台架构实践》
AIOps近年来已经逐渐代替DevOps,成为运维领域最具曝光度的名词。本次分享将从百度智能运维的整体架构开始,按照数据流和控制流两条线,介绍百度在智能运维研发领域的工程经验,讨论如何以可扩展的方式,将人的智慧融入到运维系统当中。
四、《基于AIOps的故障自愈实践》
在业务规模庞大、架构复杂,迭代速度快、服务可用性要求高的背景下,故障处理对运维人员的挑战与日俱增,故障处理的质量和效率不但影响业务的可用性还影响运维人员工作的幸福度。百度在2014年开始智能故障处理的探索,制定了一套基于AIOps的故障自愈方案,提高故障处理可靠性,同时降低故障时间。此方案在百度内部应用广泛,在搜索、广告、FEED流、地图、AI等核心业务均取得了较好应用效果。本次分享将介绍百度故障处理从人工处理、工具辅助、部分自动化、有条件的自动化到高度自动化的演进过程,并且以单机器、单实例、单集群和全局故障场景为例分享百度故障自愈实践。
目标收益
培训对象
课程内容
一、《百度云金融级数据库高可用保障》
数据库的高可用和数据一致性一直是业务对数据库的强需求,在金融级业务场景下更为突出。本演讲为各位分享百度多年积累的数据库高可用经验和架构设计,介绍百度云如何快速、准确地感知故障,并进行故障恢复,尽可能地降低数据库服务故障的RTO、RPO,为百度云支撑金融级业务数据库服务保驾护航。
二、《百度海量指标异常检测设计与实践》
自动异常检测是智能监控系统的精髓所在。百度的业务种类繁多,业务的监控需求也不尽相同,面对监控系统所采集的数以亿计的监控指标,如何能够实现全自动化的异常检测,是一个巨大的挑战。怎样支持百度各类业务的流量、收入、PVLOST、响应时间等业务指标监测?如何解决海量指标的自动算法选择与参数自动训练问题?这次演讲,我们将介绍百度自动异常检测系统面临的主要挑战,在各种典型场景下的智能异常检测算法以及系统架构和策略模型。此外,我们不仅会展示百度自动异常检测系统在实际场景中的良好效果,还会开放一个试用的站点,欢迎大家申请试用。
三、《AIOps平台架构实践》
AIOps近年来已经逐渐代替DevOps,成为运维领域最具曝光度的名词。本次分享将从百度智能运维的整体架构开始,按照数据流和控制流两条线,介绍百度在智能运维研发领域的工程经验,讨论如何以可扩展的方式,将人的智慧融入到运维系统当中。
四、《基于AIOps的故障自愈实践》
在业务规模庞大、架构复杂,迭代速度快、服务可用性要求高的背景下,故障处理对运维人员的挑战与日俱增,故障处理的质量和效率不但影响业务的可用性还影响运维人员工作的幸福度。百度在2014年开始智能故障处理的探索,制定了一套基于AIOps的故障自愈方案,提高故障处理可靠性,同时降低故障时间。此方案在百度内部应用广泛,在搜索、广告、FEED流、地图、AI等核心业务均取得了较好应用效果。本次分享将介绍百度故障处理从人工处理、工具辅助、部分自动化、有条件的自动化到高度自动化的演进过程,并且以单机器、单实例、单集群和全局故障场景为例分享百度故障自愈实践。