架构师
互联网
架构设计
DevOps
运维
数据库
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

百度智能运维AIOps专场

百度 智能运维AIOps团队

曾国伟,百度资深数据库架构师、资深研发工程师,私有云数据库技术负责人,主导百度泛数据库运维框架构建。2012年入职百度,先后负责百度分布式数据库运维,数据库高可用、资源管理等技术方向,百度公有云数据库开发,私有云数据库的架构设计与开发工作。
王博,先后参与异常检测系统、报警收敛、故障诊断等相关工作。目前是异常检测系统的技术负责人。
王艺,智能运维团队架构负责人。先后负责百度链接库、百度志愿计算、百度统一资源管理的研发,经历过千亿级链接的洗礼,也调度过数十万量级的服务器,热衷于直面架构技术挑战,在分布式计算,分布式资源、任务调度方面经验丰富。
哈晶晶, 百度智能云架构师。先后负责服务管理、资源管理、变更管理、故障管理的业务分析和架构设计工作,热衷于基础运维平台和智能运维解决方案的探索。当前主要关注支持百度搜索、广告、FEED流等核心业务故障发现、定位和自愈解决方案,推进AIOps应用落地。

曾国伟,百度资深数据库架构师、资深研发工程师,私有云数据库技术负责人,主导百度泛数据库运维框架构建。2012年入职百度,先后负责百度分布式数据库运维,数据库高可用、资源管理等技术方向,百度公有云数据库开发,私有云数据库的架构设计与开发工作。 王博,先后参与异常检测系统、报警收敛、故障诊断等相关工作。目前是异常检测系统的技术负责人。 王艺,智能运维团队架构负责人。先后负责百度链接库、百度志愿计算、百度统一资源管理的研发,经历过千亿级链接的洗礼,也调度过数十万量级的服务器,热衷于直面架构技术挑战,在分布式计算,分布式资源、任务调度方面经验丰富。 哈晶晶, 百度智能云架构师。先后负责服务管理、资源管理、变更管理、故障管理的业务分析和架构设计工作,热衷于基础运维平台和智能运维解决方案的探索。当前主要关注支持百度搜索、广告、FEED流等核心业务故障发现、定位和自愈解决方案,推进AIOps应用落地。

课程费用

6800.00 /人

课程时长

3小时

成为教练

课程简介

一、《百度云金融级数据库高可用保障》
数据库的高可用和数据一致性一直是业务对数据库的强需求,在金融级业务场景下更为突出。本演讲为各位分享百度多年积累的数据库高可用经验和架构设计,介绍百度云如何快速、准确地感知故障,并进行故障恢复,尽可能地降低数据库服务故障的RTO、RPO,为百度云支撑金融级业务数据库服务保驾护航。
二、《百度海量指标异常检测设计与实践》
自动异常检测是智能监控系统的精髓所在。百度的业务种类繁多,业务的监控需求也不尽相同,面对监控系统所采集的数以亿计的监控指标,如何能够实现全自动化的异常检测,是一个巨大的挑战。怎样支持百度各类业务的流量、收入、PVLOST、响应时间等业务指标监测?如何解决海量指标的自动算法选择与参数自动训练问题?这次演讲,我们将介绍百度自动异常检测系统面临的主要挑战,在各种典型场景下的智能异常检测算法以及系统架构和策略模型。此外,我们不仅会展示百度自动异常检测系统在实际场景中的良好效果,还会开放一个试用的站点,欢迎大家申请试用。
三、《AIOps平台架构实践》
AIOps近年来已经逐渐代替DevOps,成为运维领域最具曝光度的名词。本次分享将从百度智能运维的整体架构开始,按照数据流和控制流两条线,介绍百度在智能运维研发领域的工程经验,讨论如何以可扩展的方式,将人的智慧融入到运维系统当中。
四、《基于AIOps的故障自愈实践》
在业务规模庞大、架构复杂,迭代速度快、服务可用性要求高的背景下,故障处理对运维人员的挑战与日俱增,故障处理的质量和效率不但影响业务的可用性还影响运维人员工作的幸福度。百度在2014年开始智能故障处理的探索,制定了一套基于AIOps的故障自愈方案,提高故障处理可靠性,同时降低故障时间。此方案在百度内部应用广泛,在搜索、广告、FEED流、地图、AI等核心业务均取得了较好应用效果。本次分享将介绍百度故障处理从人工处理、工具辅助、部分自动化、有条件的自动化到高度自动化的演进过程,并且以单机器、单实例、单集群和全局故障场景为例分享百度故障自愈实践。

目标收益

培训对象

课程内容

一、《百度云金融级数据库高可用保障》
数据库的高可用和数据一致性一直是业务对数据库的强需求,在金融级业务场景下更为突出。本演讲为各位分享百度多年积累的数据库高可用经验和架构设计,介绍百度云如何快速、准确地感知故障,并进行故障恢复,尽可能地降低数据库服务故障的RTO、RPO,为百度云支撑金融级业务数据库服务保驾护航。
二、《百度海量指标异常检测设计与实践》
自动异常检测是智能监控系统的精髓所在。百度的业务种类繁多,业务的监控需求也不尽相同,面对监控系统所采集的数以亿计的监控指标,如何能够实现全自动化的异常检测,是一个巨大的挑战。怎样支持百度各类业务的流量、收入、PVLOST、响应时间等业务指标监测?如何解决海量指标的自动算法选择与参数自动训练问题?这次演讲,我们将介绍百度自动异常检测系统面临的主要挑战,在各种典型场景下的智能异常检测算法以及系统架构和策略模型。此外,我们不仅会展示百度自动异常检测系统在实际场景中的良好效果,还会开放一个试用的站点,欢迎大家申请试用。
三、《AIOps平台架构实践》
AIOps近年来已经逐渐代替DevOps,成为运维领域最具曝光度的名词。本次分享将从百度智能运维的整体架构开始,按照数据流和控制流两条线,介绍百度在智能运维研发领域的工程经验,讨论如何以可扩展的方式,将人的智慧融入到运维系统当中。
四、《基于AIOps的故障自愈实践》
在业务规模庞大、架构复杂,迭代速度快、服务可用性要求高的背景下,故障处理对运维人员的挑战与日俱增,故障处理的质量和效率不但影响业务的可用性还影响运维人员工作的幸福度。百度在2014年开始智能故障处理的探索,制定了一套基于AIOps的故障自愈方案,提高故障处理可靠性,同时降低故障时间。此方案在百度内部应用广泛,在搜索、广告、FEED流、地图、AI等核心业务均取得了较好应用效果。本次分享将介绍百度故障处理从人工处理、工具辅助、部分自动化、有条件的自动化到高度自动化的演进过程,并且以单机器、单实例、单集群和全局故障场景为例分享百度故障自愈实践。

活动详情

提交需求