课程简介
Spark大数据计算框架学习与实践-待补充
目标收益
培训对象
课程大纲
大数据基础 |
第01讲: MapReduce:计算框架和编程模型 第02讲:Hadoop体系-大数据操作系统 第03讲:计算的本质:资源管理和生命周期管理 第04讲:Spark 数据处理与分析应用场景 第05讲:上手Spark:如何部署&本地测试 |
Spark 编程 |
第06讲:Spark 抽象、架构与运行环境 第07讲:Spark 核心数据结构:弹性分布式数据集 RDD 第08讲:计算框架的分布式实现:剖析 Spark Shuffle 原理 第09讲:什么是函数式编程思想? |
Spark 高级编程 |
第10讲:如何处理结构化数据:DataFrame 、Dataset 和 Spark SQL 第11讲:如何使用用户自定义函数? 第12讲:列式存储:针对查询场景的极致优化 第13讲:如何对 Spark 进行全方位性能调优? 第14讲:Tungsten 和 Hydrogen:Spark 性能提升与优化计划 第15讲:实战:探索葡萄牙银行电话调查的结果 |
Spark 流处理 |
第16讲:流处理:什么是流处理?实时性和一致性问题 第17讲:Spark Streaming 抽象、架构与使用方法 第18讲:如何在生产环境中使用 Spark Streaming,以及性能调优 第19讲:新一代流式计算框架:Structured Streaming 第20讲:实战:游戏任务中实时规则触发发奖系统建设 |
Spark 机器学习 |
第21讲:机器学习是什么: 机器学习与机器学习工作流 第22讲:标准化机器学习流程:ML pipeline 第23讲:如何对数据进行预处理? 第24讲:物以类聚:Kmeans 聚类算法 第25讲:推荐引擎:协同过滤 第26讲:实践:基于活跃预测的用户推荐干预系统建设 |
大数据基础 第01讲: MapReduce:计算框架和编程模型 第02讲:Hadoop体系-大数据操作系统 第03讲:计算的本质:资源管理和生命周期管理 第04讲:Spark 数据处理与分析应用场景 第05讲:上手Spark:如何部署&本地测试 |
Spark 编程 第06讲:Spark 抽象、架构与运行环境 第07讲:Spark 核心数据结构:弹性分布式数据集 RDD 第08讲:计算框架的分布式实现:剖析 Spark Shuffle 原理 第09讲:什么是函数式编程思想? |
Spark 高级编程 第10讲:如何处理结构化数据:DataFrame 、Dataset 和 Spark SQL 第11讲:如何使用用户自定义函数? 第12讲:列式存储:针对查询场景的极致优化 第13讲:如何对 Spark 进行全方位性能调优? 第14讲:Tungsten 和 Hydrogen:Spark 性能提升与优化计划 第15讲:实战:探索葡萄牙银行电话调查的结果 |
Spark 流处理 第16讲:流处理:什么是流处理?实时性和一致性问题 第17讲:Spark Streaming 抽象、架构与使用方法 第18讲:如何在生产环境中使用 Spark Streaming,以及性能调优 第19讲:新一代流式计算框架:Structured Streaming 第20讲:实战:游戏任务中实时规则触发发奖系统建设 |
Spark 机器学习 第21讲:机器学习是什么: 机器学习与机器学习工作流 第22讲:标准化机器学习流程:ML pipeline 第23讲:如何对数据进行预处理? 第24讲:物以类聚:Kmeans 聚类算法 第25讲:推荐引擎:协同过滤 第26讲:实践:基于活跃预测的用户推荐干预系统建设 |