课程简介
本次课程主要针对大数据平台中MapReduce,Spark中的Spark core、Spark SQL 、SparkStreaming、Spark性能优化,以及HBase的高级特性这些内容进行讲解,通过这些内容的学习,可以掌握MapReduce的编程思想,掌握Spark中的离线计算和实时计算,以及HBase的高级特性。
目标收益
了解大数据中MapReduce的核心原理
掌握MapReduce核心编程
了解Spark性能优化
掌握Spark中的离线计算和实时计算
掌握Spark SQL的使用
掌握HBase的高级特性
培训对象
课程内容
第一天(上午)
Hadoop原理及HDFS实操
1 快速了解Hadoop
2 Hadoop3.x的核心细节优化
3 Hadoop大数据平台的选型
4 HDFS核心原理详解
5 HDFS的常用及高级shell命令
6 HDFS体系结构原理详细剖析
HDFS高级内容
7 HDFS的回收站和安全模式
8 HDFS的高可用和高扩展架构剖析
9 HDFS机架感知策略原理剖析
10 HDFS写数据原理及源码剖析
11 HDFS的纠删码机制(Erasure Coding)原理剖析
第一天(下午)
MapReduce核心编程
1 MapReduce原理深度剖析
2 MapReduce实战案例开发
3 Shuffle过程详解
4 Hadoop中的序列化机制分析
5 MapTask源码分析
6 RecuceTask源码分析
7 YARN资源管理模型分析
8 YARN中的多资源队列配置和使用
MapReduce源码剖析及性能优化解决方案
9 Inputformat切片源码分析
10 Outputformat源码分析
11 小文件问题剖析及实战
12 数据倾斜问题原理剖析及实战
13 MapReduce Job提交流程分析
14 Map job和Reduce join案例分析及实战
15 MapReduce中的数据压缩案例分析及实战
第二天(上午)
Spark原理及案例开发
1 Spark核心原理及架构剖析
2 Spark任务的三种提交模式