课程简介
Hadoop体系是目前各行业做大数据分析最常用的技术软件架构,它涵盖了HDFS,YARN,Spark,Flink,HBase等著名大数据组件。掌握Hadoop是大数据从业人员的必经之路,本课程讲授了以上几个主要技术的核心知识点,并结合企业最佳实践安排了实战应用环节,为学员打造了从学习到实战的成长闭环。
目标收益
学员通过实践本课程,能够熟悉大数据行业和分布式系统的技术核心知识点;通过Hadoop,Spark,HBase知识的学习,能够掌握大数据应用的开发和运维能力,并能够掌握海量数据处理的编码和性能调优经验。让学员能够从0到1独立完成Hadoop,Spark,HBase分布式系统的搭建;熟悉中国Top5互联网企业(如阿里巴巴,腾讯)的大数据平台中Hadoop,Spark的技术应用和最佳实践。
培训对象
本课程不仅适合大数据 Hadoop, Spark,HBase 从业人员,同时也适合热爱或者希望未来从事大数据相关工作的在校学生,软件开发工程师,运维工程师以及架构师学习。通过本课程,学员将能够快速熟悉和掌握大数据利器,在生产中解决实际问题。
课程大纲
大数据技术在企业的应用 |
1.1 Hadoop体系软件架构 1.2 企业应用Hadoop的技术架构 2. Hadoop体系技术架构介绍 2.1 海量数据存储技术:HDFS 2.2 海量数据计算技术:Spark,Flink,Presto,Hive 2.3 资源调度:YARN,Mesos 2.4 任务调度:Azkaban 2.5 日志搜索:Elasticsearch 2.6 数据收集,传输:Beats,Flume |
Hadoop存储与离线计算 |
1. HDFS 1.1 架构原理 1.2 NameNode, DataNode, JournalNode 工作原理 1.3 FSimage和Edit文件 1.4 文件读写流程 1.5 HDFS的副本机制 1.6 HDFS Shell操作 1.7 Java API操作 1.8 如何实现HDFS 高可用 2. MapReduce 2.1 核心思想 2.2 编程模型:Map与Reduce基本用法 2.3 用MapReduce编程实现 TopN 排序、 2.4 MapReduce Join算法 2.5 数据倾斜与优化 3.YARN 3.1 架构原理 3.2 NodeManger,ResourceManager, ApplicationMaster工作原理 3.3 HA高可用 3.4 MapReduce ON YARN 3.5 Yarn的资源调度机制 3.6 YARN集群提交任务 4. Hadoop安装流程 4.1 单机版(伪分布式)Hadoop集群安装 4.2 分布式Hadoop集群安装 |
Spark流式与分布式SQL计算引擎 |
1.Spark Core 1.1 RDD 编程模型 1.2 分布式运行架构:Spark Standalone、Spark ON YARN 1.3 spark-shell、spark-submit,spark-sql的使用方法 1.4 RDD Action和Transformation操作. 2.Spark Streaming 2.1 Spark Streaming原理 2.2 Spark流式处理架构 2.3 DStream的特点 2.4 Dstream的操作和RDD的区别 2.4 SatefulRDD和windowRDD实战 2.5 Kafka+Spark Steaming实战 2.6 Spark Streaming的优化 2.7 Kafka+Spark Streaming实例 2.8 实现自定义的数据源 3. Spark SQL 3.1 Spark SQL原理 3.2 Spark SQL的Catalyst优化器 3.3 Spark SQL内核 3.4 Spark SQL和Hive 3.5 DataFrame和DataSet架构 3.6 Dataframe、DataSet和Spark SQL的比较 3.7 SparkSQL parquet格式实战 3.8 Spark SQL的实例和编程 3.9 Spark SQL的实例操作demo 3.10 Spark SQL的编程 4. Spark优化 4.1 Spark SQL的优化 4.2 基于Spark计算的文件格式选择 4.3 Spark on Yarn的优化 4.4 Spark SQL执行计划的优化 4.5 Spark 内存管理的机制 5. Spark综合实战: 4.1 flume+Kafka+Spark Streaming+MySQL集成开发. 4.2. MySQL + HBase 实现多源聚合SQL查询引擎。 |
HBase 与NoSQL |
1. NoSQL认知 1.1 海量数据与NoSQL 1.2 为什么要用HBase 2. HBase Shell基本操作 2.1 用create命令建表 2.2 用list命令来查看库中有哪些表 2.3 用describe命令来查看表属性 2.4 用put命令来插入数据 2.5 用scan来查看表数据 2.6 用get来获取单元格数据 2.7 用delete来删除数据 2.8 deleteall来删除整行记录 2.9 用disable来停用表 2.10 用drop来删除表 3. 使用HBase API 3.1 HTable类和Table接口 3.2 put方法 3.3 append方法 3.4 increment方法 3.5 get方法 3.6 exists 方法 3.7 delete方法 3.8 mutation方法 |
HBase进阶掌握 |
1. 深入HBase原理 1.1 数据模型 1.2 HBase是怎么存储数据的 1.3 预写日志 WAL 1.4 MemStore 1.5 HFile( StoreFile) 1.6 KeyValue类 1.7 数据读写 1.8 Region 2. 过滤器与协处理器 2.1 过滤器 2.1.1 过滤器快速入门 2.1.2 比较运算快速入门 2.1.3 分页过滤器 2.1.4 过滤器列表 2.1.5 行键过滤器 2.1.6 列过滤器 2.1.7 单元格过滤器 2.1.8 装饰过滤器 2.2 协处理器(coprocessor) 2.2.1 协处理器家族 2.2.2 快速入门 2.2.3 如何加载 2.2.4 协处理器核心类 2.2.5 观察者(Observers) 2.2.6 终端程序(EndPoint) 3. HBase 性能调优 3.1 Master和RegionServer的JVM调优 3.2 Region的拆分 3.3 Region的合并(merge) 3.4 WAL的优化 3.5 BlockCache的优化 3.6 Memstore的优化 3.7 HFile(StoreFile)的合并(Compaction) 4. HBase 实战 4.1 Spark与HBase结合实现广告展现流与广告点击流关联 |
企业大数据实战 |
1. 电商运营实时分析系统 1.1 实时统计指标 1.2 聚合统计实现 2. 广告点击率统计系统 2.1 广告展示,点击模型,CTR指标 2.2 展示流和点击流的关联方式 2.3 Spark + HBase + MySQL的架构和实现 3. 企业级实时数据仓库 3.1 数据仓库模型设计 3.2 数据仓库的实时ETL 3.3 数据仓库的聚合表 3.4 数据仓库的纬度表关联 |
大数据技术在企业的应用 1.1 Hadoop体系软件架构 1.2 企业应用Hadoop的技术架构 2. Hadoop体系技术架构介绍 2.1 海量数据存储技术:HDFS 2.2 海量数据计算技术:Spark,Flink,Presto,Hive 2.3 资源调度:YARN,Mesos 2.4 任务调度:Azkaban 2.5 日志搜索:Elasticsearch 2.6 数据收集,传输:Beats,Flume |
Hadoop存储与离线计算 1. HDFS 1.1 架构原理 1.2 NameNode, DataNode, JournalNode 工作原理 1.3 FSimage和Edit文件 1.4 文件读写流程 1.5 HDFS的副本机制 1.6 HDFS Shell操作 1.7 Java API操作 1.8 如何实现HDFS 高可用 2. MapReduce 2.1 核心思想 2.2 编程模型:Map与Reduce基本用法 2.3 用MapReduce编程实现 TopN 排序、 2.4 MapReduce Join算法 2.5 数据倾斜与优化 3.YARN 3.1 架构原理 3.2 NodeManger,ResourceManager, ApplicationMaster工作原理 3.3 HA高可用 3.4 MapReduce ON YARN 3.5 Yarn的资源调度机制 3.6 YARN集群提交任务 4. Hadoop安装流程 4.1 单机版(伪分布式)Hadoop集群安装 4.2 分布式Hadoop集群安装 |
Spark流式与分布式SQL计算引擎 1.Spark Core 1.1 RDD 编程模型 1.2 分布式运行架构:Spark Standalone、Spark ON YARN 1.3 spark-shell、spark-submit,spark-sql的使用方法 1.4 RDD Action和Transformation操作. 2.Spark Streaming 2.1 Spark Streaming原理 2.2 Spark流式处理架构 2.3 DStream的特点 2.4 Dstream的操作和RDD的区别 2.4 SatefulRDD和windowRDD实战 2.5 Kafka+Spark Steaming实战 2.6 Spark Streaming的优化 2.7 Kafka+Spark Streaming实例 2.8 实现自定义的数据源 3. Spark SQL 3.1 Spark SQL原理 3.2 Spark SQL的Catalyst优化器 3.3 Spark SQL内核 3.4 Spark SQL和Hive 3.5 DataFrame和DataSet架构 3.6 Dataframe、DataSet和Spark SQL的比较 3.7 SparkSQL parquet格式实战 3.8 Spark SQL的实例和编程 3.9 Spark SQL的实例操作demo 3.10 Spark SQL的编程 4. Spark优化 4.1 Spark SQL的优化 4.2 基于Spark计算的文件格式选择 4.3 Spark on Yarn的优化 4.4 Spark SQL执行计划的优化 4.5 Spark 内存管理的机制 5. Spark综合实战: 4.1 flume+Kafka+Spark Streaming+MySQL集成开发. 4.2. MySQL + HBase 实现多源聚合SQL查询引擎。 |
HBase 与NoSQL 1. NoSQL认知 1.1 海量数据与NoSQL 1.2 为什么要用HBase 2. HBase Shell基本操作 2.1 用create命令建表 2.2 用list命令来查看库中有哪些表 2.3 用describe命令来查看表属性 2.4 用put命令来插入数据 2.5 用scan来查看表数据 2.6 用get来获取单元格数据 2.7 用delete来删除数据 2.8 deleteall来删除整行记录 2.9 用disable来停用表 2.10 用drop来删除表 3. 使用HBase API 3.1 HTable类和Table接口 3.2 put方法 3.3 append方法 3.4 increment方法 3.5 get方法 3.6 exists 方法 3.7 delete方法 3.8 mutation方法 |
HBase进阶掌握 1. 深入HBase原理 1.1 数据模型 1.2 HBase是怎么存储数据的 1.3 预写日志 WAL 1.4 MemStore 1.5 HFile( StoreFile) 1.6 KeyValue类 1.7 数据读写 1.8 Region 2. 过滤器与协处理器 2.1 过滤器 2.1.1 过滤器快速入门 2.1.2 比较运算快速入门 2.1.3 分页过滤器 2.1.4 过滤器列表 2.1.5 行键过滤器 2.1.6 列过滤器 2.1.7 单元格过滤器 2.1.8 装饰过滤器 2.2 协处理器(coprocessor) 2.2.1 协处理器家族 2.2.2 快速入门 2.2.3 如何加载 2.2.4 协处理器核心类 2.2.5 观察者(Observers) 2.2.6 终端程序(EndPoint) 3. HBase 性能调优 3.1 Master和RegionServer的JVM调优 3.2 Region的拆分 3.3 Region的合并(merge) 3.4 WAL的优化 3.5 BlockCache的优化 3.6 Memstore的优化 3.7 HFile(StoreFile)的合并(Compaction) 4. HBase 实战 4.1 Spark与HBase结合实现广告展现流与广告点击流关联 |
企业大数据实战 1. 电商运营实时分析系统 1.1 实时统计指标 1.2 聚合统计实现 2. 广告点击率统计系统 2.1 广告展示,点击模型,CTR指标 2.2 展示流和点击流的关联方式 2.3 Spark + HBase + MySQL的架构和实现 3. 企业级实时数据仓库 3.1 数据仓库模型设计 3.2 数据仓库的实时ETL 3.3 数据仓库的聚合表 3.4 数据仓库的纬度表关联 |