课程简介
本次课程主要针对大数据平台中MapReduce,Spark中的Spark core、Spark SQL 、SparkStreaming这些内容进行讲解,通过这些内容的学习,可以掌握MapReduce的编程思想,以及掌握Spark中的离线计算和实时计算。
目标收益
了解大数据中MapReduce的核心原理
掌握MapReduce核心编程
了解Spark性能优化
掌握Spark中的离线计算和实时计算
掌握Spark SQL的使用
掌握HBase的高级特性
培训对象
1. 有一定编程基础,想学习和了解大数据的学员
2. 计算机相关专业,未来向大数据领域方向发展的学员
课程大纲
第一天上午:(Hadoop)HDFS核心原理及实操 |
1 快速了解Hadoop 2 Hadoop3.x的核心细节优化 3 HDFS核心原理详解 4 【实战】HDFS的常用及高级shell命令 5 HDFS体系结构原理详细剖析 6 【实战】HDFS的回收站和安全模式 7 HDFS的高可用和高扩展架构剖析 8 HDFS机架感知策略原理剖析 9 HDFS纠删码机制(Erasure Coding)剖析 |
第一天上午:MapReduce核心编程+YARN |
1 MapReduce原理深度剖析 2 【实战】MapReduce实战案例开发 3 YARN资源管理模型分析 4 【实战】YARN中的多资源队列配置和使用 5【案例】Hadoop(HDFS+MapReduce+YARN)在企业中的典型案例分析 |
第一天下午:HBase核心原理及高级特性 |
1 HBase核心原理及架构分析 2 HBase典型应用场景及应用案例分析 3 常见NoSQL数据库综合对比分析(MongoDB\Cassandra\Redis\HBase) 4【实战】HBase常用命令的使用(DDL+DML) 5【实战】HBase JavaAPI的使用 6 HBase底层架构详解(HFile+Region) 7【实战】HBase批量导入和批量导出功能 8 HBase预分区、Rowkey列族的设计实战 9 HBase Scan全表扫描功能实战(包括分页的实现) 10 HBase如何间接实现SQL语法支持(Hive+HBase、Phoenix) 11 【案例】Elasticsearch+HBase典型场景分析 12【案例】HBase在用户画像项目中的应用分析 |
第二天上午:Spark核心原理及编程 |
1 Spark核心原理及架构分析 2【实战】Spark离线计算案例开发 3【实战】Spark之RDD的核心原理及使用 4【实战】Spark中常见Transformation算子的原理及使用 5【实战】Spark中常见Action算子的原理及使用 6 Spark任务的提交模式详解 7【案例】Spark在企业中的典型案例分析 |
第二天上午:Spark SQL核心原理及使用 |
1 Spark SQL核心原理分析 2【实战】DataFrame(DataSet)的SQL操作 3【实战】RDD和DataFrame的相互转换使用 4【实战】Spark SQL实现TopN数据统计 5【实战】Spark SQL集成Hive 6 【案例】基于SparkSQL的一站式SQL开发引擎 |
第二天下午:Flink核心原理及使用 |
1 Flink核心原理及架构分析 2 Storm vs SparkStreaming vs Flink 3【实战】Flink流批一体代码案例开发 4 Flink常用部署模式分析(yarn-session\per-job\Application) 5【实战】Flink DataStream API的使用 6 【实战】Flink中window及Time详解及应用 7 【实战】Flink实时数据乱序问题原理及解决方案 |
第三天 上午:Flink SQL的核心应用 |
1 Flink中状态(State)的原理机制分析 2 Flink中State(状态)的容错与一致性 3 【实战】Kafka+Flink+Kafka端到端一致性代码开发 4 Flink SQL核心原理分析 5【实战】Flink SQL数据处理案例开发 6【增加kafka->Flink SQL->hudi的实操】 7 Flink SQL双流Join核心原理分析 8【实战】Flink SQL双流Join案例开发 9【案例】Flink在企业中的典型案例分析 10【案例】一站式流计算SQL开发平台StreamPark原理及架构分析 |
第三天下午:实时数仓/湖仓一体建设 |
1 数据湖四剑客综合对比分析(Iceberg\Hudi\Delta Lake\Paimon) 2 数据湖Hudi的核心原理及架构分析 3 基于Hudi的核心功能的使用 4 什么是数据仓库 5 数据仓库建模方式分析(ER实体建模、维度建模) 6 数据仓库分层设计 7 【架构】数据仓库架构演进过程(离线数仓、实时数仓、批流一体数仓、湖仓一体) 8 【案例】从0~1如何构建企业级实时数据仓库(湖仓一体) 9 实时数据仓库(湖仓一体)架构设计+技术选型 |
第一天上午:(Hadoop)HDFS核心原理及实操 1 快速了解Hadoop 2 Hadoop3.x的核心细节优化 3 HDFS核心原理详解 4 【实战】HDFS的常用及高级shell命令 5 HDFS体系结构原理详细剖析 6 【实战】HDFS的回收站和安全模式 7 HDFS的高可用和高扩展架构剖析 8 HDFS机架感知策略原理剖析 9 HDFS纠删码机制(Erasure Coding)剖析 |
第一天上午:MapReduce核心编程+YARN 1 MapReduce原理深度剖析 2 【实战】MapReduce实战案例开发 3 YARN资源管理模型分析 4 【实战】YARN中的多资源队列配置和使用 5【案例】Hadoop(HDFS+MapReduce+YARN)在企业中的典型案例分析 |
第一天下午:HBase核心原理及高级特性 1 HBase核心原理及架构分析 2 HBase典型应用场景及应用案例分析 3 常见NoSQL数据库综合对比分析(MongoDB\Cassandra\Redis\HBase) 4【实战】HBase常用命令的使用(DDL+DML) 5【实战】HBase JavaAPI的使用 6 HBase底层架构详解(HFile+Region) 7【实战】HBase批量导入和批量导出功能 8 HBase预分区、Rowkey列族的设计实战 9 HBase Scan全表扫描功能实战(包括分页的实现) 10 HBase如何间接实现SQL语法支持(Hive+HBase、Phoenix) 11 【案例】Elasticsearch+HBase典型场景分析 12【案例】HBase在用户画像项目中的应用分析 |
第二天上午:Spark核心原理及编程 1 Spark核心原理及架构分析 2【实战】Spark离线计算案例开发 3【实战】Spark之RDD的核心原理及使用 4【实战】Spark中常见Transformation算子的原理及使用 5【实战】Spark中常见Action算子的原理及使用 6 Spark任务的提交模式详解 7【案例】Spark在企业中的典型案例分析 |
第二天上午:Spark SQL核心原理及使用 1 Spark SQL核心原理分析 2【实战】DataFrame(DataSet)的SQL操作 3【实战】RDD和DataFrame的相互转换使用 4【实战】Spark SQL实现TopN数据统计 5【实战】Spark SQL集成Hive 6 【案例】基于SparkSQL的一站式SQL开发引擎 |
第二天下午:Flink核心原理及使用 1 Flink核心原理及架构分析 2 Storm vs SparkStreaming vs Flink 3【实战】Flink流批一体代码案例开发 4 Flink常用部署模式分析(yarn-session\per-job\Application) 5【实战】Flink DataStream API的使用 6 【实战】Flink中window及Time详解及应用 7 【实战】Flink实时数据乱序问题原理及解决方案 |
第三天 上午:Flink SQL的核心应用 1 Flink中状态(State)的原理机制分析 2 Flink中State(状态)的容错与一致性 3 【实战】Kafka+Flink+Kafka端到端一致性代码开发 4 Flink SQL核心原理分析 5【实战】Flink SQL数据处理案例开发 6【增加kafka->Flink SQL->hudi的实操】 7 Flink SQL双流Join核心原理分析 8【实战】Flink SQL双流Join案例开发 9【案例】Flink在企业中的典型案例分析 10【案例】一站式流计算SQL开发平台StreamPark原理及架构分析 |
第三天下午:实时数仓/湖仓一体建设 1 数据湖四剑客综合对比分析(Iceberg\Hudi\Delta Lake\Paimon) 2 数据湖Hudi的核心原理及架构分析 3 基于Hudi的核心功能的使用 4 什么是数据仓库 5 数据仓库建模方式分析(ER实体建模、维度建模) 6 数据仓库分层设计 7 【架构】数据仓库架构演进过程(离线数仓、实时数仓、批流一体数仓、湖仓一体) 8 【案例】从0~1如何构建企业级实时数据仓库(湖仓一体) 9 实时数据仓库(湖仓一体)架构设计+技术选型 |