课程简介
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。
目标收益
本课程将为大家全面而又深入的介绍Spark平台的构建流程,涉及Spark系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。
通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark系统适用的场景;掌握Spark初中级应用开发技能;搭建稳定可靠的Spark集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。
培训对象
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。
课程大纲
第一天 大数据生态系统介绍 |
分布式存储—HDFS 分布式并行计算—MapReduce 基于Hadoop的数据仓库—Hive 集群管理工具—ambari 工作流工具—Oozie 数据的并行采集—Flume MapReduce脚本工具—Pig 与关系型数据库之间的数据迁移—Sqoop 资源管理平台—Yarn 数据挖掘算法—Mahout 分布式统一服务—Zookeeper Hadoop安全工具—Knox 流式计算框架—Storm 内存计算框架—Spark 数据挖掘框架—Mahout、Mllib和Graphx |
Spark生态介绍 |
Mapreduce、storm和spark模型的比较和使用场景介绍 Spark产生背景 Spark(内存计算框架) SparkSteaming(流式计算框架) Spark SQL(ad-hoc) Mllib(MachineLearning) GraphX(bagel将被代) DlinkDB介绍 SparkR介绍 |
Spark运行架构和解析 |
Spark的运行架构 1.基本术语 2.运行架构 3.Spark on Standalone运行过程 4.Spark on YARN 运行过程 Spark应用程序的配置 Spark运行实例解析 1.Spark on Standalone实例解析 Spark on YARN实例解析 |
Spark编程模型和解析 |
python开发环境搭建 Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 — lineage和checkpoint详解 |
Spark2.0的特性 |
Spark 2.0 和1.6的区别 SparkSession详解 StructedStreaming原理 DateFrame和DataSet的优化 |
文件读写操作 |
Spark支持哪些文件的读写 Spark读Hive的数据 Spark读Json格式的数据 Spark读Hbase的数据 |
Spark应用优化 |
partition优化详解 文件压缩格式(ORC、Parquet) 持久化类型选择 灵活使用Join操作 Spark配置参数的优化 RDD的优化 |
第二天 Spark SQL原理和实践 |
Spark SQL原理 1.Spark SQL的Catalyst优化器 2.Spark SQL内核 3.Spark SQL和Hive DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 1.Spark SQL的实例操作demo 2. Spark SQL的编程 |
Spark 数据挖掘 |
SparkMllib和SparkR原理 基于Spark Mllib和SparkR数据挖掘的流程 1.数据的抽取 2.数据降维和升维 3.稠密向量和稀疏向量数据处理 4.基于DataFrame和DataSet的数据挖掘过 SparkMllib和SparkR挖掘实战 5.聚类算法Kmeans的实战和应用场景 6.决策树算法的实战和应用场景 7.逻辑回归算法实战和应用场景 8.随机森林算法实战和应用场景 9. 协同过滤推荐算法实战案例 |
Hands-on项目实操 |
Spark SQL项目实战(电信行业) —项目需求 —数据ELT —SparkSQL和Hive整合 —SparkSQL内存表的使用 —JDBC连接SparkSQL Spark Mllib项目实战(电信行业) —Spark Mllib挖掘的步骤 —数据去噪 —模型的选择 —基于校园用户的数据建模案例 —模型的保存和优化 |
案例详解 |
基于spark日志分析 Spark SQL实战(证券业) Spark在大型互联网使用案例分享 200+Spark集群的案例介绍 |
第一天 大数据生态系统介绍 分布式存储—HDFS 分布式并行计算—MapReduce 基于Hadoop的数据仓库—Hive 集群管理工具—ambari 工作流工具—Oozie 数据的并行采集—Flume MapReduce脚本工具—Pig 与关系型数据库之间的数据迁移—Sqoop 资源管理平台—Yarn 数据挖掘算法—Mahout 分布式统一服务—Zookeeper Hadoop安全工具—Knox 流式计算框架—Storm 内存计算框架—Spark 数据挖掘框架—Mahout、Mllib和Graphx |
Spark生态介绍 Mapreduce、storm和spark模型的比较和使用场景介绍 Spark产生背景 Spark(内存计算框架) SparkSteaming(流式计算框架) Spark SQL(ad-hoc) Mllib(MachineLearning) GraphX(bagel将被代) DlinkDB介绍 SparkR介绍 |
Spark运行架构和解析 Spark的运行架构 1.基本术语 2.运行架构 3.Spark on Standalone运行过程 4.Spark on YARN 运行过程 Spark应用程序的配置 Spark运行实例解析 1.Spark on Standalone实例解析 Spark on YARN实例解析 |
Spark编程模型和解析 python开发环境搭建 Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 — lineage和checkpoint详解 |
Spark2.0的特性 Spark 2.0 和1.6的区别 SparkSession详解 StructedStreaming原理 DateFrame和DataSet的优化 |
文件读写操作 Spark支持哪些文件的读写 Spark读Hive的数据 Spark读Json格式的数据 Spark读Hbase的数据 |
Spark应用优化 partition优化详解 文件压缩格式(ORC、Parquet) 持久化类型选择 灵活使用Join操作 Spark配置参数的优化 RDD的优化 |
第二天 Spark SQL原理和实践 Spark SQL原理 1.Spark SQL的Catalyst优化器 2.Spark SQL内核 3.Spark SQL和Hive DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 1.Spark SQL的实例操作demo 2. Spark SQL的编程 |
Spark 数据挖掘 SparkMllib和SparkR原理 基于Spark Mllib和SparkR数据挖掘的流程 1.数据的抽取 2.数据降维和升维 3.稠密向量和稀疏向量数据处理 4.基于DataFrame和DataSet的数据挖掘过 SparkMllib和SparkR挖掘实战 5.聚类算法Kmeans的实战和应用场景 6.决策树算法的实战和应用场景 7.逻辑回归算法实战和应用场景 8.随机森林算法实战和应用场景 9. 协同过滤推荐算法实战案例 |
Hands-on项目实操 Spark SQL项目实战(电信行业) —项目需求 —数据ELT —SparkSQL和Hive整合 —SparkSQL内存表的使用 —JDBC连接SparkSQL Spark Mllib项目实战(电信行业) —Spark Mllib挖掘的步骤 —数据去噪 —模型的选择 —基于校园用户的数据建模案例 —模型的保存和优化 |
案例详解 基于spark日志分析 Spark SQL实战(证券业) Spark在大型互联网使用案例分享 200+Spark集群的案例介绍 |