Spark开发实战-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

当下是大数据时代，为构建大数据平台，技术人员需要对分布式计算平台有一定深入的理解和应用。

目标收益

本课程将为大家全面而又深入的介绍Spark平台的构建流程，涉及Spark系统基础知识，概念及架构， Spark实战技巧，Spark经典案例等。
通过本课程实践，帮助学员对Spark生态系统有一个清晰明了的认识；理解Spark系统适用的场景；掌握Spark初中级应用开发技能；搭建稳定可靠的Spark集群，满足生产环境的标准；了解和清楚大数据应用的几个行业中的经典案例，包括阿里巴巴，华为等。

培训对象

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人，效果最佳。

课程大纲

第一天大数据生态系统介绍	分布式存储—HDFS 分布式并行计算—MapReduce 基于Hadoop的数据仓库—Hive 集群管理工具—ambari 工作流工具—Oozie 数据的并行采集—Flume MapReduce脚本工具—Pig 与关系型数据库之间的数据迁移—Sqoop 资源管理平台—Yarn 数据挖掘算法—Mahout 分布式统一服务—Zookeeper Hadoop安全工具—Knox 流式计算框架—Storm 内存计算框架—Spark 数据挖掘框架—Mahout、Mllib和Graphx
Spark生态介绍	Mapreduce、storm和spark模型的比较和使用场景介绍 Spark产生背景 Spark（内存计算框架） SparkSteaming（流式计算框架） Spark SQL（ad-hoc） Mllib（MachineLearning） GraphX（bagel将被代） DlinkDB介绍 SparkR介绍
Spark运行架构和解析	Spark的运行架构 1．基本术语 2．运行架构 3．Spark on Standalone运行过程 4．Spark on YARN 运行过程 Spark应用程序的配置 Spark运行实例解析 1．Spark on Standalone实例解析 Spark on YARN实例解析
Spark编程模型和解析	python开发环境搭建 Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 — lineage和checkpoint详解
Spark2.0的特性	Spark 2.0 和1.6的区别 SparkSession详解 StructedStreaming原理 DateFrame和DataSet的优化
文件读写操作	Spark支持哪些文件的读写 Spark读Hive的数据 Spark读Json格式的数据 Spark读Hbase的数据
Spark应用优化	partition优化详解 文件压缩格式(ORC、Parquet) 持久化类型选择 灵活使用Join操作 Spark配置参数的优化 RDD的优化
第二天 Spark SQL原理和实践	Spark SQL原理 1．Spark SQL的Catalyst优化器 2．Spark SQL内核 3．Spark SQL和Hive DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 1．Spark SQL的实例操作demo 2. Spark SQL的编程
Spark 数据挖掘	SparkMllib和SparkR原理 基于Spark Mllib和SparkR数据挖掘的流程 1．数据的抽取 2．数据降维和升维 3．稠密向量和稀疏向量数据处理 4．基于DataFrame和DataSet的数据挖掘过 SparkMllib和SparkR挖掘实战 5．聚类算法Kmeans的实战和应用场景 6．决策树算法的实战和应用场景 7．逻辑回归算法实战和应用场景 8．随机森林算法实战和应用场景 9. 协同过滤推荐算法实战案例
Hands-on项目实操	Spark SQL项目实战（电信行业） —项目需求 —数据ELT —SparkSQL和Hive整合 —SparkSQL内存表的使用 —JDBC连接SparkSQL Spark Mllib项目实战(电信行业) —Spark Mllib挖掘的步骤 —数据去噪 —模型的选择 —基于校园用户的数据建模案例 —模型的保存和优化
案例详解	基于spark日志分析 Spark SQL实战(证券业) Spark在大型互联网使用案例分享 200+Spark集群的案例介绍

第一天
大数据生态系统介绍

分布式存储—HDFS
分布式并行计算—MapReduce
基于Hadoop的数据仓库—Hive
集群管理工具—ambari
工作流工具—Oozie
数据的并行采集—Flume
MapReduce脚本工具—Pig
与关系型数据库之间的数据迁移—Sqoop
资源管理平台—Yarn
数据挖掘算法—Mahout
分布式统一服务—Zookeeper
Hadoop安全工具—Knox
流式计算框架—Storm
内存计算框架—Spark
数据挖掘框架—Mahout、Mllib和Graphx

Spark生态介绍

Mapreduce、storm和spark模型的比较和使用场景介绍
Spark产生背景
Spark（内存计算框架）
SparkSteaming（流式计算框架）
Spark SQL（ad-hoc）
Mllib（MachineLearning）
GraphX（bagel将被代）
DlinkDB介绍
SparkR介绍

Spark运行架构和解析

Spark的运行架构
1．基本术语
2．运行架构
3．Spark on Standalone运行过程
4．Spark on YARN 运行过程
Spark应用程序的配置
Spark运行实例解析
1．Spark on Standalone实例解析
Spark on YARN实例解析

Spark编程模型和解析

python开发环境搭建
Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark的累加器详解
Spark的广播变量详解
Spark容错机制
— lineage和checkpoint详解

Spark2.0的特性

Spark 2.0 和1.6的区别
SparkSession详解
StructedStreaming原理
DateFrame和DataSet的优化

文件读写操作

Spark支持哪些文件的读写
Spark读Hive的数据
Spark读Json格式的数据
Spark读Hbase的数据

Spark应用优化

partition优化详解
文件压缩格式(ORC、Parquet)
持久化类型选择
灵活使用Join操作
Spark配置参数的优化
RDD的优化

第二天
Spark SQL原理和实践

Spark SQL原理
1．Spark SQL的Catalyst优化器
2．Spark SQL内核
3．Spark SQL和Hive
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL的实例和编程
1．Spark SQL的实例操作demo
2. Spark SQL的编程

Spark 数据挖掘

SparkMllib和SparkR原理
基于Spark Mllib和SparkR数据挖掘的流程
1．数据的抽取
2．数据降维和升维
3．稠密向量和稀疏向量数据处理
4．基于DataFrame和DataSet的数据挖掘过
SparkMllib和SparkR挖掘实战
5．聚类算法Kmeans的实战和应用场景
6．决策树算法的实战和应用场景
7．逻辑回归算法实战和应用场景
8．随机森林算法实战和应用场景
9. 协同过滤推荐算法实战案例

Hands-on项目实操

Spark SQL项目实战（电信行业）
—项目需求
—数据ELT
—SparkSQL和Hive整合
—SparkSQL内存表的使用
—JDBC连接SparkSQL
Spark Mllib项目实战(电信行业)
—Spark Mllib挖掘的步骤
—数据去噪
—模型的选择
—基于校园用户的数据建模案例
—模型的保存和优化

案例详解

基于spark日志分析
Spark SQL实战(证券业)
Spark在大型互联网使用案例分享
200+Spark集群的案例介绍

Spark开发实战

刘飞

某知名咨询公司云平台系统架构师

课程费用

5800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程大纲

课程评论

课程费用

5800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

AI 大模型时代的 FDE 转型实战：从业务场景到智能体交付

Spark开发实战

刘飞

某知名咨询公司 云平台系统架构师

课程费用

5800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程大纲

课程评论

课程费用

5800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

AI 大模型时代的 FDE 转型实战：从业务场景到智能体交付

某知名咨询公司云平台系统架构师