架构师
互联网
电商
支付平台
传统金融
互联网金融
可穿戴设备
医疗
智能家居
车联网
安全
制造
电信
政府机构
税务
快消品
其他
大数据
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

Spark开发实战

刘老师

某知名咨询公司 云平台系统架构师

毕业于⼤连理⼯⼤学
简介:
精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。
有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数
据中台项⽬架构实施经验,
⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术
栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施
最近主要项⽬介绍:
某移动⼤数据平台架构设计和设施 (Hadoop、Spark)
四⼤⾏之⼀的数据湖咨询和实施
某⼤型商业银⾏数据中台咨询
某银⾏基于开源⼤数据技术栈数据中台的咨询和实施
某航空公司数据平台流批⼀体解决⽅案和实施
特长:
在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据
中台等⽅⾯有丰富经 验。

毕业于⼤连理⼯⼤学 简介: 精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。 有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数 据中台项⽬架构实施经验, ⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术 栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施 最近主要项⽬介绍: 某移动⼤数据平台架构设计和设施 (Hadoop、Spark) 四⼤⾏之⼀的数据湖咨询和实施 某⼤型商业银⾏数据中台咨询 某银⾏基于开源⼤数据技术栈数据中台的咨询和实施 某航空公司数据平台流批⼀体解决⽅案和实施 特长: 在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据 中台等⽅⾯有丰富经 验。

课程费用

5800.00 /人

课程时长

2

成为教练

课程简介

当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。

目标收益

本课程将为大家全面而又深入的介绍Spark平台的构建流程,涉及Spark系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。
通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark系统适用的场景;掌握Spark初中级应用开发技能;搭建稳定可靠的Spark集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

培训对象

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

课程大纲

第一天
大数据生态系统介绍
分布式存储—HDFS
分布式并行计算—MapReduce
基于Hadoop的数据仓库—Hive
集群管理工具—ambari
工作流工具—Oozie
数据的并行采集—Flume
MapReduce脚本工具—Pig
与关系型数据库之间的数据迁移—Sqoop
资源管理平台—Yarn
数据挖掘算法—Mahout
分布式统一服务—Zookeeper
Hadoop安全工具—Knox
流式计算框架—Storm
内存计算框架—Spark
数据挖掘框架—Mahout、Mllib和Graphx
Spark生态介绍 Mapreduce、storm和spark模型的比较和使用场景介绍
Spark产生背景
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel将被代)
DlinkDB介绍
SparkR介绍
Spark运行架构和解析 Spark的运行架构
1.基本术语
2.运行架构
3.Spark on Standalone运行过程
4.Spark on YARN 运行过程
Spark应用程序的配置
Spark运行实例解析
1.Spark on Standalone实例解析
Spark on YARN实例解析
Spark编程模型和解析 python开发环境搭建
Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark的累加器详解
Spark的广播变量详解
Spark容错机制
— lineage和checkpoint详解
Spark2.0的特性 Spark 2.0 和1.6的区别
SparkSession详解
StructedStreaming原理
DateFrame和DataSet的优化
文件读写操作 Spark支持哪些文件的读写
Spark读Hive的数据
Spark读Json格式的数据
Spark读Hbase的数据
Spark应用优化 partition优化详解
文件压缩格式(ORC、Parquet)
持久化类型选择
灵活使用Join操作
Spark配置参数的优化
RDD的优化
第二天
Spark SQL原理和实践
Spark SQL原理
1.Spark SQL的Catalyst优化器
2.Spark SQL内核
3.Spark SQL和Hive
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL的实例和编程
1.Spark SQL的实例操作demo
2. Spark SQL的编程
Spark 数据挖掘 SparkMllib和SparkR原理
基于Spark Mllib和SparkR数据挖掘的流程
1.数据的抽取
2.数据降维和升维
3.稠密向量和稀疏向量数据处理
4.基于DataFrame和DataSet的数据挖掘过
SparkMllib和SparkR挖掘实战
5.聚类算法Kmeans的实战和应用场景
6.决策树算法的实战和应用场景
7.逻辑回归算法实战和应用场景
8.随机森林算法实战和应用场景
9. 协同过滤推荐算法实战案例
Hands-on项目实操 Spark SQL项目实战(电信行业)
—项目需求
—数据ELT
—SparkSQL和Hive整合
—SparkSQL内存表的使用
—JDBC连接SparkSQL
Spark Mllib项目实战(电信行业)
—Spark Mllib挖掘的步骤
—数据去噪
—模型的选择
—基于校园用户的数据建模案例
—模型的保存和优化
案例详解 基于spark日志分析
Spark SQL实战(证券业)
Spark在大型互联网使用案例分享
200+Spark集群的案例介绍
第一天
大数据生态系统介绍

分布式存储—HDFS
分布式并行计算—MapReduce
基于Hadoop的数据仓库—Hive
集群管理工具—ambari
工作流工具—Oozie
数据的并行采集—Flume
MapReduce脚本工具—Pig
与关系型数据库之间的数据迁移—Sqoop
资源管理平台—Yarn
数据挖掘算法—Mahout
分布式统一服务—Zookeeper
Hadoop安全工具—Knox
流式计算框架—Storm
内存计算框架—Spark
数据挖掘框架—Mahout、Mllib和Graphx
Spark生态介绍
Mapreduce、storm和spark模型的比较和使用场景介绍
Spark产生背景
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel将被代)
DlinkDB介绍
SparkR介绍
Spark运行架构和解析
Spark的运行架构
1.基本术语
2.运行架构
3.Spark on Standalone运行过程
4.Spark on YARN 运行过程
Spark应用程序的配置
Spark运行实例解析
1.Spark on Standalone实例解析
Spark on YARN实例解析
Spark编程模型和解析
python开发环境搭建
Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark的累加器详解
Spark的广播变量详解
Spark容错机制
— lineage和checkpoint详解
Spark2.0的特性
Spark 2.0 和1.6的区别
SparkSession详解
StructedStreaming原理
DateFrame和DataSet的优化
文件读写操作
Spark支持哪些文件的读写
Spark读Hive的数据
Spark读Json格式的数据
Spark读Hbase的数据
Spark应用优化
partition优化详解
文件压缩格式(ORC、Parquet)
持久化类型选择
灵活使用Join操作
Spark配置参数的优化
RDD的优化
第二天
Spark SQL原理和实践
Spark SQL原理
1.Spark SQL的Catalyst优化器
2.Spark SQL内核
3.Spark SQL和Hive
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL的实例和编程
1.Spark SQL的实例操作demo
2. Spark SQL的编程
Spark 数据挖掘
SparkMllib和SparkR原理
基于Spark Mllib和SparkR数据挖掘的流程
1.数据的抽取
2.数据降维和升维
3.稠密向量和稀疏向量数据处理
4.基于DataFrame和DataSet的数据挖掘过
SparkMllib和SparkR挖掘实战
5.聚类算法Kmeans的实战和应用场景
6.决策树算法的实战和应用场景
7.逻辑回归算法实战和应用场景
8.随机森林算法实战和应用场景
9. 协同过滤推荐算法实战案例
Hands-on项目实操
Spark SQL项目实战(电信行业)
—项目需求
—数据ELT
—SparkSQL和Hive整合
—SparkSQL内存表的使用
—JDBC连接SparkSQL
Spark Mllib项目实战(电信行业)
—Spark Mllib挖掘的步骤
—数据去噪
—模型的选择
—基于校园用户的数据建模案例
—模型的保存和优化
案例详解
基于spark日志分析
Spark SQL实战(证券业)
Spark在大型互联网使用案例分享
200+Spark集群的案例介绍

活动详情

提交需求