课程简介
本课程从大数据技术以及Hadoop实战的角度,结合理论和实践,全方位地介绍Hadoop这一高性能处理大数据工具的开发技巧。本课程涉及的主题包括:Hadoop分布式文件系统及Hadoop的I/O;MapReduce的的工作机制、类型和格式;如何构建和管理Hadoop集群;Pig Latin语言的使用技巧;Hive数据仓库工具介绍;HBase和Zookeeper工具的使用和管理;开源数据采集工具sqoop。
教学过程中还提供了案例分析来帮助学员了解如何用Hadoop系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。本课程不是一个泛泛的理论性、概念性的介绍课程,而是针对问题讨论解决方案的深入课程。教师对于上述领域有深入的理论研究与实践经验,在课程中将会针对这些问题与学员一起进行研究,在关键点上还会搭建实验环境进行实践研究,以加深对于这些解决方案的理解。
目标收益
1.深刻理解在“互联网+”时代下大数据的产生背景、发展历程和演化趋势;
2.了解业界市场需求和国内外最新的大数据技术潮流,洞察大数据的潜在价值;
3.理解大数据项目解决方案及业界大数据应用案例,从而为企业在大数据项目中的技术选型及技术架构设计提供决策参考;
4.掌握业界最流行的Hadoop与Spark大数据技术体系;
5.掌握大数据采集技术;
6.掌握大数据分布式存储技术;
7.掌握NoSQL与NewSQL分布式数据库技术;
8.掌握大数据仓库与统计机器学习技术;
9.掌握大数据分析挖掘与商业智能(BI)技术;
10.掌握大数据离线处理技术;
11.掌握Storm流式大数据
培训对象
1.小型企业的技术负责人;
2. 大中型企业的数据部门相关人员、或是对数据感兴趣的其他部门的研发总监、部门经理、一线研发工程师等人员均可;
课程大纲
第一天 |
大数据技术基础 业界主流的大数据技术方案 大数据计算模型(一)——批处理MapReduce 大数据存储系统与应用实践 Hadoop框架与生态发展,以及应用实践操作 |
第二天 |
大数据计算模型(二)——实时处理/内存计算 Spark 大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践 Hadoop集群运维监控工具 |
第三天 |
大数据计算模型(三)——流处理Storm, SparkStreaming 大数据ETL操作工具,与大数据分布式采集系统 面向OLTP型应用的NoSQL数据库及应用实践 大数据项目选型、实施、优化等问题交流讨论 |
第四天 | 学习考核与行业经验交流 |
第一天 大数据技术基础 业界主流的大数据技术方案 大数据计算模型(一)——批处理MapReduce 大数据存储系统与应用实践 Hadoop框架与生态发展,以及应用实践操作 |
第二天 大数据计算模型(二)——实时处理/内存计算 Spark 大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践 Hadoop集群运维监控工具 |
第三天 大数据计算模型(三)——流处理Storm, SparkStreaming 大数据ETL操作工具,与大数据分布式采集系统 面向OLTP型应用的NoSQL数据库及应用实践 大数据项目选型、实施、优化等问题交流讨论 |
第四天 学习考核与行业经验交流 |