核心大数据组件原理和开发实战-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

Flink SQL 是基于流处理和批处理的强大工具，通过多表关联、自定义 TableSource 和 Table Sink 等实战，实现数据统计分析。同时，结合 Watermark 和窗口函数处理时间序列数据。此外，Flink 还与 Hive、RDBMS、Kafka、CDC、ES 等集成，满足各种数据源需求。项目实战涵盖了流批一体、Kafka、Elasticsearch、Docker 演示等环境，提供完整的解决方案。

目标收益

培训对象

课程大纲

主流大数据的整体技术架构	开源大数据技术架构 开源大数据常用组件之间的依赖关系 离线计算框架介绍 —Mapreduce、Hive、Tez、Impala、Presto 实时查询框架介绍 —NoSQL、Hbase 实时计算框架介绍 —Kafka、Flink、Spark Streaming 内存计算框架介绍 —Spark、SparkSQL、SparkMllib、SparkR 实时OLAP技术介绍 —Clickhouse、StarRocks等 海量日志快速检索架构 —ELK（Elasticsearch、Logstash、Kibana）等 数据湖工具介绍 Hudi、IceBerg
大数据平台的架构演变	数据湖架构案例实战 离线计算大数据平台架构 实时计算应用场景介绍 新一代湖仓一体架构 基于Flink实时数仓数仓解决方案 —Kafka+Flink+clickhouse —Flink CDC+Flink+StarRocks 基于Flink CDC+Flink+Hudi流批一体数据架构解决方案
实时数仓和湖仓一体数据架构实战解析	数据接入大数据平台 -离线数据接入 -实时的数据接入 数据处理过程 -数据的ETL -数据分层(ODS、DW和DM等) -数据建模 -数据校验 数据应用 -数据离线应用 -数据实时应用 -数据实验室数据展示工具(BI工具)
Hadoop开发实战	HDFS架构介绍 HDFS原理介绍 NameNode功能详解 DataNode功能详 HDFS HA功能详解 HSFD的fsimage和editslog详解 HDFS的block详解 HDFS的block的备份策略 Mapreduce原理 MapReduce流程 剖析一个MapReduce程序 Mapper和Reducer抽象类详解 Combiner详解 Partitioner详解
Hive数仓工具开发实战	Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive的MetaStore详解 Hive的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE
Hbase原理和开发实战	NoSQL介绍 NoSQL应用场景 Hbase的架构原理 Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore) Hbase自带的namesapce和Meta表详解 HBase逻辑视图介绍 HBase物理视图介绍 HBase的RowKey设计原则 HBase BloomFilter的介绍 手动设置Split和Compaction操作 Pre-Split的介绍 HBase使用场景介绍 Hbase shell增删改查实战
Spark原理和开发实战	Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark容错机制 lineage和checkpoint详解 Spark的运行方式 Spark DataFrame和DateSet介绍 Spark SQL原理 Spark SQL和Hive连接 DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL开发
Flink原理和开发实战	DataStream API介绍与使用 DataStream编程模型 DataStream类型与转换 Pipeline与StreamGraph转换 Transformation 时间概念与Watermark Windows窗口计算和多流合并 Flink table API原理和使用 Flink SQL原理和使用 TimeStamp与Watermark原理和实战 多表关联实战 与Hive的集成实战 自定义TableSource、Table Sink和Table Factory实战项目实战：基于Flink SQL实现数据统计分析
流批一体项目实战RDBMS +Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战	RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战： Docker演示环境介绍 项目需求分析和解决方案设计 流式数仓分层模型设计 Flink CDC mysql实战 Flink CDC postgres实战 Flink CDC Kafka实战 Flink CDC ES实现 Kibana结果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战实操：老师演练项目
大数据平台实施和运维	大数据平台规划 大数据平台实施的步骤及构建 大数据平台权限认证和授权解决方案 Kerberos+Openldap+sssd+knox+Ranger实现企业级大数据平台安全控制和实操 Yarn资源分配策略详解和实操 yarn replacement rules权限控制和实操 Yarn 队列+Ranger控制详解和实操 HDFS+Ranger权限控制和实操 跨集群数据访问的安全和资源控制案例分享某大型银行大数据平台深度解析

主流大数据的整体技术架构

开源大数据技术架构
开源大数据常用组件之间的依赖关系
离线计算框架介绍
—Mapreduce、Hive、Tez、Impala、Presto
实时查询框架介绍
—NoSQL、Hbase
实时计算框架介绍
—Kafka、Flink、Spark Streaming
内存计算框架介绍
—Spark、SparkSQL、SparkMllib、SparkR
实时OLAP技术介绍
—Clickhouse、StarRocks等
海量日志快速检索架构
—ELK（Elasticsearch、Logstash、Kibana）等
数据湖工具介绍
Hudi、IceBerg

大数据平台的架构演变

数据湖架构案例实战
离线计算大数据平台架构
实时计算应用场景介绍
新一代湖仓一体架构
基于Flink实时数仓数仓解决方案
—Kafka+Flink+clickhouse
—Flink CDC+Flink+StarRocks
基于Flink CDC+Flink+Hudi流批一体数据架构解决方案

实时数仓和湖仓一体数据架构实战解析

数据接入大数据平台
-离线数据接入
-实时的数据接入
数据处理过程
-数据的ETL
-数据分层(ODS、DW和DM等)
-数据建模
-数据校验
数据应用
-数据离线应用
-数据实时应用
-数据实验室
数据展示工具(BI工具)

Hadoop开发实战

HDFS架构介绍
HDFS原理介绍
NameNode功能详解
DataNode功能详
HDFS HA功能详解
HSFD的fsimage和editslog详解
HDFS的block详解
HDFS的block的备份策略
Mapreduce原理
MapReduce流程
剖析一个MapReduce程序
Mapper和Reducer抽象类详解
Combiner详解
Partitioner详解

Hive数仓工具开发实战

Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系
Hadoop/Hive仓库数据数据流
Hive的MetaStore详解
Hive的基本用法
Hive的server启动
HQL基本语法
Hive的加载数据本地加载和HDFS加载
Hive的partition详解
Hive的存储方式详解
RCFILE、TEXTFILE和SEQUEUEFILE

Hbase原理和开发实战

NoSQL介绍
NoSQL应用场景
Hbase的架构原理
Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore)
Hbase自带的namesapce和Meta表详解
HBase逻辑视图介绍
HBase物理视图介绍
HBase的RowKey设计原则
HBase BloomFilter的介绍
手动设置Split和Compaction操作
Pre-Split的介绍
HBase使用场景介绍
Hbase shell增删改查实战

Spark原理和开发实战

Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark容错机制
lineage和checkpoint详解
Spark的运行方式
Spark DataFrame和DateSet介绍
Spark SQL原理
Spark SQL和Hive连接
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL开发

Flink原理和开发实战

DataStream API介绍与使用
DataStream编程模型
DataStream类型与转换
Pipeline与StreamGraph转换
Transformation
时间概念与Watermark
Windows窗口计算和多流合并
Flink table API原理和使用
Flink SQL原理和使用
TimeStamp与Watermark原理和实战
多表关联实战
与Hive的集成实战
自定义TableSource、Table Sink和Table Factory实战
项目实战：基于Flink SQL实现数据统计分析

流批一体项目实战RDBMS
+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战

RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战：
Docker演示环境介绍
项目需求分析和解决方案设计
流式数仓分层模型设计
Flink CDC mysql实战
Flink CDC postgres实战
Flink CDC Kafka实战
Flink CDC ES实现
Kibana结果展示
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战
实操：老师演练项目

大数据平台实施和运维

大数据平台规划
大数据平台实施的步骤及构建
大数据平台权限认证和授权解决方案
Kerberos+Openldap+sssd+knox+Ranger实现企业级大数据平台安全控制和实操
Yarn资源分配策略详解和实操
yarn replacement rules权限控制和实操
Yarn 队列+Ranger控制详解和实操
HDFS+Ranger权限控制和实操
跨集群数据访问的安全和资源控制案例分享
某大型银行大数据平台深度解析

核心大数据组件原理和开发实战

刘飞

某知名咨询公司云平台系统架构师

课程费用

5800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程大纲

课程评论

课程费用

5800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

AI 大模型时代的 FDE 转型实战：从业务场景到智能体交付

核心大数据组件原理和开发实战

刘飞

某知名咨询公司 云平台系统架构师

课程费用

5800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程大纲

课程评论

课程费用

5800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

AI 大模型时代的 FDE 转型实战：从业务场景到智能体交付

某知名咨询公司云平台系统架构师