工程师
其他
架构师
大数据
数据架构
SQL
大数据平台
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

湖仓一体化及流批一体化架构与设计实战

刘老师

某知名咨询公司 云平台系统架构师

毕业于⼤连理⼯⼤学
简介:
精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。
有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数
据中台项⽬架构实施经验,
⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术
栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施
最近主要项⽬介绍:
某移动⼤数据平台架构设计和设施 (Hadoop、Spark)
四⼤⾏之⼀的数据湖咨询和实施
某⼤型商业银⾏数据中台咨询
某银⾏基于开源⼤数据技术栈数据中台的咨询和实施
某航空公司数据平台流批⼀体解决⽅案和实施
特长:
在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据
中台等⽅⾯有丰富经 验。

毕业于⼤连理⼯⼤学 简介: 精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。 有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数 据中台项⽬架构实施经验, ⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术 栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施 最近主要项⽬介绍: 某移动⼤数据平台架构设计和设施 (Hadoop、Spark) 四⼤⾏之⼀的数据湖咨询和实施 某⼤型商业银⾏数据中台咨询 某银⾏基于开源⼤数据技术栈数据中台的咨询和实施 某航空公司数据平台流批⼀体解决⽅案和实施 特长: 在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据 中台等⽅⾯有丰富经 验。

课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

第一天涵盖大数据平台架构演变、湖仓一体数据架构实战、StarRocks高性能MPP、数据湖工具Hudi实战及Flink DataStream原理。第二天则聚焦Flink状态和容错、Flink SQL和Table开发、Flink CDC实战解析及流批一体项目实战,包括RDBMS、Kafka、Flink CDC、FlinkSQL、ES和Kibana的整合应用。通过丰富案例分享,帮助学员掌握流批一体典型技术架构与应用场景,适用于大数据架构师及开发人员。

目标收益

培训对象

课程大纲

Day1
大数据平台的架构演变
数据湖架构案例实战
离线计算大数据平台架构
实时计算应用场景介绍
新一代湖仓一体架构
基于Flink实时数仓数仓解决方案
基于Flink+Hudi流批一体数据架构解决方案
Day1
湖仓一体数据架构实战解析
数据接入大数据平台
—离线数据接入
—实时的数据接入
数据处理过程
—数据的ETL
—数据分层(ODS、DW和DM等)
—数据建模
—数据校验
数据应用
—数据离线应用
—数据实时应用
—数据实验室
数据展示工具(BI工具)
Day1
StarRocks高性能MPP介绍
StarRocks架构和原理
StarRocks高性能MPP的特性
StarRocks的表设计介绍
— 数据模型
— 排序和前缀索引
— 分区和分桶
— 数据类型
— 列级别索引
— 视图
StarRocks应用场景介绍
StarRocks数据导入
— insert into
— Stream Load
— Routine Load
— Flink CDC
StarRocks+Flink实时数仓解决方案介绍
Day1
数据湖工具实战解析
什么是Hudi
为什么会有Hudi
Hudi整体架构
Hudi的文件结构介绍
Hudi数据存储
Hudi数据合并的原理介绍
Hudi表格式介绍
Hudi的索引设计介绍
Hudi的元数据表介绍
Hudi表的存储类型介绍
— COW存储类型
— MOR存储类型
Hudi时间轴服务介绍
Flink+Hudi整合实操
Day1
Flink DataStream原理
实时计算应用场景介绍
实时处理框架Flink简介
Flink on Yarn运行机制介绍
Flink DataStream原理
Flink并行计算和DAG
Flink API逻辑层次
DataStream转换操作
数据分区
Flink中的时间EventTime和ProcessingTime
WateMark原理和实战
DataStream Window原理和实战
CountWindow介绍和实战
TimeWindow介绍和实战
Day2
Flink状态和容错
分布式流计算原理
流计算的状态
快照和全局快照
全局一致性原理介绍和实战
Exactly once语义原理和实战
Flink故障恢复原理和实战
Flink Checkpoint原理和实实现
Flink快照Barrier原理和实战
Flink状态管理介绍
MemoryStateBackend介绍
FSStateBackend介绍
RocksDBStateBackend介绍
Day2
Flink SQL和Table开发实战
Flink SQL和Table开发实战
Flink SQL功能介绍
Flink SQL
Kafka+FlinkSQL整合
Flink Table介绍
Flink Table DSL语法介绍
Day2
数据离线和增量同步工具Flink CDC实战解析
Flink CDC实战解析
传统CDC工具实战解析
CDC工具实战解析和比较
Flink CDC支持的功能
基于日志CDC的数据同步流程
ETL—传统CDC ETL分析
ETL—基于Flink CDC 聚合分析
Flink CDC 数据宽表
Flink SQL如何集成CDC
Flink CDC 作为数据采集层的优势
实操:老师演练项目
Day2
流批一体项目实战RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战:
Docker演示环境介绍
项目需求分析和解决方案设计
流式数仓分层模型设计
Flink CDC mysql实战
Flink CDC postgres实战
Flink CDC Kafka实战
Flink CDC ES实现
Kibana结果展示
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战
实操:老师演练项目
Day2
流批一体大数据案例分享
流批一体典型的技术架构和应用场景介绍
大型互联网Flink+hudi流批一体大数据架构和案例介绍
某银行基于Flink的流批一体大数据架构和案例介绍
Day1
大数据平台的架构演变
数据湖架构案例实战
离线计算大数据平台架构
实时计算应用场景介绍
新一代湖仓一体架构
基于Flink实时数仓数仓解决方案
基于Flink+Hudi流批一体数据架构解决方案
Day1
湖仓一体数据架构实战解析
数据接入大数据平台
—离线数据接入
—实时的数据接入
数据处理过程
—数据的ETL
—数据分层(ODS、DW和DM等)
—数据建模
—数据校验
数据应用
—数据离线应用
—数据实时应用
—数据实验室
数据展示工具(BI工具)
Day1
StarRocks高性能MPP介绍
StarRocks架构和原理
StarRocks高性能MPP的特性
StarRocks的表设计介绍
— 数据模型
— 排序和前缀索引
— 分区和分桶
— 数据类型
— 列级别索引
— 视图
StarRocks应用场景介绍
StarRocks数据导入
— insert into
— Stream Load
— Routine Load
— Flink CDC
StarRocks+Flink实时数仓解决方案介绍
Day1
数据湖工具实战解析
什么是Hudi
为什么会有Hudi
Hudi整体架构
Hudi的文件结构介绍
Hudi数据存储
Hudi数据合并的原理介绍
Hudi表格式介绍
Hudi的索引设计介绍
Hudi的元数据表介绍
Hudi表的存储类型介绍
— COW存储类型
— MOR存储类型
Hudi时间轴服务介绍
Flink+Hudi整合实操
Day1
Flink DataStream原理
实时计算应用场景介绍
实时处理框架Flink简介
Flink on Yarn运行机制介绍
Flink DataStream原理
Flink并行计算和DAG
Flink API逻辑层次
DataStream转换操作
数据分区
Flink中的时间EventTime和ProcessingTime
WateMark原理和实战
DataStream Window原理和实战
CountWindow介绍和实战
TimeWindow介绍和实战
Day2
Flink状态和容错
分布式流计算原理
流计算的状态
快照和全局快照
全局一致性原理介绍和实战
Exactly once语义原理和实战
Flink故障恢复原理和实战
Flink Checkpoint原理和实实现
Flink快照Barrier原理和实战
Flink状态管理介绍
MemoryStateBackend介绍
FSStateBackend介绍
RocksDBStateBackend介绍
Day2
Flink SQL和Table开发实战
Flink SQL和Table开发实战
Flink SQL功能介绍
Flink SQL
Kafka+FlinkSQL整合
Flink Table介绍
Flink Table DSL语法介绍
Day2
数据离线和增量同步工具Flink CDC实战解析
Flink CDC实战解析
传统CDC工具实战解析
CDC工具实战解析和比较
Flink CDC支持的功能
基于日志CDC的数据同步流程
ETL—传统CDC ETL分析
ETL—基于Flink CDC 聚合分析
Flink CDC 数据宽表
Flink SQL如何集成CDC
Flink CDC 作为数据采集层的优势
实操:老师演练项目
Day2
流批一体项目实战RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战:
Docker演示环境介绍
项目需求分析和解决方案设计
流式数仓分层模型设计
Flink CDC mysql实战
Flink CDC postgres实战
Flink CDC Kafka实战
Flink CDC ES实现
Kibana结果展示
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战
实操:老师演练项目
Day2
流批一体大数据案例分享
流批一体典型的技术架构和应用场景介绍
大型互联网Flink+hudi流批一体大数据架构和案例介绍
某银行基于Flink的流批一体大数据架构和案例介绍

课程费用

6800.00 /人

课程时长

2

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求