课程简介
第一天涵盖大数据平台架构演变、湖仓一体数据架构实战、StarRocks高性能MPP、数据湖工具Hudi实战及Flink DataStream原理。第二天则聚焦Flink状态和容错、Flink SQL和Table开发、Flink CDC实战解析及流批一体项目实战,包括RDBMS、Kafka、Flink CDC、FlinkSQL、ES和Kibana的整合应用。通过丰富案例分享,帮助学员掌握流批一体典型技术架构与应用场景,适用于大数据架构师及开发人员。
目标收益
培训对象
课程大纲
Day1 大数据平台的架构演变 |
数据湖架构案例实战 离线计算大数据平台架构 实时计算应用场景介绍 新一代湖仓一体架构 基于Flink实时数仓数仓解决方案 基于Flink+Hudi流批一体数据架构解决方案 |
Day1 湖仓一体数据架构实战解析 |
数据接入大数据平台 —离线数据接入 —实时的数据接入 数据处理过程 —数据的ETL —数据分层(ODS、DW和DM等) —数据建模 —数据校验 数据应用 —数据离线应用 —数据实时应用 —数据实验室 数据展示工具(BI工具) |
Day1 StarRocks高性能MPP介绍 |
StarRocks架构和原理 StarRocks高性能MPP的特性 StarRocks的表设计介绍 — 数据模型 — 排序和前缀索引 — 分区和分桶 — 数据类型 — 列级别索引 — 视图 StarRocks应用场景介绍 StarRocks数据导入 — insert into — Stream Load — Routine Load — Flink CDC StarRocks+Flink实时数仓解决方案介绍 |
Day1 数据湖工具实战解析 |
什么是Hudi 为什么会有Hudi Hudi整体架构 Hudi的文件结构介绍 Hudi数据存储 Hudi数据合并的原理介绍 Hudi表格式介绍 Hudi的索引设计介绍 Hudi的元数据表介绍 Hudi表的存储类型介绍 — COW存储类型 — MOR存储类型 Hudi时间轴服务介绍 Flink+Hudi整合实操 |
Day1 Flink DataStream原理 |
实时计算应用场景介绍 实时处理框架Flink简介 Flink on Yarn运行机制介绍 Flink DataStream原理 Flink并行计算和DAG Flink API逻辑层次 DataStream转换操作 数据分区 Flink中的时间EventTime和ProcessingTime WateMark原理和实战 DataStream Window原理和实战 CountWindow介绍和实战 TimeWindow介绍和实战 |
Day2 Flink状态和容错 |
分布式流计算原理 流计算的状态 快照和全局快照 全局一致性原理介绍和实战 Exactly once语义原理和实战 Flink故障恢复原理和实战 Flink Checkpoint原理和实实现 Flink快照Barrier原理和实战 Flink状态管理介绍 MemoryStateBackend介绍 FSStateBackend介绍 RocksDBStateBackend介绍 |
Day2 Flink SQL和Table开发实战 |
Flink SQL和Table开发实战 Flink SQL功能介绍 Flink SQL Kafka+FlinkSQL整合 Flink Table介绍 Flink Table DSL语法介绍 |
Day2 数据离线和增量同步工具Flink CDC实战解析 |
Flink CDC实战解析 传统CDC工具实战解析 CDC工具实战解析和比较 Flink CDC支持的功能 基于日志CDC的数据同步流程 ETL—传统CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 数据宽表 Flink SQL如何集成CDC Flink CDC 作为数据采集层的优势 实操:老师演练项目 |
Day2 流批一体项目实战RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战 |
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战: Docker演示环境介绍 项目需求分析和解决方案设计 流式数仓分层模型设计 Flink CDC mysql实战 Flink CDC postgres实战 Flink CDC Kafka实战 Flink CDC ES实现 Kibana结果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战 实操:老师演练项目 |
Day2 流批一体大数据案例分享 |
流批一体典型的技术架构和应用场景介绍 大型互联网Flink+hudi流批一体大数据架构和案例介绍 某银行基于Flink的流批一体大数据架构和案例介绍 |
Day1 大数据平台的架构演变 数据湖架构案例实战 离线计算大数据平台架构 实时计算应用场景介绍 新一代湖仓一体架构 基于Flink实时数仓数仓解决方案 基于Flink+Hudi流批一体数据架构解决方案 |
Day1 湖仓一体数据架构实战解析 数据接入大数据平台 —离线数据接入 —实时的数据接入 数据处理过程 —数据的ETL —数据分层(ODS、DW和DM等) —数据建模 —数据校验 数据应用 —数据离线应用 —数据实时应用 —数据实验室 数据展示工具(BI工具) |
Day1 StarRocks高性能MPP介绍 StarRocks架构和原理 StarRocks高性能MPP的特性 StarRocks的表设计介绍 — 数据模型 — 排序和前缀索引 — 分区和分桶 — 数据类型 — 列级别索引 — 视图 StarRocks应用场景介绍 StarRocks数据导入 — insert into — Stream Load — Routine Load — Flink CDC StarRocks+Flink实时数仓解决方案介绍 |
Day1 数据湖工具实战解析 什么是Hudi 为什么会有Hudi Hudi整体架构 Hudi的文件结构介绍 Hudi数据存储 Hudi数据合并的原理介绍 Hudi表格式介绍 Hudi的索引设计介绍 Hudi的元数据表介绍 Hudi表的存储类型介绍 — COW存储类型 — MOR存储类型 Hudi时间轴服务介绍 Flink+Hudi整合实操 |
Day1 Flink DataStream原理 实时计算应用场景介绍 实时处理框架Flink简介 Flink on Yarn运行机制介绍 Flink DataStream原理 Flink并行计算和DAG Flink API逻辑层次 DataStream转换操作 数据分区 Flink中的时间EventTime和ProcessingTime WateMark原理和实战 DataStream Window原理和实战 CountWindow介绍和实战 TimeWindow介绍和实战 |
Day2 Flink状态和容错 分布式流计算原理 流计算的状态 快照和全局快照 全局一致性原理介绍和实战 Exactly once语义原理和实战 Flink故障恢复原理和实战 Flink Checkpoint原理和实实现 Flink快照Barrier原理和实战 Flink状态管理介绍 MemoryStateBackend介绍 FSStateBackend介绍 RocksDBStateBackend介绍 |
Day2 Flink SQL和Table开发实战 Flink SQL和Table开发实战 Flink SQL功能介绍 Flink SQL Kafka+FlinkSQL整合 Flink Table介绍 Flink Table DSL语法介绍 |
Day2 数据离线和增量同步工具Flink CDC实战解析 Flink CDC实战解析 传统CDC工具实战解析 CDC工具实战解析和比较 Flink CDC支持的功能 基于日志CDC的数据同步流程 ETL—传统CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 数据宽表 Flink SQL如何集成CDC Flink CDC 作为数据采集层的优势 实操:老师演练项目 |
Day2 流批一体项目实战RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战: Docker演示环境介绍 项目需求分析和解决方案设计 流式数仓分层模型设计 Flink CDC mysql实战 Flink CDC postgres实战 Flink CDC Kafka实战 Flink CDC ES实现 Kibana结果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战 实操:老师演练项目 |
Day2 流批一体大数据案例分享 流批一体典型的技术架构和应用场景介绍 大型互联网Flink+hudi流批一体大数据架构和案例介绍 某银行基于Flink的流批一体大数据架构和案例介绍 |