课程简介
本课程是基于金融行业技术实践和业务应用场景,结合当前企业级应用场景进行综合性课程设计。从专业知识,专业技能,通用技能多维度全面培养数据库优化人才的综合能力。
目标收益
培训对象
课程大纲
流批一体以及数据湖技术讲解 4小时 |
1.Flink流批一体架构、原理与实践 (1)读写模型 2.数据湖数据湖理念介绍 3.Hudi批流一体架构、原理与实践 4.Hudi核心组件 (1)有序的时间轴元数据 (2)分层布局的数据文件 (3)索引(多种实现方式) 5.Hudi表设计 (1)Timeline (2)数据文件--Hoodie key (3)索引 6.Hudi表类型(读写时模式区分) (1)Copy-On-Write 写时复制表 (2)Merge-On-Read 读时合并表 7.数据湖Iceberg对比和技术实现 8.Trino技术和方案实践 9.presto查询引擎应用 10.多库多表实时入湖最佳实践 11.数据湖并发控制实践 12.数据湖最佳实践 |
实战案例 4小时 |
1.金融行业Top客户应用场景、规模建设等情况 2.OLAP实时化业务场景实践(深度讲解) (1)大数据金融信贷项目 ①项目需求分析 1)用户信用卡持卡用户特征分析 2)信用卡用户消费行为分析 3)用户信用卡管理行为分析 4)页面访问Top实时 5)动账管理行为分析 6)…… (2)系统架构设计 (3)数据流程设计 (4)离线分析 (5)实时分析 (6)实时化探索 3.某行基于hudi的数据湖构建实践 (1)业务痛点 ①当前数仓架构:批流双链路对应不同的存储和计算组件,维护和资源成本高 ②痛点:数据调度、数据同步和修复回刷等场景 (2)为什么选择数据湖Hudi (3)方案:技术选型(实时化、离线) ①如何使用Hudi解决业务问题 ②Hudi模型设计与传统的离线数仓模型设计 ③基于Hudi的模式设计(写模型设计) ④确定合适的分区和文件大小来解决数据更新中毛刺问题 (4)应用场景:数据一键入湖、流量日志分流、物化查询加速、实时数仓演进 (5)生产环境最优选择 ①表类型选择 1)存储类型 2)索引类型:支持多索引 3)Bucket数量:bucket index设计实践 4)主键列 5)索引列 (6)数据写入方式:通过数据写入的瓶颈进行综合分析以及Flink On Hudi 的更新瓶颈 (7)数据查询方式:无法使用数据时间进行快照查询以及异步物化视图、数据缓存等 (8)合并宽表能力不足解决、维表 JOIN延长 (9)优化文件布局 (10)数据湖并发控制缺陷解决 (11)多流合并优化实践 (12)实时数仓并进:基于Kafka的ETL到基于视图的ETL、Flink、Hudi、Trino应用; 4.某银行借鉴某互联网数据湖应用案例剖析 |
使用经验(针对源码缺陷进行分析) 1小时 |
1.Hudi Pipelines模块,支持流写Hudi在线同步源码schema变更 2.Hudi项目对Timestamp字段类型的支持,使Presto能正常查询Hudi表 3.确保Presto查询Hudi MOR多分区表查询正常 4.确保FlinkSQL增删改查Hudi多分区表功能正常 5.hudi-common模块,解决TaskManager NPE异常 |
流批一体以及数据湖技术讲解 4小时 1.Flink流批一体架构、原理与实践 (1)读写模型 2.数据湖数据湖理念介绍 3.Hudi批流一体架构、原理与实践 4.Hudi核心组件 (1)有序的时间轴元数据 (2)分层布局的数据文件 (3)索引(多种实现方式) 5.Hudi表设计 (1)Timeline (2)数据文件--Hoodie key (3)索引 6.Hudi表类型(读写时模式区分) (1)Copy-On-Write 写时复制表 (2)Merge-On-Read 读时合并表 7.数据湖Iceberg对比和技术实现 8.Trino技术和方案实践 9.presto查询引擎应用 10.多库多表实时入湖最佳实践 11.数据湖并发控制实践 12.数据湖最佳实践 |
实战案例 4小时 1.金融行业Top客户应用场景、规模建设等情况 2.OLAP实时化业务场景实践(深度讲解) (1)大数据金融信贷项目 ①项目需求分析 1)用户信用卡持卡用户特征分析 2)信用卡用户消费行为分析 3)用户信用卡管理行为分析 4)页面访问Top实时 5)动账管理行为分析 6)…… (2)系统架构设计 (3)数据流程设计 (4)离线分析 (5)实时分析 (6)实时化探索 3.某行基于hudi的数据湖构建实践 (1)业务痛点 ①当前数仓架构:批流双链路对应不同的存储和计算组件,维护和资源成本高 ②痛点:数据调度、数据同步和修复回刷等场景 (2)为什么选择数据湖Hudi (3)方案:技术选型(实时化、离线) ①如何使用Hudi解决业务问题 ②Hudi模型设计与传统的离线数仓模型设计 ③基于Hudi的模式设计(写模型设计) ④确定合适的分区和文件大小来解决数据更新中毛刺问题 (4)应用场景:数据一键入湖、流量日志分流、物化查询加速、实时数仓演进 (5)生产环境最优选择 ①表类型选择 1)存储类型 2)索引类型:支持多索引 3)Bucket数量:bucket index设计实践 4)主键列 5)索引列 (6)数据写入方式:通过数据写入的瓶颈进行综合分析以及Flink On Hudi 的更新瓶颈 (7)数据查询方式:无法使用数据时间进行快照查询以及异步物化视图、数据缓存等 (8)合并宽表能力不足解决、维表 JOIN延长 (9)优化文件布局 (10)数据湖并发控制缺陷解决 (11)多流合并优化实践 (12)实时数仓并进:基于Kafka的ETL到基于视图的ETL、Flink、Hudi、Trino应用; 4.某银行借鉴某互联网数据湖应用案例剖析 |
使用经验(针对源码缺陷进行分析) 1小时 1.Hudi Pipelines模块,支持流写Hudi在线同步源码schema变更 2.Hudi项目对Timestamp字段类型的支持,使Presto能正常查询Hudi表 3.确保Presto查询Hudi MOR多分区表查询正常 4.确保FlinkSQL增删改查Hudi多分区表功能正常 5.hudi-common模块,解决TaskManager NPE异常 |