大数据技术原理和金融案例实践-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

本课程是基于金融行业技术实践和业务应用场景，结合当前企业级应用场景进行综合性课程设计。从专业知识，专业技能，通用技能多维度全面培养数据库优化人才的综合能力。

目标收益

培训对象

课程大纲

流批一体以及数据湖技术讲解 4小时	1.Flink流批一体架构、原理与实践 (1)读写模型 2.数据湖数据湖理念介绍 3.Hudi批流一体架构、原理与实践 4.Hudi核心组件 (1)有序的时间轴元数据 (2)分层布局的数据文件 (3)索引(多种实现方式) 5.Hudi表设计 (1)Timeline (2)数据文件--Hoodie key (3)索引 6.Hudi表类型(读写时模式区分) (1)Copy-On-Write 写时复制表 (2)Merge-On-Read 读时合并表 7.数据湖Iceberg对比和技术实现 8.Trino技术和方案实践 9.presto查询引擎应用 10.多库多表实时入湖最佳实践 11.数据湖并发控制实践 12.数据湖最佳实践
实战案例 4小时	1.金融行业Top客户应用场景、规模建设等情况 2.OLAP实时化业务场景实践(深度讲解) (1)大数据金融信贷项目 ①项目需求分析 1)用户信用卡持卡用户特征分析 2)信用卡用户消费行为分析 3)用户信用卡管理行为分析 4)页面访问Top实时 5)动账管理行为分析 6)…… (2)系统架构设计 (3)数据流程设计 (4)离线分析 (5)实时分析 (6)实时化探索 3.某行基于hudi的数据湖构建实践 (1)业务痛点 ①当前数仓架构：批流双链路对应不同的存储和计算组件，维护和资源成本高 ②痛点：数据调度、数据同步和修复回刷等场景 (2)为什么选择数据湖Hudi (3)方案：技术选型(实时化、离线) ①如何使用Hudi解决业务问题 ②Hudi模型设计与传统的离线数仓模型设计 ③基于Hudi的模式设计(写模型设计) ④确定合适的分区和文件大小来解决数据更新中毛刺问题 (4)应用场景：数据一键入湖、流量日志分流、物化查询加速、实时数仓演进 (5)生产环境最优选择 ①表类型选择 1)存储类型 2)索引类型：支持多索引 3)Bucket数量：bucket index设计实践 4)主键列 5)索引列 (6)数据写入方式：通过数据写入的瓶颈进行综合分析以及Flink On Hudi 的更新瓶颈 (7)数据查询方式：无法使用数据时间进行快照查询以及异步物化视图、数据缓存等 (8)合并宽表能力不足解决、维表 JOIN延长 (9)优化文件布局 (10)数据湖并发控制缺陷解决 (11)多流合并优化实践 (12)实时数仓并进：基于Kafka的ETL到基于视图的ETL、Flink、Hudi、Trino应用； 4.某银行借鉴某互联网数据湖应用案例剖析
使用经验(针对源码缺陷进行分析) 1小时	1.Hudi Pipelines模块，支持流写Hudi在线同步源码schema变更 2.Hudi项目对Timestamp字段类型的支持，使Presto能正常查询Hudi表 3.确保Presto查询Hudi MOR多分区表查询正常 4.确保FlinkSQL增删改查Hudi多分区表功能正常 5.hudi-common模块，解决TaskManager NPE异常

流批一体以及数据湖技术讲解 4小时

1.Flink流批一体架构、原理与实践
(1)读写模型
2.数据湖数据湖理念介绍
3.Hudi批流一体架构、原理与实践
4.Hudi核心组件
(1)有序的时间轴元数据
(2)分层布局的数据文件
(3)索引(多种实现方式)
5.Hudi表设计
(1)Timeline
(2)数据文件--Hoodie key
(3)索引
6.Hudi表类型(读写时模式区分)
(1)Copy-On-Write 写时复制表
(2)Merge-On-Read 读时合并表
7.数据湖Iceberg对比和技术实现
8.Trino技术和方案实践
9.presto查询引擎应用
10.多库多表实时入湖最佳实践
11.数据湖并发控制实践
12.数据湖最佳实践

实战案例 4小时

1.金融行业Top客户应用场景、规模建设等情况
2.OLAP实时化业务场景实践(深度讲解)
(1)大数据金融信贷项目
①项目需求分析
1)用户信用卡持卡用户特征分析
2)信用卡用户消费行为分析
3)用户信用卡管理行为分析
4)页面访问Top实时
5)动账管理行为分析
6)……
(2)系统架构设计
(3)数据流程设计
(4)离线分析
(5)实时分析
(6)实时化探索
3.某行基于hudi的数据湖构建实践
(1)业务痛点
①当前数仓架构：批流双链路对应不同的存储和计算组件，维护和资源成本高
②痛点：数据调度、数据同步和修复回刷等场景
(2)为什么选择数据湖Hudi
(3)方案：技术选型(实时化、离线)
①如何使用Hudi解决业务问题
②Hudi模型设计与传统的离线数仓模型设计
③基于Hudi的模式设计(写模型设计)
④确定合适的分区和文件大小来解决数据更新中毛刺问题
(4)应用场景：数据一键入湖、流量日志分流、物化查询加速、实时数仓演进
(5)生产环境最优选择
①表类型选择
1)存储类型
2)索引类型：支持多索引
3)Bucket数量：bucket index设计实践
4)主键列
5)索引列
(6)数据写入方式：通过数据写入的瓶颈进行综合分析以及Flink On Hudi 的更新瓶颈
(7)数据查询方式：无法使用数据时间进行快照查询以及异步物化视图、数据缓存等
(8)合并宽表能力不足解决、维表 JOIN延长
(9)优化文件布局
(10)数据湖并发控制缺陷解决
(11)多流合并优化实践
(12)实时数仓并进：基于Kafka的ETL到基于视图的ETL、Flink、Hudi、Trino应用；
4.某银行借鉴某互联网数据湖应用案例剖析

使用经验(针对源码缺陷进行分析) 1小时

1.Hudi Pipelines模块，支持流写Hudi在线同步源码schema变更
2.Hudi项目对Timestamp字段类型的支持，使Presto能正常查询Hudi表
3.确保Presto查询Hudi MOR多分区表查询正常
4.确保FlinkSQL增删改查Hudi多分区表功能正常
5.hudi-common模块，解决TaskManager NPE异常

大数据技术原理和金融案例实践

胡亚

课程费用

6800.00 /人

课程时长

2天