工程师
其他
数据库
金融
企业级
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

大数据技术原理和金融案例实践

胡亚

曾任职某大厂架构师、曾任数据库、大数据、云计算负责人等;负责过相关互联网企业PB级数据库、大数据、云建设等重点项目。在多家公司任数据库、云技术顾问;为上百家金融、电信、交通、能源、电力等行业做数据库、大数据、云原生、隐私计算等咨询、迁移等培训,有丰富的实战和培训经验。
并针对工行、建行、农行、中行、招商、浦发、平安等金融客户做数字化转型、数据库、大数据、微服务、云计算落地培训和顾问

《信创数据库应用场景实践、SQL挖掘与性能优化(GauessDB、TiDB、GoldenDB、TDSQL、OcenBase、达梦等)》
《数据库应用场景实践、SQL挖掘与性能优化(、MySQL、Oracle、PGSQL、SQL Server)》
《K8S-容器实践应用培训》
《IaaS云、虚拟化、存储平台实践培训》
《大数据实践培训》
《DevOps实践应用培训》
《安全安全实践培训》
《应用测试实践培训》

曾任职某大厂架构师、曾任数据库、大数据、云计算负责人等;负责过相关互联网企业PB级数据库、大数据、云建设等重点项目。在多家公司任数据库、云技术顾问;为上百家金融、电信、交通、能源、电力等行业做数据库、大数据、云原生、隐私计算等咨询、迁移等培训,有丰富的实战和培训经验。 并针对工行、建行、农行、中行、招商、浦发、平安等金融客户做数字化转型、数据库、大数据、微服务、云计算落地培训和顾问 《信创数据库应用场景实践、SQL挖掘与性能优化(GauessDB、TiDB、GoldenDB、TDSQL、OcenBase、达梦等)》 《数据库应用场景实践、SQL挖掘与性能优化(、MySQL、Oracle、PGSQL、SQL Server)》 《K8S-容器实践应用培训》 《IaaS云、虚拟化、存储平台实践培训》 《大数据实践培训》 《DevOps实践应用培训》 《安全安全实践培训》 《应用测试实践培训》

课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

本课程是基于金融行业技术实践和业务应用场景,结合当前企业级应用场景进行综合性课程设计。从专业知识,专业技能,通用技能多维度全面培养数据库优化人才的综合能力。

目标收益

培训对象

课程大纲

流批一体以及数据湖技术讲解 4小时 1.Flink流批一体架构、原理与实践
(1)读写模型
2.数据湖数据湖理念介绍
3.Hudi批流一体架构、原理与实践
4.Hudi核心组件
(1)有序的时间轴元数据
(2)分层布局的数据文件
(3)索引(多种实现方式)
5.Hudi表设计
(1)Timeline
(2)数据文件--Hoodie key
(3)索引
6.Hudi表类型(读写时模式区分)
(1)Copy-On-Write 写时复制表
(2)Merge-On-Read 读时合并表
7.数据湖Iceberg对比和技术实现
8.Trino技术和方案实践
9.presto查询引擎应用
10.多库多表实时入湖最佳实践
11.数据湖并发控制实践
12.数据湖最佳实践
实战案例 4小时 1.金融行业Top客户应用场景、规模建设等情况
2.OLAP实时化业务场景实践(深度讲解)
(1)大数据金融信贷项目
①项目需求分析
1)用户信用卡持卡用户特征分析
2)信用卡用户消费行为分析
3)用户信用卡管理行为分析
4)页面访问Top实时
5)动账管理行为分析
6)……
(2)系统架构设计
(3)数据流程设计
(4)离线分析
(5)实时分析
(6)实时化探索
3.某行基于hudi的数据湖构建实践
(1)业务痛点
①当前数仓架构:批流双链路对应不同的存储和计算组件,维护和资源成本高
②痛点:数据调度、数据同步和修复回刷等场景
(2)为什么选择数据湖Hudi
(3)方案:技术选型(实时化、离线)
①如何使用Hudi解决业务问题
②Hudi模型设计与传统的离线数仓模型设计
③基于Hudi的模式设计(写模型设计)
④确定合适的分区和文件大小来解决数据更新中毛刺问题
(4)应用场景:数据一键入湖、流量日志分流、物化查询加速、实时数仓演进
(5)生产环境最优选择
①表类型选择
1)存储类型
2)索引类型:支持多索引
3)Bucket数量:bucket index设计实践
4)主键列
5)索引列
(6)数据写入方式:通过数据写入的瓶颈进行综合分析以及Flink On Hudi 的更新瓶颈
(7)数据查询方式:无法使用数据时间进行快照查询以及异步物化视图、数据缓存等
(8)合并宽表能力不足解决、维表 JOIN延长
(9)优化文件布局
(10)数据湖并发控制缺陷解决
(11)多流合并优化实践
(12)实时数仓并进:基于Kafka的ETL到基于视图的ETL、Flink、Hudi、Trino应用;
4.某银行借鉴某互联网数据湖应用案例剖析
使用经验(针对源码缺陷进行分析) 1小时 1.Hudi Pipelines模块,支持流写Hudi在线同步源码schema变更
2.Hudi项目对Timestamp字段类型的支持,使Presto能正常查询Hudi表
3.确保Presto查询Hudi MOR多分区表查询正常
4.确保FlinkSQL增删改查Hudi多分区表功能正常
5.hudi-common模块,解决TaskManager NPE异常
流批一体以及数据湖技术讲解 4小时
1.Flink流批一体架构、原理与实践
(1)读写模型
2.数据湖数据湖理念介绍
3.Hudi批流一体架构、原理与实践
4.Hudi核心组件
(1)有序的时间轴元数据
(2)分层布局的数据文件
(3)索引(多种实现方式)
5.Hudi表设计
(1)Timeline
(2)数据文件--Hoodie key
(3)索引
6.Hudi表类型(读写时模式区分)
(1)Copy-On-Write 写时复制表
(2)Merge-On-Read 读时合并表
7.数据湖Iceberg对比和技术实现
8.Trino技术和方案实践
9.presto查询引擎应用
10.多库多表实时入湖最佳实践
11.数据湖并发控制实践
12.数据湖最佳实践
实战案例 4小时
1.金融行业Top客户应用场景、规模建设等情况
2.OLAP实时化业务场景实践(深度讲解)
(1)大数据金融信贷项目
①项目需求分析
1)用户信用卡持卡用户特征分析
2)信用卡用户消费行为分析
3)用户信用卡管理行为分析
4)页面访问Top实时
5)动账管理行为分析
6)……
(2)系统架构设计
(3)数据流程设计
(4)离线分析
(5)实时分析
(6)实时化探索
3.某行基于hudi的数据湖构建实践
(1)业务痛点
①当前数仓架构:批流双链路对应不同的存储和计算组件,维护和资源成本高
②痛点:数据调度、数据同步和修复回刷等场景
(2)为什么选择数据湖Hudi
(3)方案:技术选型(实时化、离线)
①如何使用Hudi解决业务问题
②Hudi模型设计与传统的离线数仓模型设计
③基于Hudi的模式设计(写模型设计)
④确定合适的分区和文件大小来解决数据更新中毛刺问题
(4)应用场景:数据一键入湖、流量日志分流、物化查询加速、实时数仓演进
(5)生产环境最优选择
①表类型选择
1)存储类型
2)索引类型:支持多索引
3)Bucket数量:bucket index设计实践
4)主键列
5)索引列
(6)数据写入方式:通过数据写入的瓶颈进行综合分析以及Flink On Hudi 的更新瓶颈
(7)数据查询方式:无法使用数据时间进行快照查询以及异步物化视图、数据缓存等
(8)合并宽表能力不足解决、维表 JOIN延长
(9)优化文件布局
(10)数据湖并发控制缺陷解决
(11)多流合并优化实践
(12)实时数仓并进:基于Kafka的ETL到基于视图的ETL、Flink、Hudi、Trino应用;
4.某银行借鉴某互联网数据湖应用案例剖析
使用经验(针对源码缺陷进行分析) 1小时
1.Hudi Pipelines模块,支持流写Hudi在线同步源码schema变更
2.Hudi项目对Timestamp字段类型的支持,使Presto能正常查询Hudi表
3.确保Presto查询Hudi MOR多分区表查询正常
4.确保FlinkSQL增删改查Hudi多分区表功能正常
5.hudi-common模块,解决TaskManager NPE异常

课程费用

6800.00 /人

课程时长

2

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求