Delta Lake在实时数仓中的应用实践-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

案例背景:
构建实时数仓的pipeline，比如从业务数据库同步binlog做实时OLAP分析，常用的目标存储有kudu/HBase等，这些存储系统在数据量很大的时候成本很大(包括维护成本)；另一方面用户常常需要写java/scala的代码来实现消费binlog回放到kudu/HBase的逻辑，比较复杂

解决思路:
Delta Lake 是 Databricks 公司开源的数据湖技术，它在 Parquet 文件格式基础上增加了丰富的数据管理功能，如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来，快速构建 Near-RealTime 的 Data Pipeline；

Spark Streaming SQL是阿里云自研的流式SQL，用户可以使用SQL来实现流式逻辑(如binlog的回放)，降低了开发门槛；

利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等，不需要维护一套存储服务就可以很方便的构建实时数仓，同时使用Spark Streaming SQL进一步降低了开发门槛。

成果:
利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等，不需要维护一套存储服务就可以很方便的构建实时数仓，同时使用Spark Streaming SQL进一步降低了开发门槛。

目标收益

1.新一代数据湖存储Delta Lake介绍，包括跟hudi/iceberg的比较
2.阿里巴巴对Delta Lake优化与集成
3. Spark Streaming SQL的介绍
4. 基于Spark Streaming SQL 和 Delta Lake快速构建实时数仓，如CDC

培训对象

课程内容

案例方向

智能数据分析/企业级大数据架构演进/流式计算系统设计/数据库的未来

案例背景

构建实时数仓的pipeline，比如从业务数据库同步binlog做实时OLAP分析，常用的目标存储有kudu/HBase等，这些存储系统在数据量很大的时候成本很大(包括维护成本)；另一方面用户常常需要写java/scala的代码来实现消费binlog回放到kudu/HBase的逻辑，比较复杂

收益

解决思路

Delta Lake 是 Databricks 公司开源的数据湖技术，它在 Parquet 文件格式基础上增加了丰富的数据管理功能，如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来，快速构建 Near-RealTime 的 Data Pipeline；

Spark Streaming SQL是阿里云自研的流式SQL，用户可以使用SQL来实现流式逻辑(如binlog的回放)，降低了开发门槛；

利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等，不需要维护一套存储服务就可以很方便的构建实时数仓，同时使用Spark Streaming SQL进一步降低了开发门槛。

结果

利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等，不需要维护一套存储服务就可以很方便的构建实时数仓，同时使用Spark Streaming SQL进一步降低了开发门槛。

Delta Lake在实时数仓中的应用实践

阿里云高级技术专家

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

近期公开课推荐

近期公开课推荐

AI时代的数字化产品设计实践

企业级软件工程能力提升与软件研发过程优化

批流一体特征平台高级培训大纲

Delta Lake在实时数仓中的应用实践

阿里云 高级技术专家

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

近期公开课推荐

近期公开课推荐

AI时代的数字化产品设计实践

企业级软件工程能力提升与软件研发过程优化

批流一体特征平台高级培训大纲

阿里云高级技术专家