课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

成为教练

课程简介

案例背景:
构建实时数仓的pipeline,比如从业务数据库同步binlog做实时OLAP分析,常用的目标存储有kudu/HBase等,这些存储系统在数据量很大的时候成本很大(包括维护成本);另一方面用户常常需要写java/scala的代码来实现消费binlog回放到kudu/HBase的逻辑,比较复杂

解决思路:
Delta Lake 是 Databricks 公司开源的数据湖技术,它在 Parquet 文件格式基础上增加了丰富的数据管理功能,如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来,快速构建 Near-RealTime 的 Data Pipeline;

Spark Streaming SQL是阿里云自研的流式SQL,用户可以使用SQL来实现流式逻辑(如binlog的回放),降低了开发门槛;

利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等,不需要维护一套存储服务就可以很方便的构建实时数仓,同时使用Spark Streaming SQL进一步降低了开发门槛。

成果:
利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等,不需要维护一套存储服务就可以很方便的构建实时数仓,同时使用Spark Streaming SQL进一步降低了开发门槛。

目标收益

1.新一代数据湖存储Delta Lake介绍,包括跟hudi/iceberg的比较
2.阿里巴巴对Delta Lake优化与集成
3. Spark Streaming SQL的介绍
4. 基于Spark Streaming SQL 和 Delta Lake快速构建实时数仓,如CDC

培训对象

课程内容

案例方向


智能数据分析/企业级大数据架构演进/流式计算系统设计/数据库的未来

案例背景


构建实时数仓的pipeline,比如从业务数据库同步binlog做实时OLAP分析,常用的目标存储有kudu/HBase等,这些存储系统在数据量很大的时候成本很大(包括维护成本);另一方面用户常常需要写java/scala的代码来实现消费binlog回放到kudu/HBase的逻辑,比较复杂

收益


1.新一代数据湖存储Delta Lake介绍,包括跟hudi/iceberg的比较
2.阿里巴巴对Delta Lake优化与集成
3. Spark Streaming SQL的介绍
4. 基于Spark Streaming SQL 和 Delta Lake快速构建实时数仓,如CDC

解决思路


Delta Lake 是 Databricks 公司开源的数据湖技术,它在 Parquet 文件格式基础上增加了丰富的数据管理功能,如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来,快速构建 Near-RealTime 的 Data Pipeline;

Spark Streaming SQL是阿里云自研的流式SQL,用户可以使用SQL来实现流式逻辑(如binlog的回放),降低了开发门槛;

利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等,不需要维护一套存储服务就可以很方便的构建实时数仓,同时使用Spark Streaming SQL进一步降低了开发门槛。

结果


利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等,不需要维护一套存储服务就可以很方便的构建实时数仓,同时使用Spark Streaming SQL进一步降低了开发门槛。

活动详情

提交需求