课程简介
案例背景:
构建实时数仓的pipeline,比如从业务数据库同步binlog做实时OLAP分析,常用的目标存储有kudu/HBase等,这些存储系统在数据量很大的时候成本很大(包括维护成本);另一方面用户常常需要写java/scala的代码来实现消费binlog回放到kudu/HBase的逻辑,比较复杂
解决思路:
Delta Lake 是 Databricks 公司开源的数据湖技术,它在 Parquet 文件格式基础上增加了丰富的数据管理功能,如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来,快速构建 Near-RealTime 的 Data Pipeline;
Spark Streaming SQL是阿里云自研的流式SQL,用户可以使用SQL来实现流式逻辑(如binlog的回放),降低了开发门槛;
利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等,不需要维护一套存储服务就可以很方便的构建实时数仓,同时使用Spark Streaming SQL进一步降低了开发门槛。
成果:
利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等,不需要维护一套存储服务就可以很方便的构建实时数仓,同时使用Spark Streaming SQL进一步降低了开发门槛。
目标收益
1.新一代数据湖存储Delta Lake介绍,包括跟hudi/iceberg的比较
2.阿里巴巴对Delta Lake优化与集成
3. Spark Streaming SQL的介绍
4. 基于Spark Streaming SQL 和 Delta Lake快速构建实时数仓,如CDC
培训对象
课程内容
案例方向
智能数据分析/企业级大数据架构演进/流式计算系统设计/数据库的未来
案例背景
构建实时数仓的pipeline,比如从业务数据库同步binlog做实时OLAP分析,常用的目标存储有kudu/HBase等,这些存储系统在数据量很大的时候成本很大(包括维护成本);另一方面用户常常需要写java/scala的代码来实现消费binlog回放到kudu/HBase的逻辑,比较复杂
收益
1.新一代数据湖存储Delta Lake介绍,包括跟hudi/iceberg的比较
2.阿里巴巴对Delta Lake优化与集成
3. Spark Streaming SQL的介绍
4. 基于Spark Streaming SQL 和 Delta Lake快速构建实时数仓,如CDC
解决思路
Delta Lake 是 Databricks 公司开源的数据湖技术,它在 Parquet 文件格式基础上增加了丰富的数据管理功能,如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来,快速构建 Near-RealTime 的 Data Pipeline;
Spark Streaming SQL是阿里云自研的流式SQL,用户可以使用SQL来实现流式逻辑(如binlog的回放),降低了开发门槛;
利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等,不需要维护一套存储服务就可以很方便的构建实时数仓,同时使用Spark Streaming SQL进一步降低了开发门槛。
结果
利用Delta Lake的特性(ACID事务/Update/Delte/Merge)等,不需要维护一套存储服务就可以很方便的构建实时数仓,同时使用Spark Streaming SQL进一步降低了开发门槛。