课程简介
通过本课程您将深入学习湖仓一体架构的核心概念、优势以及典型架构设计,包括数据摄取、存储、计算、治理和应用等各层的关键组件与作用。通过对比数据湖和数据仓库的局限性,理解湖仓一体如何简化架构、降低成本并实现统一分析。在数据湖存储技术方面,课程将详细介绍 Apache Paimon、Apache Iceberg 和 Apache Hudi 等主流技术的特点、优势和劣势,并指导您进行技术选型。您将通过动手实践,学会部署和配置这些存储技术,创建数据表、导入数据并执行基本查询。通过案例分析,您将了解湖仓一体架构在金融、电商等行业的实际应用案例,学习架构设计思路和最佳实践,为实际项目提供有力参考。本课程将帮助您全面提升在数据管理和分析领域的专业技能,为企业的数字化转型提供有力支持。
目标收益
1,学员将掌握构建湖仓一体架构的关键技术和组件,包括数据湖存储、元数据管理、数据处理引擎等;
2,学员将掌握构建湖仓一体的数据湖存储技术,包括 Apache Paimon、Apache Iceberg 和 Apache Hudi,并能进行技术选型;
3,学习如何在湖仓一体架构中进行数据治理、安全和优化;
4,掌握在湖仓一体平台上进行数据分析、机器学习和实时处理的方法;
5,掌握 StarRocks、Doris、ClickHouse 作为查询加速引擎在湖仓一体架构中的应用,并能进行技术选型.
培训对象
本课程主要面向 数据工程师、数据架构师、数据科学家、BI工程师、对数据管理和分析感兴趣的技术人员。
课程内容
第一天:湖仓一体核心概念、架构与数据湖存储技术
模块 1:湖仓一体:概念与优势 (上午)
1. 数据湖和数据仓库的局限性分析。
2. 传统数据架构面临的挑战:数据孤岛、数据冗余、ETL 复杂性。
3. 湖仓一体的定义、核心原则与目标:简化架构、降低成本、统一分析。
4. 湖仓一体的核心特性:ACID事务、Schema Evolution、统一治理、BI/ML支持。
5. 湖仓一体的应用场景:实时分析、机器学习、数据科学。
6. 案例分析:成功应用湖仓一体架构的企业案例。
模块 2:湖仓一体架构设计 (上午)
1. 湖仓一体的典型架构:数据摄取层、存储层、计算层、治理层、应用层。
2. 湖仓一体的数据组织方式:分层存储、数据分区、数据分桶。
3. 元数据管理在湖仓一体中的作用。
4. 湖仓一体架构的核心组件:数据湖存储、元数据管理、数据处理引擎、数据访问层、数据安全与治理。
5. 湖仓一体与数据网格的结合。
6. 查询加速引擎在湖仓一体架构中的作用 (引入 StarRocks, Doris, ClickHouse)
7. 动手实践:设计符合特定场景的湖仓一体架构,并考虑查询加速引擎的选择。
模块 3:数据湖存储技术选型与实践 (下午)
1. 数据湖存储技术:Apache Paimon, Apache Iceberg, Apache Hudi。
2. 各种技术的特点、优势和劣势对比。
3. 不同场景下的技术选型考量。
4. 动手实践:
选择一种数据湖存储技术 (Paimon, Iceberg, Hudi) 进行部署和配置。
创建数据表、导入数据、执行基本查询。
模块 4:Apache Paimon 技术详解 (下午)
1. Apache Paimon 的架构与核心特性:ACID 事务、Schema Evolution、流批一体。
2. Apache Paimon 的数据存储格式:Columnar & Row-based options.
3. Apache Paimon 的 changelog 特性: 支持增量消费.
4. Apache Paimon 的性能优化:数据压缩、数据分区、索引.
5. 动手实践:使用 Apache Paimon 创建数据表、进行数据更新和查询.
第二天:湖仓一体高级特性、查询加速与应用
模块 5:Apache Iceberg 与 Apache Hudi 技术详解 (上午)
1. Apache Iceberg 的架构与核心特性:高性能查询、Schema Evolution、隐藏分区。
2. Iceberg 的数据存储格式:Metadata Table, Data File。
3. Iceberg 的快照隔离 (Snapshot Isolation) 功能:数据一致性。
4. Iceberg 的 Compaction 机制:优化存储空间、提升查询性能。
5. Apache Hudi 的架构与核心特性:增量处理、Upsert/Delete、时间线。
6. Hudi 的数据存储格式:Copy-on-Write, Merge-on-Read。
7. Hudi 的索引技术:Bloom Filter, Range Pruning。
8. Hudi 的 Compaction 策略:异步清理、性能优化。
9. 动手实践:使用 Iceberg 和 Hudi 创建数据表、进行数据更新和查询。
模块 6:湖仓一体的数据治理与安全 (上午)
1. 数据质量管理:定义数据质量规则、监控数据质量、修复数据质量问题。
2. 数据安全管理:身份验证、授权、加密、数据脱敏。
3. 数据血缘分析:追踪数据的来源和转换过程。
4. 数据合规:GDPR, CCPA, HIPAA。
5. 元数据管理:使用 Apache Atlas, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog。
6. 动手实践:在湖仓一体平台上实施数据治理策略。
模块 7:查询加速引擎 (StarRocks, Doris, ClickHouse) 技术详解 (下午)
1. StarRocks、Doris、ClickHouse 的架构和核心特性对比。
2. StarRocks 的特点: 全链路加速、支持多种数据源。
3. Doris 的特点: 高并发、高可用、易于使用。
4. ClickHouse 的特点: 列式存储、向量化执行、高性能分析。
5. 查询加速引擎的技术选型:根据查询模式、数据量、并发需求等进行选择。
6. 与其他计算引擎 (Spark, Flink) 的集成。
7. 动手实践:选择一种查询加速引擎进行部署和配置,并进行查询测试
模块 8:湖仓一体的数据分析与应用 (下午)
1. 数据查询:使用 SQL 引擎 (StarRocks SQL, Doris SQL, ClickHouse SQL, Spark SQL, Presto, Trino) 进行交互式查询和分析。
2. 数据可视化:使用 BI 工具 (Tableau, Power BI, Looker) 构建可视化报表。
3. 数据湖与数据仓库的结合:
使用 StarRocks/Doris/ClickHouse 加速数据仓库中的查询。
使用 Spark/Flink 处理数据湖中的数据,并将结果加载到StarRocks/Doris/ClickHouse 中进行查询。
4. 机器学习应用:使用 Spark MLlib, TensorFlow, PyTorch 构建机器学习模型 (可选)。
5. 案例分析:湖仓一体架构在金融、电商等行业的实际应用案例。
工具与技术:
1. 数据湖存储:Apache Paimon, Apache Iceberg, Apache Hudi
2. 查询加速引擎:StarRocks, Apache Doris, ClickHouse
3. 数据计算:Apache Spark, Presto, Trino, Apache Flink
4. 元数据管理:Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
5. BI工具:Tableau, Power BI, Looker
6. 机器学习:Spark MLlib, TensorFlow, PyTorch (可选)
7. 流处理:Apache Kafka, AWS Kinesis, Apache Flink, Spark Streaming
8. 云平台:AWS, Azure, Google Cloud