湖仓一体架构设计与实践：构建统一的数据管理和分析平台-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

通过本课程您将深入学习湖仓一体架构的核心概念、优势以及典型架构设计，包括数据摄取、存储、计算、治理和应用等各层的关键组件与作用。通过对比数据湖和数据仓库的局限性，理解湖仓一体如何简化架构、降低成本并实现统一分析。在数据湖存储技术方面，课程将详细介绍 Apache Paimon、Apache Iceberg 和 Apache Hudi 等主流技术的特点、优势和劣势，并指导您进行技术选型。您将通过动手实践，学会部署和配置这些存储技术，创建数据表、导入数据并执行基本查询。通过案例分析，您将了解湖仓一体架构在金融、电商等行业的实际应用案例，学习架构设计思路和最佳实践，为实际项目提供有力参考。本课程将帮助您全面提升在数据管理和分析领域的专业技能，为企业的数字化转型提供有力支持。

目标收益

1，学员将掌握构建湖仓一体架构的关键技术和组件，包括数据湖存储、元数据管理、数据处理引擎等；
2，学员将掌握构建湖仓一体的数据湖存储技术，包括 Apache Paimon、Apache Iceberg 和 Apache Hudi，并能进行技术选型；
3，学习如何在湖仓一体架构中进行数据治理、安全和优化；
4，掌握在湖仓一体平台上进行数据分析、机器学习和实时处理的方法；
5，掌握 StarRocks、Doris、ClickHouse 作为查询加速引擎在湖仓一体架构中的应用，并能进行技术选型.

培训对象

本课程主要面向数据工程师、数据架构师、数据科学家、BI工程师、对数据管理和分析感兴趣的技术人员。

课程内容

第一天：湖仓一体核心概念、架构与数据湖存储技术
模块 1：湖仓一体：概念与优势 (上午)
1. 数据湖和数据仓库的局限性分析。
2. 传统数据架构面临的挑战：数据孤岛、数据冗余、ETL 复杂性。
3. 湖仓一体的定义、核心原则与目标：简化架构、降低成本、统一分析。
4. 湖仓一体的核心特性：ACID事务、Schema Evolution、统一治理、BI/ML支持。
5. 湖仓一体的应用场景：实时分析、机器学习、数据科学。
6. 案例分析：成功应用湖仓一体架构的企业案例。
模块 2：湖仓一体架构设计 (上午)
1. 湖仓一体的典型架构：数据摄取层、存储层、计算层、治理层、应用层。
2. 湖仓一体的数据组织方式：分层存储、数据分区、数据分桶。
3. 元数据管理在湖仓一体中的作用。
4. 湖仓一体架构的核心组件：数据湖存储、元数据管理、数据处理引擎、数据访问层、数据安全与治理。
5. 湖仓一体与数据网格的结合。
6. 查询加速引擎在湖仓一体架构中的作用 (引入 StarRocks, Doris, ClickHouse)
7. 动手实践：设计符合特定场景的湖仓一体架构，并考虑查询加速引擎的选择。
模块 3：数据湖存储技术选型与实践 (下午)
1. 数据湖存储技术：Apache Paimon, Apache Iceberg, Apache Hudi。
2. 各种技术的特点、优势和劣势对比。
3. 不同场景下的技术选型考量。
4. 动手实践：
选择一种数据湖存储技术 (Paimon, Iceberg, Hudi) 进行部署和配置。
创建数据表、导入数据、执行基本查询。
模块 4：Apache Paimon 技术详解 (下午)
1. Apache Paimon 的架构与核心特性：ACID 事务、Schema Evolution、流批一体。
2. Apache Paimon 的数据存储格式：Columnar & Row-based options.
3. Apache Paimon 的 changelog 特性: 支持增量消费.
4. Apache Paimon 的性能优化：数据压缩、数据分区、索引.
5. 动手实践：使用 Apache Paimon 创建数据表、进行数据更新和查询.
第二天：湖仓一体高级特性、查询加速与应用
模块 5：Apache Iceberg 与 Apache Hudi 技术详解 (上午)
1. Apache Iceberg 的架构与核心特性：高性能查询、Schema Evolution、隐藏分区。
2. Iceberg 的数据存储格式：Metadata Table, Data File。
3. Iceberg 的快照隔离 (Snapshot Isolation) 功能：数据一致性。
4. Iceberg 的 Compaction 机制：优化存储空间、提升查询性能。
5. Apache Hudi 的架构与核心特性：增量处理、Upsert/Delete、时间线。
6. Hudi 的数据存储格式：Copy-on-Write, Merge-on-Read。
7. Hudi 的索引技术：Bloom Filter, Range Pruning。
8. Hudi 的 Compaction 策略：异步清理、性能优化。
9. 动手实践：使用 Iceberg 和 Hudi 创建数据表、进行数据更新和查询。
模块 6：湖仓一体的数据治理与安全 (上午)
1. 数据质量管理：定义数据质量规则、监控数据质量、修复数据质量问题。
2. 数据安全管理：身份验证、授权、加密、数据脱敏。
3. 数据血缘分析：追踪数据的来源和转换过程。
4. 数据合规：GDPR, CCPA, HIPAA。
5. 元数据管理：使用 Apache Atlas, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog。
6. 动手实践：在湖仓一体平台上实施数据治理策略。
模块 7：查询加速引擎 (StarRocks, Doris, ClickHouse) 技术详解 (下午)
1. StarRocks、Doris、ClickHouse 的架构和核心特性对比。
2. StarRocks 的特点: 全链路加速、支持多种数据源。
3. Doris 的特点: 高并发、高可用、易于使用。
4. ClickHouse 的特点: 列式存储、向量化执行、高性能分析。
5. 查询加速引擎的技术选型：根据查询模式、数据量、并发需求等进行选择。
6. 与其他计算引擎 (Spark, Flink) 的集成。
7. 动手实践：选择一种查询加速引擎进行部署和配置，并进行查询测试
模块 8：湖仓一体的数据分析与应用 (下午)
1. 数据查询：使用 SQL 引擎 (StarRocks SQL, Doris SQL, ClickHouse SQL, Spark SQL, Presto, Trino) 进行交互式查询和分析。
2. 数据可视化：使用 BI 工具 (Tableau, Power BI, Looker) 构建可视化报表。
3. 数据湖与数据仓库的结合：
使用 StarRocks/Doris/ClickHouse 加速数据仓库中的查询。
使用 Spark/Flink 处理数据湖中的数据，并将结果加载到StarRocks/Doris/ClickHouse 中进行查询。
4. 机器学习应用：使用 Spark MLlib, TensorFlow, PyTorch 构建机器学习模型 (可选)。
5. 案例分析：湖仓一体架构在金融、电商等行业的实际应用案例。
工具与技术：
1. 数据湖存储：Apache Paimon, Apache Iceberg, Apache Hudi
2. 查询加速引擎：StarRocks, Apache Doris, ClickHouse
3. 数据计算：Apache Spark, Presto, Trino, Apache Flink
4. 元数据管理：Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
5. BI工具：Tableau, Power BI, Looker
6. 机器学习：Spark MLlib, TensorFlow, PyTorch (可选)
7. 流处理：Apache Kafka, AWS Kinesis, Apache Flink, Spark Streaming
8. 云平台：AWS, Azure, Google Cloud

湖仓一体架构设计与实践：构建统一的数据管理和分析平台

张老师

资深架构师，流式计算领域专家

课程费用

6800.00 /人

课程时长

2天