课程简介
深入理解数据网格的核心概念、原则和优势。
掌握数据网格的关键技术和实践方法。
学习如何设计和构建数据网格架构。
了解数据网格的实施步骤和最佳实践。
能够评估企业是否适合采用数据网格,并制定实施计划。
目标收益
培训对象
数据架构师、数据工程师、业务负责人、数据治理专家、以及对数据网格感兴趣的技术人员。
课程大纲
第一天:数据网格核心概念与原则 模块 1:传统数据架构的挑战与数据网格的兴起 (上午) |
传统数据仓库、数据湖的局限性:集中式、烟囱式、响应慢 数据孤岛、数据蔓延、数据质量差等数据管理难题 数据网格的定义、目标和优势:面向业务、自治性、可扩展性 数据网格的核心原则: 领域所有权(Domain Ownership) 数据即产品(Data as a Product) 自服务数据平台(Self-Serve Data Platform) 联合计算治理(Federated Computational Governance) |
模块 2:数据网格与领域驱动设计 (DDD) (上午) |
领域驱动设计 (DDD) 的核心概念:领域、子领域、限界上下文 DDD在数据网格中的应用:领域划分、数据建模、服务设计 如何识别和定义数据网格中的数据领域 领域专家在数据网格中的角色与职责 动手实践:根据业务场景进行领域划分和限界上下文定义 |
模块 3:数据即产品 (Data as a Product) (下午) |
什么是数据即产品? 数据作为独立的服务单元 数据产品的特性:可发现性、可寻址性、可理解性、可信赖性、互操作性、安全性 数据产品所有者的职责:数据质量、数据安全、数据文档、数据服务 如何设计和开发数据产品 数据产品的价值评估与运营 动手实践:设计一个数据产品,并定义其特性和评估指标 |
模块 4:自服务数据平台 (Self-Serve Data Platform) (下午) |
自服务数据平台的定义和目标:简化数据访问、降低技术门槛 自服务数据平台的核心功能: 数据发现与目录 数据摄取与集成 数据转换与清洗 数据分析与可视化 数据安全与治理 如何选择和构建自服务数据平台 开源工具与云平台服务:Apache Atlas, AWS Glue, Azure Purview, Google Cloud Dataproc 动手实践:评估和选择适用于特定场景的自服务数据平台工具 |
第二天:数据网格实施与治理 模块 5:联合计算治理 (Federated Computational Governance) (上午) |
计算治理的必要性:保障数据质量、数据安全、数据合规 联合计算治理的原则:领域自治、全局一致、协作治理 计算治理的具体措施: 定义数据标准与规范 实施数据质量监控与改进 建立数据安全与访问控制策略 遵循数据合规要求 动手实践:制定数据标准和规范,以及访问控制策略 |
模块 6:数据网格实施步骤与最佳实践 (上午) |
评估企业是否适合采用数据网格:文化、组织、技术 制定数据网格实施计划:范围、阶段、里程碑 选择合适的试点项目:价值高、风险低 构建跨职能团队:领域专家、数据工程师、数据科学家 培训与赋能:提升团队的数据素养和技能 持续改进与迭代:根据反馈调整实施策略 动手实践:根据企业自身情况评估是否适合数据网格 |
模块 7:数据网格的技术实现 (下午) |
数据集成技术:ETL, ELT, CDC, 数据虚拟化 数据存储技术:对象存储, 分布式文件系统, 数据库, 数据湖存储 (如Delta Lake, Iceberg) 数据计算技术:Apache Spark, Presto, Flink, Dask, Serverless计算 API网关:Kong, Apigee, Tyk 元数据管理:Apache Atlas, Amundsen, DataHub 数据质量管理:Deequ, Great Expectations 动手实践:选择适合不同数据产品的数据集成技术,并进行简单配置 |
模块 8:数据网格的组织结构与文化变革 (下午) |
传统数据团队与数据网格团队的对比 领域数据团队的组建与职责 数据平台团队的职责与定位:提供自服务数据基础设施 组织结构调整:适应数据网格的去中心化模式 数据文化的培养:数据驱动决策、数据共享、数据协作 动手实践:设计适合特定企业的数据团队组织结构 |
第三天:数据网格高级议题与未来展望 (可选) 模块 9:数据网格的自动化与智能化 (上午) |
利用AI技术自动化数据质量监控与改进 利用机器学习实现智能数据发现与推荐 自动化数据血缘分析与影响分析 自动化安全策略配置与漏洞检测 动手实践:探索使用AI技术提升数据网格的自动化水平 |
模块 10:数据网格的安全与隐私 (上午) |
数据网格的安全挑战:去中心化带来的安全风险 数据安全的最佳实践:身份验证、授权、加密、数据脱敏、数据审计 差分隐私 (Differential Privacy) 联邦学习 (Federated Learning) 多方安全计算 (Secure Multi-Party Computation) 动手实践:设计数据网格的安全策略 |
模块 11:数据网格的治理框架与实践 (下午) |
数据治理的挑战:统一标准、协调冲突、保障合规 联合计算治理的实现: 定义全局数据标准与规范 建立领域自治的治理流程 实施跨领域的数据质量监控与改进 使用元数据管理工具进行治理协作 合规性需求:GDPR, CCPA等 动手实践:设计适用于数据网格的治理框架 |
模块 12:数据网格的未来发展趋势 (下午) |
数据网格与云原生技术的融合 数据网格与实时数据处理的结合 数据网格与AI技术的深度集成 数据网格的应用案例分享:金融、零售、医疗、制造 开放讨论:学员分享对数据网格未来发展的看法 |
可选模块 (根据客户需求调整): |
特定数据网格平台的实践: 例如,使用AWS Lake Formation构建数据网格。 领域驱动设计进阶: 深入学习DDD的战略和战术设计。 数据产品管理: 如何像管理产品一样管理数据,进行版本控制,发布和迭代。 |
工具与技术: |
数据集成: Apache Kafka, Debezium, Airbyte, Fivetran, dbt 数据存储: AWS S3, Azure Blob Storage, Google Cloud Storage, Delta Lake, Apache Iceberg, Apache Hudi 数据计算: Apache Spark, Presto, Trino, Dask, AWS Lambda, Azure Functions API 网关: Kong, Apigee, Tyk 元数据管理: Apache Atlas, Amundsen, DataHub, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog 数据质量: Deequ, Great Expectations, Soda SQL |
第一天:数据网格核心概念与原则 模块 1:传统数据架构的挑战与数据网格的兴起 (上午) 传统数据仓库、数据湖的局限性:集中式、烟囱式、响应慢 数据孤岛、数据蔓延、数据质量差等数据管理难题 数据网格的定义、目标和优势:面向业务、自治性、可扩展性 数据网格的核心原则: 领域所有权(Domain Ownership) 数据即产品(Data as a Product) 自服务数据平台(Self-Serve Data Platform) 联合计算治理(Federated Computational Governance) |
模块 2:数据网格与领域驱动设计 (DDD) (上午) 领域驱动设计 (DDD) 的核心概念:领域、子领域、限界上下文 DDD在数据网格中的应用:领域划分、数据建模、服务设计 如何识别和定义数据网格中的数据领域 领域专家在数据网格中的角色与职责 动手实践:根据业务场景进行领域划分和限界上下文定义 |
模块 3:数据即产品 (Data as a Product) (下午) 什么是数据即产品? 数据作为独立的服务单元 数据产品的特性:可发现性、可寻址性、可理解性、可信赖性、互操作性、安全性 数据产品所有者的职责:数据质量、数据安全、数据文档、数据服务 如何设计和开发数据产品 数据产品的价值评估与运营 动手实践:设计一个数据产品,并定义其特性和评估指标 |
模块 4:自服务数据平台 (Self-Serve Data Platform) (下午) 自服务数据平台的定义和目标:简化数据访问、降低技术门槛 自服务数据平台的核心功能: 数据发现与目录 数据摄取与集成 数据转换与清洗 数据分析与可视化 数据安全与治理 如何选择和构建自服务数据平台 开源工具与云平台服务:Apache Atlas, AWS Glue, Azure Purview, Google Cloud Dataproc 动手实践:评估和选择适用于特定场景的自服务数据平台工具 |
第二天:数据网格实施与治理 模块 5:联合计算治理 (Federated Computational Governance) (上午) 计算治理的必要性:保障数据质量、数据安全、数据合规 联合计算治理的原则:领域自治、全局一致、协作治理 计算治理的具体措施: 定义数据标准与规范 实施数据质量监控与改进 建立数据安全与访问控制策略 遵循数据合规要求 动手实践:制定数据标准和规范,以及访问控制策略 |
模块 6:数据网格实施步骤与最佳实践 (上午) 评估企业是否适合采用数据网格:文化、组织、技术 制定数据网格实施计划:范围、阶段、里程碑 选择合适的试点项目:价值高、风险低 构建跨职能团队:领域专家、数据工程师、数据科学家 培训与赋能:提升团队的数据素养和技能 持续改进与迭代:根据反馈调整实施策略 动手实践:根据企业自身情况评估是否适合数据网格 |
模块 7:数据网格的技术实现 (下午) 数据集成技术:ETL, ELT, CDC, 数据虚拟化 数据存储技术:对象存储, 分布式文件系统, 数据库, 数据湖存储 (如Delta Lake, Iceberg) 数据计算技术:Apache Spark, Presto, Flink, Dask, Serverless计算 API网关:Kong, Apigee, Tyk 元数据管理:Apache Atlas, Amundsen, DataHub 数据质量管理:Deequ, Great Expectations 动手实践:选择适合不同数据产品的数据集成技术,并进行简单配置 |
模块 8:数据网格的组织结构与文化变革 (下午) 传统数据团队与数据网格团队的对比 领域数据团队的组建与职责 数据平台团队的职责与定位:提供自服务数据基础设施 组织结构调整:适应数据网格的去中心化模式 数据文化的培养:数据驱动决策、数据共享、数据协作 动手实践:设计适合特定企业的数据团队组织结构 |
第三天:数据网格高级议题与未来展望 (可选) 模块 9:数据网格的自动化与智能化 (上午) 利用AI技术自动化数据质量监控与改进 利用机器学习实现智能数据发现与推荐 自动化数据血缘分析与影响分析 自动化安全策略配置与漏洞检测 动手实践:探索使用AI技术提升数据网格的自动化水平 |
模块 10:数据网格的安全与隐私 (上午) 数据网格的安全挑战:去中心化带来的安全风险 数据安全的最佳实践:身份验证、授权、加密、数据脱敏、数据审计 差分隐私 (Differential Privacy) 联邦学习 (Federated Learning) 多方安全计算 (Secure Multi-Party Computation) 动手实践:设计数据网格的安全策略 |
模块 11:数据网格的治理框架与实践 (下午) 数据治理的挑战:统一标准、协调冲突、保障合规 联合计算治理的实现: 定义全局数据标准与规范 建立领域自治的治理流程 实施跨领域的数据质量监控与改进 使用元数据管理工具进行治理协作 合规性需求:GDPR, CCPA等 动手实践:设计适用于数据网格的治理框架 |
模块 12:数据网格的未来发展趋势 (下午) 数据网格与云原生技术的融合 数据网格与实时数据处理的结合 数据网格与AI技术的深度集成 数据网格的应用案例分享:金融、零售、医疗、制造 开放讨论:学员分享对数据网格未来发展的看法 |
可选模块 (根据客户需求调整): 特定数据网格平台的实践: 例如,使用AWS Lake Formation构建数据网格。 领域驱动设计进阶: 深入学习DDD的战略和战术设计。 数据产品管理: 如何像管理产品一样管理数据,进行版本控制,发布和迭代。 |
工具与技术: 数据集成: Apache Kafka, Debezium, Airbyte, Fivetran, dbt 数据存储: AWS S3, Azure Blob Storage, Google Cloud Storage, Delta Lake, Apache Iceberg, Apache Hudi 数据计算: Apache Spark, Presto, Trino, Dask, AWS Lambda, Azure Functions API 网关: Kong, Apigee, Tyk 元数据管理: Apache Atlas, Amundsen, DataHub, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog 数据质量: Deequ, Great Expectations, Soda SQL |