数据网格（Data Mesh）：构建面向业务的数据自治与敏捷性-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

深入理解数据网格的核心概念、原则和优势。
掌握数据网格的关键技术和实践方法。
学习如何设计和构建数据网格架构。
了解数据网格的实施步骤和最佳实践。
能够评估企业是否适合采用数据网格，并制定实施计划。

目标收益

培训对象

数据架构师、数据工程师、业务负责人、数据治理专家、以及对数据网格感兴趣的技术人员。

课程大纲

第一天：数据网格核心概念与原则模块 1：传统数据架构的挑战与数据网格的兴起 (上午)	传统数据仓库、数据湖的局限性：集中式、烟囱式、响应慢数据孤岛、数据蔓延、数据质量差等数据管理难题数据网格的定义、目标和优势：面向业务、自治性、可扩展性数据网格的核心原则：领域所有权（Domain Ownership）数据即产品（Data as a Product）自服务数据平台（Self-Serve Data Platform）联合计算治理（Federated Computational Governance）
模块 2：数据网格与领域驱动设计 (DDD) (上午)	领域驱动设计 (DDD) 的核心概念：领域、子领域、限界上下文 DDD在数据网格中的应用：领域划分、数据建模、服务设计如何识别和定义数据网格中的数据领域领域专家在数据网格中的角色与职责动手实践：根据业务场景进行领域划分和限界上下文定义
模块 3：数据即产品 (Data as a Product) (下午)	什么是数据即产品？数据作为独立的服务单元数据产品的特性：可发现性、可寻址性、可理解性、可信赖性、互操作性、安全性数据产品所有者的职责：数据质量、数据安全、数据文档、数据服务如何设计和开发数据产品数据产品的价值评估与运营动手实践：设计一个数据产品，并定义其特性和评估指标
模块 4：自服务数据平台 (Self-Serve Data Platform) (下午)	自服务数据平台的定义和目标：简化数据访问、降低技术门槛自服务数据平台的核心功能：数据发现与目录数据摄取与集成数据转换与清洗数据分析与可视化数据安全与治理如何选择和构建自服务数据平台开源工具与云平台服务：Apache Atlas, AWS Glue, Azure Purview, Google Cloud Dataproc 动手实践：评估和选择适用于特定场景的自服务数据平台工具
第二天：数据网格实施与治理模块 5：联合计算治理 (Federated Computational Governance) (上午)	计算治理的必要性：保障数据质量、数据安全、数据合规联合计算治理的原则：领域自治、全局一致、协作治理计算治理的具体措施：定义数据标准与规范实施数据质量监控与改进建立数据安全与访问控制策略遵循数据合规要求动手实践：制定数据标准和规范，以及访问控制策略
模块 6：数据网格实施步骤与最佳实践 (上午)	评估企业是否适合采用数据网格：文化、组织、技术制定数据网格实施计划：范围、阶段、里程碑选择合适的试点项目：价值高、风险低构建跨职能团队：领域专家、数据工程师、数据科学家培训与赋能：提升团队的数据素养和技能持续改进与迭代：根据反馈调整实施策略动手实践：根据企业自身情况评估是否适合数据网格
模块 7：数据网格的技术实现 (下午)	数据集成技术：ETL, ELT, CDC, 数据虚拟化数据存储技术：对象存储, 分布式文件系统, 数据库, 数据湖存储 (如Delta Lake, Iceberg) 数据计算技术：Apache Spark, Presto, Flink, Dask, Serverless计算 API网关：Kong, Apigee, Tyk 元数据管理：Apache Atlas, Amundsen, DataHub 数据质量管理：Deequ, Great Expectations 动手实践：选择适合不同数据产品的数据集成技术，并进行简单配置
模块 8：数据网格的组织结构与文化变革 (下午)	传统数据团队与数据网格团队的对比领域数据团队的组建与职责数据平台团队的职责与定位：提供自服务数据基础设施组织结构调整：适应数据网格的去中心化模式数据文化的培养：数据驱动决策、数据共享、数据协作动手实践：设计适合特定企业的数据团队组织结构
第三天：数据网格高级议题与未来展望 (可选) 模块 9：数据网格的自动化与智能化 (上午)	利用AI技术自动化数据质量监控与改进利用机器学习实现智能数据发现与推荐自动化数据血缘分析与影响分析自动化安全策略配置与漏洞检测动手实践：探索使用AI技术提升数据网格的自动化水平
模块 10：数据网格的安全与隐私 (上午)	数据网格的安全挑战：去中心化带来的安全风险数据安全的最佳实践：身份验证、授权、加密、数据脱敏、数据审计差分隐私 (Differential Privacy) 联邦学习 (Federated Learning) 多方安全计算 (Secure Multi-Party Computation) 动手实践：设计数据网格的安全策略
模块 11：数据网格的治理框架与实践 (下午)	数据治理的挑战：统一标准、协调冲突、保障合规联合计算治理的实现：定义全局数据标准与规范建立领域自治的治理流程实施跨领域的数据质量监控与改进使用元数据管理工具进行治理协作合规性需求：GDPR, CCPA等动手实践：设计适用于数据网格的治理框架
模块 12：数据网格的未来发展趋势 (下午)	数据网格与云原生技术的融合数据网格与实时数据处理的结合数据网格与AI技术的深度集成数据网格的应用案例分享：金融、零售、医疗、制造开放讨论：学员分享对数据网格未来发展的看法
可选模块 (根据客户需求调整):	特定数据网格平台的实践: 例如，使用AWS Lake Formation构建数据网格。领域驱动设计进阶: 深入学习DDD的战略和战术设计。数据产品管理: 如何像管理产品一样管理数据，进行版本控制，发布和迭代。
工具与技术:	数据集成： Apache Kafka, Debezium, Airbyte, Fivetran, dbt 数据存储： AWS S3, Azure Blob Storage, Google Cloud Storage, Delta Lake, Apache Iceberg, Apache Hudi 数据计算： Apache Spark, Presto, Trino, Dask, AWS Lambda, Azure Functions API 网关： Kong, Apigee, Tyk 元数据管理： Apache Atlas, Amundsen, DataHub, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog 数据质量： Deequ, Great Expectations, Soda SQL

第一天：数据网格核心概念与原则
模块 1：传统数据架构的挑战与数据网格的兴起 (上午)

传统数据仓库、数据湖的局限性：集中式、烟囱式、响应慢
数据孤岛、数据蔓延、数据质量差等数据管理难题
数据网格的定义、目标和优势：面向业务、自治性、可扩展性
数据网格的核心原则：
领域所有权（Domain Ownership）
数据即产品（Data as a Product）
自服务数据平台（Self-Serve Data Platform）
联合计算治理（Federated Computational Governance）

模块 2：数据网格与领域驱动设计 (DDD) (上午)

领域驱动设计 (DDD) 的核心概念：领域、子领域、限界上下文
DDD在数据网格中的应用：领域划分、数据建模、服务设计
如何识别和定义数据网格中的数据领域
领域专家在数据网格中的角色与职责
动手实践：根据业务场景进行领域划分和限界上下文定义

模块 3：数据即产品 (Data as a Product) (下午)

什么是数据即产品？数据作为独立的服务单元
数据产品的特性：可发现性、可寻址性、可理解性、可信赖性、互操作性、安全性
数据产品所有者的职责：数据质量、数据安全、数据文档、数据服务
如何设计和开发数据产品
数据产品的价值评估与运营
动手实践：设计一个数据产品，并定义其特性和评估指标

模块 4：自服务数据平台 (Self-Serve Data Platform) (下午)

自服务数据平台的定义和目标：简化数据访问、降低技术门槛
自服务数据平台的核心功能：
数据发现与目录
数据摄取与集成
数据转换与清洗
数据分析与可视化
数据安全与治理
如何选择和构建自服务数据平台
开源工具与云平台服务：Apache Atlas, AWS Glue, Azure Purview, Google Cloud Dataproc
动手实践：评估和选择适用于特定场景的自服务数据平台工具

第二天：数据网格实施与治理
模块 5：联合计算治理 (Federated Computational Governance) (上午)

计算治理的必要性：保障数据质量、数据安全、数据合规
联合计算治理的原则：领域自治、全局一致、协作治理
计算治理的具体措施：
定义数据标准与规范
实施数据质量监控与改进
建立数据安全与访问控制策略
遵循数据合规要求
动手实践：制定数据标准和规范，以及访问控制策略

模块 6：数据网格实施步骤与最佳实践 (上午)

评估企业是否适合采用数据网格：文化、组织、技术
制定数据网格实施计划：范围、阶段、里程碑
选择合适的试点项目：价值高、风险低
构建跨职能团队：领域专家、数据工程师、数据科学家
培训与赋能：提升团队的数据素养和技能
持续改进与迭代：根据反馈调整实施策略
动手实践：根据企业自身情况评估是否适合数据网格

模块 7：数据网格的技术实现 (下午)

数据集成技术：ETL, ELT, CDC, 数据虚拟化
数据存储技术：对象存储, 分布式文件系统, 数据库, 数据湖存储 (如Delta Lake, Iceberg)
数据计算技术：Apache Spark, Presto, Flink, Dask, Serverless计算
API网关：Kong, Apigee, Tyk
元数据管理：Apache Atlas, Amundsen, DataHub
数据质量管理：Deequ, Great Expectations
动手实践：选择适合不同数据产品的数据集成技术，并进行简单配置

模块 8：数据网格的组织结构与文化变革 (下午)

传统数据团队与数据网格团队的对比
领域数据团队的组建与职责
数据平台团队的职责与定位：提供自服务数据基础设施
组织结构调整：适应数据网格的去中心化模式
数据文化的培养：数据驱动决策、数据共享、数据协作
动手实践：设计适合特定企业的数据团队组织结构

第三天：数据网格高级议题与未来展望 (可选)
模块 9：数据网格的自动化与智能化 (上午)

利用AI技术自动化数据质量监控与改进
利用机器学习实现智能数据发现与推荐
自动化数据血缘分析与影响分析
自动化安全策略配置与漏洞检测
动手实践：探索使用AI技术提升数据网格的自动化水平

模块 10：数据网格的安全与隐私 (上午)

数据网格的安全挑战：去中心化带来的安全风险
数据安全的最佳实践：身份验证、授权、加密、数据脱敏、数据审计
差分隐私 (Differential Privacy)
联邦学习 (Federated Learning)
多方安全计算 (Secure Multi-Party Computation)
动手实践：设计数据网格的安全策略

模块 11：数据网格的治理框架与实践 (下午)

数据治理的挑战：统一标准、协调冲突、保障合规
联合计算治理的实现：
定义全局数据标准与规范
建立领域自治的治理流程
实施跨领域的数据质量监控与改进
使用元数据管理工具进行治理协作
合规性需求：GDPR, CCPA等
动手实践：设计适用于数据网格的治理框架

模块 12：数据网格的未来发展趋势 (下午)

数据网格与云原生技术的融合
数据网格与实时数据处理的结合
数据网格与AI技术的深度集成
数据网格的应用案例分享：金融、零售、医疗、制造
开放讨论：学员分享对数据网格未来发展的看法

可选模块 (根据客户需求调整):

特定数据网格平台的实践: 例如，使用AWS Lake Formation构建数据网格。
领域驱动设计进阶: 深入学习DDD的战略和战术设计。
数据产品管理: 如何像管理产品一样管理数据，进行版本控制，发布和迭代。

工具与技术:

数据集成： Apache Kafka, Debezium, Airbyte, Fivetran, dbt
数据存储： AWS S3, Azure Blob Storage, Google Cloud Storage, Delta Lake, Apache Iceberg, Apache Hudi
数据计算： Apache Spark, Presto, Trino, Dask, AWS Lambda, Azure Functions
API 网关： Kong, Apigee, Tyk
元数据管理： Apache Atlas, Amundsen, DataHub, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
数据质量： Deequ, Great Expectations, Soda SQL

数据网格（Data Mesh）：构建面向业务的数据自治与敏捷性

Leon

资深架构师，流式计算领域专家

课程费用

6800.00 /人

课程时长

3天