课程费用

6800.00 /人

课程时长

3

成为教练

课程简介

深入理解数据网格的核心概念、原则和优势。
掌握数据网格的关键技术和实践方法。
学习如何设计和构建数据网格架构。
了解数据网格的实施步骤和最佳实践。
能够评估企业是否适合采用数据网格,并制定实施计划。

目标收益

培训对象

数据架构师、数据工程师、业务负责人、数据治理专家、以及对数据网格感兴趣的技术人员。

课程大纲

第一天:数据网格核心概念与原则
模块 1:传统数据架构的挑战与数据网格的兴起 (上午)
传统数据仓库、数据湖的局限性:集中式、烟囱式、响应慢
数据孤岛、数据蔓延、数据质量差等数据管理难题
数据网格的定义、目标和优势:面向业务、自治性、可扩展性
数据网格的核心原则:
领域所有权(Domain Ownership)
数据即产品(Data as a Product)
自服务数据平台(Self-Serve Data Platform)
联合计算治理(Federated Computational Governance)
模块 2:数据网格与领域驱动设计 (DDD) (上午) 领域驱动设计 (DDD) 的核心概念:领域、子领域、限界上下文
DDD在数据网格中的应用:领域划分、数据建模、服务设计
如何识别和定义数据网格中的数据领域
领域专家在数据网格中的角色与职责
动手实践:根据业务场景进行领域划分和限界上下文定义
模块 3:数据即产品 (Data as a Product) (下午) 什么是数据即产品? 数据作为独立的服务单元
数据产品的特性:可发现性、可寻址性、可理解性、可信赖性、互操作性、安全性
数据产品所有者的职责:数据质量、数据安全、数据文档、数据服务
如何设计和开发数据产品
数据产品的价值评估与运营
动手实践:设计一个数据产品,并定义其特性和评估指标
模块 4:自服务数据平台 (Self-Serve Data Platform) (下午) 自服务数据平台的定义和目标:简化数据访问、降低技术门槛
自服务数据平台的核心功能:
数据发现与目录
数据摄取与集成
数据转换与清洗
数据分析与可视化
数据安全与治理
如何选择和构建自服务数据平台
开源工具与云平台服务:Apache Atlas, AWS Glue, Azure Purview, Google Cloud Dataproc
动手实践:评估和选择适用于特定场景的自服务数据平台工具
第二天:数据网格实施与治理
模块 5:联合计算治理 (Federated Computational Governance) (上午)
计算治理的必要性:保障数据质量、数据安全、数据合规
联合计算治理的原则:领域自治、全局一致、协作治理
计算治理的具体措施:
定义数据标准与规范
实施数据质量监控与改进
建立数据安全与访问控制策略
遵循数据合规要求
动手实践:制定数据标准和规范,以及访问控制策略
模块 6:数据网格实施步骤与最佳实践 (上午) 评估企业是否适合采用数据网格:文化、组织、技术
制定数据网格实施计划:范围、阶段、里程碑
选择合适的试点项目:价值高、风险低
构建跨职能团队:领域专家、数据工程师、数据科学家
培训与赋能:提升团队的数据素养和技能
持续改进与迭代:根据反馈调整实施策略
动手实践:根据企业自身情况评估是否适合数据网格
模块 7:数据网格的技术实现 (下午) 数据集成技术:ETL, ELT, CDC, 数据虚拟化
数据存储技术:对象存储, 分布式文件系统, 数据库, 数据湖存储 (如Delta Lake, Iceberg)
数据计算技术:Apache Spark, Presto, Flink, Dask, Serverless计算
API网关:Kong, Apigee, Tyk
元数据管理:Apache Atlas, Amundsen, DataHub
数据质量管理:Deequ, Great Expectations
动手实践:选择适合不同数据产品的数据集成技术,并进行简单配置
模块 8:数据网格的组织结构与文化变革 (下午) 传统数据团队与数据网格团队的对比
领域数据团队的组建与职责
数据平台团队的职责与定位:提供自服务数据基础设施
组织结构调整:适应数据网格的去中心化模式
数据文化的培养:数据驱动决策、数据共享、数据协作
动手实践:设计适合特定企业的数据团队组织结构
第三天:数据网格高级议题与未来展望 (可选)
模块 9:数据网格的自动化与智能化 (上午)
利用AI技术自动化数据质量监控与改进
利用机器学习实现智能数据发现与推荐
自动化数据血缘分析与影响分析
自动化安全策略配置与漏洞检测
动手实践:探索使用AI技术提升数据网格的自动化水平
模块 10:数据网格的安全与隐私 (上午) 数据网格的安全挑战:去中心化带来的安全风险
数据安全的最佳实践:身份验证、授权、加密、数据脱敏、数据审计
差分隐私 (Differential Privacy)
联邦学习 (Federated Learning)
多方安全计算 (Secure Multi-Party Computation)
动手实践:设计数据网格的安全策略
模块 11:数据网格的治理框架与实践 (下午) 数据治理的挑战:统一标准、协调冲突、保障合规
联合计算治理的实现:
定义全局数据标准与规范
建立领域自治的治理流程
实施跨领域的数据质量监控与改进
使用元数据管理工具进行治理协作
合规性需求:GDPR, CCPA等
动手实践:设计适用于数据网格的治理框架
模块 12:数据网格的未来发展趋势 (下午) 数据网格与云原生技术的融合
数据网格与实时数据处理的结合
数据网格与AI技术的深度集成
数据网格的应用案例分享:金融、零售、医疗、制造
开放讨论:学员分享对数据网格未来发展的看法
可选模块 (根据客户需求调整): 特定数据网格平台的实践: 例如,使用AWS Lake Formation构建数据网格。
领域驱动设计进阶: 深入学习DDD的战略和战术设计。
数据产品管理: 如何像管理产品一样管理数据,进行版本控制,发布和迭代。
工具与技术: 数据集成: Apache Kafka, Debezium, Airbyte, Fivetran, dbt
数据存储: AWS S3, Azure Blob Storage, Google Cloud Storage, Delta Lake, Apache Iceberg, Apache Hudi
数据计算: Apache Spark, Presto, Trino, Dask, AWS Lambda, Azure Functions
API 网关: Kong, Apigee, Tyk
元数据管理: Apache Atlas, Amundsen, DataHub, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
数据质量: Deequ, Great Expectations, Soda SQL
第一天:数据网格核心概念与原则
模块 1:传统数据架构的挑战与数据网格的兴起 (上午)
传统数据仓库、数据湖的局限性:集中式、烟囱式、响应慢
数据孤岛、数据蔓延、数据质量差等数据管理难题
数据网格的定义、目标和优势:面向业务、自治性、可扩展性
数据网格的核心原则:
领域所有权(Domain Ownership)
数据即产品(Data as a Product)
自服务数据平台(Self-Serve Data Platform)
联合计算治理(Federated Computational Governance)
模块 2:数据网格与领域驱动设计 (DDD) (上午)
领域驱动设计 (DDD) 的核心概念:领域、子领域、限界上下文
DDD在数据网格中的应用:领域划分、数据建模、服务设计
如何识别和定义数据网格中的数据领域
领域专家在数据网格中的角色与职责
动手实践:根据业务场景进行领域划分和限界上下文定义
模块 3:数据即产品 (Data as a Product) (下午)
什么是数据即产品? 数据作为独立的服务单元
数据产品的特性:可发现性、可寻址性、可理解性、可信赖性、互操作性、安全性
数据产品所有者的职责:数据质量、数据安全、数据文档、数据服务
如何设计和开发数据产品
数据产品的价值评估与运营
动手实践:设计一个数据产品,并定义其特性和评估指标
模块 4:自服务数据平台 (Self-Serve Data Platform) (下午)
自服务数据平台的定义和目标:简化数据访问、降低技术门槛
自服务数据平台的核心功能:
数据发现与目录
数据摄取与集成
数据转换与清洗
数据分析与可视化
数据安全与治理
如何选择和构建自服务数据平台
开源工具与云平台服务:Apache Atlas, AWS Glue, Azure Purview, Google Cloud Dataproc
动手实践:评估和选择适用于特定场景的自服务数据平台工具
第二天:数据网格实施与治理
模块 5:联合计算治理 (Federated Computational Governance) (上午)
计算治理的必要性:保障数据质量、数据安全、数据合规
联合计算治理的原则:领域自治、全局一致、协作治理
计算治理的具体措施:
定义数据标准与规范
实施数据质量监控与改进
建立数据安全与访问控制策略
遵循数据合规要求
动手实践:制定数据标准和规范,以及访问控制策略
模块 6:数据网格实施步骤与最佳实践 (上午)
评估企业是否适合采用数据网格:文化、组织、技术
制定数据网格实施计划:范围、阶段、里程碑
选择合适的试点项目:价值高、风险低
构建跨职能团队:领域专家、数据工程师、数据科学家
培训与赋能:提升团队的数据素养和技能
持续改进与迭代:根据反馈调整实施策略
动手实践:根据企业自身情况评估是否适合数据网格
模块 7:数据网格的技术实现 (下午)
数据集成技术:ETL, ELT, CDC, 数据虚拟化
数据存储技术:对象存储, 分布式文件系统, 数据库, 数据湖存储 (如Delta Lake, Iceberg)
数据计算技术:Apache Spark, Presto, Flink, Dask, Serverless计算
API网关:Kong, Apigee, Tyk
元数据管理:Apache Atlas, Amundsen, DataHub
数据质量管理:Deequ, Great Expectations
动手实践:选择适合不同数据产品的数据集成技术,并进行简单配置
模块 8:数据网格的组织结构与文化变革 (下午)
传统数据团队与数据网格团队的对比
领域数据团队的组建与职责
数据平台团队的职责与定位:提供自服务数据基础设施
组织结构调整:适应数据网格的去中心化模式
数据文化的培养:数据驱动决策、数据共享、数据协作
动手实践:设计适合特定企业的数据团队组织结构
第三天:数据网格高级议题与未来展望 (可选)
模块 9:数据网格的自动化与智能化 (上午)
利用AI技术自动化数据质量监控与改进
利用机器学习实现智能数据发现与推荐
自动化数据血缘分析与影响分析
自动化安全策略配置与漏洞检测
动手实践:探索使用AI技术提升数据网格的自动化水平
模块 10:数据网格的安全与隐私 (上午)
数据网格的安全挑战:去中心化带来的安全风险
数据安全的最佳实践:身份验证、授权、加密、数据脱敏、数据审计
差分隐私 (Differential Privacy)
联邦学习 (Federated Learning)
多方安全计算 (Secure Multi-Party Computation)
动手实践:设计数据网格的安全策略
模块 11:数据网格的治理框架与实践 (下午)
数据治理的挑战:统一标准、协调冲突、保障合规
联合计算治理的实现:
定义全局数据标准与规范
建立领域自治的治理流程
实施跨领域的数据质量监控与改进
使用元数据管理工具进行治理协作
合规性需求:GDPR, CCPA等
动手实践:设计适用于数据网格的治理框架
模块 12:数据网格的未来发展趋势 (下午)
数据网格与云原生技术的融合
数据网格与实时数据处理的结合
数据网格与AI技术的深度集成
数据网格的应用案例分享:金融、零售、医疗、制造
开放讨论:学员分享对数据网格未来发展的看法
可选模块 (根据客户需求调整):
特定数据网格平台的实践: 例如,使用AWS Lake Formation构建数据网格。
领域驱动设计进阶: 深入学习DDD的战略和战术设计。
数据产品管理: 如何像管理产品一样管理数据,进行版本控制,发布和迭代。
工具与技术:
数据集成: Apache Kafka, Debezium, Airbyte, Fivetran, dbt
数据存储: AWS S3, Azure Blob Storage, Google Cloud Storage, Delta Lake, Apache Iceberg, Apache Hudi
数据计算: Apache Spark, Presto, Trino, Dask, AWS Lambda, Azure Functions
API 网关: Kong, Apigee, Tyk
元数据管理: Apache Atlas, Amundsen, DataHub, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
数据质量: Deequ, Great Expectations, Soda SQL

课程费用

6800.00 /人

课程时长

3

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求