课程简介
随着大数据技术的使用越来越广泛,企业面临数据整合、数据分层、数据管理、数据使用、 数据湖等问题尤为的重要。使得基于大数据平台的数据仓库和数据湖建设非常的必要。本次 大数据数据仓库的培训理论和实践相结合,通过一些企业级的真实案例实现基于大数据平台 数仓、数据湖的建设。
目标收益
1. 数据仓库和数据湖的概念和架构
2. 数据建模的技术、流程和注意点
3. 数据整合、处理和展示的流程
4. 基于大数据平台实现数据仓库、数据湖的技术和案例分享
5. 电信和银行等传统行业大数据平台数据仓库、数据湖的落地案例和经验分享
6. 关系模型和维度模型的应用场景
培训对象
数据架构师、数据分析和挖掘人员、模型师、大数据架构师、ETL 开发工程师、业务人员
课程大纲
第一章 数据仓库和数据湖介绍 |
1.数据仓库体系结构 2.数据仓库建设过程方法论 3.数仓五层结构 4.数据仓库模型设计 5.数据湖体系架构 6.数据湖技术架构 7.数据湖构建步骤 8.数据服务概念 9.数仓和数据湖的区别 |
第二章 数据建模介绍 |
1. 数据建模概念 2. 为什么要数据建模 3. 数据建模的方法论介绍 4. 概念模型 5. 逻辑模型 6. 物理模型 7. 数据建模常用工具介绍 |
第三章 数据建模实战(维度模型) |
1. 维度建模概念 2. 为什么要维度建模 3. 维度表介绍 4. 维度种类 5. 缓慢变化维处理 6. 快速变化维处理 7. 代理键 8. 维度的三种模型介绍:星型模型、雪花模型、多维模型 9. 事实表的类型 10. 基于维度模型数据仓库的基本概念 11. 维度模型建设步骤 |
第四章 范式建模和维度建模的比较 |
1. 企业级数据仓库范式建模和维度建模的引用场景 2. 范式建模解决的问题领域 3. 维度建模解决的问题领域 4. 关系建模和维度建模的比较 |
第五章 数据仓库设计架构 |
1. 数据仓库典型架构介绍:、ODS 层、DW 层、DM 层 2. 数据安全控制 3. ETL 任务调度 |
第六章 数据仓库和数据湖总体架构 |
1.数据仓库典型架构介绍 —ODS层 —DW层 —DM层 —ADS层 2.数据体系规划 3.数据分层思想 4.贴源层数据建设 5.统一数据底座建设 6.数据集市建设设计 7.标签数据层建设计 8.应用数据层建设 |
第七章 指标数据建模案例分享 |
1.业务需求 2.数仓总线矩阵梳理 3.维度建模 – 选择业务过程 4.维度建模 – 声明粒度 5.维度建模 – 确定维度 6.维度建模 – 确定事实 7.维度建模 – 模型的扩展与集成 8.ETL&BI设计 – 金字塔原理 9.数据底座建设理念和线路 10.指标关联关系矩阵 |
第八章: 数据湖的数据架构数据架构实战 |
1.数据接入大数据平台 —离线数据接入 —实时的数据接入 2.数据处理过程 —数据的 ETL —数据分层(ODS、DW 和 DM 等) —数据建模 —数据校验 3.数据应用 —数据离线应用 —数据实时应用 —数据实验室 —数据展示工具(BI 工具) |
第九章 数据湖落地技术实战 |
1. RDBMS 导入导出到 hadoop 数据仓库 2. Sqoop 工具介绍和使用 3. DataX 工具介绍 4. CDC 工具介绍(Oracle OGG 和 Mysql Binlog) 5. Flink CDC介绍和实战 6. 实时非结构化数据的采集 7. 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 8. 基于 Hadoop、Spark、Flink 数据湖的数据分层(ODS、DW、 DWS/B、DM、ST) 9. 数据湖不同层之间的数据交互和 ETL |
第十章 案例实战分享(数据仓库建设0到1) |
1.离线数据平台典型架构介绍 2.流式数据平台典型架构介绍 3.流批一体数据平台典型架构介绍 4.数据仓库0到1建设案例分享 5.数据仓库建设规范 6.自上而下和自下而上的建设融合 7.数据分层架构和注意事项 8.数据分层设计原则和ETL处理流 9.数据分层公共数据下沉设计准侧 10.数据标准和口径梳理流程,解决数据口径的不一致 11.如何将业务需求梳理成数据需求从而设计ADS数据服务应用分享 12.如何控制数据处理链路,实现高效的数据处理 13.数据集市建设的要点和注意点 14.批量数据装载、整合、处理和全流程ETL处理过程最佳实战 15.实时数据抽取、整合、处理和全流程ETL处理过程最佳实战 |
第一章 数据仓库和数据湖介绍 1.数据仓库体系结构 2.数据仓库建设过程方法论 3.数仓五层结构 4.数据仓库模型设计 5.数据湖体系架构 6.数据湖技术架构 7.数据湖构建步骤 8.数据服务概念 9.数仓和数据湖的区别 |
第二章 数据建模介绍 1. 数据建模概念 2. 为什么要数据建模 3. 数据建模的方法论介绍 4. 概念模型 5. 逻辑模型 6. 物理模型 7. 数据建模常用工具介绍 |
第三章 数据建模实战(维度模型) 1. 维度建模概念 2. 为什么要维度建模 3. 维度表介绍 4. 维度种类 5. 缓慢变化维处理 6. 快速变化维处理 7. 代理键 8. 维度的三种模型介绍:星型模型、雪花模型、多维模型 9. 事实表的类型 10. 基于维度模型数据仓库的基本概念 11. 维度模型建设步骤 |
第四章 范式建模和维度建模的比较 1. 企业级数据仓库范式建模和维度建模的引用场景 2. 范式建模解决的问题领域 3. 维度建模解决的问题领域 4. 关系建模和维度建模的比较 |
第五章 数据仓库设计架构 1. 数据仓库典型架构介绍:、ODS 层、DW 层、DM 层 2. 数据安全控制 3. ETL 任务调度 |
第六章 数据仓库和数据湖总体架构 1.数据仓库典型架构介绍 —ODS层 —DW层 —DM层 —ADS层 2.数据体系规划 3.数据分层思想 4.贴源层数据建设 5.统一数据底座建设 6.数据集市建设设计 7.标签数据层建设计 8.应用数据层建设 |
第七章 指标数据建模案例分享 1.业务需求 2.数仓总线矩阵梳理 3.维度建模 – 选择业务过程 4.维度建模 – 声明粒度 5.维度建模 – 确定维度 6.维度建模 – 确定事实 7.维度建模 – 模型的扩展与集成 8.ETL&BI设计 – 金字塔原理 9.数据底座建设理念和线路 10.指标关联关系矩阵 |
第八章: 数据湖的数据架构数据架构实战 1.数据接入大数据平台 —离线数据接入 —实时的数据接入 2.数据处理过程 —数据的 ETL —数据分层(ODS、DW 和 DM 等) —数据建模 —数据校验 3.数据应用 —数据离线应用 —数据实时应用 —数据实验室 —数据展示工具(BI 工具) |
第九章 数据湖落地技术实战 1. RDBMS 导入导出到 hadoop 数据仓库 2. Sqoop 工具介绍和使用 3. DataX 工具介绍 4. CDC 工具介绍(Oracle OGG 和 Mysql Binlog) 5. Flink CDC介绍和实战 6. 实时非结构化数据的采集 7. 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 8. 基于 Hadoop、Spark、Flink 数据湖的数据分层(ODS、DW、 DWS/B、DM、ST) 9. 数据湖不同层之间的数据交互和 ETL |
第十章 案例实战分享(数据仓库建设0到1) 1.离线数据平台典型架构介绍 2.流式数据平台典型架构介绍 3.流批一体数据平台典型架构介绍 4.数据仓库0到1建设案例分享 5.数据仓库建设规范 6.自上而下和自下而上的建设融合 7.数据分层架构和注意事项 8.数据分层设计原则和ETL处理流 9.数据分层公共数据下沉设计准侧 10.数据标准和口径梳理流程,解决数据口径的不一致 11.如何将业务需求梳理成数据需求从而设计ADS数据服务应用分享 12.如何控制数据处理链路,实现高效的数据处理 13.数据集市建设的要点和注意点 14.批量数据装载、整合、处理和全流程ETL处理过程最佳实战 15.实时数据抽取、整合、处理和全流程ETL处理过程最佳实战 |