课程简介
理解智能数据湖的核心概念、架构和优势。
掌握构建现代数据湖的最新技术栈。
学习数据湖中的数据治理、安全和合规。
掌握在数据湖中进行高效数据分析和探索的方法。
学习将AI和机器学习集成到数据湖中,实现智能化数据洞察。
了解数据湖的应用场景和最佳实践。
目标收益
培训对象
数据工程师、数据架构师、数据科学家、数据分析师、以及对构建智能数据湖感兴趣的技术人员。
课程内容
第一天:数据湖基础与现代架构
模块 1:数据湖概念与演进 (上午)
o数据湖的定义、特点和优势
o数据湖与数据仓库、数据集市的对比
o传统数据湖的挑战与智能数据湖的演进
o智能数据湖的关键特性:元数据驱动、自动化、AI集成
o智能数据湖的应用场景:实时分析、数据科学、商业智能
模块 2:现代数据湖架构设计 (上午)
o数据湖架构的构成要素:存储、计算、元数据、安全、治理
o分层数据湖架构:Raw Layer, Curated Layer, Analytics Layer
o湖仓一体 (Lakehouse) 架构:Delta Lake, Apache Iceberg, Apache Hudi
o数据网格 (Data Mesh) 架构:去中心化数据管理与自治域
o选择合适的架构模式:根据业务需求和技术栈
o动手实践:讨论并设计符合特定场景的数据湖架构
模块 3:数据湖存储与计算 (下午)
o数据湖存储技术:对象存储 (Amazon S3, Azure Blob Storage, Google Cloud Storage)
o数据湖计算引擎:Apache Spark, Presto, Trino, Dask
o无服务器计算:AWS Lambda, Azure Functions, Google Cloud Functions
o选择合适的存储和计算引擎:根据数据量、查询模式和成本
o性能优化:数据分区、压缩、索引、缓存
o动手实践:使用Spark读取对象存储中的数据并进行简单计算
模块 4:数据摄取与集成 (下午)
o数据摄取模式:批量摄取、流式摄取、增量摄取
o数据摄取工具:Apache Kafka, Apache NiFi, AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
oCDC (Change Data Capture) 技术:Debezium, Maxwell
o数据格式与序列化:Parquet, Avro, ORC
o数据质量保证:数据清洗、数据验证、数据转换
o动手实践:使用Kafka将流式数据摄取到数据湖中
第二天:数据治理、安全与分析
模块 5:数据湖元数据管理 (上午)
o元数据的重要性:数据发现、数据理解、数据治理
o元数据管理工具:Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
o统一元数据标准:Apache Atlas
o数据血缘分析:追踪数据的来源和转换过程
o数据字典与业务术语表:定义和管理数据资产
o动手实践:使用AWS Glue Data Catalog创建和管理数据湖的元数据
模块 6:数据湖安全与合规 (上午)
o数据湖安全挑战:数据泄露、权限控制、访问审计
o数据湖安全措施:身份验证、授权、加密、数据脱敏
o访问控制策略:基于角色 (RBAC)、基于属性 (ABAC)
o数据审计与监控:追踪用户行为、检测异常访问
o数据合规:GDPR, CCPA, HIPAA
o动手实践:配置数据湖的访问权限控制策略
模块 7:数据湖分析与探索 (下午)
o数据分析工具:SQL引擎 (Spark SQL, Presto, Trino), BI工具 (Tableau, Power BI, Looker)
o交互式数据探索:使用Jupyter Notebook, Zeppelin
o高级分析技术:OLAP, 数据挖掘, 统计分析
o实时分析:使用Spark Streaming, Flink进行流式数据分析
o动手实践:使用SQL引擎查询数据湖中的数据并生成分析报告
模块 8:数据湖数据质量管理 (下午)
o数据质量维度:完整性,准确性,一致性,及时性
o数据质量监控:设定数据质量规则和监控指标
o数据质量工具:Deequ, Great Expectations
o数据治理流程:数据质量问题发现,修复,预防
o动手实践:使用Great Expectations 验证从新数据源摄取的数据质量
第三天:AI驱动的智能数据湖
模块 9:AI与机器学习基础 (上午)
o机器学习算法回顾:监督学习、非监督学习、强化学习
o模型评估与选择:准确率、召回率、F1值、AUC、ROC
o特征工程:特征提取、特征选择、特征转换
o模型部署:在线部署、批量部署、边缘部署
oAI平台与工具:TensorFlow, PyTorch, Scikit-learn, MLflow, Kubeflow
模块 10:在数据湖中构建AI模型 (上午)
o使用Spark MLlib构建机器学习模型
o使用分布式深度学习框架:Horovod
o使用AutoML工具:自动选择模型、优化参数、生成代码
o模型版本管理与实验跟踪:使用MLflow
o模型可解释性:理解模型预测的原因
o动手实践:使用Spark MLlib构建预测模型并进行评估
模块 11:AI驱动的数据湖智能化 (下午)
o智能数据治理:基于AI的元数据自动标注、数据质量检测
o智能数据发现:基于AI的语义搜索和推荐
o智能异常检测:基于AI的异常值识别和预测
o智能预测分析:基于AI的趋势预测和风险评估
o智能推荐系统:基于AI的个性化推荐和内容推送
o动手实践:在数据湖中构建一个智能异常检测系统
模块 12:LLM 在智能数据湖的应用(下午)
o探索 LLM (大型语言模型)在智能数据湖的应用场景
o利用 LLM 进行数据湖内容生成,例如自动数据描述,文档等
o利用 LLM 生成和优化 ETL 代码
o利用 LLM 对现有数据分析代码进行评审
oLLM 在数据治理中的应用,例如利用 LLM 做数据质量检测
o动手实践:使用 OpenAI API 和 Langchain 自动生成数据质量检测规则
可选模块 (根据客户需求调整)
实时数据湖与流处理
o使用Kafka, Flink, Spark Streaming构建实时数据管道
o实时数据分析与监控
o实时机器学习与在线学习
云原生数据湖
o在AWS, Azure, GCP上构建数据湖
o使用云厂商提供的托管服务:AWS Glue, Azure Synapse Analytics, Google Cloud Dataproc
数据湖安全与隐私高级议题
o差分隐私
o联邦学习
o多方安全计算
工具与技术:
对象存储:Amazon S3, Azure Blob Storage, Google Cloud Storage
计算引擎:Apache Spark, Presto, Trino, Dask
数据摄取:Apache Kafka, Apache NiFi, AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
元数据管理:Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog, Apache Atlas
数据治理:Delta Lake, Apache Iceberg, Apache Hudi, Deequ, Great Expectations
机器学习:TensorFlow, PyTorch, Scikit-learn, MLlib
AI平台:MLflow, Kubeflow
oLLM 相关: OpenAI API, Langchain