构建智能数据湖：现代数据分析与AI驱动的数据价值释放-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

理解智能数据湖的核心概念、架构和优势。
掌握构建现代数据湖的最新技术栈。
学习数据湖中的数据治理、安全和合规。
掌握在数据湖中进行高效数据分析和探索的方法。
学习将AI和机器学习集成到数据湖中，实现智能化数据洞察。
了解数据湖的应用场景和最佳实践。

目标收益

培训对象

数据工程师、数据架构师、数据科学家、数据分析师、以及对构建智能数据湖感兴趣的技术人员。

课程内容

第一天：数据湖基础与现代架构
模块 1：数据湖概念与演进 (上午)
o数据湖的定义、特点和优势
o数据湖与数据仓库、数据集市的对比
o传统数据湖的挑战与智能数据湖的演进
o智能数据湖的关键特性：元数据驱动、自动化、AI集成
o智能数据湖的应用场景：实时分析、数据科学、商业智能
模块 2：现代数据湖架构设计 (上午)
o数据湖架构的构成要素：存储、计算、元数据、安全、治理
o分层数据湖架构：Raw Layer, Curated Layer, Analytics Layer
o湖仓一体 (Lakehouse) 架构：Delta Lake, Apache Iceberg, Apache Hudi
o数据网格 (Data Mesh) 架构：去中心化数据管理与自治域
o选择合适的架构模式：根据业务需求和技术栈
o动手实践：讨论并设计符合特定场景的数据湖架构
模块 3：数据湖存储与计算 (下午)
o数据湖存储技术：对象存储 (Amazon S3, Azure Blob Storage, Google Cloud Storage)
o数据湖计算引擎：Apache Spark, Presto, Trino, Dask
o无服务器计算：AWS Lambda, Azure Functions, Google Cloud Functions
o选择合适的存储和计算引擎：根据数据量、查询模式和成本
o性能优化：数据分区、压缩、索引、缓存
o动手实践：使用Spark读取对象存储中的数据并进行简单计算
模块 4：数据摄取与集成 (下午)
o数据摄取模式：批量摄取、流式摄取、增量摄取
o数据摄取工具：Apache Kafka, Apache NiFi, AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
oCDC (Change Data Capture) 技术：Debezium, Maxwell
o数据格式与序列化：Parquet, Avro, ORC
o数据质量保证：数据清洗、数据验证、数据转换
o动手实践：使用Kafka将流式数据摄取到数据湖中
第二天：数据治理、安全与分析
模块 5：数据湖元数据管理 (上午)
o元数据的重要性：数据发现、数据理解、数据治理
o元数据管理工具：Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
o统一元数据标准：Apache Atlas
o数据血缘分析：追踪数据的来源和转换过程
o数据字典与业务术语表：定义和管理数据资产
o动手实践：使用AWS Glue Data Catalog创建和管理数据湖的元数据
模块 6：数据湖安全与合规 (上午)
o数据湖安全挑战：数据泄露、权限控制、访问审计
o数据湖安全措施：身份验证、授权、加密、数据脱敏
o访问控制策略：基于角色 (RBAC)、基于属性 (ABAC)
o数据审计与监控：追踪用户行为、检测异常访问
o数据合规：GDPR, CCPA, HIPAA
o动手实践：配置数据湖的访问权限控制策略
模块 7：数据湖分析与探索 (下午)
o数据分析工具：SQL引擎 (Spark SQL, Presto, Trino), BI工具 (Tableau, Power BI, Looker)
o交互式数据探索：使用Jupyter Notebook, Zeppelin
o高级分析技术：OLAP, 数据挖掘, 统计分析
o实时分析：使用Spark Streaming, Flink进行流式数据分析
o动手实践：使用SQL引擎查询数据湖中的数据并生成分析报告
模块 8：数据湖数据质量管理 (下午)
o数据质量维度：完整性，准确性，一致性，及时性
o数据质量监控：设定数据质量规则和监控指标
o数据质量工具：Deequ, Great Expectations
o数据治理流程：数据质量问题发现，修复，预防
o动手实践：使用Great Expectations 验证从新数据源摄取的数据质量
第三天：AI驱动的智能数据湖
模块 9：AI与机器学习基础 (上午)
o机器学习算法回顾：监督学习、非监督学习、强化学习
o模型评估与选择：准确率、召回率、F1值、AUC、ROC
o特征工程：特征提取、特征选择、特征转换
o模型部署：在线部署、批量部署、边缘部署
oAI平台与工具：TensorFlow, PyTorch, Scikit-learn, MLflow, Kubeflow
模块 10：在数据湖中构建AI模型 (上午)
o使用Spark MLlib构建机器学习模型
o使用分布式深度学习框架：Horovod
o使用AutoML工具：自动选择模型、优化参数、生成代码
o模型版本管理与实验跟踪：使用MLflow
o模型可解释性：理解模型预测的原因
o动手实践：使用Spark MLlib构建预测模型并进行评估
模块 11：AI驱动的数据湖智能化 (下午)
o智能数据治理：基于AI的元数据自动标注、数据质量检测
o智能数据发现：基于AI的语义搜索和推荐
o智能异常检测：基于AI的异常值识别和预测
o智能预测分析：基于AI的趋势预测和风险评估
o智能推荐系统：基于AI的个性化推荐和内容推送
o动手实践：在数据湖中构建一个智能异常检测系统
模块 12：LLM 在智能数据湖的应用(下午)
o探索 LLM (大型语言模型)在智能数据湖的应用场景
o利用 LLM 进行数据湖内容生成，例如自动数据描述，文档等
o利用 LLM 生成和优化 ETL 代码
o利用 LLM 对现有数据分析代码进行评审
oLLM 在数据治理中的应用，例如利用 LLM 做数据质量检测
o动手实践：使用 OpenAI API 和 Langchain 自动生成数据质量检测规则
可选模块 (根据客户需求调整)
实时数据湖与流处理
o使用Kafka, Flink, Spark Streaming构建实时数据管道
o实时数据分析与监控
o实时机器学习与在线学习
云原生数据湖
o在AWS, Azure, GCP上构建数据湖
o使用云厂商提供的托管服务：AWS Glue, Azure Synapse Analytics, Google Cloud Dataproc
数据湖安全与隐私高级议题
o差分隐私
o联邦学习
o多方安全计算
工具与技术：
对象存储：Amazon S3, Azure Blob Storage, Google Cloud Storage
计算引擎：Apache Spark, Presto, Trino, Dask
数据摄取：Apache Kafka, Apache NiFi, AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
元数据管理：Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog, Apache Atlas
数据治理：Delta Lake, Apache Iceberg, Apache Hudi, Deequ, Great Expectations
机器学习：TensorFlow, PyTorch, Scikit-learn, MLlib
AI平台：MLflow, Kubeflow
oLLM 相关： OpenAI API, Langchain

构建智能数据湖：现代数据分析与AI驱动的数据价值释放

张老师

资深架构师，流式计算领域专家

课程费用

6800.00 /人

课程时长

4天