课程简介
理解 Data + AI 的核心概念、架构和优势。
掌握构建 Data + AI 应用的关键技术,包括数据工程、机器学习、深度学习和模型部署。
学习如何在数据平台上集成 AI 能力,实现智能化的数据处理和分析。
掌握Data + AI 的相关应用场景和最佳实践
能够构建自己的 Data + AI 原型系统,并解决实际业务问题。
了解在数据分析中运用 LLM 大语言模型
理解智能风控,智能运维等案例
目标收益
培训对象
数据工程师、数据科学家、机器学习工程师、数据分析师、以及对 Data + AI 感兴趣的技术人员。
课程内容
第一天:Data + AI 基础与数据工程
模块 1:Data + AI 概述 (上午)
o什么是 Data + AI?定义、目标和优势
oData + AI 的核心理念:数据驱动、智能决策、自动化流程
oData + AI 的应用场景:智能推荐、预测分析、自然语言处理、图像识别
oData + AI 的架构与核心组件:数据源、数据平台、AI引擎、应用服务
模块 2:数据工程 (上午)
o数据工程的定义与目标:构建可靠、高效的数据管道
o数据工程的核心任务:数据采集、数据清洗、数据转换、数据存储
o数据工程的技术选型:ETL工具、数据仓库、数据湖、数据治理
o动手实践:构建数据管道,从多个数据源采集数据
模块 3:数据湖与数据仓库 (下午)
o数据湖与数据仓库的对比:结构化数据、半结构化数据、非结构化数据
o数据湖的架构与特点:灵活存储、Schema-on-Read、低成本
o数据仓库的架构与特点:结构化存储、Schema-on-Write、高性能查询
o湖仓一体 (Lakehouse) 的优势:结合数据湖的灵活性和数据仓库的性能
o动手实践:在云平台上搭建数据湖或数据仓库
模块 4:数据治理 (下午)
o数据治理的定义与目标:确保数据质量、数据安全、数据合规
o数据治理的核心任务:元数据管理、数据质量管理、数据安全管理
o数据治理的技术选型:数据目录、数据血缘、数据脱敏、访问控制
o动手实践:实施数据治理策略,保障数据质量和安全
第二天:机器学习与深度学习
模块 5:机器学习基础 (上午)
o机器学习的定义与类型:监督学习、非监督学习、强化学习
o常用的机器学习算法:线性回归、逻辑回归、决策树、支持向量机(SVM)、K均值聚类
o模型评估指标:准确率、召回率、F1值、AUC
o使用Python和Scikit-learn构建简单的机器学习模型
o动手实践:使用Scikit-learn构建一个简单的分类模型
模块 6:深度学习基础 (上午)
o深度学习的定义与特点:多层神经网络、自动特征提取
o常用的深度学习算法:卷积神经网络 (CNN)、循环神经网络 (RNN)、Transformer
o深度学习的应用场景:图像识别、自然语言处理、语音识别
o使用TensorFlow或PyTorch构建简单的深度学习模型
o动手实践:使用TensorFlow构建一个简单的图像分类模型
模块 7:自然语言处理 (NLP) (下午)
oNLP的基础概念:词向量、文本分类、情感分析、命名实体识别
oNLP在Data + AI中的应用:
文本数据分析:客户评论分析、舆情分析、文本挖掘
智能报告生成:自动生成报告摘要、关键发现
自然语言查询 (NL2SQL):使用自然语言进行数据查询
o使用Transformers库进行自然语言处理
o动手实践:使用NLP工具进行文本数据分析
模块 8:推荐系统 (下午)
o推荐系统的定义与目标:个性化推荐、提升用户体验
o常用的推荐算法:
协同过滤 (Collaborative Filtering)
基于内容的推荐 (Content-Based Recommendation)
深度学习推荐模型 (Deep Learning Recommendation Model)
o使用TensorFlow或PyTorch构建简单的推荐系统
o动手实践:构建一个基于协同过滤的推荐系统
第三天:Data + AI 应用案例与实践 (选择性学习)
模块 9: Data + AI应用案例学习与分析(根据实际情况选择)
o案例1:基于AI的智能推荐系统
o案例2:基于NLP的智能客服机器人
o案例3:基于图像识别的智能质检系统
o案例4:基于时间序列预测的智能风控系统
o案例5:基于Data + AI 的智能运维系统
o案例分析:技术架构、实现步骤、挑战与解决方案
o动手实践:将现有程序进行Data + AI 能力强化改造
模块 10: LLM 在 Data + AI 的应用 (实践学习)
o探索 LLM (大型语言模型)在数据分析领域的应用场景
o利用 LLM 进行数据清洗,数据转换,数据增强
o利用 LLM 生成和优化数据分析代码,例如 SQL 代码
o利用 LLM 进行数据可视化,辅助数据洞察
o动手实践:使用 OpenAI API 和 Langchain 自动生成数据质量检测规则,并进行数据探索
模块 11-13 (三选一):高级 Data + AI 主题
o(A) 强化学习在 Data + AI 中的应用
强化学习算法:Q-learning, SARSA, DQN, PPO
环境建模与奖励函数设计
智能体训练与优化
o(B) 图神经网络在Data + AI 中的应用
图神经网络的架构、应用场景、训练技巧
知识图谱的构建与应用
o(C) Data + AI 的安全与隐私高级议题
差分隐私
联邦学习
多方安全计算
o动手实践:选择自己感兴趣的高级方向进行实战编码
模块 12:Data + AI 的未来展望
oData + AI 的未来发展趋势:
自动化机器学习 (AutoML)
可解释AI (XAI)
联邦学习 (Federated Learning)
o开放讨论:学员分享对Data + AI 未来发展的看法
o分享 Data + AI 相关项目经验以及踩坑经验
第四天(可选):Data + AI 项目实战
模块 13:Data + AI 项目选题与需求分析
o介绍Data + AI 的一些典型应用场景, 并根据场景和项目难易程度划分
o根据实际情况,选择Data + AI的结合点,并确定项目目标
o根据目标确定项目评估指标和结果报告
模块 14:Data + AI 项目架构设计与具体实现
o学习Data + AI 结合的项目流程,例如:数据采集,数据提取,数据清洗, 特征提取,模型训练,结果可视化
oData + AI 项目代码编写和代码测试
模块 15:Data + AI 项目测试及报告生成
o测试Data + AI 模型,并且给出报告及改进建议
模块 16:Data + AI 项目部署
o学习如何部署Data + AI 模型到不同的平台以及注意事项
可选:分组进行Data + AI 项目实战
o以小组形式,模拟真实Data + AI 项目的开发过程
工具与技术:
数据湖存储:AWS S3, Azure Blob Storage, Google Cloud Storage, Delta Lake, Apache Iceberg, Apache Hudi
数据仓库:Snowflake, Amazon Redshift, Google BigQuery
数据计算:Apache Spark, Presto, Trino, Flink
数据集成:Apache Kafka, Apache NiFi, AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
机器学习:Scikit-learn, TensorFlow, PyTorch
LLM 相关: OpenAI API, Langchain
API调用:RESTful API
数据可视化:Tableau, Power BI, Grafana
云平台:AWS, Azure, Google Cloud