课程简介
本课程聚焦数据智能时代背景下的数据工程与人工智能融合实践,面向“全流程数据治理 + AI模型应用 + 大模型增强”三大方向系统设计,旨在提升学员从数据采集、分析建模到智能决策的综合能力。课程分为三个阶段,第一天围绕数据可视化、数据工程、数据仓库与数据治理四大模块,帮助学员掌握构建高质量数据资产的关键方法;第二天深入讲解机器学习与深度学习基础、自然语言处理与推荐系统,通过典型算法与业务案例结合,强化学员建模与调优能力;第三天则聚焦当前最前沿的大语言模型(LLM)、知识图谱、智能体(Agent)与增强检索(RAG)技术,带领学员掌握AI新范式下的智能产品构建路径。整个课程采用“讲授 + 案例分析 + 实操演练”相结合的方式,配合真实业务数据和开源工具平台,注重知识应用与实战能力培养,适合企业AI转型与数据驱动业务优化的落地实践场景。
目标收益
掌握数据分析与数据工程的关键流程,构建标准化数据管道
熟悉主流机器学习与深度学习模型,掌握建模方法与评估技术
能够应用自然语言处理与推荐系统技术解决实际业务问题
理解大语言模型(LLM)、知识图谱、智能体的技术原理与实践方法
提升AI在数据挖掘、报表自动化、智能问答、增强分析等场景的应用能力
具备数据治理与数据安全意识,构建可持续、高质量的数据智能体系
培训对象
数据分析师、数据工程师、机器学习工程师
AI产品经理、算法产品设计师
企业数字化、智能化转型的IT与运营负责人
课程大纲
第一天:数据分析与数据工程基础 9:00–10:30 模块一:数据可视化与分析思维 |
- 数据驱动分析框架:从业务问题到数据建模 - 可视化类型与图表设计- 分析思维:KPI、漏斗、分群、趋势识别 案例名称:客户流失分析仪表盘 案例背景:某电信公司希望提前识别潜在流失用户 案例预期:通过漏斗图、分群分析图呈现流失风险指标 |
10:45–12:15 模块二:数据工程 |
- 数据管道全流程(采集、清洗、转换、加载) - 实时与离线数据处理架构 - 数据调度与异常处理 案例名称:行为日志数据管道构建 案例背景:采集 App 用户行为数据至数据库用于后续分析 案例预期:构建 ETL 流程,完成清洗与入库 |
13:30–15:00 模块三:数据仓库与湖仓架构 |
- 数据仓库架构设计(维度建模、星型/雪花模型) - 数据湖与湖仓一体:结构灵活性与性能并存 - 云上仓库平台介绍 案例名称:订单数据湖仓建设方案 案例背景:企业销售数据多样化,现需统一管理和分析 案例预期:搭建数据湖仓,支持多源查询与指标整合 |
15:15–16:45 模块四:数据治理 |
- 数据质量与合规性要求 - 元数据、数据血缘管理 - 数据脱敏与访问控制技术 案例名称:金融数据治理平台设计 案例背景:金融行业对数据安全、质量、合规要求高 案例预期:完成数据分级分类管理、权限配置、质量检测 |
第二天:机器学习与自然语言处理 9:00–10:30 模块一:机器学习基础 |
- 监督/非监督学习分类 - 核心算法:逻辑回归、决策树、K-Mean s- 评估指标:准确率、召回率、AUC - 使用 Scikit-learn 实操 案例名称:信用卡违约预测模型 案例背景:银行希望识别潜在高风险用户 案例预期:训练分类模型预测违约风险并评估模型表现 |
10:45–12:15 模块二:深度学习基础 |
- 神经网络结构与基本原理 - CNN、RNN、Transformer 简介 - 框架使用:TensorFlow - 图像与文本入门实操 案例名称:手写数字识别模型 案例背景:需识别客户表单中手写内容 案例预期:训练 CNN 模型实现高精度图像分类 |
13:30–15:00 模块三:自然语言处理基础 |
- NLP 任务简介:分词、词向量、文本分类、情感分析 - Transformers架构 - 语义理解、自动摘要简介 案例名称:客户评论情感分析系统 案例背景:客户反馈意见繁杂难以人工归类 案例预期:构建文本分类模型,按情感进行自动打标 |
15:15–16:45 模块四:推荐系统原理与实践 |
- 推荐系统类型:协同过滤、内容推荐、混合模型 - 推荐算法实现:UserCF、Matrix Factorization - 推荐评估与调优 案例名称:个性化商品推荐系统 案例背景:电商平台希望提升用户复购率 案例预期:构建用户-物品推荐模型,提高转化与点击率 |
第三天:大模型与智能化系统 9:00–10:30 模块一:大语言模型 (LLM) 应用 |
- LLM 原理与常见应用:对话、文本生成、SQL生成 -工具:OpenAI API、LangChain - 在数据分析中的增强能力:代码生成、报表总结 案例名称:自动 SQL 报表生成助手 案例背景:业务分析师需频繁撰写数据报告 案例预期:使用 LLM 自动生成 SQL 与图表描述 |
10:45–12:15 模块二:知识图谱与图神经网络 |
- 知识图谱构建流程:实体抽取、关系识别、存储建模 - 图数据库工具:Neo4j、GraphDB - GNN 简介及在结构化语义表示中的作用 案例名称:职位匹配知识图谱系统 案例背景:招聘平台需实现精准职位与人选匹配 案例预期:构建图谱,实现多跳关联与语义推荐 |
13:30–15:00 模块三:智能体 (Agent) 应用 |
- 智能体定义与结构:Agent + Tool + Memory - 工作流与自动任务编排:RAG、LangChain Agent - 场景示例:日报助手、自动问答、流程填报 案例名称:日报智能体系 统案例背景:管理层需每日查看关键指标汇总报告 案例预期:构建 Agent,从数据库中提取数据并生成日报 |
15:15–16:45 模块四:增强检索与数据智能 |
- RAG 框架原理:Retrieval-Augmented Generation - LLM+搜索的组合优势 -企业级文档问答系统架构 - 多模态扩展探索 案例名称:企业文档问答机器人 案例背景:企业文档众多,员工查询低效 案例预期:结合文档索引与LLM,实现自然语言智能检索与回答 |
第一天:数据分析与数据工程基础 9:00–10:30 模块一:数据可视化与分析思维 - 数据驱动分析框架:从业务问题到数据建模 - 可视化类型与图表设计- 分析思维:KPI、漏斗、分群、趋势识别 案例名称:客户流失分析仪表盘 案例背景:某电信公司希望提前识别潜在流失用户 案例预期:通过漏斗图、分群分析图呈现流失风险指标 |
10:45–12:15 模块二:数据工程 - 数据管道全流程(采集、清洗、转换、加载) - 实时与离线数据处理架构 - 数据调度与异常处理 案例名称:行为日志数据管道构建 案例背景:采集 App 用户行为数据至数据库用于后续分析 案例预期:构建 ETL 流程,完成清洗与入库 |
13:30–15:00 模块三:数据仓库与湖仓架构 - 数据仓库架构设计(维度建模、星型/雪花模型) - 数据湖与湖仓一体:结构灵活性与性能并存 - 云上仓库平台介绍 案例名称:订单数据湖仓建设方案 案例背景:企业销售数据多样化,现需统一管理和分析 案例预期:搭建数据湖仓,支持多源查询与指标整合 |
15:15–16:45 模块四:数据治理 - 数据质量与合规性要求 - 元数据、数据血缘管理 - 数据脱敏与访问控制技术 案例名称:金融数据治理平台设计 案例背景:金融行业对数据安全、质量、合规要求高 案例预期:完成数据分级分类管理、权限配置、质量检测 |
第二天:机器学习与自然语言处理 9:00–10:30 模块一:机器学习基础 - 监督/非监督学习分类 - 核心算法:逻辑回归、决策树、K-Mean s- 评估指标:准确率、召回率、AUC - 使用 Scikit-learn 实操 案例名称:信用卡违约预测模型 案例背景:银行希望识别潜在高风险用户 案例预期:训练分类模型预测违约风险并评估模型表现 |
10:45–12:15 模块二:深度学习基础 - 神经网络结构与基本原理 - CNN、RNN、Transformer 简介 - 框架使用:TensorFlow - 图像与文本入门实操 案例名称:手写数字识别模型 案例背景:需识别客户表单中手写内容 案例预期:训练 CNN 模型实现高精度图像分类 |
13:30–15:00 模块三:自然语言处理基础 - NLP 任务简介:分词、词向量、文本分类、情感分析 - Transformers架构 - 语义理解、自动摘要简介 案例名称:客户评论情感分析系统 案例背景:客户反馈意见繁杂难以人工归类 案例预期:构建文本分类模型,按情感进行自动打标 |
15:15–16:45 模块四:推荐系统原理与实践 - 推荐系统类型:协同过滤、内容推荐、混合模型 - 推荐算法实现:UserCF、Matrix Factorization - 推荐评估与调优 案例名称:个性化商品推荐系统 案例背景:电商平台希望提升用户复购率 案例预期:构建用户-物品推荐模型,提高转化与点击率 |
第三天:大模型与智能化系统 9:00–10:30 模块一:大语言模型 (LLM) 应用 - LLM 原理与常见应用:对话、文本生成、SQL生成 -工具:OpenAI API、LangChain - 在数据分析中的增强能力:代码生成、报表总结 案例名称:自动 SQL 报表生成助手 案例背景:业务分析师需频繁撰写数据报告 案例预期:使用 LLM 自动生成 SQL 与图表描述 |
10:45–12:15 模块二:知识图谱与图神经网络 - 知识图谱构建流程:实体抽取、关系识别、存储建模 - 图数据库工具:Neo4j、GraphDB - GNN 简介及在结构化语义表示中的作用 案例名称:职位匹配知识图谱系统 案例背景:招聘平台需实现精准职位与人选匹配 案例预期:构建图谱,实现多跳关联与语义推荐 |
13:30–15:00 模块三:智能体 (Agent) 应用 - 智能体定义与结构:Agent + Tool + Memory - 工作流与自动任务编排:RAG、LangChain Agent - 场景示例:日报助手、自动问答、流程填报 案例名称:日报智能体系 统案例背景:管理层需每日查看关键指标汇总报告 案例预期:构建 Agent,从数据库中提取数据并生成日报 |
15:15–16:45 模块四:增强检索与数据智能 - RAG 框架原理:Retrieval-Augmented Generation - LLM+搜索的组合优势 -企业级文档问答系统架构 - 多模态扩展探索 案例名称:企业文档问答机器人 案例背景:企业文档众多,员工查询低效 案例预期:结合文档索引与LLM,实现自然语言智能检索与回答 |