课程简介
理解 Data + AI 的核心概念、整体架构及核心优势。
掌握构建 Data + AI 应用的关键技术,涵盖数据工程、机器学习、深度学习及模型部署等领域。
学习如何在数据平台中集成 AI 能力,实现数据处理与分析的智能化升级。
熟悉 Data + AI 的典型应用场景及行业最佳实践。
能够独立构建 Data + AI 原型系统,并运用其解决实际业务问题。
了解在数据分析场景中如何运用 LLM 大语言模型。
理解智能风控、智能运维等实际案例的实现逻辑与技术细节。
目标收益
培训对象
数据工程师、数据科学家、机器学习工程师、数据分析师,及所有对 Data + AI 领域感兴趣的技术人员。
课程大纲
第一天:Data + AI 基础与数据工程 模块 1:Data + AI 概述 |
什么是 Data + AI?包含定义、核心目标及显著优势 Data + AI 的核心理念:数据驱动决策、智能辅助决策、自动化业务流程 Data + AI 的典型应用场景:智能推荐系统、预测分析模型、自然语言处理工具、图像识别技术 Data + AI 的整体架构与核心组件:数据源层、数据平台层、AI 引擎层、应用服务层 |
模块 2:数据工程 |
数据工程的定义与核心目标:构建可靠、高效的数据处理管道 数据工程的核心任务:数据采集、数据清洗、数据转换、数据存储 数据工程的技术选型:主流 ETL 工具、数据仓库方案、数据湖架构、数据治理体系 动手实践:搭建多数据源的数据采集管道,完成端到端数据流转 |
模块 3:数据湖与数据仓库 |
数据湖与数据仓库的对比分析:结构化数据、半结构化数据、非结构化数据的存储差异 数据湖的架构特点:灵活的存储模式、Schema-on-Read 机制、低成本扩展能力 数据仓库的架构特点:结构化存储设计、Schema-on-Write 机制、高性能查询优化 湖仓一体(Lakehouse)的核心优势:融合数据湖的灵活性与数据仓库的高性能 动手实践:在云平台环境中搭建数据湖或数据仓库实例 |
模块 4:数据治理 |
数据治理的定义与核心目标:保障数据质量、确保数据安全、满足合规要求 数据治理的核心任务:元数据全生命周期管理、数据质量管理体系、数据安全管控机制 数据治理的技术选型:数据目录工具、数据血缘追踪系统、数据脱敏方案、访问控制体系 |
模块 5:机器学习基础 |
机器学习的定义与类型划分:监督学习、非监督学习、强化学习的适用场景 常用机器学习算法详解:线性回归、逻辑回归、决策树、支持向量机(SVM)、K 均值聚类 模型评估核心指标:准确率、召回率、F1 值、AUC 曲线的计算与解读 基于 Python 和 Scikit-learn 的模型构建方法 动手实践:使用 Scikit-learn 开发简单的分类模型并完成评估 |
模块 6:深度学习基础 |
深度学习的定义与技术特点:多层神经网络结构、自动特征提取机制 常用深度学习算法解析:卷积神经网络(CNN)、循环神经网络(RNN)、Transformer 架构 深度学习的典型应用场景:图像识别系统、自然语言处理工具、语音识别技术 基于 TensorFlow 或 PyTorch 的模型构建方法 动手实践:使用 TensorFlow 开发简单的图像分类模型并测试效果 |
第二天:Data + AI 应用案例与实践 模块 7:LLM 大模型 |
定义与技术特点:基于 Transformer 架构,参数量级从数十亿到数万亿,具备强大的文本理解与生成能力,支持超长上下文处理与多场景适配 技术架构:预训练 - 微调范式(海量文本预训练 + 领域数据微调),依赖自注意力机制实现并行处理与长距离语义理解 核心能力:文本生成、逻辑推理、多轮对话、跨模态交互(部分模型)、代码生成等 Data + AI 场景应用: ¢数据分析辅助:自动生成 SQL/Python 代码、定义数据质量规则、解析元数据信息 ¢业务流程优化:智能报告生成、自然语言查询(NL2SQL)、非结构化文档结构化转换 ¢AI 开发支持:生成训练数据、解释模型决策、辅助代码开发与调试 技术栈与工具: ¢模型选型:闭源模型(GPT 系列、文心一言 API)、开源模型(LLaMA 2、Qwen) ¢开发框架:LangChain(流程编排)、LlamaIndex(私有数据增强)、PEFT(参数高效微调) ¢部署优化:推理加速(vLLM)、量化压缩(INT4/INT8)、容器化部署 解决策略:RAG 检索增强(缓解幻觉问题)、模型量化(降低部署成本)、数据脱敏与内容过滤(满足合规要求) |
模块 8:Data + AI 应用案例学习与分析 |
案例 1:基于 NLP 技术的智能客服机器人 —— 架构设计与实现逻辑 案例 2:基于图像识别的智能质检系统 —— 技术选型与落地流程 案例 3:基于时间序列预测的智能风控系统 —— 模型构建与效果优化 案例 4:基于 Data + AI 的智能运维系统 —— 数据流转与智能决策机制 案例深度分析:各场景的技术架构、具体实现步骤、面临的挑战及解决方案 |
模块 9:LLM 在 Data + AI 的应用 |
探索 LLM(大型语言模型)在数据分析领域的创新应用场景 利用 LLM 实现数据清洗、数据转换与数据增强的自动化处理 基于 LLM 生成和优化数据分析代码(如 SQL 代码)的方法与实践 借助 LLM 辅助数据可视化,提升数据洞察效率 动手实践:使用 OpenAI API 和 Langchain 自动生成数据质量检测规则,并完成数据探索分析 |
工具与技术 |
数据湖存储:AWS S3、Azure Blob Storage、Google Cloud Storage、Delta Lake、Apache Iceberg、Apache Hudi 数据仓库:Snowflake、Amazon Redshift、Google BigQuery 数据计算:Apache Spark、Presto、Trino、Flink 数据集成:Apache Kafka、Apache NiFi、AWS Kinesis、Azure Event Hubs、Google Cloud Dataflow 机器学习:Scikit-learn、TensorFlow、PyTorch LLM 相关:OpenAI API、Langchain API 调用:RESTful API 数据可视化:Tableau、Power BI、Grafana 云平台:AWS、Azure、Google Cloud |
第一天:Data + AI 基础与数据工程 模块 1:Data + AI 概述 什么是 Data + AI?包含定义、核心目标及显著优势 Data + AI 的核心理念:数据驱动决策、智能辅助决策、自动化业务流程 Data + AI 的典型应用场景:智能推荐系统、预测分析模型、自然语言处理工具、图像识别技术 Data + AI 的整体架构与核心组件:数据源层、数据平台层、AI 引擎层、应用服务层 |
模块 2:数据工程 数据工程的定义与核心目标:构建可靠、高效的数据处理管道 数据工程的核心任务:数据采集、数据清洗、数据转换、数据存储 数据工程的技术选型:主流 ETL 工具、数据仓库方案、数据湖架构、数据治理体系 动手实践:搭建多数据源的数据采集管道,完成端到端数据流转 |
模块 3:数据湖与数据仓库 数据湖与数据仓库的对比分析:结构化数据、半结构化数据、非结构化数据的存储差异 数据湖的架构特点:灵活的存储模式、Schema-on-Read 机制、低成本扩展能力 数据仓库的架构特点:结构化存储设计、Schema-on-Write 机制、高性能查询优化 湖仓一体(Lakehouse)的核心优势:融合数据湖的灵活性与数据仓库的高性能 动手实践:在云平台环境中搭建数据湖或数据仓库实例 |
模块 4:数据治理 数据治理的定义与核心目标:保障数据质量、确保数据安全、满足合规要求 数据治理的核心任务:元数据全生命周期管理、数据质量管理体系、数据安全管控机制 数据治理的技术选型:数据目录工具、数据血缘追踪系统、数据脱敏方案、访问控制体系 |
模块 5:机器学习基础 机器学习的定义与类型划分:监督学习、非监督学习、强化学习的适用场景 常用机器学习算法详解:线性回归、逻辑回归、决策树、支持向量机(SVM)、K 均值聚类 模型评估核心指标:准确率、召回率、F1 值、AUC 曲线的计算与解读 基于 Python 和 Scikit-learn 的模型构建方法 动手实践:使用 Scikit-learn 开发简单的分类模型并完成评估 |
模块 6:深度学习基础 深度学习的定义与技术特点:多层神经网络结构、自动特征提取机制 常用深度学习算法解析:卷积神经网络(CNN)、循环神经网络(RNN)、Transformer 架构 深度学习的典型应用场景:图像识别系统、自然语言处理工具、语音识别技术 基于 TensorFlow 或 PyTorch 的模型构建方法 动手实践:使用 TensorFlow 开发简单的图像分类模型并测试效果 |
第二天:Data + AI 应用案例与实践 模块 7:LLM 大模型 定义与技术特点:基于 Transformer 架构,参数量级从数十亿到数万亿,具备强大的文本理解与生成能力,支持超长上下文处理与多场景适配 技术架构:预训练 - 微调范式(海量文本预训练 + 领域数据微调),依赖自注意力机制实现并行处理与长距离语义理解 核心能力:文本生成、逻辑推理、多轮对话、跨模态交互(部分模型)、代码生成等 Data + AI 场景应用: ¢数据分析辅助:自动生成 SQL/Python 代码、定义数据质量规则、解析元数据信息 ¢业务流程优化:智能报告生成、自然语言查询(NL2SQL)、非结构化文档结构化转换 ¢AI 开发支持:生成训练数据、解释模型决策、辅助代码开发与调试 技术栈与工具: ¢模型选型:闭源模型(GPT 系列、文心一言 API)、开源模型(LLaMA 2、Qwen) ¢开发框架:LangChain(流程编排)、LlamaIndex(私有数据增强)、PEFT(参数高效微调) ¢部署优化:推理加速(vLLM)、量化压缩(INT4/INT8)、容器化部署 解决策略:RAG 检索增强(缓解幻觉问题)、模型量化(降低部署成本)、数据脱敏与内容过滤(满足合规要求) |
模块 8:Data + AI 应用案例学习与分析 案例 1:基于 NLP 技术的智能客服机器人 —— 架构设计与实现逻辑 案例 2:基于图像识别的智能质检系统 —— 技术选型与落地流程 案例 3:基于时间序列预测的智能风控系统 —— 模型构建与效果优化 案例 4:基于 Data + AI 的智能运维系统 —— 数据流转与智能决策机制 案例深度分析:各场景的技术架构、具体实现步骤、面临的挑战及解决方案 |
模块 9:LLM 在 Data + AI 的应用 探索 LLM(大型语言模型)在数据分析领域的创新应用场景 利用 LLM 实现数据清洗、数据转换与数据增强的自动化处理 基于 LLM 生成和优化数据分析代码(如 SQL 代码)的方法与实践 借助 LLM 辅助数据可视化,提升数据洞察效率 动手实践:使用 OpenAI API 和 Langchain 自动生成数据质量检测规则,并完成数据探索分析 |
工具与技术 数据湖存储:AWS S3、Azure Blob Storage、Google Cloud Storage、Delta Lake、Apache Iceberg、Apache Hudi 数据仓库:Snowflake、Amazon Redshift、Google BigQuery 数据计算:Apache Spark、Presto、Trino、Flink 数据集成:Apache Kafka、Apache NiFi、AWS Kinesis、Azure Event Hubs、Google Cloud Dataflow 机器学习:Scikit-learn、TensorFlow、PyTorch LLM 相关:OpenAI API、Langchain API 调用:RESTful API 数据可视化:Tableau、Power BI、Grafana 云平台:AWS、Azure、Google Cloud |