课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

理解 Data + AI 的核心概念、整体架构及核心优势。
掌握构建 Data + AI 应用的关键技术,涵盖数据工程、机器学习、深度学习及模型部署等领域。
学习如何在数据平台中集成 AI 能力,实现数据处理与分析的智能化升级。
熟悉 Data + AI 的典型应用场景及行业最佳实践。
能够独立构建 Data + AI 原型系统,并运用其解决实际业务问题。
了解在数据分析场景中如何运用 LLM 大语言模型。
理解智能风控、智能运维等实际案例的实现逻辑与技术细节。

目标收益

培训对象

数据工程师、数据科学家、机器学习工程师、数据分析师,及所有对 Data + AI 领域感兴趣的技术人员。

课程大纲

第一天:Data + AI 基础与数据工程
模块 1:Data + AI 概述
什么是 Data + AI?包含定义、核心目标及显著优势
Data + AI 的核心理念:数据驱动决策、智能辅助决策、自动化业务流程
Data + AI 的典型应用场景:智能推荐系统、预测分析模型、自然语言处理工具、图像识别技术
Data + AI 的整体架构与核心组件:数据源层、数据平台层、AI 引擎层、应用服务层
模块 2:数据工程 数据工程的定义与核心目标:构建可靠、高效的数据处理管道
数据工程的核心任务:数据采集、数据清洗、数据转换、数据存储
数据工程的技术选型:主流 ETL 工具、数据仓库方案、数据湖架构、数据治理体系
动手实践:搭建多数据源的数据采集管道,完成端到端数据流转
模块 3:数据湖与数据仓库 数据湖与数据仓库的对比分析:结构化数据、半结构化数据、非结构化数据的存储差异
数据湖的架构特点:灵活的存储模式、Schema-on-Read 机制、低成本扩展能力
数据仓库的架构特点:结构化存储设计、Schema-on-Write 机制、高性能查询优化
湖仓一体(Lakehouse)的核心优势:融合数据湖的灵活性与数据仓库的高性能
动手实践:在云平台环境中搭建数据湖或数据仓库实例
模块 4:数据治理 数据治理的定义与核心目标:保障数据质量、确保数据安全、满足合规要求
数据治理的核心任务:元数据全生命周期管理、数据质量管理体系、数据安全管控机制
数据治理的技术选型:数据目录工具、数据血缘追踪系统、数据脱敏方案、访问控制体系
模块 5:机器学习基础 机器学习的定义与类型划分:监督学习、非监督学习、强化学习的适用场景
常用机器学习算法详解:线性回归、逻辑回归、决策树、支持向量机(SVM)、K 均值聚类
模型评估核心指标:准确率、召回率、F1 值、AUC 曲线的计算与解读
基于 Python 和 Scikit-learn 的模型构建方法
动手实践:使用 Scikit-learn 开发简单的分类模型并完成评估
模块 6:深度学习基础 深度学习的定义与技术特点:多层神经网络结构、自动特征提取机制
常用深度学习算法解析:卷积神经网络(CNN)、循环神经网络(RNN)、Transformer 架构
深度学习的典型应用场景:图像识别系统、自然语言处理工具、语音识别技术
基于 TensorFlow 或 PyTorch 的模型构建方法
动手实践:使用 TensorFlow 开发简单的图像分类模型并测试效果
第二天:Data + AI 应用案例与实践
模块 7:LLM 大模型
定义与技术特点:基于 Transformer 架构,参数量级从数十亿到数万亿,具备强大的文本理解与生成能力,支持超长上下文处理与多场景适配
技术架构:预训练 - 微调范式(海量文本预训练 + 领域数据微调),依赖自注意力机制实现并行处理与长距离语义理解
核心能力:文本生成、逻辑推理、多轮对话、跨模态交互(部分模型)、代码生成等
Data + AI 场景应用:
¢数据分析辅助:自动生成 SQL/Python 代码、定义数据质量规则、解析元数据信息
¢业务流程优化:智能报告生成、自然语言查询(NL2SQL)、非结构化文档结构化转换
¢AI 开发支持:生成训练数据、解释模型决策、辅助代码开发与调试
技术栈与工具:
¢模型选型:闭源模型(GPT 系列、文心一言 API)、开源模型(LLaMA 2、Qwen)
¢开发框架:LangChain(流程编排)、LlamaIndex(私有数据增强)、PEFT(参数高效微调)
¢部署优化:推理加速(vLLM)、量化压缩(INT4/INT8)、容器化部署
解决策略:RAG 检索增强(缓解幻觉问题)、模型量化(降低部署成本)、数据脱敏与内容过滤(满足合规要求)
模块 8:Data + AI 应用案例学习与分析 案例 1:基于 NLP 技术的智能客服机器人 —— 架构设计与实现逻辑
案例 2:基于图像识别的智能质检系统 —— 技术选型与落地流程
案例 3:基于时间序列预测的智能风控系统 —— 模型构建与效果优化
案例 4:基于 Data + AI 的智能运维系统 —— 数据流转与智能决策机制
案例深度分析:各场景的技术架构、具体实现步骤、面临的挑战及解决方案
模块 9:LLM 在 Data + AI 的应用 探索 LLM(大型语言模型)在数据分析领域的创新应用场景
利用 LLM 实现数据清洗、数据转换与数据增强的自动化处理
基于 LLM 生成和优化数据分析代码(如 SQL 代码)的方法与实践
借助 LLM 辅助数据可视化,提升数据洞察效率
动手实践:使用 OpenAI API 和 Langchain 自动生成数据质量检测规则,并完成数据探索分析
工具与技术 数据湖存储:AWS S3、Azure Blob Storage、Google Cloud Storage、Delta Lake、Apache Iceberg、Apache Hudi
数据仓库:Snowflake、Amazon Redshift、Google BigQuery
数据计算:Apache Spark、Presto、Trino、Flink
数据集成:Apache Kafka、Apache NiFi、AWS Kinesis、Azure Event Hubs、Google Cloud Dataflow
机器学习:Scikit-learn、TensorFlow、PyTorch
LLM 相关:OpenAI API、Langchain
API 调用:RESTful API
数据可视化:Tableau、Power BI、Grafana
云平台:AWS、Azure、Google Cloud
第一天:Data + AI 基础与数据工程
模块 1:Data + AI 概述
什么是 Data + AI?包含定义、核心目标及显著优势
Data + AI 的核心理念:数据驱动决策、智能辅助决策、自动化业务流程
Data + AI 的典型应用场景:智能推荐系统、预测分析模型、自然语言处理工具、图像识别技术
Data + AI 的整体架构与核心组件:数据源层、数据平台层、AI 引擎层、应用服务层
模块 2:数据工程
数据工程的定义与核心目标:构建可靠、高效的数据处理管道
数据工程的核心任务:数据采集、数据清洗、数据转换、数据存储
数据工程的技术选型:主流 ETL 工具、数据仓库方案、数据湖架构、数据治理体系
动手实践:搭建多数据源的数据采集管道,完成端到端数据流转
模块 3:数据湖与数据仓库
数据湖与数据仓库的对比分析:结构化数据、半结构化数据、非结构化数据的存储差异
数据湖的架构特点:灵活的存储模式、Schema-on-Read 机制、低成本扩展能力
数据仓库的架构特点:结构化存储设计、Schema-on-Write 机制、高性能查询优化
湖仓一体(Lakehouse)的核心优势:融合数据湖的灵活性与数据仓库的高性能
动手实践:在云平台环境中搭建数据湖或数据仓库实例
模块 4:数据治理
数据治理的定义与核心目标:保障数据质量、确保数据安全、满足合规要求
数据治理的核心任务:元数据全生命周期管理、数据质量管理体系、数据安全管控机制
数据治理的技术选型:数据目录工具、数据血缘追踪系统、数据脱敏方案、访问控制体系
模块 5:机器学习基础
机器学习的定义与类型划分:监督学习、非监督学习、强化学习的适用场景
常用机器学习算法详解:线性回归、逻辑回归、决策树、支持向量机(SVM)、K 均值聚类
模型评估核心指标:准确率、召回率、F1 值、AUC 曲线的计算与解读
基于 Python 和 Scikit-learn 的模型构建方法
动手实践:使用 Scikit-learn 开发简单的分类模型并完成评估
模块 6:深度学习基础
深度学习的定义与技术特点:多层神经网络结构、自动特征提取机制
常用深度学习算法解析:卷积神经网络(CNN)、循环神经网络(RNN)、Transformer 架构
深度学习的典型应用场景:图像识别系统、自然语言处理工具、语音识别技术
基于 TensorFlow 或 PyTorch 的模型构建方法
动手实践:使用 TensorFlow 开发简单的图像分类模型并测试效果
第二天:Data + AI 应用案例与实践
模块 7:LLM 大模型
定义与技术特点:基于 Transformer 架构,参数量级从数十亿到数万亿,具备强大的文本理解与生成能力,支持超长上下文处理与多场景适配
技术架构:预训练 - 微调范式(海量文本预训练 + 领域数据微调),依赖自注意力机制实现并行处理与长距离语义理解
核心能力:文本生成、逻辑推理、多轮对话、跨模态交互(部分模型)、代码生成等
Data + AI 场景应用:
¢数据分析辅助:自动生成 SQL/Python 代码、定义数据质量规则、解析元数据信息
¢业务流程优化:智能报告生成、自然语言查询(NL2SQL)、非结构化文档结构化转换
¢AI 开发支持:生成训练数据、解释模型决策、辅助代码开发与调试
技术栈与工具:
¢模型选型:闭源模型(GPT 系列、文心一言 API)、开源模型(LLaMA 2、Qwen)
¢开发框架:LangChain(流程编排)、LlamaIndex(私有数据增强)、PEFT(参数高效微调)
¢部署优化:推理加速(vLLM)、量化压缩(INT4/INT8)、容器化部署
解决策略:RAG 检索增强(缓解幻觉问题)、模型量化(降低部署成本)、数据脱敏与内容过滤(满足合规要求)
模块 8:Data + AI 应用案例学习与分析
案例 1:基于 NLP 技术的智能客服机器人 —— 架构设计与实现逻辑
案例 2:基于图像识别的智能质检系统 —— 技术选型与落地流程
案例 3:基于时间序列预测的智能风控系统 —— 模型构建与效果优化
案例 4:基于 Data + AI 的智能运维系统 —— 数据流转与智能决策机制
案例深度分析:各场景的技术架构、具体实现步骤、面临的挑战及解决方案
模块 9:LLM 在 Data + AI 的应用
探索 LLM(大型语言模型)在数据分析领域的创新应用场景
利用 LLM 实现数据清洗、数据转换与数据增强的自动化处理
基于 LLM 生成和优化数据分析代码(如 SQL 代码)的方法与实践
借助 LLM 辅助数据可视化,提升数据洞察效率
动手实践:使用 OpenAI API 和 Langchain 自动生成数据质量检测规则,并完成数据探索分析
工具与技术
数据湖存储:AWS S3、Azure Blob Storage、Google Cloud Storage、Delta Lake、Apache Iceberg、Apache Hudi
数据仓库:Snowflake、Amazon Redshift、Google BigQuery
数据计算:Apache Spark、Presto、Trino、Flink
数据集成:Apache Kafka、Apache NiFi、AWS Kinesis、Azure Event Hubs、Google Cloud Dataflow
机器学习:Scikit-learn、TensorFlow、PyTorch
LLM 相关:OpenAI API、Langchain
API 调用:RESTful API
数据可视化:Tableau、Power BI、Grafana
云平台:AWS、Azure、Google Cloud

课程费用

6800.00 /人

课程时长

2

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求