课程简介
课程讲授人长期从事深度学习项目实践,从2004年做数据挖掘即开始该方向的各种探索,带队完成了数十个AI项目。邹伟,睿客邦创始人、国内资深AI专家,擅长利用AI技术解决工业、工程中的复杂问题。华东建筑设计研究总院研究员、西北师大硕士生导师、山东交通学院客座教授、中国软件行业协会专家委员、天津大学创业导师、中华中医药学会会员;领导睿客邦完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域。
学员要求:本课程面向有一定经验的数据分析师、AI工程师或业务建模专家。因为涉及NLP、CV、大模型三个方面的原理和代码,建议有一定的IT基础,具备基础的Python知识。
目标收益
培训对象
课程大纲
第一节框架Transformer及其经典应用 |
Transformer的编码器BERT、解码器GPT 自注意力机制详解 Mask Multi-Head Attention以及DeepseekV3中的改进 位置编码 特定于任务的输入转换 无监督预训练、有监督 Fine-tuning BERT思路的理解 GPT基本思想 基本问答系统的代码实现 T5等预备大模型的基本训练 深入阅读理解的代码实现 段落相关性代码实现 作文生成 |
第二节对比并选型主流开源大模型 |
1.1 模型选择 Deepseek-R1 (7B/67B):中文领域表现SOTA,支持长上下文推理 Llama-3 (8B/70B):Meta最新开源模型,多语言通用底座 Mistral-8x7B:MoE架构标杆,推理效率提升3倍 Qwen-72B:阿里千问开源版,金融法律领域微调能力强 1.2 基础环境搭建实操 硬件要求:至少24GB显存(如RTX 3090/A10) + 64GB内存 软件依赖: oCUDA 12.1 + cuDNN 8.9 oPyTorch 2.2 + Transformers 4.38 oFlashAttention-2加速库 o关键配置:LD_LIBRARY_PATH添加cuda路径,设置PYTORCH_CUDA_ALLOC_CONF防止显存碎片 |
第三节本地大模型部署 |
2.1 Deepseek-R1部署流程 1.模型获取: o通过HuggingFace官方仓库申请权限 o下载deepseek-r1-7b-base的safetensors格式权重 2.推理服务启动 o关键参数trust_remote_code、max_model_len等的讲解 o解释器多种启动服务方式对比 3.服务验证 o代码调用 o服务API的参数设置 2.2 Llama-3-8B快速部署 1.量化加速 oFP8的特点 o对比Deepseek原论文中量化章节的解读 2.REST API调用: o深度学习系统部署的常用方式 o针对AI算法的部署框架 |
第四节大模型领域微调训练 |
3.1 Deepseek-R1金融领域微调 1.数据准备: o格式:JSONL文件,每条含instruction/input/output o数据源:财报、券商研报、金融问答对、运营商问答对、意图识别数据 o关键处理:使用SentencePiece重组专业术语tokenization 2.QLoRA训练配置 o微调在大模型中的常用方法 o多种LoRA方式的对别 3.启动训练 o显存优化 oGPU并行 3.2 探讨适合微调的场景 o阐述项目中RAG模式和LoRA模式的选择 |
第五节大模型相关业务场景应用 |
4.1研报文档自动生成系统 架构设计: 1.数据层:Wind API实时获取宏观指标 + PDF解析模块 2.推理层: oDeepseek-R1作为生成核心 oMistral-8x7B进行事实核查 3.评估层: oRouge-L评估内容一致性 oFinBERT检测财务数据矛盾 以部署拓扑理清整体脉络 常规分析、复杂计算、数据采集、向量数据库、路由决策、Deepseek-R1/Mistral-8x7B、合规审查、PDF输出 4.2 业务领域的对话系统(根据具体需要选择智能投顾、套餐产品等) 关键技术点: 1.RAG增强: o使用LlamaIndex构建行业知识图谱 oFAISS向量库实现百万级文档秒级检索 2.记忆管理: o缓存最近轮次的对话摘要 o采用CoT(Chain-of-Thought)提示工程技术 3.风控拦截: o关键词过滤(如“保证收益”、“100%”等违规表述) o置信度阈值设定(softmax概率<0.7时触发人工接管) |
第六节上线前的大模型系统优化 |
量化压缩: oGPTQ 4bit量化使模型体积减少70% o采用DeepseekV3提出的MTP技术实现tokens 缓存策略: oKV Cache分块存储,降低重复计算 o高频问题回答预生成 5.2 监控体系建设 1.业务指标: o平均响应时间<2.5s o意图识别准确率>92% 2.模型指标: oPPL(困惑度)波动监控 oAttention熵值异常检测 3.硬件监控: oGPU利用率>85%时自动扩容 o显存泄漏预警机制 |
第一节框架Transformer及其经典应用 Transformer的编码器BERT、解码器GPT 自注意力机制详解 Mask Multi-Head Attention以及DeepseekV3中的改进 位置编码 特定于任务的输入转换 无监督预训练、有监督 Fine-tuning BERT思路的理解 GPT基本思想 基本问答系统的代码实现 T5等预备大模型的基本训练 深入阅读理解的代码实现 段落相关性代码实现 作文生成 |
第二节对比并选型主流开源大模型 1.1 模型选择 Deepseek-R1 (7B/67B):中文领域表现SOTA,支持长上下文推理 Llama-3 (8B/70B):Meta最新开源模型,多语言通用底座 Mistral-8x7B:MoE架构标杆,推理效率提升3倍 Qwen-72B:阿里千问开源版,金融法律领域微调能力强 1.2 基础环境搭建实操 硬件要求:至少24GB显存(如RTX 3090/A10) + 64GB内存 软件依赖: oCUDA 12.1 + cuDNN 8.9 oPyTorch 2.2 + Transformers 4.38 oFlashAttention-2加速库 o关键配置:LD_LIBRARY_PATH添加cuda路径,设置PYTORCH_CUDA_ALLOC_CONF防止显存碎片 |
第三节本地大模型部署 2.1 Deepseek-R1部署流程 1.模型获取: o通过HuggingFace官方仓库申请权限 o下载deepseek-r1-7b-base的safetensors格式权重 2.推理服务启动 o关键参数trust_remote_code、max_model_len等的讲解 o解释器多种启动服务方式对比 3.服务验证 o代码调用 o服务API的参数设置 2.2 Llama-3-8B快速部署 1.量化加速 oFP8的特点 o对比Deepseek原论文中量化章节的解读 2.REST API调用: o深度学习系统部署的常用方式 o针对AI算法的部署框架 |
第四节大模型领域微调训练 3.1 Deepseek-R1金融领域微调 1.数据准备: o格式:JSONL文件,每条含instruction/input/output o数据源:财报、券商研报、金融问答对、运营商问答对、意图识别数据 o关键处理:使用SentencePiece重组专业术语tokenization 2.QLoRA训练配置 o微调在大模型中的常用方法 o多种LoRA方式的对别 3.启动训练 o显存优化 oGPU并行 3.2 探讨适合微调的场景 o阐述项目中RAG模式和LoRA模式的选择 |
第五节大模型相关业务场景应用 4.1研报文档自动生成系统 架构设计: 1.数据层:Wind API实时获取宏观指标 + PDF解析模块 2.推理层: oDeepseek-R1作为生成核心 oMistral-8x7B进行事实核查 3.评估层: oRouge-L评估内容一致性 oFinBERT检测财务数据矛盾 以部署拓扑理清整体脉络 常规分析、复杂计算、数据采集、向量数据库、路由决策、Deepseek-R1/Mistral-8x7B、合规审查、PDF输出 4.2 业务领域的对话系统(根据具体需要选择智能投顾、套餐产品等) 关键技术点: 1.RAG增强: o使用LlamaIndex构建行业知识图谱 oFAISS向量库实现百万级文档秒级检索 2.记忆管理: o缓存最近轮次的对话摘要 o采用CoT(Chain-of-Thought)提示工程技术 3.风控拦截: o关键词过滤(如“保证收益”、“100%”等违规表述) o置信度阈值设定(softmax概率<0.7时触发人工接管) |
第六节上线前的大模型系统优化 量化压缩: oGPTQ 4bit量化使模型体积减少70% o采用DeepseekV3提出的MTP技术实现tokens 缓存策略: oKV Cache分块存储,降低重复计算 o高频问题回答预生成 5.2 监控体系建设 1.业务指标: o平均响应时间<2.5s o意图识别准确率>92% 2.模型指标: oPPL(困惑度)波动监控 oAttention熵值异常检测 3.硬件监控: oGPU利用率>85%时自动扩容 o显存泄漏预警机制 |