课程简介
■回顾Transformer架构及其在大模型中的演进(强调非基础部分,如稀疏Attention、长上下文处理等)。
■大模型训练范式概述:预训练(Pre-training)、指令微调(Instruction Tuning)与对齐。
■CPT(Continual Pre-training,持续预训练)的理论与实践:
■持续预训练的必要性与应用场景(如领域适应)。
■数据准备与策略(高质量数据筛选、去重等)。
■常用的CPT方法与工具。
■企业内部特定领域数据进行CPT的实战考量。
目标收益
培训对象
课程大纲
引子(完成时长0.5小时) | 介绍大模型的起源,背景,AGI的发展历程。 |
第一单元 ai技术导论(完成时长:0.5小时) |
1.1人工智能基础定义 1.2深度学习引发变革【CNN/RNN】 1.3Bert模型进入预训练时代 1.4大模型综述【GPT、LLAMA、文心、百川、零一、千问】 1.5多模态大模型发展历程 1.6ReasonLLM演进思路 1.7LLM训练前沿技术介绍(稀疏注意力,RoPE长上下文) |
第二单元 Chatgpt理论解析(完成时长:1小时) |
2.1 chatgpt技术架构介绍 2.2 P-tuning技术 2.3 强化学习PPO算法 2.4 RLHF建模框架 |
第三单元 Deepseek理论解析(完成时长:1小时) |
3.1 模型蒸馏(从V3走向R1) 3.2 强化学习新路径(GRPO) 3.3 数据合成与构造策略 3.4 deepseek开源库代码解读 |
第四单元 CPT关键技术研究(完成时长:1.5小时) |
4.1 CPT场景选择依据 4.2 CPT基模评测与选择 4.3 样本构造与数据合成 4.4 CPT模型评测策略概述 |
第五单元 大模型CPT实战(完成时长:如:1.5小时) |
5.1 transformers框架介绍 5.2 transformers针对CPT代码解读 5.3 模型训练注意事项讲解 |
引子(完成时长0.5小时) 介绍大模型的起源,背景,AGI的发展历程。 |
第一单元 ai技术导论(完成时长:0.5小时) 1.1人工智能基础定义 1.2深度学习引发变革【CNN/RNN】 1.3Bert模型进入预训练时代 1.4大模型综述【GPT、LLAMA、文心、百川、零一、千问】 1.5多模态大模型发展历程 1.6ReasonLLM演进思路 1.7LLM训练前沿技术介绍(稀疏注意力,RoPE长上下文) |
第二单元 Chatgpt理论解析(完成时长:1小时) 2.1 chatgpt技术架构介绍 2.2 P-tuning技术 2.3 强化学习PPO算法 2.4 RLHF建模框架 |
第三单元 Deepseek理论解析(完成时长:1小时) 3.1 模型蒸馏(从V3走向R1) 3.2 强化学习新路径(GRPO) 3.3 数据合成与构造策略 3.4 deepseek开源库代码解读 |
第四单元 CPT关键技术研究(完成时长:1.5小时) 4.1 CPT场景选择依据 4.2 CPT基模评测与选择 4.3 样本构造与数据合成 4.4 CPT模型评测策略概述 |
第五单元 大模型CPT实战(完成时长:如:1.5小时) 5.1 transformers框架介绍 5.2 transformers针对CPT代码解读 5.3 模型训练注意事项讲解 |