课程简介
■SFT(Supervised Fine-tuning,监督微调)的原理、数据构建与常见问题。
■参数高效微调(PEFT)方法:
■LoRA、QLoRA、Prompt Tuning、P-Tuning等核心PEFT技术讲解。
■不同PEFT方法的选择与适用场景。
■结合PyTorch/TensorFlow等框架实现PEFT的案例分析。
目标收益
培训对象
课程大纲
第一单元 提示工程学习(完成时长:0.5小时) |
1.1 提示工程原理及意义 1.2 提示工程Prompt模板设计原则及相关技巧 1.3 提示工程师学习成长路径 |
第二单元 大模型SFT微调关键技术(完成时长1.5小时) |
2.1 全量微调技术分析 2.2 lora与Qlora技术分析 2.3 Prompt tuning与P-Tuning技术分析 2.4 各类SFT综合对比分析 |
第三单元 大模型RL对齐关键技术(完成时长1小时) |
3.1强化学习理论综述 3.2 RLHF关键技术解析 3.3 PPO关键技术解析 3.4 DPO关键技术解析 3.5 GRPO 关键技术研究 3.6 强化学习算法综合对比分析 |
第四单元 大模型开发技术栈介绍(完成时长:1小时) |
4.1pytorch实战介绍 4.2transformers框架介绍 4.3trl训练类库介绍 4.4华为昇腾框架介绍 |
第五单元 大模型微调实战(完成时长:如:2小时) |
5.1 TRL框架介绍 5.2 LLM-SFT微调代码解读(全量与lora) 5.3 LLM-RL微调代码解读(PPO与GRPO) 5.4 分布式训练代码解读 |
第一单元 提示工程学习(完成时长:0.5小时) 1.1 提示工程原理及意义 1.2 提示工程Prompt模板设计原则及相关技巧 1.3 提示工程师学习成长路径 |
第二单元 大模型SFT微调关键技术(完成时长1.5小时) 2.1 全量微调技术分析 2.2 lora与Qlora技术分析 2.3 Prompt tuning与P-Tuning技术分析 2.4 各类SFT综合对比分析 |
第三单元 大模型RL对齐关键技术(完成时长1小时) 3.1强化学习理论综述 3.2 RLHF关键技术解析 3.3 PPO关键技术解析 3.4 DPO关键技术解析 3.5 GRPO 关键技术研究 3.6 强化学习算法综合对比分析 |
第四单元 大模型开发技术栈介绍(完成时长:1小时) 4.1pytorch实战介绍 4.2transformers框架介绍 4.3trl训练类库介绍 4.4华为昇腾框架介绍 |
第五单元 大模型微调实战(完成时长:如:2小时) 5.1 TRL框架介绍 5.2 LLM-SFT微调代码解读(全量与lora) 5.3 LLM-RL微调代码解读(PPO与GRPO) 5.4 分布式训练代码解读 |