课程简介
本课程聚焦大模型与 Agent 能力评测及质量保障前沿实践。课程详解 LLM 原理、Prompt 工程、RAG 及 Agent 设计模式,构建必备知识体系。重点剖析评测“道法术器”,涵盖流程、数据集、指标设计及基础设施架构。结合 AI 原生应用质量保障最佳实践,分享从测试到评测的转变策略及非确定性技术围栏。通过企业级案例(如智能客服、辅助编程),帮助学员掌握 AI 时代质量保障核心能力,应对大模型应用落地挑战。
目标收益
1、掌握大模型与 Agent 核心原理及主流设计模式。
2、构建大模型能力评测指标体系与数据集建设方法。
3、学习 AI 原生应用质量保障最佳实践与前沿案例。
4、理解评测基础设施架构设计与自动化评测策略。
5、获取专家指导,应对大模型应用落地质量挑战。
培训对象
1. 质量保障/测试工程师:从事软件测试、质量保障,希望掌握大模型与Agent评测方法的专业人员。
2. AI应用开发者与算法工程师:负责大模型应用落地、Agent开发,需了解能力评估与质量围栏的技术人员。
3. 研发效能工程师与技术管理者:关注AI时代研发流程变革、效能度量与质量体系建设的管理者。
4. 技术架构师/技术负责人:规划AI原生应用架构、设计评测基础设施与自动化策略的核心技术骨干。
5. AI产品经理:负责智能客服、辅助编程等AI产品设计,需理解评测指标与质量验收标准的产品人员。
课程大纲
| 掌握大模型和Agent能力评测必须理解的LLM知识体系 |
1.大语言模型的基本原理详解 2.LLM应用能力的进阶模型(“倒三角”模型) 3.提示的万能使用公式详解 4.提示词静态链的使用 5.提示词的横向扩展 6.提示词的纵向扩展 7.使用OpenAI API 8.ReAct的概念和实践 9.ReAct的短板与改进 10.思维链和多思维链 11.RAG的基本原理与应用 12.多模态RAG的使用 13.plugin机制与使用方式 14.Function Call机制与使用方式 15.MCP机制与使用方式 16.MCP机制的短板与解决思路 17.Skills机制与使用方式 18.Skills机制的短板与解决思路 19.Skills的高级使用技巧 |
| 掌握大模型和Agent能力评测必须理解的Agent知识体系 |
1.Agent的雏形 2.Agent开发的基本框架 3.Agent的设计模式 4.业界主流Agent的设计思路与使用 5.Multi-Agent的雏形 6.业界主流Multi-Agent的设计思路 7.多Agent任务调度策略与选型 8.Agent设计模式与选择 9.Agent设计模式:顺序执行链模式与案例详解 10.Agent设计模式:路由模式与案例详解 11.Agent设计模式:并行模式与案例详解 12.Agent设计模式:反思模式与案例详解 13.Agent设计模式:工具使用模式与案例详解 14.Agent设计模式:规划模式与案例详解 15.Agent设计模式:多智能体协作模式与案例详解 16.Agent设计模式:人类参与模式与案例详解 17.Agent设计模式:短期记忆管理模式与案例详解 18.Agent设计模式:长期记忆管理模式与案例详解 19.Multi-Agent的基本逻辑和应用范围 20.Multi-Agent应用示例:MetaGPT 21.Multi-Agent应用示例:DevChat 22.Manus的设计原理 23.OpenClaw的设计原理 24.OpenClaw的架构设计 |
| 大模型和Agent能力评测的道法术器 |
1.大模型评测和Agent评测的区别 2.大模型和Agent能力评测的基本流程 3.目前主流评测手段的主要问题 4.评测的数据污染问题 5.数据污染的处理手段和保鲜机制 6.评测的数据饱和问题 7.数据饱和程度的感知方式 8.评测的数据简化问题 9.评测的任务分类体系问题 10.评测的难度等级问题 11.大模型能力评测维度 12.Agent能力评测维度 13.评测数据集与基准建设 14.评测数据集的结构设计 15.从真实数据泛化衍生新数据的方法 16.评测指标与评价标准的设计原则 17.常见评测指标设计思路解读 18.自动评测的局限与业界常见误区 19.人工手动评测的必要性 20.评测运行基础设施的架构设计 21.案例解读:SWE-Bench和SWE-Bench-Verified的设计 22.案例解读:软件研发全生命周期的LLM应用能力评测 |
| AI原生应用质量保障的最佳实践与案例解读 |
1.从“测试”到“评测” 2.AI原生应用的软件质量范畴衍生 3.非确定性的技术围栏 4.模型评测之外的质量保障 5.用魔法打败魔法的实践 6.AI原生应用质量保障的特殊性和难点 7.AI原生应用质量保障技术概览 8.AI原生应用质量保障的基本方法 9.AI原生应用质量保障的“可验证性”理论 10.区分模型能力和Agent能力 11.AI原生应用评测的完整流程 12.AI原生应用评测的数据集准备 13.AI原生应用质量全生命周期的扩展 14.AI原生应用评测的业界前沿实践 15.AI原生应用评测的发展方向 16.企业级案例:LLM辅助编程工具的评测与质量控制 17.企业级案例:智能客服系统的评测与质量控制 |
|
掌握大模型和Agent能力评测必须理解的LLM知识体系 1.大语言模型的基本原理详解 2.LLM应用能力的进阶模型(“倒三角”模型) 3.提示的万能使用公式详解 4.提示词静态链的使用 5.提示词的横向扩展 6.提示词的纵向扩展 7.使用OpenAI API 8.ReAct的概念和实践 9.ReAct的短板与改进 10.思维链和多思维链 11.RAG的基本原理与应用 12.多模态RAG的使用 13.plugin机制与使用方式 14.Function Call机制与使用方式 15.MCP机制与使用方式 16.MCP机制的短板与解决思路 17.Skills机制与使用方式 18.Skills机制的短板与解决思路 19.Skills的高级使用技巧 |
|
掌握大模型和Agent能力评测必须理解的Agent知识体系 1.Agent的雏形 2.Agent开发的基本框架 3.Agent的设计模式 4.业界主流Agent的设计思路与使用 5.Multi-Agent的雏形 6.业界主流Multi-Agent的设计思路 7.多Agent任务调度策略与选型 8.Agent设计模式与选择 9.Agent设计模式:顺序执行链模式与案例详解 10.Agent设计模式:路由模式与案例详解 11.Agent设计模式:并行模式与案例详解 12.Agent设计模式:反思模式与案例详解 13.Agent设计模式:工具使用模式与案例详解 14.Agent设计模式:规划模式与案例详解 15.Agent设计模式:多智能体协作模式与案例详解 16.Agent设计模式:人类参与模式与案例详解 17.Agent设计模式:短期记忆管理模式与案例详解 18.Agent设计模式:长期记忆管理模式与案例详解 19.Multi-Agent的基本逻辑和应用范围 20.Multi-Agent应用示例:MetaGPT 21.Multi-Agent应用示例:DevChat 22.Manus的设计原理 23.OpenClaw的设计原理 24.OpenClaw的架构设计 |
|
大模型和Agent能力评测的道法术器 1.大模型评测和Agent评测的区别 2.大模型和Agent能力评测的基本流程 3.目前主流评测手段的主要问题 4.评测的数据污染问题 5.数据污染的处理手段和保鲜机制 6.评测的数据饱和问题 7.数据饱和程度的感知方式 8.评测的数据简化问题 9.评测的任务分类体系问题 10.评测的难度等级问题 11.大模型能力评测维度 12.Agent能力评测维度 13.评测数据集与基准建设 14.评测数据集的结构设计 15.从真实数据泛化衍生新数据的方法 16.评测指标与评价标准的设计原则 17.常见评测指标设计思路解读 18.自动评测的局限与业界常见误区 19.人工手动评测的必要性 20.评测运行基础设施的架构设计 21.案例解读:SWE-Bench和SWE-Bench-Verified的设计 22.案例解读:软件研发全生命周期的LLM应用能力评测 |
|
AI原生应用质量保障的最佳实践与案例解读 1.从“测试”到“评测” 2.AI原生应用的软件质量范畴衍生 3.非确定性的技术围栏 4.模型评测之外的质量保障 5.用魔法打败魔法的实践 6.AI原生应用质量保障的特殊性和难点 7.AI原生应用质量保障技术概览 8.AI原生应用质量保障的基本方法 9.AI原生应用质量保障的“可验证性”理论 10.区分模型能力和Agent能力 11.AI原生应用评测的完整流程 12.AI原生应用评测的数据集准备 13.AI原生应用质量全生命周期的扩展 14.AI原生应用评测的业界前沿实践 15.AI原生应用评测的发展方向 16.企业级案例:LLM辅助编程工具的评测与质量控制 17.企业级案例:智能客服系统的评测与质量控制 |
近期公开课推荐