课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

本课程旨在系统解析AI Agent的技术演进脉络与核心能力,帮助学员深入理解从L1到L5的智能体发展阶段,掌握构建智能体的关键技术与实践方法。课程涵盖大模型推理能力演进、Agent认知架构(自主性、规划、工具使用、记忆与反思机制)、RAG与GraphRAG深度解析,以及Agentic RAG的实现路径。聚焦前沿技术落地,深入剖析Agent典型工作流模式(提示链、路由、并行化、编排-执行、评估-优化),并介绍主流Agent框架(LangChain、LlamaIndex、OpenClaw)

目标收益

1. 系统理解Agent技术全景: 掌握OpenAI定义的L1-L5智能体演进范式,深入理解Agent的认知架构与核心能力模型;
2. 精通Agent认知架构核心能力:深入掌握自主性、规划、工具使用、记忆机制与反思学习等Agent构建的关键模块;
3.构建生产级RAG系统:从零搭建RAG全流程,掌握chunking、Embedding、向量数据库等优化技巧,并升级为具备反思能力的Agentic RAG;

培训对象

课程内容

第一天:Agent技术演进与核心能力解析
L1-L5智能体演进范式与Agent认知基础 AI Agent智能体技术概述与行业背景
○AI行业总览:技术、应用、资本视角下的AI发展趋势。
○从LLM到Agent的必然:通用大模型能力的边界与Agent的出现。
○OpenAI定义的AGI发展路径与L1-L5智能体:
▪L1: Chatbot (对话机器人):基于GPT-3.5及后续模型,通过Chat UI实现基础对话能力。
▪L2: Reasoning (推理):模型思考慢下来,通过强化学习、精确奖励机制实现更深层次的逻辑推理与问题解决。
▪L3: Agent (智能体):模型具备自主规划、工具使用、与环境交互的能力,执行复杂任务。
▪L4: Innovation (创新):模型具备自我探索、发现新知识、创造新解决方案的能力。
▪L5: Organizer (组织者):模型能够协调和组织复杂系统,实现类人或超人智能。
○Agent的智能边界:通用智能与专用型Agent的平衡。

实战一:探索大模型推理能力的演进与应用,动手完成大模型各个阶段微调训练和调参技巧。
○ 理解大模型推理能力由来,动手实践模型训练
○ 实践模型强化学习和适用于的场景
○ Deepseek蒸馏实验和小样本场景下的落地探索

Agent的认知架构与核心能力模型
○自主性(Autonomy): Agent决策与行动的独立性。
○规划能力(Planning): 任务分解、策略制定、行动序列生成。
○工具使用(Tool Use): 让Agent调用外部API、数据库、网络工具。
○记忆机制(Memory): 短期记忆(上下文管理)与长期记忆(知识库、经验回放)。
○反思与学习(Reflection & Learning): Agent如何从错误中学习,优化策略和知识。
○Agent的基础构建块:增强型LLM的核心能力。

RAG (Retrieval Augmented Generation) 深度解析
○大模型驱动的RAG技术架构剖析:检索器、生成器、重排器。
○RAG技术的范式演进与核心步骤:从传统RAG到高级RAG。
○GraphRAG的核心原理与前沿探索:知识图谱与RAG的融合。
○优化RAG性能:Chunking策略、Embedding模型选择、向量数据库。

Agentic RAG、高级工作流与主流框架 Agentic RAG:智能体的知识增强利器
○什么是Agentic RAG?为何它超越传统RAG?
○Agentic RAG的核心原理:Agent如何驱动多步骤检索、筛选、重组信息并生成答案。
○Agentic RAG与工具使用:Agent如何根据问题选择合适的检索工具、RAG策略(如多跳RAG、迭代RAG)。
○案例解析:Agentic RAG在复杂问答、报告生成、研究分析中的应用。

实战二:从RAG到Agentic RAG:动手构建智能知识检索系统全流程
○ 机器上构建RAG系统的核心环节(包括复杂知识库构建,检索召回)
○并探索如何通过Agent的引入,将RAG系统升级为具备反思和迭代能力的Agentic RAG,同时动手实践Agentic RAG知识框架。
○实际工作中知识库的构建和上下文工程的平衡

Agent典型工作流模式剖析
○提示链(Prompt Chain)模式:结构化提示词的序列执行。
○路由(Routing)模式:Agent根据条件动态选择执行路径。
○并行化(Parallelization)模式:同时执行多个子任务。
○Orchestrator-Workers模式:主控Agent协调多个工作Agent。
○Evaluator-Optimizer模式:Agent的自我反思、评估与优化循环。
○高阶智能的遐想:从工作流编排到自主Agent的跃迁,新型大模型下的Agent架构革新。

主流Agent框架介绍与实践基础
○LangChain:Agent模块、工具集成、记忆管理、Chain的构建。
○LlamaIndex:与RAG的深度结合,数据摄取与索引。
○(可选)Dify/Coze:低代码/零代码平台构建Agent工作流的对比分析。
○OpenClaw:2025年11月发布、2026年初两周内突破10万GitHub Stars的爆款开源Agent框架,目前已达18万+ Stars,是当前增速最快的本地自托管Agent平台。
▪核心架构五层模型:Gateway(多渠道接入层,支持WhatsApp/Slack/Web UI)、Memory(短期上下文与长期知识存储)、Skills(插件化技能扩展层,核心差异点)、Cron(定时任务与事件触发调度)、Execution Runtime(工具调用与代码执行沙箱)。
▪Skills生态系统:OpenClaw最核心的差异化能力,Skills是可安装的技能插件,允许Agent与外部服务交互、自动化工作流、执行专业任务;目前ClawHub官方技能市场收录超过3000个社区技能,涵盖32个类别。
▪Skills核心类别与代表技能:编程开发类(GitHub Bridge,代码仓库操作与PR管理)、通信协作类(AgentMail,Agent自主收发邮件基础设施)、浏览器自动化类(Playwright Browser,网页抓取与UI自动化)、项目管理类(Linear/Monday,任务创建与进度追踪)、内容管理类(Notion Sync,文档同步与知识库管理)、语音AI类(VAPI,语音交互与电话Agent集成)、数据分析类(Chroma Search,向量数据库搜索与RAG增强)、多媒体生成类(Seedance 2.0 Skill,视频生成能力集成)。
▪模型无关性:OpenClaw支持云端模型(Claude/GPT/Gemini)与本地模型(Ollama)自由切换,灵活适配不同算力与隐私需求。
▪安全风险警示:2026年初安全研究人员发现42,000个暴露的默认配置OpenClaw实例;TrendMicro检测到恶意Skills传播AMOS木马;需重点关注Skills源码审计、最小权限原则、网络隔离与公网访问控制。
○开发环境配置与核心组件介绍。

第二天:多模态Agent与AI视频生成:Seedance 2.0深度解析
○Seedance 2.0背景:字节跳动ByteDance Seed团队于2026年2月12日正式发布,定位为全球首个四模态(Quad-Modal)视频生成模型,发布后迅速集成至CapCut、豆包、飞书等字节系平台,并开放BytePlus API与MCP协议接入。
○四模态输入系统(Quad-Modal Input):同时支持文字(Text)、图片(Image)、视频(Video)、音频(Audio)四类输入,最多支持9张图片+3段视频片段+3个音频文件并行输入,是目前唯一支持四路模态同时输入的视频生成模型。
▪文字输入:自然语言描述场景、动作、风格与摄像指令。
▪图片输入(@Reference锁定外观):用@符号引用图片锁定角色外观或视觉风格,实现跨镜头角色一致性。
▪视频输入(运镜参考):输入参考视频片段以定义摄像运动方式(推拉摇移)与动作节奏。
▪音频输入(音画驱动):输入音频驱动角色口型同步,或以音频风格为参考生成匹配的背景配乐。
○技术架构:采用Unified Audio-Video DiT(统一音视频扩散Transformer)架构,底层为Dual-Branch Diffusion Transformer处理3D时空Token;内置LLM调度层负责场景结构规划与运动序列生成;最高支持2K分辨率(1080p~2K),单次生成时长4~15秒。

○五大核心能力:
▪角色一致性(Character Consistency):多镜头跨场景保持人物外观与细节一致,适用于品牌代言人内容自动化生产。
▪导演级摄像控制(Cinematic Camera Control):支持精细化指定推拉摇移等专业运镜方式,实现导演级创作控制。
▪真实物理仿真(Real-World Physics Simulation):准确模拟液体流动、布料飘动、光影变化等物理规律,大幅提升视频真实感。
▪原生音视频同步生成(Native Audio-Video Joint Generation):视频与环境音效、背景音乐、角色对话口型同步一体化生成,无需后期配音合成。
▪视频延伸(Video Extension):支持稳定可控的视频续写与延伸,保持风格与运动连贯性。
○接入方式与Agent集成:
▪即梦(Jimeng)/豆包(Doubao)/CapCut(剪映):面向普通用户的可视化创作入口。
▪BytePlus ModelArk API:开发者标准API接入,支持多模态JSON Payload调用,适合Agent框架程序化集成。
▪OpenClaw Skills插件:通过Skills市场一键安装Seedance 2.0技能,实现OpenClaw Agent直接调用视频生成能力。
▪MCP协议:符合Agent标准多渠道协议,可无缝接入LangChain、LlamaIndex等主流框架。
○Seedance 2.0与主流视频生成模型横向对比(Sora 2 / Google Veo 3.1 / Kling 3.0):输入模态数量、原生音频能力、最高分辨率、参考资产输入上限、API与MCP支持情况的多维度差异分析。
○Agent驱动的视频内容生成典型应用场景:电商商品视频批量自动化生产、短视频矩阵账号运营、教育科普内容自动制作、品牌广告素材智能生成。

实战三:OpenClaw + Seedance 2.0——构建多模态内容生成Agent全流程
○ 部署OpenClaw本地实例,完成安全加固配置(关闭公网暴露、配置访问控制、最小权限原则)。
○ 安装并审计核心Skills,掌握ClawHub技能市场的使用方式与Skills源码安全审查方法。
○ 配置Seedance 2.0 API Skills,完成BytePlus认证与多模态输入参数调试(图片@Reference引用、音频驱动口型、运镜控制指令)。
○ 设计并运行完整Prompt Chain工作流:用户需求输入 → LLM脚本生成 → 分镜描述拆解 → Seedance 2.0 API视频生成 → 结果质量评估与Prompt迭代优化。
○ 配置Cron定时调度任务,实现无人值守的自动化视频内容定期生产。
○ 扩展探索:基于Orchestrator-Workers模式构建多Agent协作流水线(规划Agent + 视频生成Agent + 内容发布Agent)。

Agent安全框架与伦理考量
○安全边界与风险评估:幻觉、偏见、隐私泄露。
○行为约束与行动准则:Prompt Engineering与Guardrails。
○可解释性与透明度保障:Agent决策过程的可追溯性。
○敏感信息处理机制与合规性要求。
○开源Agent框架安全新威胁(以OpenClaw为典型案例):恶意Skills植入(Prompt注入、工具污染、隐藏恶意载荷)、提示注入劫持Agent决策、工具输出污染、实例默认配置暴露风险;防御核心:Skills源码审计 + 沙箱隔离 + 出站流量过滤 + 强制认证机制。
○多模态Agent的内容安全(以Seedance 2.0为典型案例):AI生成视频的Deepfake风险与检测技术、训练数据版权归属与侵权争议、企业使用AI生成视频的合规框架(水印溯源、生成内容披露义务)、平台内置NSFW内容安全过滤机制的原理与局限性。

课程费用

6800.00 /人

课程时长

2

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求