课程简介
第一天重点介绍多模态技术的背景、应用场景、技术原理以及在内容型公司的应用实践。内容包括生成式AI、基础大模型技术、图片和视频生产技术、ASR技术、虚拟人技术等。第二天则深入探讨多技术原理,多模态在影视漫游类的应用,以及高质量视频生产的多模态工具使用。课程旨在通过理论与实践相结合的方式,帮助学员全面理解并掌握多模态技术。
目标收益
1,掌握多模态大模型的基本原理和技术框架,理解多模态数据处理的核心技术和方法。
2,深入了解多模态大模型在文字、音频、影视等多个内容赛道的应用场景和市场需求,为实际应用提供有力支持。
3,学会运用多模态大模型进行内容理解、内容生成等关键技术操作,提升在相关领域的工作效率和创新能力。
培训对象
课程大纲
模块一:多模态基础(第一天) 理论向(上午):多模态技术背景与应用介绍 |
1.热身暖场:自我介绍&引子(Sora/LumaAI/多模态效果展示) 2.生成式AI与多模态技术背景:探讨生成模型类型、工作原理及应用场景,包括文本、图像、视频生成等。 a.基础大模型技术(性能、价格、速度) b.图片可控生产技术(填充、涂抹、增强) c.Sora类视频化技术(运动、实体一致性、3D化) d.ASR、有声、音乐技术(情感、旋律、音质) e.虚拟人、具身智能与基础算力服务 3.多模态业界前沿产品介绍。 a.多模态应用行业地图(工具向 & 娱乐向) b.基础类视觉图片应用(美图、稿定、MJ等) c.基础类视频应用(Runway、Pika、Pixelverse & 快手可灵、LumaAI) d.办公泛工具类(AI-PPT、效率、创意) e.垂直场景类2B应用(客服、营销、培训等) f.情感陪伴类C端应用(星野、talkie、筑梦岛等) 4.互动:自由问答 |
实践向(下午):多模态在内容型公司的应用路径 |
1.多模态应用开发实践范式(整体开发流程介绍) 2.落地技术选型(提示词工程、开源模型微调与私有化部署) 3.开发资源与团队构成(人员配置、开发工具、创作者生态) 4.当前内部应用示例(垂类模型、可控生图、规模化成本) 5.图像实践展开: a.文生图:Lora概念与常用推荐、提示词书写规则 等; b.图生图:关键词反推、局部重绘、画风转化 等; c.ControlNet:插件原理、字体设计、AI模特服装 等; 6.SD-WebUI与ComfyUI实践展示 |
模块二:多模态生产环境落地(第二天) 理论(上午):多技术原理概览 |
1.世界模型的起源? a.AI视频模型技术演进(VDM/MAV/AnimateDiff/SVD/DIT/Sora) b.大模型发展:多模态输入、多模态输出 2.生产环境下多模态落地 a.图片:IP衍生品/社区配图/多格漫 b.有声:多播、音乐、情感、模仿 c.虚拟人:数字分身、互动唱歌、直播 3.成本与收益(GPU选型、推理加速框架、极限成本、市场价格) 4.互动:自由问答 |
实践(下午):多模态在影视漫游类的应用 |
1.拆解高质量“AI我中华”视频生产用到了哪些多模态工具 a.创意文案部分:剧本与创意模板提示词; b.图片部分:可控重绘、高质超分、插帧渲染 等; c.视频部分:SVD、Dreamina、Runway等; d.音乐部分:Suno、韵律模型、声音克隆 等; e.整体合成:市场成本、实际成本; 2.实践Dify/Coze 类Agent平台: a.简介:Workflow工作流与调试 介绍; b.验证:打造带Function Call能力的Agent(创建Bot与使用插件); c.多模态:Coze 图像流 操作手册; d.场景实践(知识库问答、毛胚房装修、电商广告图像流 等); 3.互动: a.自由问答 分组练习:结合自己工作的业务特点进行智能体建模。 |
模块一:多模态基础(第一天) 理论向(上午):多模态技术背景与应用介绍 1.热身暖场:自我介绍&引子(Sora/LumaAI/多模态效果展示) 2.生成式AI与多模态技术背景:探讨生成模型类型、工作原理及应用场景,包括文本、图像、视频生成等。 a.基础大模型技术(性能、价格、速度) b.图片可控生产技术(填充、涂抹、增强) c.Sora类视频化技术(运动、实体一致性、3D化) d.ASR、有声、音乐技术(情感、旋律、音质) e.虚拟人、具身智能与基础算力服务 3.多模态业界前沿产品介绍。 a.多模态应用行业地图(工具向 & 娱乐向) b.基础类视觉图片应用(美图、稿定、MJ等) c.基础类视频应用(Runway、Pika、Pixelverse & 快手可灵、LumaAI) d.办公泛工具类(AI-PPT、效率、创意) e.垂直场景类2B应用(客服、营销、培训等) f.情感陪伴类C端应用(星野、talkie、筑梦岛等) 4.互动:自由问答 |
实践向(下午):多模态在内容型公司的应用路径 1.多模态应用开发实践范式(整体开发流程介绍) 2.落地技术选型(提示词工程、开源模型微调与私有化部署) 3.开发资源与团队构成(人员配置、开发工具、创作者生态) 4.当前内部应用示例(垂类模型、可控生图、规模化成本) 5.图像实践展开: a.文生图:Lora概念与常用推荐、提示词书写规则 等; b.图生图:关键词反推、局部重绘、画风转化 等; c.ControlNet:插件原理、字体设计、AI模特服装 等; 6.SD-WebUI与ComfyUI实践展示 |
模块二:多模态生产环境落地(第二天) 理论(上午):多技术原理概览 1.世界模型的起源? a.AI视频模型技术演进(VDM/MAV/AnimateDiff/SVD/DIT/Sora) b.大模型发展:多模态输入、多模态输出 2.生产环境下多模态落地 a.图片:IP衍生品/社区配图/多格漫 b.有声:多播、音乐、情感、模仿 c.虚拟人:数字分身、互动唱歌、直播 3.成本与收益(GPU选型、推理加速框架、极限成本、市场价格) 4.互动:自由问答 |
实践(下午):多模态在影视漫游类的应用 1.拆解高质量“AI我中华”视频生产用到了哪些多模态工具 a.创意文案部分:剧本与创意模板提示词; b.图片部分:可控重绘、高质超分、插帧渲染 等; c.视频部分:SVD、Dreamina、Runway等; d.音乐部分:Suno、韵律模型、声音克隆 等; e.整体合成:市场成本、实际成本; 2.实践Dify/Coze 类Agent平台: a.简介:Workflow工作流与调试 介绍; b.验证:打造带Function Call能力的Agent(创建Bot与使用插件); c.多模态:Coze 图像流 操作手册; d.场景实践(知识库问答、毛胚房装修、电商广告图像流 等); 3.互动: a.自由问答 分组练习:结合自己工作的业务特点进行智能体建模。 |