工程师
互联网
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

多模态技术深度培训:理论与实践的融合

某互联网大厂 AIGC负责人

任某互联网公司AIGC负责人,负责大模型、多模态、产研落地与知识管理与评估等多个团队工作。
多年百度搜索、大数据工作经验,专注于自然语言处理与人工智能方向,曾获CCKS中文知识图谱大赛第一名,就职期间输出数十篇专利。
带领团队发布内容行业垂类模型,并通过网信办备案。在多模态内容理解、角色对话、视频生成等多个方向有场景落地,有大量一线实操经验,AIGC业务单日服务用户超50万。
对市面上大部分大模型基座有比较深入的了解,能判断模型的能力边界。擅长结合行业垂类的实际情况,挖掘大模型可赋能的业务场景。有落地AIGC与大模型业务的一手经验,从模型的训练微调,到算力部署推理,以及线上实际用户case的反馈跟进,熟悉生产环境的具体实施。此外,也掌握大模型风控和网信办备案过程,能有效帮助企业在生产环境中落地大模型。

任某互联网公司AIGC负责人,负责大模型、多模态、产研落地与知识管理与评估等多个团队工作。 多年百度搜索、大数据工作经验,专注于自然语言处理与人工智能方向,曾获CCKS中文知识图谱大赛第一名,就职期间输出数十篇专利。 带领团队发布内容行业垂类模型,并通过网信办备案。在多模态内容理解、角色对话、视频生成等多个方向有场景落地,有大量一线实操经验,AIGC业务单日服务用户超50万。 对市面上大部分大模型基座有比较深入的了解,能判断模型的能力边界。擅长结合行业垂类的实际情况,挖掘大模型可赋能的业务场景。有落地AIGC与大模型业务的一手经验,从模型的训练微调,到算力部署推理,以及线上实际用户case的反馈跟进,熟悉生产环境的具体实施。此外,也掌握大模型风控和网信办备案过程,能有效帮助企业在生产环境中落地大模型。

课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

第一天重点介绍多模态技术的背景、应用场景、技术原理以及在内容型公司的应用实践。内容包括生成式AI、基础大模型技术、图片和视频生产技术、ASR技术、虚拟人技术等。第二天则深入探讨多技术原理,多模态在影视漫游类的应用,以及高质量视频生产的多模态工具使用。课程旨在通过理论与实践相结合的方式,帮助学员全面理解并掌握多模态技术。

目标收益

1,掌握多模态大模型的基本原理和技术框架,理解多模态数据处理的核心技术和方法。
2,深入了解多模态大模型在文字、音频、影视等多个内容赛道的应用场景和市场需求,为实际应用提供有力支持。
3,学会运用多模态大模型进行内容理解、内容生成等关键技术操作,提升在相关领域的工作效率和创新能力。

培训对象

课程大纲

模块一:多模态基础(第一天)
理论向(上午):多模态技术背景与应用介绍
1.热身暖场:自我介绍&引子(Sora/LumaAI/多模态效果展示)
2.生成式AI与多模态技术背景:探讨生成模型类型、工作原理及应用场景,包括文本、图像、视频生成等。
a.基础大模型技术(性能、价格、速度)
b.图片可控生产技术(填充、涂抹、增强)
c.Sora类视频化技术(运动、实体一致性、3D化)
d.ASR、有声、音乐技术(情感、旋律、音质)
e.虚拟人、具身智能与基础算力服务
3.多模态业界前沿产品介绍。
a.多模态应用行业地图(工具向 & 娱乐向)
b.基础类视觉图片应用(美图、稿定、MJ等)
c.基础类视频应用(Runway、Pika、Pixelverse & 快手可灵、LumaAI)
d.办公泛工具类(AI-PPT、效率、创意)
e.垂直场景类2B应用(客服、营销、培训等)
f.情感陪伴类C端应用(星野、talkie、筑梦岛等)
4.互动:自由问答
实践向(下午):多模态在内容型公司的应用路径 1.多模态应用开发实践范式(整体开发流程介绍)
2.落地技术选型(提示词工程、开源模型微调与私有化部署)
3.开发资源与团队构成(人员配置、开发工具、创作者生态)
4.当前内部应用示例(垂类模型、可控生图、规模化成本)
5.图像实践展开:
a.文生图:Lora概念与常用推荐、提示词书写规则 等;
b.图生图:关键词反推、局部重绘、画风转化 等;
c.ControlNet:插件原理、字体设计、AI模特服装 等;
6.SD-WebUI与ComfyUI实践展示
模块二:多模态生产环境落地(第二天)
理论(上午):多技术原理概览
1.世界模型的起源?
a.AI视频模型技术演进(VDM/MAV/AnimateDiff/SVD/DIT/Sora)
b.大模型发展:多模态输入、多模态输出
2.生产环境下多模态落地
a.图片:IP衍生品/社区配图/多格漫
b.有声:多播、音乐、情感、模仿
c.虚拟人:数字分身、互动唱歌、直播
3.成本与收益(GPU选型、推理加速框架、极限成本、市场价格)
4.互动:自由问答
实践(下午):多模态在影视漫游类的应用 1.拆解高质量“AI我中华”视频生产用到了哪些多模态工具
a.创意文案部分:剧本与创意模板提示词;
b.图片部分:可控重绘、高质超分、插帧渲染 等;
c.视频部分:SVD、Dreamina、Runway等;
d.音乐部分:Suno、韵律模型、声音克隆 等;
e.整体合成:市场成本、实际成本;
2.实践Dify/Coze 类Agent平台:
a.简介:Workflow工作流与调试 介绍;
b.验证:打造带Function Call能力的Agent(创建Bot与使用插件);
c.多模态:Coze 图像流 操作手册;
d.场景实践(知识库问答、毛胚房装修、电商广告图像流 等);
3.互动:
a.自由问答
分组练习:结合自己工作的业务特点进行智能体建模。
模块一:多模态基础(第一天)
理论向(上午):多模态技术背景与应用介绍
1.热身暖场:自我介绍&引子(Sora/LumaAI/多模态效果展示)
2.生成式AI与多模态技术背景:探讨生成模型类型、工作原理及应用场景,包括文本、图像、视频生成等。
a.基础大模型技术(性能、价格、速度)
b.图片可控生产技术(填充、涂抹、增强)
c.Sora类视频化技术(运动、实体一致性、3D化)
d.ASR、有声、音乐技术(情感、旋律、音质)
e.虚拟人、具身智能与基础算力服务
3.多模态业界前沿产品介绍。
a.多模态应用行业地图(工具向 & 娱乐向)
b.基础类视觉图片应用(美图、稿定、MJ等)
c.基础类视频应用(Runway、Pika、Pixelverse & 快手可灵、LumaAI)
d.办公泛工具类(AI-PPT、效率、创意)
e.垂直场景类2B应用(客服、营销、培训等)
f.情感陪伴类C端应用(星野、talkie、筑梦岛等)
4.互动:自由问答
实践向(下午):多模态在内容型公司的应用路径
1.多模态应用开发实践范式(整体开发流程介绍)
2.落地技术选型(提示词工程、开源模型微调与私有化部署)
3.开发资源与团队构成(人员配置、开发工具、创作者生态)
4.当前内部应用示例(垂类模型、可控生图、规模化成本)
5.图像实践展开:
a.文生图:Lora概念与常用推荐、提示词书写规则 等;
b.图生图:关键词反推、局部重绘、画风转化 等;
c.ControlNet:插件原理、字体设计、AI模特服装 等;
6.SD-WebUI与ComfyUI实践展示
模块二:多模态生产环境落地(第二天)
理论(上午):多技术原理概览
1.世界模型的起源?
a.AI视频模型技术演进(VDM/MAV/AnimateDiff/SVD/DIT/Sora)
b.大模型发展:多模态输入、多模态输出
2.生产环境下多模态落地
a.图片:IP衍生品/社区配图/多格漫
b.有声:多播、音乐、情感、模仿
c.虚拟人:数字分身、互动唱歌、直播
3.成本与收益(GPU选型、推理加速框架、极限成本、市场价格)
4.互动:自由问答
实践(下午):多模态在影视漫游类的应用
1.拆解高质量“AI我中华”视频生产用到了哪些多模态工具
a.创意文案部分:剧本与创意模板提示词;
b.图片部分:可控重绘、高质超分、插帧渲染 等;
c.视频部分:SVD、Dreamina、Runway等;
d.音乐部分:Suno、韵律模型、声音克隆 等;
e.整体合成:市场成本、实际成本;
2.实践Dify/Coze 类Agent平台:
a.简介:Workflow工作流与调试 介绍;
b.验证:打造带Function Call能力的Agent(创建Bot与使用插件);
c.多模态:Coze 图像流 操作手册;
d.场景实践(知识库问答、毛胚房装修、电商广告图像流 等);
3.互动:
a.自由问答
分组练习:结合自己工作的业务特点进行智能体建模。

活动详情

提交需求