课程简介
本课程将带领您深入探索Sora类技术的崛起,理解其在业务场景中的创新引擎作用。我们将从Sora类技术的核心特点出发,详细剖析其灵活的视频时间长度、分辨率、宽高比,以及强大的文本理解能力和视频编辑能力。同时,我们还将探讨镜头3D一致性、物体角色持久一致性等关键技术,以及游戏数字世界模拟和图生视频等前沿应用。
目标收益
培训对象
课程内容
1. 引子~Sora介绍
1.1 内容特点:灵活的视频时间长度、分辨率、宽高比
1.2 文本理解能力
1.3 视频编辑能力
1.4 镜头3D一致性
1.5 物体角色持久一致性
1.6 游戏数字世界模拟
1.7 图生视频
1.8 局限
2. AI视频生成技术迭代
2.1 VDM:Video Diffusion Models(google)
2.2 Make-A-Video
2.3 Imagen Video
2.4 Video LDM
2.5 AnimateDiff
2.6 Show-1
2.7 SVD:Stable Video Diffusion
2.8 NaViT/Vivit/DiT
2.8 Sora技术分析 与 opensora
3.1 行业发展概览
3.2 生产端典型公司介绍:runway&pika&pixelverse
3.3 业务应用端典型公司介绍:Tavus&奥创光年&各类工作室(AI我中华)
4. 真实工业环境下的多模态落地实践
4.1 图片模态:
4.1.1 可控生图 的技术落地介绍
4.1.2 IP形象复刻与可控生成衍生品
4.1.3 多格漫画的生成与翻译
4.1.4 头像规模化生成
4.1.5 社区可控配图
4.1.6 规模化生图推理成本控制
4.2 虚拟人模态:
4.2.1 声音克隆
4.2.2 虚拟IP互动唱歌
4.2.3 数字分身制作
4.3 视频模态:
4.3.1 动态漫画视频
4.3.2 短剧剪辑:视频剪辑与自动解说
4.3.3 短剧出海:视频换脸、翻译与对嘴型
5. 行业垂类落地核心环节建设
5.1 文案:商品理解与营销短语
5.2 创意:剧本与创意模板
5.3 视觉化:生图与视频
5.4 GPU集群:选型、部署与推理加速
6. 展望
6.1 落地合规与安全展望
6.2 从多模态输入到多模态输出