从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

AI资讯11个月前发布 阿强
491 0

建立会做视频的世界模型,也能通过 Transformer 来实现了!来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型 ——WorldDreamer。它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、、动作序列生视频等。

从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

据团队介绍,通过预测 Token 的方式来建立通用场景世界模型,WorldDreamer 是业界首个。

它把视频生成转换为一个序列预测任务,可以对物理世界的变化和运动规律进行充分地学习。可视化实验已经证明,WorldDreamer 已经深刻理解了通用世界的动态变化规律。

那么,它都能完成哪些视频任务,效果如何呢?

支持多种视频任务

图像生成视频(Image to Video)

WorldDreamer 可以基于单一图像预测未来的帧。

只需首张图像输入,WorldDreamer 将剩余的视频帧视为被掩码的视觉 Token,并对这部分 Token 进行预测。

如下图所示,WorldDreamer 具有生成高质量电影级别视频的能力。其生成的视频呈现出无缝的逐帧运动,类似于真实电影中流畅的摄像机运动。而且,这些视频严格遵循原始图像的约束,确保帧构图的显著一致性。

从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

文本生成视频(Text to Video)

WorldDreamer 还可以基于文本进行视频生成。

仅仅给定语言文本输入,此时 WorldDreamer 认为所有的视频帧都是被掩码的视觉 Token,并对这部分 Token 进行预测。

下图展示了 WorldDreamer 在各种风格范式下从文本生成视频的能力。生成的视频与输入语言无缝契合,其中用户输入的语言可以塑造视频内容、风格和相机运动。

从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

视频修改(Video Inpainting)

WorldDreamer 进一步可以实现视频的 inpainting 任务。

具体来说,给定一段视频,用户可以指定 mask 区域,然后根据语言的输入可以更改被 mask 区域的视频内容。

如下图所示,WorldDreamer 可以将水母更换为熊,也可以将蜥蜴更换为猴子,且更换后的视频高度符合用户的语言描述。

从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

视频风格化(Video Stylization)

除此以外,WorldDreamer 可以实现视频的风格化。

如下图所示,输入一个视频段,其中某些像素被随机掩码,WorldDreamer 可以改变视频的风格,例如根据输入语言创建秋季主题效果。

从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

基于动作合成视频(Action to Video)

WorldDreamer 也可以实现在自动驾驶场景下的驾驶动作到视频的生成。

如下图所示,给定相同的初始帧以及不同的驾驶策略(如左转、右转),WorldDreamer 可以生成高度符合首帧约束以及驾驶策略的视频。

从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

那么,WorldDreamer 又是怎样实现这些功能的呢?

用 Transformer 构建世界模型

研究人员认为,目前最先进的视频生成方法主要分为两类 —— 基于 Transformer 的方法和基于扩散模型的方法。

利用 Transformer 进行 Token 预测可以高效学习到视频信号的动态信息,并可以复用大语言模型社区的经验,因此,基于 Transformer 的方案是学习通用世界模型的一种有效途径。

而基于扩散模型的方法难以在单一模型内整合多种模态,且难以拓展到更大参数,因此很难学习到通用世界的变化和运动规律。

而当前的世界模型研究主要集中在游戏、机器人和自动驾驶领域,缺乏全面捕捉通用世界变化和运动规律的能力。

所以,研究团队提出了 WorldDreamer 来加强对通用世界的变化和运动规律的学习理解,从而显著增强视频生成的能力。

借鉴大型语言模型的成功经验,WorldDreamer 采用 Transformer 架构,将世界模型建模框架转换为一个无监督的视觉 Token 预测问题。

具体的模型结构如下图所示:

从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

WorldDreamer 首先使用视觉 Tokenizer 将视觉信号(图像和视频)编码为离散的 Token。

这些 Token 在经过掩蔽处理后,输入给研究团队提出的 Sptial Temporal Patchwuse Transformer(STPT)模块。

同时,文本和动作信号被分别编码为对应的特征向量,以作为多模态特征一并输入给 STPT。STPT 在内部对视觉、语言、动作等特征进行充分的交互学习,并可以预测被掩码部分的视觉 Token。最终,这些预测出的视觉 Token 可以用来完成各种各样的视频生成和视频编辑任务。

从 20 亿数据中学习物理世界,基于 Transformer 的通用世界模型成功挑战视频生成

值得注意的是,在训练 WorldDreamer 时,研究团队还构建了 Visual-Text-Action(视觉-文本-动作)数据的三元组,训练时的损失函数仅涉及预测被掩蔽的视觉 Token,没有额外的监督信号。

而在团队提出的这个数据三元组中,只有视觉信息是必须的,也就是说,即使在没有文本或动作数据的情况下,依然可以进行 WorldDreamer 的训练。

这种模式不仅降低了数据收集的难度,还使得 WorldDreamer 可以支持在没有已知或只有单一条件的情况下完成视频生成任务。

研究团队使用大量数据对 WorldDreamer 进行训练,其中包括 20 亿经过清洗的图像数据、1000 万段通用场景的视频、50 万段高质量语言标注的视频、以及近千段自动驾驶场景视频。

团队对 10 亿级别的可学习参数进行了百万次迭代训练,收敛后的 WorldDreamer 逐渐理解了物理世界的变化和运动规律,并拥有了各种的视频生成和视频编辑能力。

论文地址:

https://arxiv.org/abs/2401.09985

项目主页:

https://world-dreamer.github.io/

本文来自微信公众号:量子位 (ID:QbitAI),作者:允中

原文地址:https://www.ithome.com/0/747/724.htm

© 版权声明

相关文章

暂无评论

暂无评论...