W.A.L.T:谷歌视频生成模型

W.A.L.T:谷歌视频生成模型

刚注意到李飞飞团队的这个视频生成模型W.A.L.T,这效果也太好了,感觉比 Pika 1.0 还要好的多。
清晰度和动作都非常好,特别是光剑打斗的那个视频。可惜不开源。

方法有两个关键的设计决策。首先,我们使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了提高记忆和训练效率,我们使用专为联合空间和时空生成建模而定制的窗口注意架构。总而言之,这些设计决策使我们能够在已建立的视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准上实现最先进的性能,而无需使用无分类器指导。

未经允许不得转载:表盘吧 » W.A.L.T:谷歌视频生成模型