W.A.L.T：谷歌视频生成模型-表盘吧

W.A.L.T：谷歌视频生成模型

刚注意到李飞飞团队的这个视频生成模型W.A.L.T，这效果也太好了，感觉比 Pika 1.0 还要好的多。
清晰度和动作都非常好，特别是光剑打斗的那个视频。可惜不开源。

方法有两个关键的设计决策。首先，我们使用因果编码器在统一的潜在空间内联合压缩图像和视频，从而实现跨模态的训练和生成。其次，为了提高记忆和训练效率，我们使用专为联合空间和时空生成建模而定制的窗口注意架构。总而言之，这些设计决策使我们能够在已建立的视频（UCF-101 和 Kinetics-600）和图像（ImageNet）生成基准上实现最先进的性能，而无需使用无分类器指导。

未经允许不得转载：表盘吧 » W.A.L.T：谷歌视频生成模型

W.A.L.T：谷歌视频生成模型

W.A.L.T：谷歌视频生成模型

相关推荐

最新文章