Nvidia公布新文本转视频模型基于Stable Diffusion开发！ 2023-04-20 14:28:43

Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调，大大减少了生成视频的过程和时间。

该模型增加了一个时间维度，可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型，以512x1024像素的分辨率生成几分钟的汽车行驶视频，在大多数基准测试中达到SOTA。