Diffusion Models视频生成-博客汇总

0、【论文汇总】Diffusion Models视频生成/视频编辑/可控视频生成/跨模态视频生成

本文总结了Diffusion Models视频生成领域相关的工作，目前共收录142篇，持续更新中。

1、Video Diffusion Models：基于扩散模型的视频生成

扩散模型已经被广泛运用到图像生成、image-to-image转换、时间序列生成、3D点云生成、文本生成、音频生成等领域，谷歌研究院最新的研究成果成功将diffusion models运用到视频生成领域。

2、详细解读 VideoFactory：Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

VideoFactory提出了一种新颖的交换时空交叉注意机制来加强空间和时间之间的相互作用，并发布了目前最大的视频数据集，包含了130万个文本-视频对。这篇博客详细解读一下这篇论文的创新点，希望能对做扩散模型视频生成的读者有所帮助。

3、文生视频领域SOTA工作Make-A-Video：论文解读和代码赏析

2022年年底Meta AI提出了Make-A-Video，一年过去了依旧是文生视频领域的SOTA工作，在主流数据集上依旧保持着最先进的指标。论文利用了预训练的Text-to-Image模型扩展到Text-to-Video任务，大大降低了视频生成的门槛；论文中提出的伪三维卷积层和伪三维注意力层也被后来的研究广泛借鉴。这篇博客详细解读Make-A-Video的论文和源代码，并给出一些博主的思考和见解。

4、Diffusion Models可控视频生成Control-A-Video：论文和源码解读

Diffusion视频生成的时间连贯性问题是可控视频生成问题最大的挑战。Control-A-Video提出的时空一致性建模法、残差噪声初始化法和首帧定型法能有效解决这一问题，非常值得我们借鉴。博主详细解读论文和代码，并给出一些自己的思考。

5、【Diffusion 视频生成】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Tune-A-Video提出了一个新的文本-视频任务：One-Shot视频生成，能够在视频对象编辑、背景编辑、风格转换、可控生成等领域取得了非常好的效果。这篇博客详细解读Tune-A-Video的论文和代码，希望能对做扩散模型视频生成的读者们有所帮助。

6、文生视频领域SOTA工作 Show-1：论文和代码解读

最近的text-to-video的论文Show-1在MSR-VTT测评数据集上取得了FVD和CLIPSIM指标上的第一名，FID指标上的第二名。采用混合模型的方法，结合了基于像素的VDM和基于潜在空间的VDM进行文本到视频的生成，不仅能取得很高的生成指标，还能大大降低推理资源消耗。这篇博客详细解读一下这篇论文和代码。

7、【CVPR 2023】解读VideoFusion：基于噪声共享机制的视频生成

达摩院开源的VideoFusion是为数不多同时开源模型和推理代码的视频生成工作，通过设计噪声分解机制有效提高视频的时空连贯性，在一些关键指标上远超GAN-based方法和2022年谷歌的VDM。更重要的是，Diffusers库以此为基础，写了关键的两个视频生成基础类，堪称行业标准。这篇博客就详细解读一下这篇经典的论文。

8、【NeurIPS 2023】并行多模态视频生成大模型CoDi

目前视频生成的大部分工作都是只能生成无声音的视频，距离真正可用的视频还有不小的差距。CoDi提出了一种并行多模态生成的大模型，可以同时生成带有音频的视频，距离真正的视频生成更近了一步。相信在不远的将来，可以AI生成的模型可以无缝平替抖音等平台的短视频。这篇博客详细解读一下这篇论文《Any-to-Any Generation via Composable Diffusion》。

9、解读VideoComposer：多模态融合视频生成

达摩院出品的VideoComposer，是Composer家族的重要成员，开辟了组合多种模态特征生成视频的先河。重要的是开源了推理代码和模型，利于后人研究。这篇博客详细解读一下VideoComposer论文原理。

10、解读电影级视频生成模型 MovieFactory

MovieFactory是第一个全自动电影生成模型，可以根据用户输入的文本信息自动扩写剧本，并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》

11、解读文生视频大模型ModelScopeT2V技术报告

ModelScopeT2V是17B的文生视频大模型，由阿里巴巴达摩院发布，且模型和代码完全开源。当中提出的多层时空机制和多帧训练法非常值得借鉴。这篇博客详细解读一下ModelScopeT2V背后的技术。

12、解读Sketching the Future (STF)：零样本条件视频生成

基于草图的视频生成目前是一个基本无人探索过的领域，videocomposer做过一些简单的探索。Sketching the Future从零样本条件视频生成出发，出色的完成了这一任务。这篇博客就解读一下《Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models》。

#扩散模型#

Diffusion Model 文章被收录于专栏

专注探索Diffusion Models、Score-based Generative Models等深层生成式模型，持续更新分享最前沿技术。