- 移动版

主题：Stability AI突破：让视频生成速度提升近3倍的"瀑布式"新技术

爱我中华发表于 2025-11-29 21:09

这项由Stability AI公司的Hmrishav Bandyopadhyay博士领导，联合英国萨里大学SketchX实验室的Yi-Zhe Song教授等研究团队共同完成的研究，发表于2025年11月。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2511.20426v1查询完整论文。

要理解这项技术突破的意义，我们不妨把视频生成想象成制作一部动画片。传统的视频生成技术就像是一个极其谨慎的动画师，必须完全画完第一帧，然后再开始画第二帧，接着是第三帧，以此类推。这种严格的顺序虽然能保证质量，但速度慢得让人抓狂。小规模的AI模型勉强能达到每秒16帧的生成速度，而那些能生成高质量视频的大型模型却只能爬行般地以每秒4.5帧的速度工作。这就好比你想看一部电影，结果播放速度慢到让人无法忍受。

研究团队发现了一个关键洞察：未来的视频片段其实不需要等到前面的片段完全"画"完才能开始工作。就像一个聪明的动画师可以在画第一帧的同时，心里已经构思好第二帧的大概轮廓，然后开始动笔。这种"边画边想"的方式被研究团队称为"Block Cascading"（块级联技术）。

这项技术的核心思想相当巧妙。以前的视频生成就像一条生产线，每个工位必须等前一个工位完全完成后才能开始工作。但研究团队发现，其实当前一个工位完成了大约75%的工作时，下一个工位就可以开始了，因为即使是"半成品"也包含了足够的信息供下一步使用。这样一来，多个工位可以同时工作，整条生产线的效率自然就大大提升了。

更令人兴奋的是，这项技术完全不需要重新训练现有的AI模型。就像给一台老机器安装了新的传送带系统，机器本身不用改动，但整体效率却能显著提升。使用5个GPU（可以理解为5个并行工作的"画师"），小型模型的生成速度从每秒16帧提升到30帧，大型模型从每秒4.5帧提升到12.5帧，几乎实现了翻倍的性能提升。

一、传统视频生成的"龟速"困境

当前的视频生成技术面临着一个根本性的矛盾：你要么选择速度快但质量平庸的小模型，要么选择质量出色但慢如蜗牛的大模型，很难两全其美。这种困境的根源在于传统的"块因果"（block-causal）生成方式过于保守。

把视频想象成一串珍珠项链，每颗珍珠代表一小段视频片段（通常包含几帧画面）。传统的方法要求必须完全制作完第一颗珍珠，然后才能开始制作第二颗，以此类推。这种严格的顺序确实能保证每颗"珍珠"都与前面的完美衔接，但代价是巨大的时间浪费。

研究团队观察到，现有的主流模型如CausVid、Self-Forcing和LongLive都采用这种保守策略。它们要求前一个视频块必须从完全的"噪声状态"（可以理解为一片混乱）完全清理到"完美状态"后，下一个块才能开始工作。这就像要求第一个厨师必须把菜完全做好装盘后，第二个厨师才能开始切菜，显然不是最高效的厨房管理方式。

更有趣的是，研究团队发现这些"因果"模型实际上是从"双向"模型改造而来的。双向模型就像是能够同时看到过去和未来的"预言家"，天生就具备处理不完美信息的能力。既然如此，为什么要人为地限制它们只能按严格顺序工作呢？

这种传统方法的另一个问题是，在交互式视频生成场景下会出现严重的延迟问题。当用户想要改变视频内容（比如从"一只猫在草地上跑"改成"一只猫在海边跑"）时，系统必须重新计算和缓存所有之前的信息，这个过程往往需要200毫秒以上，严重影响用户体验。这就像你在看电视时换台，结果每次换台都要等好几秒钟才能看到新内容。

二、"噪声缓存"：在不完美中寻找可能

解决问题的关键在于一个看似矛盾的发现：未来的视频片段并不需要前面片段达到完美状态才能开始生成。研究团队发现，即使前面的片段还处在"半成品"状态（技术上称为"部分去噪"状态），其中包含的信息也足够让后续片段开始工作。

这个发现可以用做饭来类比。传统方法就像要求第一道菜完全做好后才能开始准备第二道菜。但实际上，当第一道菜的主要食材已经处理得差不多时（比如肉已经炒得7分熟），完全可以开始准备第二道菜的配菜，因为你已经知道整餐饭的大致风格和口味方向了。

具体来说，研究团队提出了"噪声缓存"的概念。当第一个视频块从1000步噪声降到750步左右时，就可以启动第二个视频块的生成过程。这样，当第一个块达到500步时，第二个块可能已经降到750步，第三个块刚开始从1000步开始，形成了一个"瀑布式"的并行处理流程。

为了验证这个想法，团队进行了大量测试，发现使用中等程度去噪的前块信息（比如t=750时的状态）生成的后续视频块，在视觉质量上与使用完全去噪信息（t=0时的状态）生成的结果几乎没有差别。这证明了"噪声缓存"方法的可行性。

不过，简单的噪声缓存还不够。如果只是让前后块简单地依次开始，仍然会形成某种程度的序列等待。真正的突破在于将多个视频块"打包"在一起，同时处理，并且让它们在处理过程中相互"交流"信息。

三、"瀑布式"并行：让多个厨师同时工作

Block Cascading技术的精髓在于将原本的序列化流水线改造成并行化的"瀑布"系统。想象一个智能化的厨房，里面有多个厨师同时工作。第一个厨师开始做第一道菜，当他完成了主要步骤后，第二个厨师开始做第二道菜，同时他还能观察第一个厨师的进度，确保自己的菜品风格保持一致。第三个厨师接着开始，以此类推。

在技术实现上，研究团队设计了一个巧妙的"Mini-batch"（小批次）处理机制。他们将相互依赖的视频块组合成一个小批次，然后在多个GPU上并行处理这些批次。每个GPU负责处理批次中的一个视频块，但所有GPU之间会共享关键信息（技术上称为"KV特征"），确保生成的视频片段之间保持连贯性。

这种设计的巧妙之处在于找到了并行处理和质量保证之间的平衡点。研究团队发现，最佳的"窗口大小"是5个视频块。也就是说，在任何时刻，系统可以同时处理5个不同阶段的视频块：第一个块可能正在做最后的细节优化，第二个块在做中等程度的处理，第三个块刚开始粗加工，以此类推。

为了让这个"瀑布"系统工作得更好，团队还采用了一个重要的优化：双向注意力机制。传统的因果模型只允许后面的块"看到"前面的块，但Block Cascading允许正在同时处理的块之间相互"观察"和"学习"。这就像厨师们不仅要参考前面厨师的工作，还要和正在同时工作的其他厨师交流，确保整餐饭的协调统一。

这种双向信息交流的好处是显而易见的。当多个视频块同时处理时，它们可以相互校正和优化，有时候甚至能产生比严格按序列处理更好的效果。研究团队在实验中发现，某些情况下Block Cascading生成的视频质量甚至超过了原始的序列化方法。

四、无需重训练的"免费午餐"

Block Cascading最令人印象深刻的特点之一就是它完全不需要重新训练现有的AI模型。这在AI领域是相当罕见的"免费午餐"。就像给一台老电脑安装了更好的操作系统，硬件不用换，但整体性能却能显著提升。

这种"训练无关"的特性源于一个深刻的洞察：现有的块因果模型大多是从双向预训练模型

下一页 (1/3)

回帖(8)：

8 ^# huwg
11-30 07:42

谢谢分享

7 ^# huwg
11-30 07:42

了解一下

6 ^# huwg
11-30 07:42

来看看了

5 ^# srwam
11-29 21:36

看起来不错

4 ^# srwam
11-29 21:36

了解一下

3 ^# srwam
11-29 21:36

来看看

2 ^# hanxiao129
11-29 21:26

谢谢楼主分享

1 ^# hanxiao129
11-29 21:24

了解一下内幕

全部回帖(8)»