Nanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi Jaakkola, Xuhui Jia, Saining Xie

https://arxiv.org/abs/2501.09732

问题: 扩散模型在推理阶段目前主要靠“加 denoising steps”来多花算力,但收益很快饱和,导致推理时算力无法像训练那样继续带来清晰的 scaling law。

洞见: 把“多花推理算力”重新表述为:在初始噪声 / 采样轨迹空间上做搜索——不同噪声通过确定性采样映射到不同样本,有些噪声就是比另一些“更好”。

方法: 提出一个统一的“噪声搜索”框架:固定预训练扩散模型,把设计空间拆成两条轴

(1) 负责打分的 verifiers(如 FID/IS oracle、CLIP/DINO、ImageReward、LLM Grader 等),

(2) 负责在噪声空间里找更好候选的 搜索算法(random search / zero-order search / search-over-paths),用额外 NFEs 做搜索而不是只加 denoising steps。

结果: 在 ImageNet(FID/IS)以及 DrawBench、T2I-CompBench 等文本条件生成基准上,相同或略高推理算力下,这种“噪声搜索”带来的提升明显优于单纯增加步数,并且小模型 + 搜索可以在相似甚至更低推理 GFLOPs 下超过大模型(如 SiT-L+search 优于 SiT-XL baseline,PixArt- + search 在一小部分或 2–3 倍 compute 下超过 FLUX-1.dev)。