几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling(扩散理论公式)

AIGC动态欢迎阅读

原标题:几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型

:从质疑Scaling到成为Scaling

关键字:模型,系数,梯度,结构,特征

文章来源:新智元

内容字数:6561字

内容摘要:

新智元报道编辑:LRS 好困

【新智元导读】本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析,目前已被NeurIPS 2023录用。同时,该分析还可以解释扩散模型中常用但未知原理的1/√2 scaling操作能加速训练的现象。在标准的UNet结构中,long skip connection上的scaling系数一般为1。

然而,在一些著名的扩散模型工作中,比如Imagen, Score-based generative model,以及SR3等等,它们都设置了,并发现这样的设置可以有效加速扩散模型的训练。质疑Scaling然而,Imagen等模型对skip connection的Scaling操作在原论文中并没有具体的分析,只是说这样设置有助于加速扩散模型的训练。

首先,这种经验上的展示,让我们并搞不清楚到底这种设置发挥了什么作用?

另外,我们也不清楚是否只能设置,还是说可以使用其他的常数?

不同位置的skip connection的「地位」一样吗,为什么使用一样的常数?

对此,作者有非常多的问号……理解Scali

原文链接:几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?