北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token(北大新结构经济学研究院博士就业情况)

AIGC动态欢迎阅读

原标题:北大字节开辟图像

生成新范式!超越Sora核心组件DiT,不再预测下一个token

关键字:字节跳动,模型,图像,分辨率,峰会

文章来源:量子位

内容字数:3953字

内容摘要:

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI北大和字节联手搞了个大的:

提出图像生成新范式,从预测下一个token变成预测下一级分辨率,效果超越Sora核心组件Diffusion Transformer(DiT)。

并且代码开源,短短几天已经揽下1.3k标星,登上GitHub趋势榜。

具体是个什么效果?

实验数据上,这个名为VAR(Visual Autoregressive Modeling)的新方法不仅图像生成质量超过DiT等传统SOTA,推理速度也提高了20+倍。

这也是自回归模型首次在图像生成领域击败DiT。

直观感受上,话不多说,直接看图:

值得一提的是,研究人员还在VAR上,观察到了大语言模型同款的Scaling Laws和零样本任务泛化。

论文代码上线,已经引发不少专业讨论。

有网友表示有被惊到,顿时觉得其他扩散架构的论文有点索然无味。

还有人认为,这是一种通向Sora的更便宜的潜在途径,计算成本可降低一个乃至多个数量级。

预测下一级分辨率简单来说,VAR的核心创新,就是用预测下一级分辨率,替代了预测下一个token的传统自回归方法。

VAR的训练分为两个阶段。

第一

原文链接:北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?