Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节(当前主流配置电脑多少钱一台)

AIGC动态欢迎阅读

原标题:Stable Diffusion 3技术报告

出炉:揭露Sora同款架构细节

关键字:报告,腾讯,模型,文本,图像

文章来源:量子位

内容字数:5447字

内容摘要:

丰色 发自 凹非寺量子位 | 公众号 QbitAI很快啊,“文生图新王”Stable Diffusion 3的技术报告,这就来了。

全文一共28页,诚意满满。

“老规矩”,宣传海报(⬇️)直接用模型生成,再秀一把文字渲染能力:

所以,SD3这比DALL·E 3和Midjourney v6都要强的文字以及指令跟随技能,究竟怎么点亮的?

技术报告揭露:

全靠多模态扩散Transformer架构MMDiT。

成功关键是对图像和文本表示使用单独两组权重的方式,由此实现了比SD3之前的版本都要强的性能飞升。

具体几何,我们翻开报告来看。

微调DiT,提升文本渲染能力在发布SD3之初,官方就已经透露它的架构和Sora同源,属于扩散型Transformer——DiT。

现在答案揭晓:

由于文生图模型需要考虑文本和图像两种模式,Stability AI比DiT更近一步,提出了新架构MMDiT。

这里的“MM”就是指“multimodal”。

和Stable Diffusion此前的版本一样,官方用两个预训练模型来获得合适和文本和图像表示。

其中文本表示的编码用三种不同的文本嵌入器(embedders)

原文链接:Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?