Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节（当前主流配置电脑多少钱一台）

原标题：Stable Diffusion 3技术报告

出炉：揭露Sora同款架构细节

关键字：报告,腾讯,模型,文本,图像

文章来源：量子位

内容字数：5447字

丰色发自凹非寺量子位 | 公众号 QbitAI很快啊，“文生图新王”Stable Diffusion 3的技术报告，这就来了。

全文一共28页，诚意满满。

“老规矩”，宣传海报（⬇️）直接用模型生成，再秀一把文字渲染能力：

所以，SD3这比DALL·E 3和Midjourney v6都要强的文字以及指令跟随技能，究竟怎么点亮的？

技术报告揭露：

全靠多模态扩散Transformer架构MMDiT。

成功关键是对图像和文本表示使用单独两组权重的方式，由此实现了比SD3之前的版本都要强的性能飞升。

具体几何，我们翻开报告来看。

微调DiT，提升文本渲染能力在发布SD3之初，官方就已经透露它的架构和Sora同源，属于扩散型Transformer——DiT。

现在答案揭晓：

由于文生图模型需要考虑文本和图像两种模式，Stability AI比DiT更近一步，提出了新架构MMDiT。

这里的“MM”就是指“multimodal”。

和Stable Diffusion此前的版本一样，官方用两个预训练模型来获得合适和文本和图像表示。

其中文本表示的编码用三种不同的文本嵌入器（embedders）

原文链接：Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破