Stable Diffusion 3 技术论文解读:开源能赢得文生图竞赛吗?|甲子光年(开源学术论文)

AIGC动态欢迎阅读

原标题:Stable Diffusion 3 技术论文解读

:开源能赢得文生图竞赛吗?|甲子光年

关键字:模型,图像,文本,解读,知识产权

文章来源:甲子光年

内容字数:9199字

内容摘要:

文生图模型的下一步是什么?作者|赵健

在大语言模型领域,闭源模型正在赢得比赛,无论是 OpenAI

还是刚刚发布新模型的 Anthropic,都是闭源模型的代表。

但在文生图领域,开源模型却表现出了足够强的竞争力。

2 周前,开源模型的代表企业 Stability AI 发布了最新的文生图模型 Stable Diffusion 3,采用了与 Sora 相同的底层架构(DiT,Diffusion Transformer),但是没有公布细节。

昨天,Stability AI 发布研究论文《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》,详细地介绍了 Stable Diffusion 3 的底层技术。

在该论文里,Stability AI 发布了一种新的多模态 DiT(MMDiT,Multimodal Diffusion Transformer)模型架构,对图像与语言表示使用单独的权重集。与之前的 SD3 版本相比,新版本提高了文本理解和拼写能力。

Stable Diffusion 3 可能是目

原文链接:Stable Diffusion 3 技术论文解读:开源能赢得文生图竞赛吗?|甲子光年

联系作者

文章来源:甲子光年

作者微信:jazzyear

作者简介:甲子光年是一家科技智库,包含智库、社群、企业服务版块,立足中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。

0
分享到:
没有账号? 忘记密码?