爆火Sora参数规模仅30亿？谢赛宁等大佬技术分析来了（sov 003）

原标题：爆火Sora参数规模仅30亿？谢赛宁等大佬技术分析来了

文章来源：量子位

内容字数：6666字

明敏丰色发自凹非寺量子位 | 公众号 QbitAI就说Sora有多火吧。

生成的视频上线一个、疯传一个。

作者小哥新上传的效果，很快引来围观。

失败案例都让人看得上瘾。

将近1万人点赞。

学术圈更炸开锅了，各路大佬纷纷开麦。

纽约大学助理教授谢赛宁（ResNeXt的一作）直言，Sora将改写整个视频生成领域。

英伟达高级研究科学家Jim Fan高呼，这就是视频生成的GPT-3时刻啊！

尤其在技术报告发布后，讨论变得更加有趣。因为其中诸多细节不是十分明确，所以大佬们也只能猜测。

包括“Sora是一个数据驱动的物理引擎”、“Sora建立在DiT模型之上、参数可能仅30亿”等等。

所以，Sora为啥能如此惊艳？它对视频生成领域的意义是？这不，很快就有了一些可能的答案。

视频生成的GPT-3时刻总的来说，Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型，同时采用了Transformer架构，也就是一种“扩散型Transformer”。

关于技术细节，官方报告简单提了以下6点：

一是视觉数据的“创新转化”。

与大语言模型中的token不同，Sora采用的是“Patc

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破