爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了(sov 003)

AIGC动态欢迎阅读

原标题:爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了

关键字:报告,视频,商标,字节跳动,模型

文章来源:量子位

内容字数:6666字

内容摘要:

明敏 丰色 发自 凹非寺量子位 | 公众号 QbitAI就说Sora有多火吧。

生成的视频上线一个、疯传一个。

作者小哥新上传的效果,很快引来围观。

失败案例都让人看得上瘾。

将近1万人点赞。

学术圈更炸开锅了,各路大佬纷纷开麦。

纽约大学助理教授谢赛宁(ResNeXt的一作)直言,Sora将改写整个视频生成领域。

英伟达高级研究科学家Jim Fan高呼,这就是视频生成的GPT-3时刻啊!

尤其在技术报告发布后,讨论变得更加有趣。因为其中诸多细节不是十分明确,所以大佬们也只能猜测。

包括“Sora是一个数据驱动的物理引擎”、“Sora建立在DiT模型之上、参数可能仅30亿”等等。

所以,Sora为啥能如此惊艳?它对视频生成领域的意义是?这不,很快就有了一些可能的答案。

视频生成的GPT-3时刻总的来说,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,也就是一种“扩散型Transformer”。

关于技术细节,官方报告简单提了以下6点:

一是视觉数据的“创新转化”。

与大语言模型中的token不同,Sora采用的是“Patc

原文链接:爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?