国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收(办好中国的世界一流大学必须牢牢抓住)

AIGC动态欢迎阅读

原标题:国内高校打造类Sora模型VDT,通用视频

扩散Transformer被ICLR 2024接收

关键字:视频,模型,报告,解读,条件

文章来源:机器之心

内容字数:8723字

内容摘要:

机器之心专栏

机器之心编辑部2 月 16 日,OpenAI

Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。

为什么 Sora 坚持使用 Diffusion Transformer,其中的原因从同时期发表在 ICLR 2024(VDT: General-purpose Video Diffusion Transformers via Mask Modeling)的论文可以窥见一二。这项工作由中国人民大学研究团队主导,并与加州大学伯克利分校、香港大学等进行了合作,最早于 2023 年 5 月公开在 arXiv 网站。研究团队提出了基于 Transformer 的 Video 统一生成框架 – Video Diffusion Transformer (VDT),并对采用 Transformer 架构的原因给出了详细的解释。论文标题:VDT: General-purpose Video Diffusion Transformers via

原文链接:国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?