国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收（办好中国的世界一流大学必须牢牢抓住）

AIGC动态欢迎阅读

原标题：国内高校打造类Sora模型VDT，通用视频

扩散Transformer被ICLR 2024接收

关键字：视频,模型,报告,解读,条件

文章来源：机器之心

内容字数：8723字

内容摘要：

机器之心专栏

机器之心编辑部2 月 16 日，OpenAI

Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。

为什么 Sora 坚持使用 Diffusion Transformer，其中的原因从同时期发表在 ICLR 2024（VDT: General-purpose Video Diffusion Transformers via Mask Modeling）的论文可以窥见一二。这项工作由中国人民大学研究团队主导，并与加州大学伯克利分校、香港大学等进行了合作，最早于 2023 年 5 月公开在 arXiv 网站。研究团队提出了基于 Transformer 的 Video 统一生成框架 – Video Diffusion Transformer (VDT)，并对采用 Transformer 架构的原因给出了详细的解释。论文标题：VDT: General-purpose Video Diffusion Transformers via

原文链接：国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收