Sora技术详解及影响分析!(soec技术)

AIGC动态欢迎阅读

原标题:Sora技术详解及影响分析!

关键字:报告,视频,模型,结构,世界

文章来源:算法邦

内容字数:5458字

内容摘要:

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身智能技术研讨会、AI智能体技术研讨会和中国智算中心创新论坛。扫码报名,也可咨询。从openai sora[1]的技术报告首段可以看出sora的野心远远不止视频生成,他们的目标是通过视频数据来学习一个世界模型或者世界模拟器,这才是真正令人兴奋和激动的部分。

01数据工程1-1 采用patches统一训练数据格式

最早在ViT[2]中出现将图片分patch输入给transformer。Sora的做法会有些不同,首先通过一个encoder【VAE结构】将视频帧压缩到一个低维度隐式空间(包含时间和空间上的压缩),然后展开成序列的形式送入模型训练,同样的模型预测也是隐式的序列,然后用decoder解码器去解码映射回像素空间形成视频。注意在编码成Spacetime latent patches的时候可能用到了ViViT[3]的时空编码方式如此一来有两个优势:

统一互联网上不同大小格式的视频和图片数据,统一为patches的格式输入

原文链接:Sora技术详解及影响分析!

联系作者

文章来源:算法邦

作者微信:allplusai

作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。

0
分享到:
没有账号? 忘记密码?