苏剑林:“闭门造车”之多模态模型方案浅谈(苏建霖)

AIGC动态欢迎阅读

原标题:苏剑林:“闭门造车”之多模态模型

方案浅谈

关键字:图像,模型,报告,解读,文本

文章来源:算法邦

内容字数:14978字

内容摘要:

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身智能技术研讨会、AI智能体技术研讨会和中国智算中心创新论坛。扫码报名,也可咨询。导读本文作者为苏剑林,来自月之暗面。这篇文章分享一下笔者关于多模态模型架构的一些想法,或者说一些猜测。这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法,或者说一些猜测。

最近 Google 的 Gemini 1.5 [1] 和 OpenAI 的 Sora [2] 再次点燃了不少人对多模态的热情,只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过,本文并非是为了凑这个热闹才发出来的,事实上其中的一些思考由来已久,最近才勉强捋顺了一下,遂想写出来跟大家交流一波,刚好碰上了两者的发布。

事先声明,“闭门造车”一词并非自谦,笔者的大模型实践本就“乏善可陈”,而多模态实践更是几乎“一片空白”,本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

01问题背景首先简化一下问题,本文所讨论的多模态,主要指图文混合的双

原文链接:苏剑林:“闭门造车”之多模态模型方案浅谈

联系作者

文章来源:算法邦

作者微信:allplusai

作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。

0
分享到:
没有账号? 忘记密码?