GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品(github百科)

AIGC动态欢迎阅读

原标题:GitHub热榜第一:百万token上下文,还能生成视频

,UC伯克利出品

关键字:模型,视频,文本,研究人员,窗口

文章来源:量子位

内容字数:3514字

内容摘要:

克雷西 发自 凹非寺量子位 | 公众号 QbitAI今日GitHub热榜榜首,是最新的开源世界模型。

上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。

强大的模型,命名也是简单粗暴——没有任何额外点缀,直接就叫LargeWorldModel(LWM)。

LWM支持处理多模态信息,能在100万token中准确找到目标文本,还能一口气看完1小时的视频。

网友看了不禁表示,这种大海捞针般的测试,LWM能完成的如此出色,而且还开源,实在是令人印象深刻。

那么,LWM的表现到底有多强呢?

百万上下文窗口,可看1小时视频在测试过程中,研究人员用多段一个多小时的视频检验了LWM的长序列理解能力,这些视频由YouTube上不同的视频片段拼接而成。

他们将这些视频输入LWM,然后针对其中的细节进行提问,涉及的片段位于整个视频的不同位置,同时研究者还将LWM与GPT-4

V等模型做了对比。

结果GPT-4V是一问一个不吱声,闭源强者Gemini Pro和开源强者Video-LLaVA都给出了错误的答案,只有LWM回答对了。

在另一段视频的测试中,其他模型都说

原文链接:GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?