从第一人称视角理解世界，多模态模型离我们还有多远？| CVPR 2024（第一人称视角多少合适）

AIGC动态欢迎阅读

原标题：从第一人称视角理解世界，多模态模型

离我们还有多远？| CVPR 2024

关键字：模型,视角,人称,数据,视觉

文章来源：大数据文摘

内容字数：3572字

内容摘要：

大数据文摘受权转载自将门创投

目前很多评测工作探究视觉语言大模型在不同维度上的能力，但都忽视了真实世界中非常重要的一点：未来作为智能体或机器人的大脑，多模态模型应当具备从第一人称视角理解世界的能力。针对以上问题，清华大学提出了第一人称视角的视觉问答基准数据集——EgoThink，相关论文被人工智能顶级国际会议CVPR 2024录用。EgoThink数据集定义了在真实世界中从第一人称思考时所需的六种核心能力，并评估了十八个主流的视觉语言大模型的表现。评测结果显示，目前阶段的视觉语言大模型从第一人称视角进行思考的能力仍有显著欠缺，即使是GPT-4

V模型在所有任务上的平均分也仅为65.5（满分100）。论文标题：

Can Vision-Language Models Think from a First-Person Perspective?

论文链接：

https://arxiv.org/abs/2311.15596

项目主页：

https://adacheng.github.io/EgoThink/

代码链接：

https://github.com/AdaCheng/EgoThink

数

原文链接：从第一人称视角理解世界，多模态模型离我们还有多远？| CVPR 2024