吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚(吉娃产品怎么样好用吗)

AIGC动态欢迎阅读

原标题:吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉

Prompt,连黑客帝国的子弹都能数清楚

关键字:腾讯,提示,模型,视觉,领域

文章来源:量子位

内容字数:2824字

内容摘要:

白交 发自 凹非寺量子位 | 公众号 QbitAI还记得黑客帝国经典的子弹时间吗?

IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~

而面对难倒一众大模型「吉娃娃or松饼」的难题,它只需被投喂一张吉娃娃的照片,就能瞬间迎刃而解。

此前,也是同样的团队,推出了基于视觉提示的检测模型T-Rex。

如今,他们将视觉和文本提示融合,相互弥补各自的缺陷,实现了更强的目标检测能力。

并且与多目标跟踪模型结合后,各种视频检测任务也不在话下。

来看新研究到底说了什么。

打通文本和视觉提示在开集目标检测领域,尽管文本提示受到一定的青睐,但也存在一定的局限性。

比如长尾数据短缺。稀有或者全新的物体类别的数据稀缺可能会削弱其学习效率。还有描述上的局限性,对于一些难以用语言描绘的对象,因受限于无法精确描述,也会削弱效果。

而视觉提示提供了更直观且直接的对象表示方法,但在捕捉常见对象的概念时效果就会很差。

T-Rex2通过对比学习在单个模型中整合两种提示,因此接受多种格式的输入,包括文本提示、视觉提示以及两者的组合。

在不同场景中,它可以通过在两种提示方式之间切换来处理。

因此,它大致有三种工

原文链接:吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?