超越GPT-4V,苹果多模态大模型上新!(《爱上儿子》播放美国电影)

AIGC动态欢迎阅读

原标题:超越GPT-4V,苹果多模态大模型

上新!

关键字:任务,模型,数据,屏幕,性能

文章来源:新智元

内容字数:6105字

内容摘要:

新智元报道编辑:flynne

【新智元导读】苹果开发的多模态模型Ferret-UI增强了对屏幕的理解和交互,在引用、基础和推理方面表现出了卓越的性能,这些增强功能的出现预示着巨大的进步。一句话Siri就能帮忙打开美团外卖下订单的日子看来不远啦!

4月8日,苹果发布了其最新的多模态大语言模型(MLLM )——Ferret-UI,能够更有效地理解和与屏幕信息进行交互,在所有基本UI任务上都超过了GPT-4V!

论文地址:https://arxiv.org/pdf/2404.05719.pdf

虽然苹果前段时间经历了泰坦项目的沉没,但看目前的形式,这是又要开卷的节奏呀~

不少人十分期待,这项技术如果在苹果的Siri上,Siri岂不是要变得聪明绝顶了!

众所周知,通用域多模态大型语言模型(MLLM )在理解和有效交互的能力方面往往不足。

而Ferret-UI被称之为是一种新的MLLM,专为理解移动UI屏幕而量身定制,具备指向、定位和推理等多种能力。

Ferret-UI能够通过灵活的输入格式(点、框、涂鸦)和基础任务(例如:查找小部件、查找图标、查找文本、小部件列表)在移动用户界面屏幕上执行引

原文链接:超越GPT-4V,苹果多模态大模型上新!

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?