苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V(ios 模块化和组件化)

AIGC动态欢迎阅读

原标题:苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4

V

关键字:模型,任务,图像,文本,屏幕

文章来源:AI科技评论

内容字数:5711字

内容摘要:

手机厂商自研的端侧模型功能,会超越纯正的大模型团队吗?编译 | 赖文昕

编辑 | 陈彩娴

大模型的诞生,让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发,OpenAI

、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下,大厂并不存在绝对的优势。

不久前,苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目,美国总部裁员了600多人,另有近2000名员工转到AI部门。

然而,在目前市场上的主流智能手机品牌中,苹果几乎是唯一一家尚未正式推出大模型的厂商。长期处在领头羊地位的苹果,似乎在大模型这一局中罕见地落后了。

4月8日,苹果发表了一个名为“Ferret-UI”的新工作,这是一个能“看懂”手机屏幕上并能执行任务的多模态模型,专为增强对移动端 UI 屏幕的理解而定制,配备了引用(referring)、定位(grounding)和推理(reasoning)功能。

论文链接:https://arxiv.org/pdf/2404.05719.pdf

半年前,苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力,而“Ferre

原文链接:苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

联系作者

文章来源:AI科技评论

作者微信:aitechtalk

作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

0
分享到:
没有账号? 忘记密码?