苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V（ios 模块化和组件化）

原标题：苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4

关键字：模型,任务,图像,文本,屏幕

文章来源：AI科技评论

内容字数：5711字

手机厂商自研的端侧模型功能，会超越纯正的大模型团队吗？编译 | 赖文昕

编辑 | 陈彩娴

大模型的诞生，让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发，OpenAI

、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下，大厂并不存在绝对的优势。

不久前，苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目，美国总部裁员了600多人，另有近2000名员工转到AI部门。

然而，在目前市场上的主流智能手机品牌中，苹果几乎是唯一一家尚未正式推出大模型的厂商。长期处在领头羊地位的苹果，似乎在大模型这一局中罕见地落后了。

4月8日，苹果发表了一个名为“Ferret-UI”的新工作，这是一个能“看懂”手机屏幕上并能执行任务的多模态模型，专为增强对移动端 UI 屏幕的理解而定制，配备了引用（referring）、定位（grounding）和推理（reasoning）功能。

论文链接：https://arxiv.org/pdf/2404.05719.pdf

半年前，苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力，而“Ferre

原文链接：苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

文章来源：AI科技评论

作者微信：aitechtalk

作者简介：雷峰网旗下AI新媒体。聚焦AI前沿研究，关注AI工程落地。