剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器(剑桥raz)

AIGC动态欢迎阅读

原标题:剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识

检索器

关键字:模型,编码器,文本,知识,任务

文章来源:机器之心

内容字数:7579字

内容摘要:

机器之心专栏

机器之心编辑部PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。论文链接:https://arxiv.org/abs/2402.08327

DEMO 链接:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/

项目主页链接:https://preflmr.github.io/

论文标题:PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal

Retrievers

背景

尽管多模态大模型(例如 GPT4-Vision、Gemini 等)展现出了强大的通用图文理解能力,它们在回答需要专业知识的问题时表现依然不尽人意。即使 GPT4-Vision 也无法回答知识密集型问题(图一上),这成为了很多企业级落地应用的瓶颈

原文链接:剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?