击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了(击败世界第一!中国三人男篮取得首胜)

AIGC动态欢迎阅读

原标题:击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型

Nomic Embed来了

关键字:模型,基准,上下文,序列,长度

文章来源:机器之心

内容字数:4903字

内容摘要:

机器之心报道

编辑:陈萍、小舟模型参数量只有 137M,5 天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4

变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。

我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联,也更容易执行聚类或检索等任务。可见,嵌入在 NLP 领域是非常重要的。

不过,OpenAI 的嵌入模型并不是免费给大家使用的,比如 text-embedding-3-small 的收费价格是每 1k tokens 0.00002 美元。

现在,比 text-embedding-3-small 更好的嵌入模型来了,并且还不收费。

AI 初创公司 Nomic AI 宣布推出 Nomic Embed,这是首个开源、开放数据、开放权重、开放训练代码、完全可复现和可审核的嵌入模型,上下文长度为 8192,在短上下文和长上下文基准测试中击败 OpenAI text-embeding-3-small 和 text-embeddi

原文链接:败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?