大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人马打造,喊话奥特曼:你们也太慢了(大模型 ai)

AIGC动态欢迎阅读

原标题:大模型最快推理芯片

一夜易主:每秒500tokens干翻GPU!谷歌TPU人马打造,喊话奥特曼:你们也太慢了

关键字:腾讯,模型,速度,芯片,加速卡

文章来源:量子位

内容字数:5196字

内容摘要:

白交 克雷西 发自 凹非寺量子位 | 公众号 QbitAI太快了太快了。

一夜间,大模型生成已经没什么延迟了……来感受下这速度。

眼花缭乱了吧,生成速度已经接近每秒500 tokens。

还有更直观的列表对比,速度最高能比以往这些云平台厂商快个18倍吧。

(这里面还有个熟悉的身影:Lepton)

网友表示:这速度简直就是飞机vs走路。

值得一提的是,这并非哪家大公司进展——

初创公司Groq,谷歌TPU团队原班人马,基于自研芯片推出推理加速方案。(注意不是马斯克的Grok)

据他们介绍,其推理速度相较于英伟达GPU提高了10倍,成本却降低到十分之一。

换言之,任何一个大模型都可以部署实现。

目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型,并且可直接体验Demo。

他们还在官网上喊话奥特曼:

你们推出的东西太慢了……

每秒接近500tokens既然如此,那就来体验一下这个号称「史上最快推理」的Groq。

先声明:不比较生成质量。就像它自己说的那样,内容概不负责。

目前,演示界面上有两种模型可以选择。

就选择Mixtral 8x7B-32k和GPT

原文链接:大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人马打造,喊话奥特曼:你们也太慢了

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?