大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了（大模型 ai）

原标题：大模型最快推理芯片

一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

关键字：腾讯,模型,速度,芯片,加速卡

文章来源：量子位

内容字数：5196字

白交克雷西发自凹非寺量子位 | 公众号 QbitAI太快了太快了。

一夜间，大模型生成已经没什么延迟了……来感受下这速度。

眼花缭乱了吧，生成速度已经接近每秒500 tokens。

还有更直观的列表对比，速度最高能比以往这些云平台厂商快个18倍吧。

（这里面还有个熟悉的身影：Lepton）

网友表示：这速度简直就是飞机vs走路。

值得一提的是，这并非哪家大公司进展——

初创公司Groq，谷歌TPU团队原班人马，基于自研芯片推出推理加速方案。（注意不是马斯克的Grok）

据他们介绍，其推理速度相较于英伟达GPU提高了10倍，成本却降低到十分之一。

换言之，任何一个大模型都可以部署实现。

目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型，并且可直接体验Demo。

他们还在官网上喊话奥特曼：

你们推出的东西太慢了……

每秒接近500tokens既然如此，那就来体验一下这个号称「史上最快推理」的Groq。

先声明：不比较生成质量。就像它自己说的那样，内容概不负责。

目前，演示界面上有两种模型可以选择。

就选择Mixtral 8x7B-32k和GPT

原文链接：大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破