开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑（模型开源是啥意思）

原标题：开源多模态SOTA再易主，19B模型比肩GPT-4

v，16G显存就能跑

关键字：模型,中文,视觉,数据,能力

文章来源：量子位

内容字数：4756字

梦晨发自凹非寺量子位 | 公众号 QbitAI开源多模态SOTA模型再易主！

Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。

CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。

网友闻讯而来，发现ChatGPT

新绝技之“AI挑瓜”，我们开源届也不缺了。更复杂的学术图表，它也能理解并给出详细解释。

CogVLM2整体模型参数量仅19B，却能在多项指标取得接近或超过GPT-4V的水平，此外还有几大亮点：

支持8K文本长度

支持高达1344*1344的图像分辨率

提供支持中英文双语的开源模型版本

开源可商用

英文版经网友测试也有不错的表现。

特别值得注意的是，尽管CogVLM2的总参数量为19B，但得益于精心设计的多专家模块结构，每次进行推理时实际激活的参数量仅约12B，这样一来，全量推理（BF16/PF16）需要42GB 显存。

接下来划重点了：

Int4量化版本，仅需要16GB显存。

也就是一张英伟达RTX4080，或者刚出不久的RTX4070 Ti SUPER就能搞定了。

性能不俗，

原文链接：开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破