单GPU就能压缩模型，性能不变参数少25%！微软提出模型稀疏化新方法（gpuburn怎么压）

原标题：单GPU就能压缩模型

，性能不变参数少25%！微软提出模型稀疏化新方法

关键字：矩阵,模型,研究人员,区块,正交

文章来源：新智元

内容字数：6562字

新智元报道编辑：拉燕

【新智元导读】大语言模型之大，成本之高，让模型的稀疏化变得至关重要。众所周知，对于大语言模型来说，规模越大，所需的算力越大，自然占用的资源也就越多。

研究人员于是乎把目光转到了这片领域，即模型的稀疏化（Sparsification）。

今天要介绍的SliceGPT，则可以实现模型的事后稀疏。也就是说，在一个模型训练完了以后再进行稀疏化操作。

该模型由微软研究院和苏黎世联邦理工学院联合发表在了arXiv上。

目前主流的稀疏化技术面临着挺多挑战和困难。比方说，需要额外的数据结构，而且在当下的硬件条件下，速度有限。

SliceGPT就能很好的解决这些问题——它能用一个较小的矩阵来替换每个权重矩阵，从而降低网络的嵌入维度。

而实际结果也是非常不错的，在LLAMA-2 70B、OPT 66B和Phi-2模型上，SliceGPT去除了多达25%的模型参数，还保证了模型本身99%、99%以及90%的零样本任务的性能。

此外，SliceGPT还可以在更少的GPU上运行，无需额外的代码优化。

在24GB的消费级GPU上，SliceGPT可以将LLAMA-2 70B总的推理计算量减

原文链接：单GPU就能压缩模型，性能不变参数少25%！微软提出模型稀疏化新方法

文章来源：新智元

作者微信：AI_era

作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。