ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP（语言模型plug）

AIGC动态欢迎阅读

原标题：ICLR 2024 Spotlight | 大语言模型权重

、激活的全方位低bit可微量化，已集成进商用APP

关键字：权重,模型,参数,方法,内存

文章来源：机器之心

内容字数：8272字

内容摘要：

机器之心专栏

作者：邵文琪模型量化是模型压缩与加速中的一项关键技术，其将模型权重与激活值量化至低 bit，以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言，模型量化显得更加重要。例如，GPT-3 模型的 175B 参数当使用 FP16 格式加载时，需消耗 350GB 的内存，需要至少 5 张 80GB 的 A100 GPU。

但若是可以将 GPT-3 模型的权重压缩至 3bit，则可以实现单张 A100-80GB 完成所有模型权重的加载。

现有的大语言模型后训练量化算法依赖于手工制定量化参数，优于缺乏相应的优化过程，导致面对低 bit 量化时，现有的方法都表现出显著的性能下降。尽管量化感知训练在确定最佳量化配置方面是有效的，但它需要引入大量额外的训练开销和训练数据。尤其是大语言模型本身的计算量进一步阻碍了量化感知训练在大预言模型量化上的应用。

这引出一个问题：我们能否在保持后训练量化的时间和数据效率的同时，达到量化感知训练的性能？

为了解决大语言模型后训练量化中的量化参数优化问题，来自上海人工智能实验室、香港大学、香港中文大学的研究者们提出了《OmniQua

原文链接：ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP