田渊栋等人新作：突破内存瓶颈，让一块4090预训练7B大模型（田渊正浩百度百科）

AIGC动态欢迎阅读

原标题：田渊栋等人新作：突破内存瓶颈，让一块4090预训练7B大模型关键字：报告,内存,梯度,模型,研究者

文章来源：机器之心

内容字数：5803字

内容摘要：

机器之心报道

编辑：陈萍、大盘鸡只用 24G 显存，消费级 GPU 就能搞定大模型了。

上个月，Meta FAIR 田渊栋参与的一项研究广受好评，他们在论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10 亿以下参数小模型，主打在移动设备上运行 LLM。

3 月 6 日，田渊栋又一项研究出炉，这次，他们主攻 LLM 内存效率。除了田渊栋本人，还有来自加州理工学院、德克萨斯大学奥斯汀分校以及 CMU 的研究者。

他们合作提出了 GaLore（Gradient Low-Rank Projection），这是一种允许全参数学习的训练策略，但比 LoRA 等常见的低秩自适应方法具有更高的内存效率。

该研究首次证明了在具有 24GB 内存的消费级 GPU（例如 NVIDIA RTX 4090）上预训练 7B 模型的可行性，无需模型并行、检查点或卸载策略。论文地址：https://arxiv.org/abs/2403.03507

论文标题：GaLore: Mem

原文链接：田渊栋等人新作：突破内存瓶颈，让一块4090预训练7B大模型