OpenAI创始大神手搓千行C代码训练GPT,附PyTorch迁移教程(马斯克支持派币吗)

AIGC动态欢迎阅读

原标题:OpenAI

创始大神手搓千行C代码训练GPT,附PyTorch迁移教程

关键字:项目,模型,表示,嘉宾,峰会

文章来源:量子位

内容字数:4674字

内容摘要:

明敏 发自 凹非寺量子位 | 公众号 QbitiAI大神卡帕西(Andrej Karpathy)刚“复工”,立马带来神作:

纯C语言训练GPT,1000行代码搞定!,不用现成的深度学习框架,纯手搓。

发布仅几个小时,已经揽星2.3k。

它可以立即编译和运行,和PyTorch完全兼容。

卡帕西使用的示例是GPT-2,但Llama 2和Gemma等也适用。

项目发布后,他还给出了从PyTorch迁移到C的教程。

网友们直呼:他甚至都不用C++……

而且就连怎么让大模型如法炮制的提示词,他也放了出来。现在已经有人在用Devin尝试ing。

手动实现每个层前向/反向传播选择用GPT-2的原因很简单,有模型权重,采用了堆栈式的Transformer模型结构。

项目核心的重点包括:

直接在C/CUDA上训练LLM,速度接近PyTorch

通过在CPU版本中使用SIMD指令(如AVX2和NEON)聊加速CPU版本

支持更先进的架构,比如Llama2和Gemma

卡帕西解释,他在开始时分配了所有所需内存,训练期间内存占用保持不变,只是数据在不同批次之间动态流动。

关键在于手动实现每个单独层的前向传播和

原文链接:OpenAI创始大神手搓千行C代码训练GPT,附PyTorch迁移教程

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?