图解Mixtral 8 * 7b推理优化原理与源码实现(辽宁省国民经济和社会发展统计公报)

AIGC动态欢迎阅读

原标题:图解Mixtral 8 * 7b推理优化原理与源码实现

关键字:解读,报告,腾讯,阶段,代码

文章来源:算法邦

内容字数:17936字

内容摘要:

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,潞晨科技创始人尤洋,生数科技CEO唐家渝,优必选研究院执行院长焦继超,科大讯飞人形机器人首席科学家季超,DeepWisdom合伙人徐宗泽,腾讯研究科学家张驰,前Meta首席工程负责人胡鲁辉等首批嘉宾已确认带来演讲和报告,欢迎报名。大家好,在写这篇文章时,本来是想打算介绍Mixtral 8 * 7b具体模型架构的。但是代码读着读着就发现:

最精彩的MoE部分,其相关原理在之前的文章中已经详细介绍过

整体来看Mixtral 8 * 7b的模型架构代码,写得非常清楚,几乎没有理解难点。

就在我以为Mixtral的代码已无更多可写时,我注意到了它在推理时用到的一些trick,具体为:

Sliding Window Attention (SWA,滑动窗口Attention)

Rolling Buffer Cache(也被称为Rotating Buffer Cache,即旋转式存储的KV cache)

Long-context Chunking(长上下文场景下的chunking策略,配

原文链接:图解Mixtral 8 * 7b推理优化原理与源码实现

联系作者

文章来源:算法邦

作者微信:allplusai

作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。

0
分享到:
没有账号? 忘记密码?