LLM - 理解 DeepSeek 的 MLA (多头隐含注意力) 公式与源码 教程(1)

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/145593535


DeepSeek V3 的核心创新,包括 3 个部分,架构(Architecture)、预训练(Pre-Training)与后训练(Post-Training):

  1. 架构(Architecture):创新的负载均衡策略与训练目标
    1. 使用 无需辅助损失(Auxiliary-Loss-Free)负载均衡(Load Balancing) 策略,将鼓励负载均衡而性能下降的问题降至最低。
    2. 使用 多Token预测(Multi-Token Prediction, MTP) 目标,提升模型性能。还可用于 推测性解码(Speculative Decoding),以加速推理过程。