LLM - 理解 DeepSeek 的 MLA (多头隐含注意力) 公式与源码教程(1)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/145593535

DeepSeek V3 的核心创新，包括 3 个部分，架构(Architecture)、预训练(Pre-Training)与后训练(Post-Training)：

架构(Architecture)：创新的负载均衡策略与训练目标
1. 使用 无需辅助损失(Auxiliary-Loss-Free) 的 负载均衡(Load Balancing) 策略，将鼓励负载均衡而性能下降的问题降至最低。
2. 使用 多Token预测(Multi-Token Prediction, MTP) 目标，提升模型性能。还可用于 推测性解码(Speculative Decoding)，以加速推理过程。