欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/145593535
DeepSeek V3 的核心创新,包括 3 个部分,架构(Architecture)、预训练(Pre-Training)与后训练(Post-Training):
- 架构(Architecture):创新的负载均衡策略与训练目标
- 使用 无需辅助损失(Auxiliary-Loss-Free) 的 负载均衡(Load Balancing) 策略,将鼓励负载均衡而性能下降的问题降至最低。
- 使用 多Token预测(Multi-Token Prediction, MTP) 目标,提升模型性能。还可用于 推测性解码(Speculative Decoding),以加速推理过程。