欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/146839756
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。
在大模型中,参数量、计算量、激活值以及 KV Cache 是影响模型性能和资源消耗的关键因素。参数量通常与模型的复杂度成正比。计算量则与模型的前向和反向传播过程密切相关,Transformer 模型的计算量在使用 KV Cache 后会显著减少,因为 KV Cache 可以避免重复计算已经处理过的序列。激活值的显存占用在推理阶段尤为重要,其大小取决于序列长度、批次大小、隐藏层维度等因素,通常会随着批次大小的增加而显著增长。KV Cache 在推理阶段通过存储和复用之前的 key 和 value 向量,大