【人工智能】结合代码通俗讲解 Transformer 推理性能优化技术:KV Cache

目录

0. 引言

1. KV Cache是啥?

2. 背景

3. 原理

4. 实现细节

5. 总结


在解码器推理加速的时候,由于解码过程是一个token一个token的生成,如果每一次解码都从输入开始拼接好解码的token,生成输入数据,然后预测下一个token,那么会有非常多的重复计算。

为了解决这个问题,Transformers利用缓存

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/130878522
今日推荐