Este mecanismo se deriva de la tecnología en Deformable DETR ;
https://zhuanlan.zhihu.com/p/495941788
https://zhuanlan.zhihu.com/p/520666550
https://blog.csdn.net/weixin_43702653/article/details/126153583
Este módulo es un componente muy crítico para cambiar la atención global de Transformer a la atención local, que se utiliza para reducir el tiempo de capacitación y mejorar la velocidad de convergencia de Transformer;
Aplicado a BEVFormer, dos módulos importantes Temporal Self-Atention y Spatial Cross-Attention
Para referencia: https://zhuanlan.zhihu.com/p/543335939
Actualmente integrado en MMCV MMDET3d.