Memcached配置失误引发的Keystone token丢失的问题

故障现象

近期公司的OpenStack上频繁出现虚拟机创建失败的情况，查看日志定位到问题出在neutron-server向keystone认证token失败。

故障原因

Keystone所使用的Memcahed token后端配置的可用内存大小为64MB，新集群加入后，token量逐渐增加，需要保存的数据量大于这个大小，导致memcached频繁清理未过期的以腾出空间存储新创建的token，继而出现token丢的情况。

处理方法

给memcached分配更多的可用内存空间，目前分配4GB。

排查过程

在出现虚拟机创建失败情况时，查看日志，发现都是在nova-compute访问neutron-server去创建port时，neutron-server向keystone验证token报错：

nova-compute访问neutron-server报错

neutron向keystone验证token报错

keystone找不到token

查看代码梳理一遍认证流程：

1. nova-compute会保存一个全局的token，用这个token去访问neutron-server。每次访问前，检查token是否快要到期，判断标准是120秒，在nova代码里硬编码，也就是每次请求发现token剩余有效时间小于120秒，就重新申请一个token。

2. neutron-server从请求头中提取出token，访问keystone验证token是否有效。

3. keystone配置的token后端是memcache，keystone去memcached检查token时，发现找不到token，返回报错。

由于keystone保存在memcached的token是经过dogpile封装的，不能直接访问，所以无法查看memcached判断token状态。于是在nova-compute打印出token的详细信息，得到如下结果：

发现token还没到过期时间就找不到了，严重的时候甚至新创建的token下一秒就找不到了。判断是memcached出了问题，将keystone的token后端设置为sql后，这个问题果然不再出现。于是查看memcached的状态，其中两个关键参数：

STAT limit_maxbytes 67108864
STAT evictions 54635

表明memcached只有64MB可用内存，出现了54635次因为内存不足进行的对象清理。基本可以确定是memcached内存不足的问题。推断在只有两个region时，缓存的token没有达到memcache内存上限，在第三个region加入后，新增的token量导致memcached内存不足，越来越频繁地出现token被清理的情况。

将memcached可用内存配置为4GB后重启，目前没有再出现这个问题。

Memcached配置失误引发的Keystone token丢失的问题

猜你喜欢