Mongodb 索引优化建议

业务背景

偶然的一次机会,听到我们项目的API 调用方说请求超时,server 返回500,经查验说是交易的collection数据量太大(超过100GB),而且每天通过spring batch新增80w数据量,目前表的数据量已经过亿,有同事分析了查询说是通过索引会扫描大量的无效数据(此处默认通过id 排序分页),然后只能强制删除了大部分数据(目前是30GB)。

索引优化

原先的查询语句如下(涉及保密数据用xxxx代替):

db.Trade.find( {_id:{$lte:ObjectId("xxxxxxxx")},"startDate":{"$lte":ISODate("2018-12-08T23:59:59.000Z")},"endDate":{"$not":{"$lte":ISODate("2018-12-08T23:59:59.000Z")}},"source":"XXXX"}).hint('_id_1_startDate_1_endDate_1').sort({ '_id': -1 }).limit(100000)
db.Trade.find( {_id:{$lte:ObjectId("XXXXXXXX")}, "startDate":{"$lte":ISODate("2018-12-08T23:59:59.000Z")},"endDate":{"$not":{"$lte":ISODate("2018-12-08T23:59:59.000Z")}}, markingSystems: { $in: ['XXX'] }}).sort({ '_id': -1 }).limit(100000)

经分析建立如下索引:

db.Trade.createIndex({'source':1,'_id':-1,startDate:1,endDate:1},{background:true})

db.Trade.createIndex({'markingSystem':1,'_id':-1,startDate:1,endDate:1},{background:true})

优化后的performance : from 100sec to 2sec

原因:

原先的索引'_id_1_startDate_1_endDate_1'有明显的缺点,它是先根据_id排序再过滤的,所以Iindexscan的时候会过滤大量的无效数据,而新的索引{'markingSystem':1,'_id':-1,startDate:1,endDate:1} or {'source':1,'_id':-1,startDate:1,endDate:1}会根据markingSystem or source过滤掉大量无效数据,接下来再根据其他过滤条件来过滤的范围会小很多。

优化建议

组合索引第一个字段应该是查询频率较高的字段,第二个是你要排序的字段,其余放后面。

第一个字段需要特别注意,最好放等值查询的字段,不要放范围查询的字段,如 $gt, $gte, $lt等。

ps:如果你还有更好的建议,欢迎留言一起探讨

扫描二维码关注公众号,回复: 4642211 查看本文章

猜你喜欢

转载自blog.csdn.net/qq_33240755/article/details/84950592