线上某IOT核心业务集群之前采用mysql作为主存储数据库，随着业务规模的不断增加，mysql已无法满足海量数据存储需求，业务面临着容量痛点、成本痛点问题、数据不均衡问题等。

400亿该业务迁移mongodb后，同样的数据节省了极大的内存、CPU、磁盘成本，同时完美解决了容量痛点、数据不均衡痛点，并且实现了一定的性能提升。此外，迁移时候的mysql数据为400亿，3个月后的现在对应mongodb集群数据已增长到1000亿，如果以1000亿数据规模等比例计算成本，实际成本节省比例会更高。

当前国内很多mongod文档资料、性能数据等还停留在早期的MMAP_V1存储引擎，实际上从mongodb-3.x版本开始，mongodb默认存储引擎已经采用高性能、高压缩比、更小锁粒度的wiredtiger存储引擎，因此其性能、成本等优势相比之前的MMAP_V1存储引擎更加明显。

关于作者

前滴滴出行专家工程师，现任OPPO文档数据库mongodb负责人，负责数万亿级数据量文档数据库mongodb内核研发、性能优化及运维工作，一直专注于分布式缓存、高性能服务端、数据库、中间件等相关研发。后续持续分享《MongoDB内核源码设计、性能优化、最佳运维实践》，Github账号地址:https://github.com/y123456yz

序言

本文是oschina专栏《mongodb 源码实现、调优、最佳实践系列》的第22篇文章，其他文章可以参考如下链接：

Qcon-万亿级数据库 MongoDB 集群性能数十倍提升及机房多活容灾实践

Qcon 现代数据架构 -《万亿级数据库 MongoDB 集群性能数十倍提升优化实践》核心 17 问详细解答

百万级高并发 mongodb 集群性能数十倍提升优化实践 (上篇)

百万级高并发 mongodb 集群性能数十倍提升优化实践 (下篇)

Mongodb特定场景性能数十倍提升优化实践(记一次mongodb核心集群雪崩故障)

常用高并发网络线程模型设计及mongodb线程模型优化实践

为何要对开源mongodb数据库内核做二次开发

盘点 2020 | 我要为分布式数据库 mongodb 在国内影响力提升及推广做点事

百万级代码量 mongodb 内核源码阅读经验分享

话题讨论 | mongodb 拥有十大核心优势，为何国内知名度远不如 mysql 高？

Mongodb 网络模块源码实现及性能极致设计体验

mongodb 详细表级操作及详细时延统计实现原理 (快速定位表级时延抖动)

[图、文、码配合分析]-Mongodb write 写 (增、删、改) 模块设计与实现

Mongodb集群搭建一篇就够了-复制集模式、分片模式、带认证、不带认证等(带详细步骤说明)

300条数据变更引发的血案-记某十亿级核心mongodb集群部分请求不可用故障踩坑记

记十亿级Es数据迁移mongodb成本节省及性能优化实践

千亿级数据迁移mongodb成本节省及性能优化实践

业务迁移背景

该业务在迁移mongodb前已有约400亿数据，申请了64套mysql集群，由业务通过shardingjdbc做分库分表，提前拆分为64个库，每个库100张表。主从高可用选举通过依赖开源orchestrator组建，mysql架构图如下图所示：

说明：上图中红色代表磁盘告警，很多节点磁盘使用水位即将100%。

如上图所示，业务一年多前一次性申请了64套MySQL集群，单个集群节点数一主三从，每个节点规格如下：

cpu：4
mem：16G
磁盘：500G
总节点数：64*4=256
SSD服务器

该业务运行一年多时间后，总集群数据量达到了400亿，并以每月200亿速度增长，由于数据不均衡等原因，造成部分集群数据量大，持续性耗光磁盘问题。由于节点众多，越来越多的集群节点磁盘突破瓶颈，为了解决磁盘瓶颈，DBA不停的提升节点磁盘容量。业务和DBA都面临严重痛点，主要如下：

数据不均衡问题
节点容量问题
成本持续性增加
DBA工作量剧增(部分磁盘提升不了需要迁移数据到新节点)，业务也提心吊胆

业务

2. 为何选择mongodb-附十大核心优势总结

业务遇到瓶颈后，基于mongodb在公司已有的影响力，业务开始调研mongodb，通过和业务接触了解到，业务使用场景都是普通的增、删、改、查、排序等操作，同时查询条件都比较固定，用mongodb完全没任何问题。

此外，mongodb相比传统开源数据库拥有如下核心优索：

优势一：模式自由

mongodb为schema-free结构，数据格式没有严格限制。业务数据结构比较固定，该功能业务不用，但是并不影响业务使用mongodb存储结构化的数据。

优势二：天然高可用支持

mysql高可用依赖第三方组件来实现高可用，mongodb副本集内部多副本通过raft协议天然支持高可用，相比mysql减少了对第三方组件的依赖。

优势三：分布式-解决分库分表及海量数据存储痛点

mongodb是分布式数据库，完美解决mysql分库分表及海量数据存储痛点，业务无需在使用数据库前评估需要提前拆多少个库多少个表，mongodb对业务来说就是一个无限大的表(当前我司最大的表存储数千亿数据，查询性能无任何影响)。

此外，业务在早期的时候一般数据都比较少，可以只申请一个分片mongodb集群。而如果采用mysql，就和本次迁移的IOT业务一样，需要提前申请最大容量的集群，早期数据量少的时候严重浪费资源。

优势四：完善的数据均衡机制、不同分片策略、多种片建类型支持

关于balance：支持自动balance、手动balance、时间段任意配置balance.

关于分片策略：支持范围分片、hash分片，同时支持预分片。

关于片建类型：支持单自动片建、多字段片建

优势五：不同等级的数据一致性及安全性保证

mongodb在设计上根据不同一致性等级需求，支持不同类型的Read Concern 、Write Concern读写相关配置，客户端可以根据实际情况设置。此外，mongodb内核设计拥有完善的rollback机制。

优势六：高并发、高性能

为了适应大规模高并发业务读写，mongodb在线程模型设计、并发控制、高性能存储引擎等方面做了很多细致化优化。

优势七：wiredtiger高性能存储引擎设计

网上很多评论还停留在早期MMAPv1存储引擎，相比MMAPv1，wiredtiger引擎性能更好，压缩比更高，锁粒度更小，具体如下：

WiredTiger提供了低延迟和高吞吐量
处理比内存大得多的数据，而不会降低性能或资源
系统故障后可快速恢复到最近一个checkpoint
支持PB级数据存储
多线程架构，尽力利用乐观锁并发控制算法减少锁操作
具有hot-caches能力
磁盘IO最大化利用，提升磁盘IO能力
其他

更多WT存储引擎设计细节可以参考：

http://source.wiredtiger.com/3.2.1/architecture.html

优势八：成本节省-WT引擎高压缩比支持

mongodb对数据的压缩支持snappy、zlib算法，在以往线上真实的数据空间大小与真实磁盘空间消耗进行对比，可以得出以下结论：

mongodb默认的snappy压缩算法压缩比约为2.2-4.5倍
zlib压缩算法压缩比约为4.5-7.5倍(本次迁移采用zlib高压缩算法)

此外，以线上已有的从mysql、Es迁移到mongodb的真实业务磁盘消耗统计对比，同样的数据，存储在mongodb、Mysql、Es的磁盘占比≈1：3.5：6，不同数据存储占比有差距。

优势九：天然N机房(不管同城还是异地)多活容灾支持

mongodb天然高可用机制及代理标签自动识别转发功能的支持，可以通过节点不同机房部署来满足同城和异地N机房多活容灾需求，从而实现成本、性能、一致性的“三丰收”。更多机房多活容灾的案例详见Qcon分享：

OPPO万亿级文档数据库MongoDB集群性能优化实践

优势十：完善的客户端均衡访问策略

mongodb客户端访问路由策略由客户端自己指定，该功能通过Read Preference实现，支持primary 、primaryPreferred 、secondary 、secondaryPreferred 、nearest 五种客户端均衡访问策略。

分布式事务支持

mongodb-4.2 版本开始已经支持分布式事务功能，当前对外文档版本已经迭代到 version-4.2.12，分布式事务功能也进一步增强。此外，从 mongodb-4.4 版本产品规划路线图可以看出，mongodb 官方将会持续投入开发查询能力和易用性增强功能，例如 union 多表联合查询、索引隐藏等

mongodb源码分析、更多实践案例细节

2. mongodb资源评估及部署架构

业务开始迁移mongodb的时候，通过和业务对接梳理，该集群规模及业务需求总结如下：

已有数据量400亿左右
数据磁盘消耗总和30T左右
读写峰值流量4-5W/s左右，流量很小
同城两机房多活容灾
读写分离
每月预计增加200亿数据
满足几个月内1500亿新增数据需求

说明：数据规模和磁盘消耗按照单副本计算，例如mysql 64个分片，256个副本，数据规模和磁盘消耗计算方式为：64个主节点数据量之和、64个分片主节点磁盘消耗之和。

3.1 mongodb资源评估

分片数及存储节点套餐规格选定评估过程如下：

内存评估

我司都是容器化部署，以往经验来看，mongodb对内存消耗不高，历史百亿级以上mongodb集群单个容器最大内存基本上都是64Gb，因此内存规格确定为64G。

分片评估

业务流量峰值3-5W/s，考虑到可能后期有更大峰值流量，因此按照峰值10W/s写，5w/s读，也就是峰值15W/s评估，预计需要4个分片。

磁盘评估

mysql中已有数据400亿，磁盘消耗30T。按照以网线上迁移经验，mongodb默认配置磁盘消耗约为mysql的1/3-1/5，400亿数据对应mongodb磁盘消耗预计8T。考虑到1500亿数据，预计4个分片，按照每个分片400亿规模，预计每个分片磁盘消耗8T。

线上单台物理机10多T磁盘，几百G内存，几十个CPU，为了最大化利用服务器资源，我们需要预留一部分磁盘给其他容器使用。另外，因为容器组套餐化限制，最终确定确定单个节点磁盘在7T。预计7T节点，4个分片存储约1500亿数据。

CPU规格评估

由于容器调度套餐化限制，因此CPU只能限定为16CPU(实际上用不了这么多CPU)。

mongos代理及config server规格评估

此外，由于分片集群还有mongos代理和config server复制集，因此还需要评估mongos代理和config server节点规格。由于config server只主要存储路由相关元数据，因此对磁盘、CUP、MEM消耗都很低；mongos代理只做路由转发只消耗CPU，因此对内存和磁盘消耗都不高。最终，为了最大化节省成本，我们决定让一个代理和一个config server复用同一个容器，容器规格如下：

8CPU/8G内存/50G磁盘，一个代理和一个config server节点复用同一个容器。

分片及存储节点规格总结：4分片/16CPU、64G内存、7T磁盘。

mongos及config server规格总结：8CPU/8G内存/50G磁盘

3.2 集群部署架构

由于该业务所在城市只有两个机房，因此我们采用2+2+1(2mongod+2mongod+1arbiter模式)，在A机房部署2个mongod节点，B机房部署2个mongod节点，C机房部署一个最低规格的选举节点，如下图所示：

说明：

每个机房代理部署2个mongos代理，保证业务访问代理高可用，任一代理挂掉，对应机房业务不受影响。
如果机房A挂掉，则机房B和机房C剩余2mongod+1arbiter，则会在B机房mongod中从新选举一个主节点。arbiter选举节点不消耗资源
客户端配置nearest ，实现就近读，确保请求通过代理转发的时候，转发到最近网络时延节点，也就是同机房对应存储节点读取数据。
弊端：如果是异地机房，B机房和C机房写存在跨机房写场景。A B 为同城机房，则没有该弊端，同城机房时延可以忽略。

4. 业务全量+增量迁移方式

迁移过程由业务自己完成，通过阿里开源的datax工具实现，该迁移工具的更多细节可以参考：https://github.com/alibaba/DataX

5. 性能优化过程

该集群优化过程按照如下两个步骤优化：数据迁移开始前的提前预优化、迁移过程中瓶颈分析及优化、迁移完成后性能优化。

5.1 数据迁移开始前的提前预操作

和业务沟通确定，业务每条数据都携带有一个设备标识ssoid，同时业务查询更新等都是根据ssoid维度查询该设备下面的单条或者一批数据，因此片建选择ssoid。

分片方式

为了充分散列数据到4个分片，因此选择hash分片方式，这样数据可以最大化散列，同时可以满足同一个ssoid数据落到同一个分片，保证查询效率。

预分片

mongodb如果分片片建为hashed分片，则可以提前做预分片，这样就可以保证数据写进来的时候比较均衡的写入多个分片。预分片的好处可以规避非预分片情况下的chunk迁移问题，最大化提升写入性能。

sh.shardCollection("xxx.xxx", {ssoid:"hashed"}, false, { numInitialChunks: 8192} )

注意事项：切记提前对ssoid创建hashed索引，否则对后续分片扩容有影响。

就近读

客户端增加nearest 配置，从离自己最近的节点读，保证了读的性能。

mongos代理配置

A机房业务只配置A机房的代理，B机房业务只配置B机房代理，同时带上nearest配置，最大化的实现本机房就近读，同时避免客户端跨机房访问代理。

禁用enableMajorityReadConcern

禁用该功能后ReadConcern majority将会报错，ReadConcern majority功能注意是避免脏读，和业务沟通业务没该需求，因此可以直接关闭。

mongodb默认使能了enableMajorityReadConcern，该功能开启对性能有一定影响，参考：

MongoDB readConcern 原理解析

OPPO百万级高并发MongoDB集群性能数十倍提升优化实践

存储引擎cacheSize规格选择

单个容器规格：16CPU、64G内存、7T磁盘，考虑到全量迁移过程中对内存压力，内存碎片等压力会比较大，为了避免OOM，设置cacheSize=42G。

5.2 数据全量迁移过程中优化过程

全量数据迁移过程中，迁移速度较块，内存脏数据较多，当脏数据比例达到一定比例后用户读写请求对应线程将会阻塞，用户线程也会去淘汰内存中的脏数据page，最终写性能下降明显。

wiredtiger存储引擎cache淘汰策略相关的几个配置如下:

由于业务全量迁移数据是持续性的大流量写，而不是突发性的大流量写，因此eviction_target、eviction_trigger、eviction_dirty_target、eviction_dirty_trigger几个配置用处不大，这几个参数阀值只是在短时间突发流量情况下调整才有用。

但是，在持续性长时间大流量写的情况下，我们可以通过提高wiredtiger存储引擎后台线程数来解决脏数据比例过高引起的用户请求阻塞问题，淘汰脏数据的任务最终交由evict模块后台线程来完成。

全量大流量持续性写存储引擎优化如下：

db.adminCommand( { setParameter : 1, "wiredTigerEngineRuntimeConfig" : "eviction=(threads_min=4, threads_max=20)"})

5.3 全量迁移完成后，业务流量读写优化

前面章节我们提到，在容器资源评估的时候，我们最终确定选择单个容器套餐规格为如下：

16CPU、64G内存、7T磁盘。

全量迁移过程中为了避免OOM，预留了约1/3内存给mongodb server层、操作系统开销等，当全量数据迁移完后，业务写流量相比全量迁移过程小了很多，峰值读写OPS约2-4W/s。

也就是说，前量迁移完成后，cache中脏数据比例几乎很少，基本上不会达到20%阀值，业务读流量相比之前多了很多(数据迁移过程中读流量走原mysql集群)。为了提升读性能，因此做了如下性能调整(提前建好索引)：

节点cacheSize从之前的42G调整到55G，尽量多的缓存热点数据到内存，供业务读，最大化提升读性能。
每天凌晨低峰期做一次cache内存加速释放，避免OOM。

上面的内核优后后，业务测时延监控曲线变化，时延更加平稳，平均时延也有25%左右的性能优后，如下图所示：

6. 迁移前后，业务测时延统计对比(Mysql vs mongodb)

6.1 性能收益对比

迁移前业务测时延监控曲线(平均时延7ms, 2月1日数据，此时mysql集群只有300亿数据)：

迁移mongodb后并且业务流量全部切到mongodb后业务测时延监控曲线(平均6ms, 3月6日数据，此时mongodb集群已有约500亿数据))

总结：

mysql(300亿数据)时延：约7ms
mongodb(500亿数据)时延：约6ms

6.2 性能质疑解答

该文有部分同学可能质疑性能数据，认为mongodb实例规格是16CPU/64G内存/7T磁盘，而mysql是4CPU/16G内存/500G磁盘。认为mongodb规格更高，而mysql资源规格低。但是忽略了单节点数据量和流量这个因素，按照单实例对比，总结如下(由于只记录了mysql 300亿时候、mongodb 500亿时候的业务测时延，因此还是以这两个时间点为例比较)：

Mysql和mongodb的CPU都不是瓶颈，都很空闲，两者之间容器规格唯一区别就是内存，单实例规格、数据量、业务测时延等对比总结(单实例mysql数据量约300/64=4.7亿，mongodb约125亿)：

如果mysql采用mongodb同样的规格，由于mysql同样数据磁盘消耗是mongodb 3.3倍，因此需要22T左右磁盘，并且承担同样的数据量和流量，性能会不会好于方案1？这个不是很确定，因为都是线上环境，不可能为了验证这个测试而大费周章。

如上，方案3和方案1、方案2的性能对比有待验证。实际上，mongodb当前4个分片已经1000亿数据了，客户端访问时延基本上没有变化，还是约6ms，因此实际上如果同等资源规格验证，客观数mysql单个节点需要承担如下数据量和业务流量：

7. 迁移成本收益对比

7.1 Mysql集群规格及存储数据最大量

原mysql集群一共64套，每套集群4副本，每个副本容器规格：4CPU、16G mem、500G磁盘，总共可以存储400亿数据，这时候大部分节点已经开始磁盘90%水位告警，DBA对部分节点做了磁盘容量提升。

总结如下：

集群总套数：64
单套集群副本数：4
每个节点规格：4CPU、16G mem、500G磁盘
该64套集群最大存储数据量：400亿

7.2 mongodb集群规格及存储数据最大量

mongodb从mysql迁移过来后，数据量已从400亿增加到1000亿，并以每个月增加200亿数据。mongodb集群规格及存储数据量总结如下：

分片数：4
单分片副本数：4
每个节点规格：16CPU、64G mem、7T磁盘
四个分片存储数据量：当前已存1000亿，最大可存1500亿数据。

7.3 成本对比计算过程

说明：由于mysql迁移mongodb后，数据不在往mysql中写入，流量切到mongodb时候mysql中大约存储有400亿数据，因此我们以这个时间点做为对比时间点。以400亿数据为基准，资源消耗对比如下表(每个分片只计算主节点资源消耗，因为mysql和mongodb都是4副本)：

由于mongodb四个分片还有很多磁盘冗余，该四个分片相比400亿数据，还可以写1200亿数据。如果按照1600亿数据计算，如果还是按照mysql之前套餐规格，则mysql集群数需要再增加三倍，也就是总集群套数需要64*4=256套，资源占用对比如下：

7.4 收益总结(客观性对比)

从上面的内容可以看出，该业务迁移mongodb后，除了解决了业务容量痛点、促进业务快速迭代开发、性能提升外，成本还节省了数倍。成本节省总结如下：

400亿维度计算(mysql和mongodb都存储相同的400亿数据)：

CPU和内存成本比例：4:1

磁盘成本比例：3.3:1

1500亿维度计算(mysql集群都采用之前规格等比例换算)：

CPU和内存成本比例：16:1

磁盘成本比例：3.3:1

从上面的分析可以看出，数据量越大，按照等比例换算原则，mongodb存储成本会更低，原因如下：

CPU/内存节省原因：

主要是因为mongodb海量数据存储及高性能原因，索引建好后，单实例单表即使几百亿数据，读写也是ms级返回(注意：切记查询更新建好索引)。

此外，由于mongodb分布式功能，对容量评估更加方便，就无需提前一次性申请很多套mysql，而是根据实际需要可以随时加分片。

磁盘节省原因：

mongodb存储引擎wiredtiger默认高压缩、高性能。

最后，鉴于客观性成本评价，CPU/内存成本部分可能会有争议，比如mysql内存和CPU是否申请的时候就申请过大。mongodb对应CPU也同样存在该问题，例如申请的单个容器是16CPU，实际上真实只消耗了几个CPU。

但是，磁盘节省是实时在在的，是相同数据情况下mysql和mongodb的真实磁盘消耗对比。

当前该集群总数据量已经达到千亿级，并以每个月200亿规模增加，单从容器计费层面上换算，1000亿数据按照等比例换算，预计可节省极大的成本。

8. 最后：千亿级中等规模mongodb集群注意事项

mongodb无需分库分表，单表可以无限大，但是单表随着数据量的增多会引起以下问题：

切记提前建好索引，否则影响查询更新性能(数据越多，无索引查询扫描会越慢)。
切记提前评估好业务需要那些索引，单节点单个表数百亿数据，加索引执行时间较长。
服务器异常情况下节点替换时间相比会更长。
切记数据备份不要采用mongodump/mongorestore方式，而是采用热备或者文件拷贝方式备份。
节点替换尽量从备份中拷贝数据加载方式恢复，而不是通过主从全量同步方式，全量同步过程较长。

9. 未来挑战(该集群未来万亿级实时数据规模挑战)

随着时间推移，业务数据增长也会越来越多，单月数据量增长曲线预计会直线增加(当前每月数据量增加200亿左右)，预计未来2-3年该集群总数据量会达到万亿级，分片数也会达到20个分片左右，可能会遇到各自各样的问题。

但是，IOT业务数据存在明显的冷数问题，一年前的数据用户基本上不会访问，因此我们考虑做如下优后来满足性能、成本的进一步提升：冷数据归档到低成本SATA盘
冷数据提升压缩比，最大化减少磁盘消耗
如何解决冷数据归档sata盘过程中的性能问题

冷热归档存储可以参考之前在Qcon、dbaplus、mongodb中文社区分享的另一篇文章：

用最少人力玩转万亿级数据，我用的就是MongoDB！