TB级NFS数据平滑迁移系列

公司原来提供的ccdbfs集群服务即将下线,需要在一个月内迁移完毕,并且后续提供持续稳定、高可用NFS服务。

预估20TB数据,假设拷贝速率100MB/s。

20 * 1024 * 1024 / 100 ≈ 209715.2 s
209715.2 / (60 * 60) ≈ 58 h

至少需要两三天。事实上,在两个NFS集群间拷贝传输速率没这么快,而且大量小文件的情况下,会更慢,降到10MB/s是非常正常的。如何平滑、如何过渡、如何高效无损?服务搭建、风险预案、集群双写等方面都值得深思熟虑。

什么是 NFS?

分布式文件系统:Distributed file system, DFS,又叫做网络文件系统:Network File System。一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。

平滑迁移重难点

  • 适应原业务场景,有大量小文件。
  • 能随机读写。
  • 能直接挂载使用。
  • 高可用性,稳定性,部分机器故障能对业务零影响,能迅速恢复止损。
  • 线上服务一直运行,怎么做到让用户完全无感的迁移。
  • 集群机器研发人员自运维方便程度。

该系列规划

计划在该系列中详细描述以下要点:

  • 《几种NFS系统对比,选型理由》
  • 《MooseFS 部署和排坑》 此篇博客中省略,公司内部搭建跟外部有区别且有些信息需要保密,可网络中找别人的说明或者官网查看手册。
  • 《TB级NFS数据平滑迁移方案设计与实现》
  • 《MooseFS 集群故障恢复运维》

预告

最终的方案选型是MooseFS,并且是全机房混布,经过测试发现,多metalogger+多副本goal备份,竟然不影响读写速率,这点是一个使用后的惊喜。

平滑迁移方案会在《TB级NFS数据平滑迁移方案设计与实现》详细描述设计过程,为什么选用为什么弃用几种不同方案。最后确定的是 全机房【inotify + change_file.list + 定制化增量复制 】+ 单client定制化复制diff剩余数据 的方案。

猜你喜欢

转载自www.cnblogs.com/xrszff/p/10960180.html