关系数据库集群

背景

当站点的规模不断膨胀，这给数据库带来巨大的查询压力，单单数据库性能优化已经是不够的，需对数据库进行伸缩扩展。有三种方式：

1、数据库主从

2、数据表分库（垂直分区）

3、数据分区（水平分区）

PS：事实上，很多大规模的站点基本上经历了从简单主从复制到垂直分区，再到水平分区的步骤。

数据库主从

几乎所有主流关系数据库都支持数据复制功能，可将主服务器数据复制到从服务器，这个功能可以对数据库进行简单扩展。在主从基础上，采用读写分离的方法将应用程序中对数据库的写操作指向主服务器（保证数据一致性），而将读操作指向从服务器。

为何有用？

大多数站点的数据库读操作要比写操作更密集，而且查询条件相对复杂，数据库能力大部分消耗在查询上。通过将大量读操作剥离出来，转移到更多的从服务器上实现水平扩展，是非常简单有效的。

MySQL为例

MySQL主从配置简单，只需做两点：

1、开启主服务器上的二进制日志（log-bin）。

2、在主服务器和从服务器上分别进行简单的配置和授权。

分发读操作方式：

应用程序本身不擅长分散读操作到多台从服务器上，可使用数据库反向代理来分发。MySQL可使用MySQL Proxy。

数据表分库（垂直分区）

对于某些写操作更加频繁的站点，主从方式的主服务器还是会成为瓶颈，从服务器的扩展并没带来好的效益。这时可以根据业务分割，将不同业务数据表部署在不同的数据库集群上，这就是数据表分库，也叫垂直分区。

制约

这种方式有个制约，跨库的表不能进行join操作，原本简单联合语句就能完成的，分库后需要一步步查询信息。但是，分库后的查询方式会更加容易保持相对稳定的开销。

例子，淘宝的用户和商品信息，将这两个数据表拆分成两个数据库。

数据分区（水平分区）

当数据表分库后，某一业务数据库（已经是很精细的业务）还是无法承受写操作压力时。这时可以考虑数据分区，将同一数据表中的数据通过特定算法进行分离，分别保存在不同数据表中，从而可以部署在不同的数据库服务器上。

PS：数据分区并不依赖特定的技术，更多是一种逻辑层面划分。

例子，Facebook的用户表，可以根据user_id的奇偶性将用户划分为两部分，分别存储到不同数据库服务器上。

参考文献

1、《构建高性能Web站点》

2、《大型网站技术架构》