目的:
解决 mysql
数据库
Master-Slave
单点故障问题。
实现方式:
1. Master-Master Replication
实现数据同步。
2.
通过
keepalived
虚拟
IP
从网络层实现单点故障时
IP
自动切换,从而实现高可用。
3.
通过
keepalived
配置实现
read
读指向
Slave
节点,实现读写分离。
缺点:根据线上实际应用情况,只考虑单点网络故障及机器设备故障时虚拟
ip
自动切换(只切换一次)。不考虑
mysql
服务异常等情况,数据库异常可通过
nagios
等监控,防止多次来回切换,造成数据混乱!且故障节点恢复时,要人工操作及注意步骤。
Master-Master
1
、使用两个
MySQL
数据库
db01,db02
,互为
Master
和
Slave
,即:
一边
db01
作为
db02
的
master
,一旦有数据写向
db01
时,
db02
定时从
db01
更新
另一边
db02
也作为
db01
的
master
,一旦有数据写向
db02
时,
db01
也定时从
db02
获得更新
(
这不会导致循环,
MySQL Slave
默认不会记录
Master
同步过来的变化
)
2
、但从
AppServer
的角度来说,同时只有一个结点
db01
扮演
Master
,另外一个结点
db02
扮演
Slave
,不能同时两个结点扮演
Master
。即
AppSever
总是把
write
操作分配某个数据库
(db01)
,除非
db01 failed
,被切换。
3
、如果扮演
Slave
的数据库结点
db02 Failed
了:
a)
此时
appServer
要能够把所有的
read,write
分配给
db01
,
read
操作不再指向
db02
b)
一旦
db02
恢复过来后,继续充当
Slave
角色,并告诉
AppServer
可以将
read
分配给它了
.
4
、如果扮演
Master
的数据库结点
db01 Failed
了
a)
此时
appServer
要能够把所有的写操作从
db01
切换分配给
db02
,也就是切换
Master
由
db02
充当
b)db01
恢复过来后,充当
Slave
的角色,
Master
由
db02
继续扮演。
具体配置如下:
测试环境简介:
1.10.10.10.40 mysql+keepalive
2.10.10.10.41 mysql+keepalive
3.
写入
VIP
:
10.10.10.21
(
40
主,
41
从
)
4.
读取
VIP
:
10.10.10.44(41主,40从)
1.mysql
双主配置,此处简略,可参考网上主主同步配置。
Mysql
配置文件重点简略如下:
log-bin=mysql-bin
binlog_format=mixed
server-id= 3
(另一台的
ID
为
2
)
2.keepalived
配置方法
第一台(
40
):
global_defs {
notification_email {
******@126.com
}
notification_email_from*****@126.com
smtp_server 127.0.0.1
smtp_connect_timeout 30
router_id MySQL-ha
}
vrrp_instance VI_1 {
state BACKUP #
两台配置此处均是
BACKUP
interface p4p1 #
注意网卡接口
virtual_router_id 51
priority 180 #
优先级,另一台改为
90
advert_int 1
nopreempt #
不主动抢占资源,只在优先级高的机器上设置即可,优先级低的机器不设置
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.10.10.21 #
此虚拟
ip
为写
}
}
vrrp_instance VI_2 {
state BACKUP #
另一台配置为
MASTER
interface p4p1 #
注意网卡接口
virtual_router_id 44 #
注意
id
和上面的不同
priority 90 #
优先级,另一台改为
180
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.10.10.44 #
此虚拟
ip
为读
}
}
第二台(
41
)
global_defs {
notification_email {
*********@126.com
}
notification_email_from ********@126.com
smtp_server 127.0.0.1
smtp_connect_timeout 30
router_id MySQL-ha
}
vrrp_instance VI_1 {
state BACKUP #
两台配置此处均是
BACKUP
interface p4p1 #
注意网卡接口
virtual_router_id 51
priority 90 #
优先级,另一台改为
180
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.10.10.21
}
}
vrrp_instance VI_2 {
state MASTER #
用于
mysql
读
interface p4p1 #
注意网卡接口
virtual_router_id 44
priority 180 #
优先级,另一台改为
90
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
10.10.10.44 #
用于
mysql
读
}
}
故障处理
一、写数据的
库服务器或者网络出现故障:
测试环境简介:
1.10.10.10.40
mysql+keepalive
2.10.10.10.41
mysql+keepalive
3.写入VIP:10.10.10.21(40主,41从)
4.读取VIP:10.10.10.44(
41主,40从)
故障一:40(写)服务器或者网络故障,虚拟ip 21切换到41
1、 40服务器恢复后,不要插上网线或者修改40的iP(防止数据自动同步,导致数据污染)
2、 暂时关闭keepalive(默认开机不启动)
3、 启动40的mysql并停掉slave,防止41数据同步到40,同时插上网线或者修改iP为40;
4、 检查41的slave状态是有主键冲突,如果有主键冲突,导出40上的数据,并做删除;
5、 重启41的slave,查看是否还有主键冲突,如果有继续上步操作,直到41的slave状态恢复正常;
6、 开启40的slave并查看slave状态,正常情况下应该不会出现主键冲突,如果有主键冲突,导出数据并分析原因,(根据实际情况处理)
7、 检查40与41服务器数据是否一致,如果数据一致,切换VIP 44(读虚拟IP)到40,修改步骤如下:
a)修改41的keepalive配置vrrp_instance VI_2 中state状态为BACKUP、priority 修改为90
b)重启41 keepalive(确保40的keepalive是关闭状态)
c)修改40的keepalive配置vrrp_instance VI_2 中state状态为MASTER、priority 修改为180
d)重启40的keepalive
e)检查VIP 44(读虚拟IP)是否切到40上,并且VIP 21(写虚拟IP)应该保留在41上。
8、 线上应用测试(读与写)
故障修复后的状态应该是:
1.10.10.10.40
mysql+keepalive
2.10.10.10.41
mysql+keepalive
3.写入VIP:10.10.10.21(41主,40从)
4.读取VIP:10.10.10.44(
40主,41从)
故障二、41(读)数据库出现故障,VIP 44(读虚拟IP)切到40服务器
1、修复41服务器之前应断开网线或者修改ip(防止读VIP自动切回)
2、关闭keepalive 所以服务器上的keepalive 最好设计成开不会自动启动命令如下:chkconfig keepalived off
3、检查41数据库的slave状态是否正常,数据库数据同步是否正常
4、数据同步完成后启动keepalive,检查读取数据的虚拟IP 44应该切回本服务器,写数据的虚拟IP不变。
5、应用测试读写数据是否正常
故障三、两台数据库服务器同时故障
1、 开启40和41数据库之前,先断网线
2、 分别检查40和41服务器的mysql更新的最新时间
3、 如果40数据比较新,先插上40的网线,使其对外提供服务。
3.1检查读和写的虚拟iP是否都在40上
3.2关闭41上的keepalive,并且开启41上msyql的salve,同步40上的数据
3.3如果同步正常启动keepalive
3.4测试读写数据是否正常
4、如果41的数据比较新,就先插上41的网线,使其对外提供服务
4.1 检查读和写的虚拟ip是否都在41上
4.2 关闭40上的keepalive,并且开启40上mysql的save,开始同步41上的数据
4.3如果同步正常,启动40的keepalive
4.4测试读写数据是否正常
4.5应用测试程序是否正常