java技术--CAP定理与BASE理论（02）

1.CAP原则又称CAP定理

（1）指的是在一个分布式系统中 
    <1>Consistency(一致性)、Availability(可用性)、Partition tolerance(分区容错性)，三者不可得兼
    <2>CAP原则是NOSQL数据库的基石
（2）分布式系统的CAP理论
    <1>一致性（C）：
      1.1.在分布式系统中的所有数据备份，在同一时刻是否同样的值
      1.2.等同于所有节点访问同一份最新的数据副本
    <2>可用性（A）：
      2.1.在集群中一部分节点故障后，集群整体是否还能响应客户端的读写请求
      2.2.对数据更新具备高可用性
    <3>分区容忍性（P）：
      3.1.以实际效果而言，分区相当于对通信的时限要求
      3.2.系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况
      3.3.必须就当前操作在C和A之间做出选择
（3）一致性与可用性的决择编辑
    <1>CAP理论就是说在分布式存储系统中，最多只能实现上面的两点
    <2>当前的网络硬件肯定会出现延迟丢包等问题，所以分区容忍性是必须需要实现的  
    <3>只能在一致性和可用性之间进行权衡，没有NoSQL系统能同时保证这三点
（4）CAP三个特性只能满足其中两个，那么取舍的策略就共有三种
    <1>CA：如果不要求P（不允许分区），则C（强一致性）和A（可用性）是可以保证的
       1.1.放弃P的同时也就意味着放弃了系统的扩展性，也就是分布式节点受限
       1.2.这是违背分布式系统设计的初衷的
       1.3.传统的关系型数据库：Oracle、MySQL就是CA
    <2>CP：如果不要求A（可用）相当于每个请求都需要在服务器之间保持强一致 
       2.1.P(分区)会导致同步时间无限延长(也就是等待数据同步完才能正常访问服务)
       2.2.一旦发生网络故障或者消息丢失等情况，就要牺牲用户的体验
       2.3.设计成CP的系统最典型的就是分布式数据库，如Redis、HBase等 
         2.3.1.对于这些分布式数据库来说，数据的一致性是最基本的要求
    <3>AP：要高可用并允许分区，则需放弃一致性 
       3.1.一旦分区发生，节点之间可能会失去联系，为了高可用，每个节点只能用本地数据提供服务
       3.2.这样会导致全局数据的不一致性

2.BASE理论

（1）BASE是Basically Available（基本可用）、Soft state（软状态）和Eventually consistent（最终一致性）三个短语的简写
（2）是基于CAP定理逐步演化而来的
    <1>核心思想是即使无法做到强一致性（Strong consistency）
    <2>采用适当的方式来使系统达到最终一致性（Eventual consistency）
（3）Basically Available（基本可用）
    <1>是指分布式系统在出现不可预知故障的时候，允许损失部分可用性
    <2>这绝不等价于系统不可用，以下两个就是“基本可用”的典型例子
     2.1.响应时间上的损失:
       2.1.1.通常，一个在线搜索引擎需要0.5秒内返回给用户相应的查询结果
       2.1.2.由于出现异常(系统断电或断网故障)，查询结果的响应时间增加到了1~2秒  
     2.2.功能上的损失：
       2.2.1.通常，在电子商务网站上进行购物，消费者几乎能够顺利地完成每一笔订单
       2.2.2.但是在一些节日大促购物高峰的时候，由于消费者的购物行为激增
       2.2.3.为了保护购物系统的稳定性，部分消费者可能会被引导到一个降级页面   
（4）Soft state（软状态）
    <1>弱状态也称为软状态，和硬状态相对
    <2>指允许系统中的数据存在中间状态，并认为该中间状态的存在不会影响系统的整体可用性      
    <3>即允许系统在不同节点的数据副本之间进行数据传递的过程存在延时
（5）Eventually consistent（最终一致性）
    <1>强调的是系统中所有的数据副本经过一段时间的同步后，最终能够达到一致的状态
    <2>在实际工程实践中，最终一致性存在以下五类主要变种
      2.1.因果一致性：
       2.1.1.如果进程A在更新完某个数据项后通知了进程B
       2.1.2.那么进程B之后对该数据项的访问都应该能够获取到进程A更新后的最新值
       2.1.3.并且如果进程B要对该数据项进行更新操作的话，务必基于进程A更新后的最新值，即不能发生丢失更新情况
       2.1.4.与此同时，与进程A无因果关系的进程C的数据访问则没有这样的限制 
     2.2.读己之所写：
       2.2.1.进程A更新一个数据项之后，它自己总是能够访问到更新过的最新值，而不会看到旧值
     2.3.会话一致性：
       2.3.1.对系统数据的访问过程框定在了一个会话当中
       2.3.2.系统能保证在同一个有效的会话中实现“读己之所写”的一致性
       2.3.3.执行更新操作后,客户端能够在同一个会话中始终读取到该数据项的最新值
     2.4.单调读一致性：
       2.4.1.如果一个进程从系统中读取出一个数据项的某个值后
       2.4.2.那么系统对于该进程后续的任何数据访问都不应该返回更旧的值
     2.5.单调写一致性：
       2.5.1.一个系统需要能够保证来自同一个进程的写操作被顺序地执行
   <3>事实上可以将若干个变种相互结合起来,构建一个具有最终一致性特性的分布式系统
（6）计算机系统从集中式向分布式的变革随着包括
   <1>分布式网络、分布式事务和分布式数据一致性等在内的一系列问题与挑战 
   <2>同时也催生了一大批诸如ACID、CAP和BASE等经典理论的快速发展

3.分布式系统的典型应用

（1）分布式系统它最终要落实到解决实际问题上，不同的问题有不同的方法和架构
（2）如果以算法划分，到能分出几类：
  <1>以Leader选举为主的一类算法:就是现在zookeeper、Chuby等工具的主体 
  <2>以分布式事务为主的一类主要是二段提交，这些分布式数据库管理器及数据库都支持
  <3>以若一致性为主的，主要代表是Cassandra的W、R、N可调节的一致性
  <4>以失败探测为主的，主要是Gossip和phi失败探测算法，当然也包括简单的心跳

梦断若水

发布了191 篇原创文章 · 获赞 13 · 访问量 1万+

私信关注

java技术--CAP定理与BASE理论（02）

猜你喜欢